




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
航空公司客戶價值分析18-5月-251預處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)4分析航空公司現(xiàn)狀1.行業(yè)內(nèi)競爭民航的競爭除了三大航空公司之間的競爭之外,還將加入新崛起的各類小型航空公司、民營航空公司,甚至國外航空巨頭。航空產(chǎn)品生產(chǎn)過剩,產(chǎn)品同質(zhì)化特征愈加明顯,于是航空公司從價格、服務間的競爭逐漸轉(zhuǎn)向?qū)蛻舻母偁?。分析航空公司現(xiàn)狀2.行業(yè)外競爭隨著高鐵、動車等鐵路運輸?shù)呐d建,航空公司受到巨大沖擊。目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。以2014-03-31為結(jié)束時間,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內(nèi)有乘機記錄的所有客戶的詳細數(shù)據(jù)形成歷史數(shù)據(jù),44個特征,總共62988條記錄。數(shù)據(jù)特征及其說明如右表所示。分析航空公司現(xiàn)狀航空公司數(shù)據(jù)特征說明
特征名稱特征說明客戶基本信息MEMBER_NO會員卡號FFP_DATE入會時間FIRST_FLIGHT_DATE第一次飛行日期GENDER性別FFP_TIER會員卡級別WORK_CITY工作地城市WORK_PROVINCE工作地所在省份WORK_COUNTRY工作地所在國家AGE年齡航空公司客戶數(shù)據(jù)說明表名特征名稱特征說明乘機信息FLIGHT_COUNT觀測窗口內(nèi)的飛行次數(shù)LOAD_TIME觀測窗口的結(jié)束時間LAST_TO_END最后一次乘機時間至觀測窗口結(jié)束時長AVG_DISCOUNT平均折扣率SUM_YR觀測窗口的票價收入SEG_KM_SUM觀測窗口的總飛行公里數(shù)LAST_FLIGHT_DATE末次飛行日期AVG_INTERVAL平均乘機時間間隔MAX_INTERVAL最大乘機間隔積分信息EXCHANGE_COUNT積分兌換次數(shù)EP_SUM總精英積分PROMOPTIVE_SUM促銷積分PARTNER_SUM合作伙伴積分POINTS_SUM總累計積分POINT_NOTFLIGHT非乘機的積分變動次數(shù)BP_SUM總基本積分續(xù)表原始數(shù)據(jù)中包含40多個特征,利用這些特征做些什么呢?我們又該從哪些角度出發(fā)呢?思考借助航空公司客戶數(shù)據(jù),對客戶進行分類。對不同的客戶類別進行特征分析,比較不同類別客戶的客戶價值。對不同價值的客戶類別提供個性化服務,制定相應的營銷策略。項目目標結(jié)合目前航空公司的數(shù)據(jù)情況,可以實現(xiàn)以下目標。公司收入的80%來自頂端的20%的客戶。20%的客戶其利潤率100%。90%以上的收入來自現(xiàn)有客戶。大部分的營銷預算經(jīng)常被用在非現(xiàn)有客戶上。5%至30%的客戶在客戶金字塔中具有升級潛力??蛻艚鹱炙锌蛻羯?%,意味著銷售收入增加10%,利潤增加50%。這些經(jīng)驗也許并不完全準確,但是它揭示了新時代客戶分化的趨勢,也說明了對客戶價值分析的迫切性和必要性。了解客戶價值分析客戶營銷戰(zhàn)略倡導者Jay&AdamCurry從國外數(shù)百家公司進行了客戶營銷實施的經(jīng)驗中提煉了如下經(jīng)驗。熟悉航空客戶價值分析的步驟與流程航空客戶價值分析項目的總體流程如圖所示。1預處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)4通過對數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價為空值,票價最小值為0,折扣率最小值為0,總飛行公里數(shù)大于0的記錄。票價為空值的數(shù)據(jù)可能是客戶不存在乘機記錄造成。處理方法:丟棄票價為空的記錄。其他的數(shù)據(jù)可能是客戶乘坐0折機票或者積分兌換造成。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對于問題影響不大,因此對其進行丟棄處理。處理方法:丟棄票價為0,平均折扣率不為0,總飛行公里數(shù)大于0的記錄。處理數(shù)據(jù)缺失值與異常值航空公司客戶原始數(shù)據(jù)存在少量的缺失值和異常值,需要清洗后才能用于分析。本項目的目標是客戶價值分析,即通過航空公司客戶數(shù)據(jù)識別不同價值的客戶,識別客戶價值應用最廣泛的模型是RFM模型。R(Recency)指的是最近一次消費時間與截止時間的間隔。通常情況下,最近一次消費時間與截止時間的間隔越短,對即時提供的商品或是服務也最有可能感興趣。F(Frequency)指顧客在某段時間內(nèi)所消費的次數(shù)??梢哉f消費頻率越高的顧客,也是滿意度越高的顧客,其忠誠度也就越高,顧客價值也就越大。M(Monetary)指顧客在某段時間內(nèi)所消費的金額。消費金額越大的顧客,他們的消費能力自然也就越大,這就是所謂“20%的顧客貢獻了80%的銷售額”的二八法則。構(gòu)建航空客戶價值分析的關(guān)鍵特征1.RFM模型介紹RFM模型包括三個特征,使用三維坐標系進行展示,如圖所示。X軸表示Recency,Y軸表示Frequency,Z軸表示Monetary,每個軸一般會分成5級表示程度,1為最小,5為最大。構(gòu)建航空客戶價值分析的關(guān)鍵特征2.RFM模型結(jié)果解讀在RFM模型中,消費金額表示在一段時間內(nèi),客戶購買該企業(yè)產(chǎn)品金額的總和,由于航空票價受到運輸距離,艙位等級等多種因素影響,同樣消費金額的不同旅客對航空公司的價值是不同的,因此這個特征并不適合用于航空公司的客戶價值分析。構(gòu)建航空客戶價值分析的關(guān)鍵特征3.傳統(tǒng)RFM模型在航空行業(yè)的缺陷本項目選擇客戶在一定時間內(nèi)累積的飛行里程M和客戶在一定時間內(nèi)乘坐艙位所對應的折扣系數(shù)的平均值C兩個特征代替消費金額。此外,航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,所以在模型中增加客戶關(guān)系長度L,作為區(qū)分客戶的另一特征。本項目將客戶關(guān)系長度L,消費時間間隔R,消費頻率F,飛行里程M和折扣系數(shù)的平均值C作為航空公司識別客戶價值的關(guān)鍵特征(如表32所示),記為LRFMC模型。構(gòu)建航空客戶價值分析的關(guān)鍵特征4.航空客戶價值分析的LRFMC模型模型LRFMC航空公司LRFMC模型會員入會時間距觀測窗口結(jié)束的月數(shù)客戶最近一次乘坐公司飛機距觀測窗口結(jié)束的月數(shù)客戶在觀測窗口內(nèi)乘坐公司飛機的次數(shù)客戶在觀測窗口內(nèi)累計的飛行里程客戶在觀測窗口內(nèi)乘坐艙位所對應的折扣系數(shù)的平均值完成五個特征的構(gòu)建以后,對每個特征數(shù)據(jù)分布情況進行分析,其數(shù)據(jù)的取值范圍如表所示。從表中數(shù)據(jù)可以發(fā)現(xiàn),五個特征的取值范圍數(shù)據(jù)差異較大,為了消除數(shù)量級數(shù)據(jù)帶來的影響,需要對數(shù)據(jù)做標準化處理。標準化LRFMC五個特征特征名稱LRFMC最小值12.170.0323680.14最大值114.5724.372135807171.5LOAD_TIMEFFP_DATELAST_TO_ENDFLIGHT_COUNTSEG_KM_SUMAVG_DISCOUNT2014/3/312013/3/1623141268501.022014/3/312012/6/266651847300.762014/3/312009/12/8233603871.272014/3/312009/12/101236622591.022014/3/312011/8/251422547301.36標準化LRFMC五個特征L、R、F、M和C五個特征的數(shù)據(jù)示例,上圖為原始數(shù)據(jù),下圖為標準差標準化處理后的數(shù)據(jù)。LRFMC1.44-0.9514.0326.761.301.31-0.919.0713.132.871.33-0.898.7212.652.880.66-0.420.7812.541.990.39-0.929.9213.901.341預處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)4K-Means聚類算法是一種基于質(zhì)心的劃分方法,輸入聚類個數(shù)k,以及包含n個數(shù)據(jù)對象的數(shù)據(jù)庫,輸出滿足誤差平方和最小標準的k個聚類。算法步驟如下。從n個樣本數(shù)據(jù)中隨機選取k個對象作為初始的聚類中心。分別計算每個樣本到各個聚類質(zhì)心的距離,將樣本分配到距離最近的那個聚類中心類別中。所有樣本分配完成后,重新計算k個聚類的中心。與前一次計算得到的k個聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)(2),否則轉(zhuǎn)(5)。當質(zhì)心不發(fā)生變化時停止并輸出聚類結(jié)果。了解K-Means聚類算法1.基本概念K-Means聚類算法是在數(shù)值類型數(shù)據(jù)的基礎(chǔ)上進行研究,然而數(shù)據(jù)分析的樣本復雜多樣,因此要求不僅能夠?qū)μ卣鳛閿?shù)值類型的數(shù)據(jù)進行分析,還要適應數(shù)據(jù)類型的變化,對不同特征做不同變換,以滿足算法的要求。了解K-Means聚類算法2.數(shù)據(jù)類型K-Means算法在R語言中實現(xiàn)的核心函數(shù)為kmeans,來源于stats軟件包,其基本語法如下。kmeans(x,centers,iter.max=10,nstart=1,
algorithm=c("Hartigan-Wong","Lloyd","Forgy","MacQueen")常用參數(shù)及其說明如表所示。了解K-Means聚類算法3.kmeans函數(shù)及其參數(shù)介紹參數(shù)名稱說
明x接收matrix或dataframe。表示進行聚類分析的數(shù)據(jù)集。無默認。centers接收int。表示初始類的個數(shù)或者初始類的中心。無默認。iter.max接收int。表示最大迭代次數(shù)。默認為10。nstart接收int。表示選擇隨機起始中心點的次數(shù)。默認為1。algorithm接收特定character("Hartigan-Wong","Lloyd","Forgy","MacQueen")。默認為Hartigan-Wong。K-Means模型構(gòu)建完成后可以通過屬性查看不同的信息,如表所示。了解K-Means聚類算法3.kmeans函數(shù)及其參數(shù)介紹屬性說明cluster返回int。表示每個點被分配到的簇。centers返回num。表示聚類中心矩陣。totss返回int。表示所生成簇的總體距離平方和。withinss返回num。表示每個簇內(nèi)的距離平方和。betweenss返回num。表示每個簇之間的距離平方和。size返回int。表示每個簇內(nèi)的數(shù)量。分析聚類結(jié)果對數(shù)據(jù)進行聚類分群的結(jié)果如表所示。聚類類別聚類個數(shù)聚類中心LRFMC客戶群153360.483-0.7992.4832.4250.309客戶群241710.056-0.003-0.226-0.2292.200客戶群3157421.160-0.377-0.087-0.095-0.156客戶群424663-0.700-0.415-0.161-0.161-0.254客戶群512132-0.3131.686-0.574-0.537-0.173分析聚類結(jié)果針對聚類結(jié)果進行特征分析,如圖所示。分析聚類結(jié)果結(jié)合業(yè)務分析,通過比較各個特征在群間的大小對某一個群的特征進行評價分析,從而總結(jié)出每個群的優(yōu)勢和弱勢特征,具體結(jié)果如表所示。群類別優(yōu)勢特征弱勢特征客戶群1FMR
客戶群2CRFM客戶群3FML
客戶群4
LC客戶群5
FMR分析聚類結(jié)果基于特征描述,本項目定義五個等級的客戶類別:重要保持客戶,重要發(fā)展客戶,重要挽留客戶,一般客戶,低價值客戶。每種客戶類別的特征如圖所示。會員的升級與保級:航空公司可以在對會員升級或保級進行評價的時間點之前,對那些接近但尚未達到要求的較高消費客戶進行適當提醒甚至采取一些促銷活動,刺激他們通過消費達到相應標準。這樣既可以獲得收益,同時也提高了客戶的滿意度,增加了公司的精英會員。首次兌換:采取的措施是從數(shù)據(jù)庫中提取出接近但尚未達到首次兌換標準的會員,對他們進行提醒或促銷,使他們通過消費達到標準。一旦實現(xiàn)了首次兌換,客戶在本公司進行再次消費兌換就比在其他公司進行兌換要容易許多,在一定程度上等于提高了轉(zhuǎn)移的成本。交叉銷售:通過發(fā)行聯(lián)名卡等與非航空類企業(yè)的合作,使客戶在其他企業(yè)的消費過程中獲得本公司的積分,增強與公司的聯(lián)系,提高他們的忠誠度。模型應用根據(jù)對各個客戶群進行特征分析,采取下面的一些營銷手段和策略,為航空公司的價值客戶群管理提供參考。1分析方法與過程目錄了解航空公司現(xiàn)狀與客戶價值分析2使用K-Means算法進行客戶分群3小結(jié)4本項目結(jié)合航空公司客戶價值分析的案例,重點介紹了數(shù)據(jù)分析算法中K-Means聚類算法在客戶價值分析中的應用。針對RFM客戶價值分析模型的不足,使用K-Means算法構(gòu)建了航空客戶價值分析LRFMC模型,詳細描述了數(shù)據(jù)分析的整個過程。小結(jié)財政收入預測分析18-5月-251了解相關(guān)性分析目錄分析財政收入預測背景2使用Lasso回歸選取財政收入預測的關(guān)鍵特征3使用灰色預測和SVR構(gòu)建財政收入預測模型4小結(jié)5財政收入,是指政府為履行其職能、實施公共政策和提供公共物品與服務需要而籌集的一切資金的總和。財政收入表現(xiàn)為政府部門在一定時期內(nèi)(一般為一個財政年度)所取得的貨幣收入。財政收入是衡量一國政府財力的重要特征,政府在社會經(jīng)濟活動中提供公共物品和服務的范圍和數(shù)量,在很大程度上取決于財政收入的充裕狀況。在我國現(xiàn)行的分稅制財政管理體制下,地方財政收入不但是國家財政收入的重要組成部分,而且具有其相對獨立的構(gòu)成內(nèi)容。如何制定地方財政支出計劃,合理分配地方財政收入,促進地方的發(fā)展,提高市民的收入和生活質(zhì)量是每個地方政府需要考慮的首要問題。因此,地方財政收入預測是非常必要的。分析財政收入預測背景1.財政收入簡介和需求考慮到數(shù)據(jù)的可得性,本項目所用的財政收入分為地方一般預算收入和政府性基金收入。地方一般預算收入包括以下2個部分。稅收收入。主要包括企業(yè)所得稅與地方所得稅中中央和地方共享的40%,地方享有的25%的增值稅,營業(yè)稅和印花稅等。非稅收收入。包括專項收入、行政事業(yè)性收費、罰沒收入、國有資本經(jīng)營收入和其他收入等。政府性基金收入是國家通過向社會征收以及出讓土地、發(fā)行彩票等方式取得收入,并專項用于支持特定基礎(chǔ)設(shè)施建設(shè)和社會事業(yè)發(fā)展的收入。分析財政收入預測背景2.財政收入預測數(shù)據(jù)基礎(chǔ)情況由于1994年我國對財政體制進行了重大改革,開始實行分稅制財政體制,影響了財政收入相關(guān)數(shù)據(jù)的連續(xù)性,在1994年前后不具有可比性。由于沒有合適的方法來調(diào)整這種數(shù)據(jù)的躍變,因此本項目僅對1994年至2013年的數(shù)據(jù)進行分析(本項目所用數(shù)據(jù)均來自《統(tǒng)計年鑒》)。各項特征名稱及特征說明如下(共13項):社會從業(yè)人數(shù)(x1):就業(yè)人數(shù)的上升伴隨著居民消費水平的提高,從而間接影響財政收入的增加。在崗職工工資總額(x2):反映的是社會分配情況,主要影響財政收入中的個人所得稅、房產(chǎn)稅以及潛在消費能力。分析財政收入預測背景2.財政收入預測數(shù)據(jù)基礎(chǔ)情況社會消費品零售總額(x3):代表社會整體消費情況,是可支配收入在經(jīng)濟生活中的實現(xiàn)。當社會消費品零售總額增長時,表明社會消費意愿強烈,部分程度上會導致財政收入中增值稅的增長;同時當消費增長時,也會引起經(jīng)濟系統(tǒng)中其他方面發(fā)生變動,最終導致財政收入的增長。城鎮(zhèn)居民人均可支配收入(x4):居民收入越高消費能力越強,同時意味著其工作積極性越高,創(chuàng)造出的財富越多,從而能帶來財政收入的更快和持續(xù)增長。城鎮(zhèn)居民人均消費性支出(x5):居民在消費商品的過程中會產(chǎn)生各種稅費,稅費又是調(diào)節(jié)生產(chǎn)規(guī)模的手段之一。在商品經(jīng)濟發(fā)達的如今,居民消費的越多,對財政收入的貢獻就越大。年末總?cè)丝?x6):在地方經(jīng)濟發(fā)展水平既定的條件下,人均地方財政收入與地方人口數(shù)呈反比例變化。分析財政收入預測背景2.財政收入預測數(shù)據(jù)基礎(chǔ)情況全社會固定資產(chǎn)投資額(x7):是建造和購置固定資產(chǎn)的經(jīng)濟活動,即固定資產(chǎn)再生產(chǎn)活動。主要通過投資來促進經(jīng)濟增長,擴大稅源,進而拉動財政稅收收入整體增長。地區(qū)生產(chǎn)總值(x8):表示地方經(jīng)濟發(fā)展水平。一般來講,政府財政收入來源于即期的地區(qū)生產(chǎn)總值。在國家經(jīng)濟政策不變、社會秩序穩(wěn)定的情況下,地方經(jīng)濟發(fā)展水平與地方財政收入之間存在著密切的相關(guān)性,越是經(jīng)濟發(fā)達的地區(qū),其財政收入的規(guī)模就越大。第一產(chǎn)業(yè)產(chǎn)值(x9):取消農(nóng)業(yè)稅、實施三農(nóng)政策,第一產(chǎn)業(yè)對財政收入的影響更小。稅收(x10):由于其具有征收的強制性、無償性和固定性特點,可以為政府履行其職能提供充足的資金來源。因此,各國都將其作為政府財政收入的最重要的收入形式和來源。分析財政收入預測背景2.財政收入預測數(shù)據(jù)基礎(chǔ)情況居民消費價格指數(shù)(x11):反映居民家庭購買的消費品及服務價格水平的變動情況,影響城鄉(xiāng)居民的生活支出和國家的財政收入。第三產(chǎn)業(yè)與第二產(chǎn)業(yè)產(chǎn)值比(x12):表示產(chǎn)業(yè)結(jié)構(gòu)。三次產(chǎn)業(yè)生產(chǎn)總值代表國民經(jīng)濟水平,是財政收入的主要影響因素,當產(chǎn)業(yè)結(jié)構(gòu)逐步優(yōu)化時,財政收入也會隨之增加。居民消費水平(x13):在很大程度上受整體經(jīng)濟狀況GDP的影響,從而間接影響地方財政收入。分析財政收入預測背景2.財政收入預測數(shù)據(jù)基礎(chǔ)情況結(jié)合財政收入預測的需求分析,本次數(shù)據(jù)分析建模目標主要有以下2個。分析、識別影響地方財政收入的關(guān)鍵特征。預測2014年和2015年的財政收入。分析財政收入預測背景3.財政收入預測分析目標眾多學者已經(jīng)對財政收入的影響因素進行了研究,但是他們大多先建立財政收入與各待定的影響因素之間的多元線性回歸模型,運用最小二乘估計方法來估計回歸模型的系數(shù),通過系數(shù)來檢驗它們之間的關(guān)系,模型的結(jié)果對數(shù)據(jù)的依賴程度很大,并且普通最小二乘估計求得的解往往是局部最優(yōu)解,后續(xù)步驟的檢驗可能就會失去應有的意義。了解財政收入預測的方法方法選擇——最小二乘估計方法本項目在已有研究的基礎(chǔ)上運用Lasso特征選擇方法來研究影響地方財政收入的因素。在Lasso特征選擇的基礎(chǔ)上,鑒于灰色預測對少量數(shù)據(jù)預測的優(yōu)良性能,對單個選定的影響因素建立灰色預測模型,得到它們在2014年及2015年的預測值。由于支持向量回歸較強的適用性和容錯能力,對歷史數(shù)據(jù)建立訓練模型,把灰色預測的數(shù)據(jù)結(jié)果代入訓練完成的模型中,充分考慮歷史數(shù)據(jù)信息,可以得到較為準確的預測結(jié)果,即2014年和2015年財政收入。了解財政收入預測的方法方法選擇——Lasso特征選擇方法熟悉財政收入預測的步驟與流程項目流程本項目的總體流程如圖所示,主要包括以下步驟。對原始數(shù)據(jù)進行探索性分析,了解原始特征之間的相關(guān)性。利用Lasso特征選擇模型進行特征提取。建立單個特征的灰色預測模型以及支持向量回歸預測模型。使用支持向量回歸預測模型得出2014-2015年財政收入的預測值。對上述建立的財政收入預測模型進行評價。熟悉財政收入預測的步驟與流程項目流程1了解相關(guān)性分析目錄分析財政收入預測背景2使用Lasso回歸選取財政收入預測的關(guān)鍵特征3使用灰色預測和SVR構(gòu)建財政收入預測模型4小結(jié)5
了解相關(guān)性分析Pearson相關(guān)系數(shù)
了解相關(guān)性分析Pearson相關(guān)系數(shù)
x1x2x3x4x5x6x7x8x9x10x11x12x13yx11.000.950.950.970.970.990.950.970.980.98-0.290.940.960.94x20.951.001.000.990.990.920.990.990.980.98-0.130.891.000.98x30.951.001.000.990.990.921.000.990.980.99-0.150.891.000.99x40.970.990.991.001.000.950.991.000.991.00-0.190.911.000.99x50.970.990.991.001.000.950.991.000.991.00-0.180.900.990.99x60.990.920.920.950.951.000.930.950.970.96-0.340.950.940.91x70.950.991.000.990.990.931.000.990.980.99-0.150.891.000.99x80.970.990.991.001.000.950.991.000.991.00-0.150.901.000.99x90.980.980.980.990.990.970.980.991.000.99-0.230.910.990.98x100.980.980.991.001.000.960.991.000.991.00-0.170.900.990.99x11-0.29-0.13-0.15-0.19-0.18-0.34-0.15-0.15-0.23-0.171.00-0.43-0.16-0.12x120.940.890.890.910.900.950.890.900.910.90-0.431.000.900.87x130.961.001.001.000.990.941.001.000.990.99-0.160.901.000.99y0.940.980.990.990.990.910.990.990.980.99-0.120.870.991.00分析計算結(jié)果Pearson相關(guān)系數(shù)矩陣由上表可知,居民消費價格指數(shù)(x11)與財政收入(y)的線性關(guān)系不顯著,呈現(xiàn)負相關(guān)。其余特征均與財政收入呈現(xiàn)高度的正相關(guān)關(guān)系。按相關(guān)性大小,依次是x3,x4,x5,x7,x8,x10,x13,x2,x9,x1,x6和x12。各特征之間存在著嚴重的多重共線性:特征x1,x4,x5,x6,x8,x9,x10與除了x11之外的特征均存在嚴重的共線性。特征x2,x3,x7與除了x11和x12外的其他特征存在著嚴重的多重共線性。x11與各特征的共線性不明顯。x12與除了x2,x3,x7,x11之外的其他特征有嚴重的共線性。x13與除了x11之外的各特征有嚴重的共線性。x2和x3,x2和x13,x3和x13等多對特征之間存在完全的共線性。由上述分析可知,選取的各特征除了x11外,其他特征與y的相關(guān)性很強,可以用作財政收入預測分析的關(guān)鍵特征,但這些特征之間存在著信息的重復,需要對特征進行進一步篩選。分析計算結(jié)果分析1了解相關(guān)性分析目錄分析財政收入預測背景2使用Lasso回歸選取財政收入預測的關(guān)鍵特征3使用灰色預測和SVR構(gòu)建財政收入預測模型4小結(jié)5Lasso回歸方法屬于正則化方法的一種,是壓縮估計。它通過構(gòu)造一個懲罰函數(shù)得到一個較為精煉的模型,使得它壓縮一些系數(shù),同時設(shè)定一些系數(shù)為零,保留了子集收縮的優(yōu)點,是一種處理具有復共線性數(shù)據(jù)的有偏估計。了解Lasso回歸方法1.概念Lasso以縮小特征集(降階)為思想,是一種收縮估計方法。Lasso方法可以將特征的系數(shù)進行壓縮并使某些回歸系數(shù)變?yōu)?,進而達到特征選擇的目的,可以廣泛地應用于模型改進與選擇。通過選擇懲罰函數(shù),借用Lasso思想和方法實現(xiàn)特征選擇的目的。模型選擇本質(zhì)上是尋求模型稀疏表達的過程,而這種過程可以通過優(yōu)化一個“損失”+“懲罰”的函數(shù)問題來完成。了解Lasso回歸方法2.基本原理
了解Lasso回歸方法2.基本原理當原始特征中存在多重共線性時,Lasso回歸不失為一種很好的處理共線性的方法,它可以有效地對存在多重共線性的特征進行篩選。在機器學習中,面對海量的數(shù)據(jù),首先想到的就是降維,爭取用盡可能少的數(shù)據(jù)解決問題,從這層意義上說,用Lasso模型進行特征選擇也是一種有效的降維方法。Lasso從理論上說,對數(shù)據(jù)類型沒有太多限制,可以接受任何類型的數(shù)據(jù),而且一般不需要對特征進行標準化處理。了解Lasso回歸方法3.適用場景優(yōu)點:可以彌補最小二乘法和逐步回歸局部最優(yōu)估計的不足,可以很好地進行特征的選擇,可以有效地解決各特征之間存在多重共線性的問題。缺點:如果存在一組高度相關(guān)的特征時,Lasso回歸方法傾向于選擇其中的一個特征,而忽視其他所有的特征,這種情況會導致結(jié)果的不穩(wěn)定性。雖然Lasso回歸方法存在弊端,但是在合適的場景中還是可以發(fā)揮不錯的效果。在財政收入預測中,各原始特征存在著嚴重的多重共線性,多重共線性問題已成為主要問題,這里采用Lasso回歸方法進行特征選取是恰當?shù)摹A私釲asso回歸方法4.Lasso回歸方法優(yōu)缺點用Python編制相應的程序后運行得到如下表所示的結(jié)果。分析Lasso回歸結(jié)果分析系數(shù)表x1x2x3x4x5x6x7-0.00010.0000.124-0.0100.0650.0000.317x8x9x10x11x12x13
0.035-0.0010.0000.0000.000-0.040
由上表可看出,利用Lasso回歸方法識別影響財政收入的關(guān)鍵影響因素是社會從業(yè)人數(shù)(x1)、社會消費品零售總額(x3)、城鎮(zhèn)居民人均可支配收入(x4)、城鎮(zhèn)居民人均消費性支出(x5)、全社會固定資產(chǎn)投資額(x7)、地區(qū)生產(chǎn)總值(x8)、第一產(chǎn)業(yè)產(chǎn)值(x9)和居民消費水平(x13)。1了解相關(guān)性分析目錄分析財政收入預測背景2使用Lasso回歸選取財政收入預測的關(guān)鍵特征3使用灰色預測和SVR構(gòu)建財政收入預測模型4小結(jié)5灰色預測法是一種對含有不確定因素的系統(tǒng)進行預測的方法。在建立灰色預測模型之前,需先對原始時間序列進行數(shù)據(jù)處理,經(jīng)過數(shù)據(jù)處理后的時間序列即稱為生成列?;疑到y(tǒng)常用的數(shù)據(jù)處理方式有累加和累減兩種。了解灰色預測算法1.概念
了解灰色預測算法2.基本原理后驗差檢驗模型精度如下表所示。了解灰色預測算法2.基本原理PC模型精度>0.95<0.35好>0.80<0.5合格>0.70<0.65勉強合格<0.70>0.65不合格灰色預測法的通用性比較強些,一般的時間序列場合都可以用,尤其適合那些規(guī)律性差且不清楚數(shù)據(jù)產(chǎn)生機理的情況。了解灰色預測算法3.適用場景優(yōu)點:具有預測精度高、模型可檢驗、參數(shù)估計方法簡單、對小數(shù)據(jù)集有很好的預測效果。缺點:對原始數(shù)據(jù)序列的光滑度要求很高,在原始數(shù)據(jù)列光滑性較差的情況下灰色預測模型的預測精度不高甚至通不過檢驗,結(jié)果只能放棄使用灰色模型進行預測。4.灰色預測優(yōu)缺點
了解SVR算法1.基本原理由于支持向量機擁有完善的理論基礎(chǔ)和良好的特性,人們對其進行了廣泛的研究和應用,涉及分類、回歸、聚類、時間序列分析、異常點檢測等諸多方面。具體的研究內(nèi)容包括統(tǒng)計學習理論基礎(chǔ)、各種模型的建立、相應優(yōu)化算法的改進以及實際應用。支持向量回歸也在這些研究中得到了發(fā)展和逐步完善,已有許多富有成果的研究工作。了解SVR算法2.適用場景優(yōu)點:支持向量回歸不僅適用于線性模型,對于數(shù)據(jù)和特征之間的非線性關(guān)系也能很好抓??;持向量回歸不需要擔心多重共線性問題,可以避免局部極小化問題,提高泛化性能,解決高維問題;支持向量回歸雖然不會在過程中直接排除異常點,但會使得由異常點引起的偏差更小。缺點:計算復雜度高,在面臨數(shù)據(jù)量大的時候,計算耗時長。了解SVR算法3.SVR算法優(yōu)缺點sklearn庫的LinearSVR函數(shù)實現(xiàn)了線性支持向量回歸,其使用語法如下。classsklearn.svm.LinearSVR(epsilon=0.0,tol=0.0001,C=1.0,loss=’epsilon_insensitive’…)常用參數(shù)及說明如下。了解SVR算法4.主要參數(shù)介紹參數(shù)名稱說明epsilon接收float。用于loss參數(shù)中的
參數(shù)。默認為0.1。tol接收float。指定終止迭代的閾值。默認為0.0001。C接收float。表示罰項系數(shù)。默認為1.0。loss參數(shù)名稱說明fit_intercept接收boolean。表示是否計算模型的截距。默認為True。intercept_scalingdual接收boolear。選擇解決對偶問題或原始問題。如果為True,則解決對偶問題;如果是False,則解決原始問題。默認為True。verbose接收int。表示是否開啟verbose輸出。默認為0。random_state輸入int,或者一個RandomState實例,或者None。表示使用的隨機數(shù)生成器的種子。默認為None。1.如果為整數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧省部分高中聯(lián)考2024-2025學年高一下學期7月期末地理試題(解析版)
- 保護環(huán)境從我做起-話題作文15篇
- 企業(yè)合作項目保障承諾書(3篇)
- 2025屆春季中國廣核集團校園招聘模擬試卷及1套參考答案詳解
- 業(yè)務流程優(yōu)化項目計劃書執(zhí)行方案詳解版
- 2025貴州省農(nóng)業(yè)科學院引進急需緊缺人才3人考前自測高頻考點模擬試題及答案詳解(考點梳理)
- IT系統(tǒng)維護故障排除手冊與記錄模板
- 采購申請及審批流程管理工具表
- 2025年合肥市骨科醫(yī)院招聘41人考前自測高頻考點模擬試題及一套參考答案詳解
- 農(nóng)業(yè)生產(chǎn)基地智能化管理協(xié)議
- 2025貴州省專業(yè)技術(shù)人員繼續(xù)教育公需科目考試題庫(2025公需課課程)
- 人工智能(基礎(chǔ)版)高職人工智能基礎(chǔ)課程PPT完整全套教學課件
- 10胃十二指腸潰瘍臨床路徑表單
- 高標準農(nóng)田施工組織設(shè)計(全)
- 小餐飲備案承諾書(樣式)
- 學法減分100道題題庫及答案(駕駛證學法減分學法免分題庫及答案)
- 《安娜·卡列尼娜》-課件-
- 2022年新版體系文件藥品零售單體連鎖總部質(zhì)量管理體系文件
- 校服登記表模板
- 【高等數(shù)學練習題】南京信息工程大學專升本自考真題匯總(附答案解析)
- DB11-T 1382-2022空氣源熱泵系統(tǒng)應用技術(shù)規(guī)程
評論
0/150
提交評論