




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第5章
數(shù)據(jù)預(yù)處理與特征工程主成分分析理解主成分分析一般步驟主成分分析應(yīng)用舉例主成分分析第5章
在數(shù)據(jù)分析與挖掘中,通常是多指標(biāo)問題,這些指標(biāo)之間往往具有一定的相關(guān)性。例如,身高、體重這兩個指標(biāo),身高較高,其體重也相對較大;經(jīng)營收入、凈利潤這兩個指標(biāo),經(jīng)營收入越高,其凈利潤也相對較高,這就是指標(biāo)之間相關(guān)性的一種體現(xiàn)。如果眾多指標(biāo)之間具有較強(qiáng)的相關(guān)性,不僅會增加計算復(fù)雜度,也會影響模型的分析結(jié)果。一種思路就是把眾多的變量轉(zhuǎn)換為少數(shù)幾個互不相關(guān)的綜合變量,同時又不影響原來變量所反映的信息。這種方法在數(shù)學(xué)上稱為主成分分析我們通常看到各種各樣的排行榜,如綜合國力排名、省市經(jīng)濟(jì)發(fā)展水平排名、大學(xué)綜合排名等——綜合評價問題,就是主成分分析應(yīng)用的一種體現(xiàn)。主成分分析理解第5章
怎樣對各地區(qū)2016年農(nóng)村居民人均可支配收入情況進(jìn)行排名呢?
地區(qū)工資性收入(X1)經(jīng)營凈收入(X2)財產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………我們需要一個綜合指標(biāo)來衡量,但是這個綜合指標(biāo)該如何定義和計算呢?指標(biāo)加權(quán)是一個通常的思路,例如: Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地區(qū)農(nóng)村居民人均可支配收入某個方面的指標(biāo),僅代表某方面的信息,它在綜合指標(biāo)Y1中,其重要程度可以通過對應(yīng)的a1j來反映,可以稱a1j為信息系數(shù)。注意綜合變量Y1盡量不丟失原來變量反映的信息,如果一個綜合變量不夠,就繼續(xù)構(gòu)造新的綜合變量Y2,……,同時要求綜合變量之間互不相關(guān)主成分分析理解第5章
Y1=a11×X1+a12×X2+a13×X3+a14×X4不丟失原來變量反映的信息(方差),其數(shù)學(xué)表達(dá)式為:
Var(X1)+…+Var(X4)=Var(Y1)如果Y1還不足以保留原來的信息,則再構(gòu)造一個Y2:
Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相關(guān),同時:
Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果還不足以保留原來的信息,則繼續(xù)構(gòu)造Y3??傊疃鄻?gòu)造到Y(jié)4一定能滿足條件。一般地,前k個變換后的變量Y1…Yk,其方差之和與原變量總方差之比為:
(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))稱其為k個變換后變量的信息占比。在實(shí)際應(yīng)用中只需取少數(shù)幾個變換后的變量。例如,它們的
信息占比為90%,就可以說采用變換后的變量反映了原來變量90%的信息。以上僅是方便理解,系數(shù)如何限制?系數(shù)向量如何計算?這些分析嚴(yán)格嗎?為了解決這些問題,需要給出嚴(yán)格的主成分分析數(shù)學(xué)模型(具體見課本)。主成分分析一般步驟第5章
主成分分析的一般步驟(1)對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。(2)計算樣本相關(guān)系數(shù)矩陣。(3)求相關(guān)系數(shù)矩陣的特征值和相應(yīng)的特征向量。(4)選擇重要的主成分,并寫出主成分表達(dá)式。(5)計算主成分得分。(6)依據(jù)主成分得分的數(shù)據(jù),進(jìn)一步從事統(tǒng)計分析。主成分分析應(yīng)用舉例第5章
#數(shù)據(jù)獲取importpandasaspdData=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=Data.iloc[:,1:]#數(shù)據(jù)規(guī)范化處理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)(1)數(shù)據(jù)獲取及數(shù)據(jù)規(guī)范化處理主成分分析應(yīng)用舉例第5章
①導(dǎo)入主成分分析模塊PCA。
fromsklearn.decompositionimportPCA②利用PCA創(chuàng)建主成分分析對象pca。
pca=PCA(n_components=0.95)③調(diào)用pca對象中的fit()方法,進(jìn)行擬合訓(xùn)練。
pca.fit(X)④調(diào)用pca對象中的transform()方法,返回提取的主成分。
Y=pca.transform(X)⑤通過pca對象中的相關(guān)屬性,返回相關(guān)結(jié)果。
tzxl=ponents_#返回特征向量
tz=pca.explained_variance_#返回特征值
#返回主成分方差百分比(貢獻(xiàn)率)
gxl=pca.explained_variance_ratio_(2)對標(biāo)準(zhǔn)化后的數(shù)據(jù)X做主成分分析,基本步驟如下:主成分分析應(yīng)用舉例第5章
⑥主成分表達(dá)式及驗證。由前面分析,我們知道第i個主成分表示為:代表第i個主成分對應(yīng)的特征向量。例如,可以通過程序驗證第1個主成分前面的4個分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析應(yīng)用舉例第5章
(3)基于主成分進(jìn)行綜合排名。記綜合排名指標(biāo)為F,則F的計算公式如下其中m表示提取的主成分個數(shù),分別表示第i個主成分和其貢獻(xiàn)率F=gxl[0]*Y[:,0]+gxl[1]*Y[:,1]+
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高中《秋季軍訓(xùn)》工作方案 (合計3份)
- 2026年高考作文備考訓(xùn)練之題目解析及范文:入乎其內(nèi)與出乎其外
- 學(xué)堂在線 現(xiàn)代生活美學(xué)-花香茶之道 章節(jié)測試答案
- 2026年中考英語復(fù)習(xí)講義:句子成分+非謂語動詞
- 2025年外研版高中英語必修第二冊Unit 2綜合檢測試卷及答案
- 2025年人教版新高一物理專項提升:牛頓第一定律
- 2025年譯林版七年級英語上冊Unit4綜合測試試卷及答案
- 2025年蘇教版七年級生物下冊期末專項培優(yōu)-生態(tài)系統(tǒng)綜合題(含解析)
- 2025年航空發(fā)動機(jī)維修技術(shù)創(chuàng)新在成本節(jié)約中的應(yīng)用案例分析報告
- 老齡化趨勢下2025年老年長期照護(hù)服務(wù)模式與社區(qū)養(yǎng)老機(jī)構(gòu)服務(wù)模式創(chuàng)新與可持續(xù)發(fā)展報告
- 冒險酒館事件菜譜全攻略
- 小??Х仍耘嗉夹g(shù)措施課件
- 河南三門峽市盧氏縣公開招聘鄉(xiāng)鎮(zhèn)事業(yè)單位人員50人(同步測試)模擬卷和答案
- 文旅親子研學(xué)基地運(yùn)營合作協(xié)議
- DB11T 1902-2021 政務(wù)服務(wù)中心服務(wù)與管理規(guī)范
- 郭爾羅斯文化的形成和發(fā)展
- 創(chuàng)傷中心急性創(chuàng)傷患者時間節(jié)點(diǎn)表
- T∕CGMA 100.001-2016 閉式冷卻塔
- 《福建建筑安裝工程費(fèi)用定額》正式版201862013年6
- 卡西歐5800P計算器隧道施工測量程序設(shè)計
- 戶外斷路器負(fù)荷開關(guān)安裝作業(yè)指導(dǎo)書2012(共10頁)
評論
0/150
提交評論