Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合

上傳人：釋*** IP屬地：山東上傳時間：2025-06-16 格式：PPTX 頁數(shù)：9 大小：461.88KB 積分：7.19 舉報 版權(quán)申訴

Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第2頁

Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第3頁

Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第4頁

Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第5頁

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第5章

數(shù)據(jù)預(yù)處理與特征工程主成分分析理解主成分分析一般步驟主成分分析應(yīng)用舉例主成分分析第5章

在數(shù)據(jù)分析與挖掘中，通常是多指標(biāo)問題，這些指標(biāo)之間往往具有一定的相關(guān)性。例如，身高、體重這兩個指標(biāo)，身高較高，其體重也相對較大；經(jīng)營收入、凈利潤這兩個指標(biāo)，經(jīng)營收入越高，其凈利潤也相對較高，這就是指標(biāo)之間相關(guān)性的一種體現(xiàn)。如果眾多指標(biāo)之間具有較強(qiáng)的相關(guān)性，不僅會增加計算復(fù)雜度，也會影響模型的分析結(jié)果。一種思路就是把眾多的變量轉(zhuǎn)換為少數(shù)幾個互不相關(guān)的綜合變量，同時又不影響原來變量所反映的信息。這種方法在數(shù)學(xué)上稱為主成分分析我們通常看到各種各樣的排行榜，如綜合國力排名、省市經(jīng)濟(jì)發(fā)展水平排名、大學(xué)綜合排名等——綜合評價問題，就是主成分分析應(yīng)用的一種體現(xiàn)。主成分分析理解第5章

怎樣對各地區(qū)2016年農(nóng)村居民人均可支配收入情況進(jìn)行排名呢？

地區(qū)工資性收入（X1）經(jīng)營凈收入（X2）財產(chǎn)凈收入（X3）轉(zhuǎn)移凈收入（X4）北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………我們需要一個綜合指標(biāo)來衡量，但是這個綜合指標(biāo)該如何定義和計算呢？指標(biāo)加權(quán)是一個通常的思路，例如： Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地區(qū)農(nóng)村居民人均可支配收入某個方面的指標(biāo)，僅代表某方面的信息，它在綜合指標(biāo)Y1中，其重要程度可以通過對應(yīng)的a1j來反映，可以稱a1j為信息系數(shù)。注意綜合變量Y1盡量不丟失原來變量反映的信息，如果一個綜合變量不夠，就繼續(xù)構(gòu)造新的綜合變量Y2，……，同時要求綜合變量之間互不相關(guān)主成分分析理解第5章

Y1=a11×X1+a12×X2+a13×X3+a14×X4不丟失原來變量反映的信息（方差），其數(shù)學(xué)表達(dá)式為：

Var(X1)+…+Var(X4)=Var(Y1)如果Y1還不足以保留原來的信息，則再構(gòu)造一個Y2：

Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相關(guān)，同時：

Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果還不足以保留原來的信息，則繼續(xù)構(gòu)造Y3?？傊疃鄻?gòu)造到Y(jié)4一定能滿足條件。一般地，前k個變換后的變量Y1…Yk，其方差之和與原變量總方差之比為：

(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))稱其為k個變換后變量的信息占比。在實(shí)際應(yīng)用中只需取少數(shù)幾個變換后的變量。例如，它們的

信息占比為90%，就可以說采用變換后的變量反映了原來變量90%的信息。以上僅是方便理解，系數(shù)如何限制？系數(shù)向量如何計算？這些分析嚴(yán)格嗎？為了解決這些問題，需要給出嚴(yán)格的主成分分析數(shù)學(xué)模型（具體見課本）。主成分分析一般步驟第5章

主成分分析的一般步驟（1）對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。（2）計算樣本相關(guān)系數(shù)矩陣。（3）求相關(guān)系數(shù)矩陣的特征值和相應(yīng)的特征向量。（4）選擇重要的主成分，并寫出主成分表達(dá)式。（5）計算主成分得分。（6）依據(jù)主成分得分的數(shù)據(jù)，進(jìn)一步從事統(tǒng)計分析。主成分分析應(yīng)用舉例第5章

#數(shù)據(jù)獲取importpandasaspdData=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=Data.iloc[:,1:]#數(shù)據(jù)規(guī)范化處理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)（1）數(shù)據(jù)獲取及數(shù)據(jù)規(guī)范化處理主成分分析應(yīng)用舉例第5章

①導(dǎo)入主成分分析模塊PCA。

fromsklearn.decompositionimportPCA②利用PCA創(chuàng)建主成分分析對象pca。

pca=PCA(n_components=0.95)③調(diào)用pca對象中的fit()方法，進(jìn)行擬合訓(xùn)練。

pca.fit(X)④調(diào)用pca對象中的transform()方法，返回提取的主成分。

Y=pca.transform(X)⑤通過pca對象中的相關(guān)屬性，返回相關(guān)結(jié)果。

tzxl=ponents_#返回特征向量

tz=pca.explained_variance_#返回特征值

#返回主成分方差百分比（貢獻(xiàn)率）

gxl=pca.explained_variance_ratio_（2）對標(biāo)準(zhǔn)化后的數(shù)據(jù)X做主成分分析，基本步驟如下：主成分分析應(yīng)用舉例第5章

⑥主成分表達(dá)式及驗證。由前面分析，我們知道第i個主成分表示為：代表第i個主成分對應(yīng)的特征向量。例如，可以通過程序驗證第1個主成分前面的4個分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析應(yīng)用舉例第5章

（3）基于主成分進(jìn)行綜合排名。記綜合排名指標(biāo)為F，則F的計算公式如下其中m表示提取的主成分個數(shù)，分別表示第i個主成分和其貢獻(xiàn)率F=gxl[0]*Y[:,0]+gxl[1]*Y[:,1]+

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合

文檔簡介

溫馨提示

最新文檔

評論

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔