Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第1頁
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第2頁
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第3頁
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第4頁
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 5-9.1.特征組合_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第5章

數(shù)據(jù)預(yù)處理與特征工程主成分分析理解主成分分析一般步驟主成分分析應(yīng)用舉例主成分分析第5章

在數(shù)據(jù)分析與挖掘中,通常是多指標(biāo)問題,這些指標(biāo)之間往往具有一定的相關(guān)性。例如,身高、體重這兩個指標(biāo),身高較高,其體重也相對較大;經(jīng)營收入、凈利潤這兩個指標(biāo),經(jīng)營收入越高,其凈利潤也相對較高,這就是指標(biāo)之間相關(guān)性的一種體現(xiàn)。如果眾多指標(biāo)之間具有較強(qiáng)的相關(guān)性,不僅會增加計算復(fù)雜度,也會影響模型的分析結(jié)果。一種思路就是把眾多的變量轉(zhuǎn)換為少數(shù)幾個互不相關(guān)的綜合變量,同時又不影響原來變量所反映的信息。這種方法在數(shù)學(xué)上稱為主成分分析我們通常看到各種各樣的排行榜,如綜合國力排名、省市經(jīng)濟(jì)發(fā)展水平排名、大學(xué)綜合排名等——綜合評價問題,就是主成分分析應(yīng)用的一種體現(xiàn)。主成分分析理解第5章

怎樣對各地區(qū)2016年農(nóng)村居民人均可支配收入情況進(jìn)行排名呢?

地區(qū)工資性收入(X1)經(jīng)營凈收入(X2)財產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………我們需要一個綜合指標(biāo)來衡量,但是這個綜合指標(biāo)該如何定義和計算呢?指標(biāo)加權(quán)是一個通常的思路,例如: Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地區(qū)農(nóng)村居民人均可支配收入某個方面的指標(biāo),僅代表某方面的信息,它在綜合指標(biāo)Y1中,其重要程度可以通過對應(yīng)的a1j來反映,可以稱a1j為信息系數(shù)。注意綜合變量Y1盡量不丟失原來變量反映的信息,如果一個綜合變量不夠,就繼續(xù)構(gòu)造新的綜合變量Y2,……,同時要求綜合變量之間互不相關(guān)主成分分析理解第5章

Y1=a11×X1+a12×X2+a13×X3+a14×X4不丟失原來變量反映的信息(方差),其數(shù)學(xué)表達(dá)式為:

Var(X1)+…+Var(X4)=Var(Y1)如果Y1還不足以保留原來的信息,則再構(gòu)造一個Y2:

Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相關(guān),同時:

Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果還不足以保留原來的信息,則繼續(xù)構(gòu)造Y3??傊疃鄻?gòu)造到Y(jié)4一定能滿足條件。一般地,前k個變換后的變量Y1…Yk,其方差之和與原變量總方差之比為:

(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))稱其為k個變換后變量的信息占比。在實(shí)際應(yīng)用中只需取少數(shù)幾個變換后的變量。例如,它們的

信息占比為90%,就可以說采用變換后的變量反映了原來變量90%的信息。以上僅是方便理解,系數(shù)如何限制?系數(shù)向量如何計算?這些分析嚴(yán)格嗎?為了解決這些問題,需要給出嚴(yán)格的主成分分析數(shù)學(xué)模型(具體見課本)。主成分分析一般步驟第5章

主成分分析的一般步驟(1)對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。(2)計算樣本相關(guān)系數(shù)矩陣。(3)求相關(guān)系數(shù)矩陣的特征值和相應(yīng)的特征向量。(4)選擇重要的主成分,并寫出主成分表達(dá)式。(5)計算主成分得分。(6)依據(jù)主成分得分的數(shù)據(jù),進(jìn)一步從事統(tǒng)計分析。主成分分析應(yīng)用舉例第5章

#數(shù)據(jù)獲取importpandasaspdData=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=Data.iloc[:,1:]#數(shù)據(jù)規(guī)范化處理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)(1)數(shù)據(jù)獲取及數(shù)據(jù)規(guī)范化處理主成分分析應(yīng)用舉例第5章

①導(dǎo)入主成分分析模塊PCA。

fromsklearn.decompositionimportPCA②利用PCA創(chuàng)建主成分分析對象pca。

pca=PCA(n_components=0.95)③調(diào)用pca對象中的fit()方法,進(jìn)行擬合訓(xùn)練。

pca.fit(X)④調(diào)用pca對象中的transform()方法,返回提取的主成分。

Y=pca.transform(X)⑤通過pca對象中的相關(guān)屬性,返回相關(guān)結(jié)果。

tzxl=ponents_#返回特征向量

tz=pca.explained_variance_#返回特征值

#返回主成分方差百分比(貢獻(xiàn)率)

gxl=pca.explained_variance_ratio_(2)對標(biāo)準(zhǔn)化后的數(shù)據(jù)X做主成分分析,基本步驟如下:主成分分析應(yīng)用舉例第5章

⑥主成分表達(dá)式及驗證。由前面分析,我們知道第i個主成分表示為:代表第i個主成分對應(yīng)的特征向量。例如,可以通過程序驗證第1個主成分前面的4個分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析應(yīng)用舉例第5章

(3)基于主成分進(jìn)行綜合排名。記綜合排名指標(biāo)為F,則F的計算公式如下其中m表示提取的主成分個數(shù),分別表示第i個主成分和其貢獻(xiàn)率F=gxl[0]*Y[:,0]+gxl[1]*Y[:,1]+

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論