主成分解析總結(jié)計劃在STATA中實現(xiàn)理論介紹_第1頁
主成分解析總結(jié)計劃在STATA中實現(xiàn)理論介紹_第2頁
主成分解析總結(jié)計劃在STATA中實現(xiàn)理論介紹_第3頁
主成分解析總結(jié)計劃在STATA中實現(xiàn)理論介紹_第4頁
主成分解析總結(jié)計劃在STATA中實現(xiàn)理論介紹_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余6頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第十二章主成分解析主成分分解析也稱作主重量解析,是霍特林(Hotelling)在1933年第一提出。主成分解析是利用降維的思想,在損失較少信息的前提下把多個指標(biāo)轉(zhuǎn)變成較少的綜合指標(biāo)。轉(zhuǎn)變生成的綜合指標(biāo)即稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分互不有關(guān)。Stata對主成分解析的主要內(nèi)容包括:主成分估計、主成分解析的合適性(包括負(fù)偏協(xié)方差矩陣和負(fù)偏有關(guān)系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復(fù)有關(guān)系數(shù)、共同度等指標(biāo)測度)、主成分的旋轉(zhuǎn)、展望、各樣查驗、碎石圖、得分圖、載荷圖等。yijai'bjij,i1,2,,nj1,2,,p主成分的模型表達(dá)式為:CVVp1iviviivivj0diag(1,2,,p),12p其中,a稱為得分,b稱為載荷。主成分解析主要的解析方法是對有關(guān)系數(shù)矩陣(或協(xié)方差矩陣)進(jìn)行特色值解析。Stata中可以經(jīng)過負(fù)偏有關(guān)系數(shù)矩陣、負(fù)有關(guān)系數(shù)平方和KMO值對主成分解析的合適性進(jìn)行解析。負(fù)偏有關(guān)系數(shù)矩陣即變量之間兩兩偏有關(guān)系數(shù)的負(fù)數(shù)。非對角線元素則為負(fù)的偏有關(guān)系數(shù)。假如變量之間存在較強(qiáng)的共性,則偏有關(guān)系數(shù)比較低。所以,假如矩陣中偏有關(guān)系數(shù)較高的個數(shù)比好多,說明某一些變量與其他一些變量的有關(guān)性比較低,主成分模型可能不合用。這時,主成分解析不可以獲取很好的數(shù)據(jù)約化收效。Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間有關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是經(jīng)過比較兩個變量的有關(guān)系數(shù)與偏有關(guān)系數(shù)獲取的。KMO介于0于1之間。KMO越高,表示變量的共性越強(qiáng)。假如偏有關(guān)系數(shù)有關(guān)于有關(guān)系數(shù)比較高,則KMO比較低,主成分解析不可以起到很好的數(shù)據(jù)約化收效。依據(jù)Kaiser1974),一般的判斷標(biāo)準(zhǔn)以下:0.00-0.49,不可以接受(unacceptable);0.50-0.59,特別差(miserable);,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受middling);,比較好(meritorious);0.90-1.00,特別好marvelous)。SMC即一個變量與其他全部變量的復(fù)有關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表示變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分解析就越合適。成分載荷、KMO、SMC等指標(biāo)都可以經(jīng)過extat命令進(jìn)行解析。多元方差解析是方差解析在多元中的擴(kuò)展,即模型含有多個響應(yīng)變量。本章介紹多元(協(xié))方差解析以及霍特林(Hotelling)均值向量T查驗。12.1主成分估計Stata可以經(jīng)過變量進(jìn)行主成分解析,也可以直接經(jīng)過有關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。1)sysuseauto,clearpcatrunkweightlengthheadroomseulavnegiE

pcatrunkweightlengthheadroom,comp(2)covariance2)webusebg2,clearpcabg2cost*,vce(normal)12.2Estatestat給出了幾個特別合用的工具,包括KMO、SMC等指標(biāo)。webusebg2,clearpcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize12.3展望Stata可以經(jīng)過predict展望變量得分、擬合值和殘差等。webusebg2,clearpcabg2cost*,vce(normal)predictscorefitresidualq(備注:q代表殘差的平方和)12.4碎石圖碎石圖是判斷保存多少個主成分的重要方法。命令為screeplot。webusebg2,clearpcabg2cost*,vce(normal)screeplotScreeplotofeigenvaluesafterpca25.115.123456Number2tnenopmocrfoserocS

12.5得分圖、載荷圖得分圖即不同樣主成分得分的散點(diǎn)圖。命令為scoreplot。webusebg2,clearpcabg2cost*,vce(normal)scoreplotScorevariables(pca)4202-4--6-4-2024Scoresforcomponent1載荷圖即不同樣主成分載荷的散點(diǎn)圖。命令為loadingplot。webusebg2,clearpcabg2cost*,vce(normal)loadingplotComponentloadings6.bg2cost152.bg2cost3tnenbg2cost2opm4oC.bg2cost53bg2cost6.bg2cost4-.4-.20.2.4.6Component112.6旋轉(zhuǎn)對載荷進(jìn)行旋轉(zhuǎn)的命令格式為rotate。webusebg2,clearpcabg2cost*,vce(normal)rotate例:對中國30個省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項指標(biāo)主成分解析,原始數(shù)據(jù)以下表:居民貨物周居民消商品零固定資員工平費(fèi)價錢售價錢工業(yè)總GDP花銷轉(zhuǎn)量省份產(chǎn)投資均薪資指數(shù)指數(shù)產(chǎn)值(億元)水平(億噸公(億元)(元)(上年(上年(億元)(元)里)100)100)areax1x2x3x4x5x6x7x8北京10488.03203463814.756328758.9105.1104.410413天津6354.38140003389.8417482703.4105.4105.112503河北16188.6165708866.6247565925.5106.2106.723031山西6938.7361873531.2258282562.2107.2107.210024內(nèi)蒙古7761.881085475.4261143658.7105.7104.78740.2遼寧13461.57962510019.1277297033.9104.6105.324769吉林6424.0675915038.9234861157.8105.1106.28406.9黑龍江831070393656230461690.9105.6105.87624.5上海1369815656516029.8105.8105.325121江蘇30312.611101315300.6316674300.9105.4104.967799浙江21486.92138939323341464974.9105106.340832安徽8874.1763776747263635843.2106.2106.311162福建10823.11103615207.7257022396.2104.6105.715213江西6480.3357534745.4210002285.5106106.18499.6山東31072.06957315435.92640410107.8105.3104.962959河南18407.78587710490.6248165165.1107107.526028湖北11330.3874065647227392526.4106.3106.313455湖南11156.6471455534248702349.8106105.611553廣東35696.461439010868.7331104428.4105.610665425廣西7171.5861033756.4256602079107.8107.66072海南1459.236550705.421864597.7106.9106.71103.1重慶5096.6698353979.6269851490.3105.61055755.9四川12506.2560727127.8250381578.7105.1105.314762貴州3333.444261864.524602805.3107.6107.23111.1云南5700.145533435.924030821.3105.7106.15144.6西藏395.913504309.94728035.5105.7103.948.19陜西6851.3262904614.4259422027106.4106.97480.8甘肅3176.1148691712.8240171594.9108.2107.93667.5青海961.535830583.230983335.7110.1110.61103.1寧夏1098.517193828.930719703.6108.5108.51366.5新疆4203.4155422260246871273108.1108.54276.1數(shù)據(jù):根源于2009年《中國統(tǒng)計年鑒》程序:clear定義變量的標(biāo)簽labelvararea省份labelvarx1"GDP(億元)"labelvarx2"居民花銷水平(元)"labelvarx3"固定財富投資(億元)"labelvarx4"員工平均薪資(元)"labelvarx5"貨物周轉(zhuǎn)量(億噸公里)"labelvarx6"居民花銷價錢指數(shù)(上年100)"labelvarx7"商品零售價錢指數(shù)(上年100)"labelvarx8"工業(yè)總產(chǎn)值(億元)"describepcax1-x8/*主成分估計*/estatkmo/*KMO查驗,越高越好*/estatsmc/*SMC查驗,值越高越好*/screeplot/*碎石圖(特色值等于1處的水平線標(biāo)示保存主成分的分界點(diǎn))*/predictscorefitresidualq

/*展望變量得分、擬合值和殘差以及殘差的平方和

*/predictf1f2f3predictq1q2q3scoreplot,mlabel(area)yline(0)xline(0)/*得分圖1*/scoreplot,xtitle("經(jīng)濟(jì)社會總量")ytitle("人民生活水平")///mlabel(area)yline(0)xline(0)/*得分圖*/scatterf2f3,xtitle("人民生活水平")ytitle("物價水平")///mlabel(area)yline(0)xline(0)/*得分圖*/scoreplot,factors(3)mlabel(area)/*得分圖*/scoreplot,combinedfactors(3)mlabel(area)yline(0)xline(0)/*得分圖*/loadingplot,yline(0)xline(0)/*載荷圖*/loadingplot,combinedfactors(3)yline(0)xline(0)/*載荷圖*/rotate/*旋轉(zhuǎn)*/解析:先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化辦理后,接著進(jìn)行主成分解析,可以獲?。罕恚篟的特色值和特色向量主成分特色值方差貢獻(xiàn)率累計貢獻(xiàn)率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99227.0416498.02119450.99748.0204553.1.0000從表中看到,前3個特色值累計貢獻(xiàn)率已達(dá)90.27%,說明前3個主成分基本包括了全部指標(biāo)擁有的信息,我們?nèi)∏?個特色值。經(jīng)過對載荷矩陣進(jìn)行旋轉(zhuǎn),可獲取,相應(yīng)的特色向量,見下表:第一、第二、第三特色值向量第一特色向量第二特色向量第三特色向量x1_s0.42490.30640.1079x2_s0.3217-0.44670.3101x3_s0.40570.3855-0.0181x4_s0.1856-0.61000.2536x5_s0.3520-0.05100.3714x6_s-0.34440.14270.5784x7_s-0.31180.27670.5769x8_s0.42090.29380.1495所從前三個主成分為:第一主成分:F1=0.4249x1+0.3217x2_s+0.4057x3_s+0.1856x4_s+0.3520x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分:F2=-0.0510x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s第三主成分:F3=0.1079x1+0.3101x2_s-0.0181x3_s+0.2536x4_s+0.3714x5_s-0.5784x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表達(dá)式中第一、第三、第八項指標(biāo)的系數(shù)較大,這三項指標(biāo)起主要作用,我們可以把第一主成分看作是由國內(nèi)生產(chǎn)總值、固定財富投資、工業(yè)總產(chǎn)值所刻劃的反應(yīng)經(jīng)濟(jì)社會總量的綜合指標(biāo);在第二主成分中,第二、第三、第四項指標(biāo)的影響大,且第二、第四項的影響較大,所以可以把第二主成分看作是由居民花銷水平、員工平均薪資表示的反應(yīng)人民生活水平的綜合指標(biāo);在第三主成分中,第六、第七項指標(biāo)大于其他的指標(biāo),可看作是受居民花銷價錢指數(shù)、商品零售價錢指數(shù)的影響,反應(yīng)物價水平的綜合指標(biāo)。在此次的主成分解析里面,我們可以進(jìn)行些查驗以考證我們解析的收效,經(jīng)過KMO查驗和SMC查驗,獲取了下面的查驗值:變量的KMO、SMC值表變量KMO值SMC值x1_s0.74230.9656x2_s0.53610.8366x3_s0.77060.9276x4_s0.47370.7647x5_s0.67940.6515x6_s0.54670.8837x7_s0.54820.8627x8_s0.76920.9591共計0.6447---Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間有關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是經(jīng)過比較兩個變量的有關(guān)系數(shù)與偏有關(guān)系數(shù)獲取的。KMO介于0于1之間。KMO越高,表示變量的共性越強(qiáng)。假如偏有關(guān)系數(shù)有關(guān)于有關(guān)系數(shù)比較高,則KMO比較低,主成分解析不可以起到很好的數(shù)據(jù)約化收效。依據(jù)Kaiser1974),一般的判斷標(biāo)準(zhǔn)以下:0.00-0.49,不可以接受(unacceptable);0.50-0.59,特別差(miserable);,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受middling);,比較好(meritorious);0.90-1.00,特別好marvelous)。SMC即一個變量與其他全部變量的復(fù)有關(guān)系數(shù)的平方,也就是復(fù)回歸方程的seulavnegiE

可決系數(shù)。SMC比較高表示變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分解析就越合適。依據(jù)KMO越高,表示變量的共性越強(qiáng)和SMC比較高表示變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分解析就越合適。從上表可以看出,在該例中,各變量基本符合要求。經(jīng)過碎石圖,我們可以很直觀的看出各個特色值的大小。在該圖中,特色值等于1處的水平線標(biāo)示了保存主成分解析的分界點(diǎn),同時再次重申了本例中的成分4到8其實不重要。碎石圖Screeplotofeigenvaluesafterpca4321002468Number經(jīng)過predict我們可以得出各個察看變量的所對應(yīng)的各個主成分的線性組合(即得分)。在得分圖里,我們可以看到不同樣地域在第一、第二主成分里各自的得分情況。得分圖2tnenopmocrfoserocS

Scorevariables(pca)2河南山東江蘇河北廣東青海新疆廣西湖北川甘肅江西四貴州山西安徽遼寧浙江0陜西湖南云南吉林海南黑龍江寧夏福建內(nèi)蒙古重慶2天津-西藏4北京上海--4-2024Scoresforcomponent1Scoreva

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論