




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4章大數(shù)據(jù)特征提取4.1特征提取的概念4.2特征提取的分類4.3特征選擇與特征提取方法的比較4.4-線性特征提取
4.1特征提取的概念
特征提取是指采用線性映射或者非線性映射,把樣本所在的高維特征空間映射到相應(yīng)的低維特征空間。一方面,通過對(duì)高維數(shù)據(jù)的特征提取,可以得到一個(gè)效果更好、更易處理的低維數(shù)據(jù)。另一方面,利用特征提取,容易得到可視化的低維數(shù)據(jù)空間,從而發(fā)現(xiàn)數(shù)據(jù)集的空間結(jié)構(gòu)。
特征提取的數(shù)學(xué)描述如下:
給定一個(gè)高維特征空間X={Xi|i=1,2,…,n,Xi∈RD},樣本Xi是一個(gè)d維向量,總共有n個(gè)樣本,特征提取是尋找X的低維特征空間Y={Yi|i=1,2,…,n,Yi∈Rd}(d?D),過程如下:
如果是線性特征提取,映射函數(shù)f的具體形式如下:
其中,V=[V1,V2,…,Vd]D×d是一個(gè)變換矩陣。
如果是非線性特征提取,則不存在這樣一個(gè)變換矩陣。
4.2特征提取的分類
按照不同的標(biāo)準(zhǔn),降維算法可分為不同的種類。(1)根據(jù)所作的映射F是否線性,降維算法相應(yīng)地分為線性算法和非線性算法。主成分分析、線性判別分析、獨(dú)立主成分分析、最大邊緣準(zhǔn)則等為經(jīng)典的線性降維算法;核方法、等距映射、局部線性嵌入和拉普拉斯特征值映射等為典型的非線性降維算法。
(2)根據(jù)是否將數(shù)據(jù)集的局部幾何結(jié)構(gòu)納入考慮,降維算法又可分為局部降維算法與非局部降維算法。如PCA和LDA等是典型性的全局型降維算法;而諸如LLE和LE一些流行學(xué)習(xí)算法以及其對(duì)應(yīng)的線性化算法、局部保持投影(LocalityPreservingProjections,LPP)和近鄰保持嵌入(NeighborhoodPreservingEmbedding,NPE)等為局部降維算法。
(3)根據(jù)降維過程是否利用監(jiān)督信息或其他形式的標(biāo)號(hào),降維算法可分為監(jiān)督型算法和無監(jiān)督型算法。如PCA、LPP和LLE等為無監(jiān)督型約簡算法,而LDA和最大間隔準(zhǔn)則等為有監(jiān)督型約簡算法。
(4)根據(jù)所作的映射F是否依賴于樣本數(shù)據(jù)集,可分為數(shù)據(jù)依賴型約簡算法與數(shù)據(jù)獨(dú)立型約簡算法。到目前為止,眾多降維算法中使用的映射F均需從數(shù)據(jù)集X中學(xué)習(xí)獲得,如PCA的投影方向與數(shù)據(jù)集的分布有關(guān);而另外新出現(xiàn)的降維算法,如隨機(jī)投影等所做的映射與數(shù)據(jù)集的性質(zhì)并無本質(zhì)聯(lián)系,所以稱其為數(shù)據(jù)獨(dú)立型降維算法。
4.3特征選擇與特征提取方法的比較特征選擇和特征提取各有各的優(yōu)勢。原始特征空間中,特征具有語義意義,經(jīng)過特征選擇后,特征仍具有語義意義,而經(jīng)過特征提取后,就很難再給特征賦予語義意義。但是,傳統(tǒng)的特征選擇方法根據(jù)某種評(píng)分來對(duì)特征進(jìn)行排序,然后求出特征子集,忽略了特征之間的聯(lián)系,因此很難得到最優(yōu)的特征子集,而特征提取更多地考慮特征之間的聯(lián)系。另外,通過對(duì)高維數(shù)據(jù)空間進(jìn)行特征提取,更容易得到可視化的低維數(shù)據(jù)空間,從而發(fā)現(xiàn)數(shù)據(jù)集的空間結(jié)構(gòu)。
特征選擇和特征提取又是相互聯(lián)系的,比如,數(shù)據(jù)方差是無監(jiān)督的,它用于特征選擇得到方差評(píng)分,也用于特征提取得到PCA。Fisher準(zhǔn)則是監(jiān)督的,它用于特征選擇得到拉普拉斯評(píng)分,也用于特征提取得到LDA。
在模式識(shí)別系統(tǒng)的設(shè)計(jì)過程中,可以只進(jìn)行特征選擇,也可以只進(jìn)行特征提取,還可以兩者都進(jìn)行。通常情況下維數(shù)約簡的步驟如下:
首先,進(jìn)行特征選擇,去除不重要的、不相關(guān)的、干擾性甚至破壞性的特征,這些特征不需要參與特征提取,甚至不需要獲取,這樣可以降低系統(tǒng)的開銷;然后,進(jìn)行特征提取,得到維數(shù)降低的特征空間;最后,用特征選擇和特征提取得到的特征來設(shè)計(jì)分類器。
4.4-線性特征提取4.4.1線性特征提取的思想1.線性特征提取思想
線性特征提取方法,即子空間學(xué)習(xí)方法。線性特征提取方法實(shí)現(xiàn)簡單,計(jì)算效率高,有嚴(yán)格的數(shù)學(xué)背景,能夠從高維數(shù)據(jù)空間發(fā)現(xiàn)嵌入其中的線性子空間的幾何結(jié)構(gòu)。但是,它是基于這樣一個(gè)假設(shè):嵌入高維數(shù)據(jù)空間的子空間是線性的,或者一定程度上近似線性的。如果所處理的高維數(shù)據(jù)空間滿足假設(shè)條件,線性特征提取就能夠發(fā)現(xiàn)真實(shí)的線性結(jié)構(gòu),得到準(zhǔn)確的低維表示。
2.經(jīng)典線性特征提取方法
目前,比較經(jīng)典有效的線性特征提取方法有:主成分分析、線性判別分析、獨(dú)立主成分分析和最大邊緣準(zhǔn)則。
4.4.2主成分分析
1.主成分分析原理及方法
主成分分析(PCA)的目標(biāo)是尋找能夠代表原始數(shù)據(jù)結(jié)構(gòu)的最優(yōu)線性投影方向,即協(xié)方差最大的投影軸,實(shí)現(xiàn)過程如下:
給定均值為零的數(shù)據(jù)集X=[X1,X2,…,Xn]∈RD×n,樣本Xi是一個(gè)D維向量,總共有n個(gè)樣本。在PCA中,假設(shè)通過線性映射Yi
=VTXi可以得到對(duì)應(yīng)于高維向量Xi∈RD(i=1,2,…,n)的低維向量Yi
∈RD
(i=1,2,…,n),則PCA的目標(biāo)函數(shù)如下:
式中,為數(shù)據(jù)集的協(xié)方差矩陣;V是PCA尋找的線性投影方向。
1)主成分分析法的概念
主成分分析也稱主分量分析,是揭示大樣本、多變量數(shù)據(jù)或樣本之間內(nèi)在關(guān)系的一種方法,旨在利用降維的思想,把多指標(biāo)(特征)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),降低觀測空間的維數(shù),以獲取最主要的信息。
在統(tǒng)計(jì)學(xué)中,主成分分析是一種簡化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用來減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要的方面。但是,這也不是絕對(duì)的,要視具體應(yīng)用而定。
2)主成分分析的基本思想
在實(shí)證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素(特征)。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。
對(duì)同一個(gè)體進(jìn)行多項(xiàng)觀察時(shí)必定涉及多個(gè)隨機(jī)變量,它們之間都存在著相關(guān)性,一時(shí)難以綜合。這時(shí)就需要借助主成分分析來概括諸多信息的主要方面。
任何一個(gè)度量指標(biāo)的好壞除了可靠、真實(shí)之外,還必須能充分反映個(gè)體間的變異。如果有一項(xiàng)指標(biāo),不同個(gè)體的取值都大同小異,那么該指標(biāo)不能用來區(qū)分不同的個(gè)體。由這一點(diǎn)來看,一項(xiàng)指標(biāo)在個(gè)體間的變異越大越好。因此我們把“變異大”作為“好”的標(biāo)準(zhǔn)來尋求綜合指標(biāo)。
3)主成分的幾何解釋
從幾何角度來看,主成分分析是將由原變量
X=[X1,X2,…,XD]T構(gòu)成的坐標(biāo)進(jìn)行旋轉(zhuǎn),選擇具有最大方差的幾個(gè)變量構(gòu)成新的坐標(biāo)系統(tǒng),新的坐標(biāo)Y=[Y1,Y2,…,Yd]T,d<D提供了對(duì)原變量的協(xié)方差結(jié)構(gòu)的最優(yōu)逼近。假設(shè)隨機(jī)向量X的協(xié)方差矩陣為Σ,Σ有特征值特征向量對(duì)(λ1,e1),(λ2,e2),…,(λD,eD),其中λ1≥λ2≥…λD≥0。
考慮線性組合
由隨機(jī)向量變換的性質(zhì),易得
隨機(jī)變量Y1,Y2,…,Yd分別被稱作X=[X1,X2,…,XD]T的第一主成分,第二主成分,…,第d主成分,如果它們滿足:
(1)Yi與Yj(i≠j)不相關(guān);
(2)在X所有線性組合中,Y1具有最大方差;在X所有線性組合中,Y2具有最大方差且與Y1不相關(guān),…;在X所有線性組合中,Yi具有最大方差且與Y1,Y2,…,Yi-1不相關(guān)。
為了不使隨機(jī)變量Yi的方差無限大,限定aiTai=1,i=1,2,…,D。由以上條件,求第一主成分轉(zhuǎn)化為以下問題:
使用拉格朗日乘子法易得:a1=e1時(shí)上述問題有最大值,且最大值為Σ,最大特征值λ1,即
類似的方法求第i個(gè)主成分可以得到
由特征值特征向量定義,任意ei,ej(i≠j)彼此正交,因此
可見X的主成分即以協(xié)方差Σ的正交特征向量為系數(shù)的線性組合,第i個(gè)主成分的系數(shù)是對(duì)應(yīng)于第i個(gè)協(xié)方差特征根λi的特征向量,其方差為λi。
利用d個(gè)主成分可以代替D個(gè)相關(guān)變量進(jìn)行數(shù)據(jù)分析,d個(gè)主成分要能夠概括原變量所提供信息的大部分,為說明各主成分Yi概括原變量信息的大小,定義某主成分Yi的方差貢獻(xiàn)率為
4)主成分分析法的基本原理
主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差矩陣變換成對(duì)角形矩陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的d個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度將其轉(zhuǎn)換成低維變量系統(tǒng),再通過構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。
5)主成分的性質(zhì)
主成分C1,C2,…,Cd具有如下幾個(gè)性質(zhì)。
(1)主成分間互不相關(guān),即對(duì)任意i和j,Ci和Cj的相關(guān)系數(shù):
(2)組合系數(shù)(a11,a12,…,a1d)構(gòu)成的向量為單位向量。
(3)各主成分的方差是依次遞減的,即var(C1)≥var(C2)≥,…,≥var(Cd)。
(4)總方差不增不減,即
這一性質(zhì)說明,主成分是原變量的線性組合,是對(duì)原變量信息的一種改組,主成分不增加總信息量,也不減少總信息量。
(5)主成分和原變量的相關(guān)系數(shù)corr(Ci,xj)=aij。
(6)令X1,X2,…,Xd的相關(guān)矩陣為R,(a11,a12,…,a1d)則是相關(guān)矩陣R的第i個(gè)特征向量(eigenvector)。而且,特征值Ii就是第i個(gè)主成分的方差,即
其中,Ii為相關(guān)矩陣R的第i個(gè)特征值(eigenvalue)
6)主成分?jǐn)?shù)目的選取
前已指出,設(shè)有d個(gè)隨機(jī)變量,便有d個(gè)主成分。由于總方差不增不減,C1、C2等前幾個(gè)綜合變量的方差較大,而Cd、Cd-1等后幾個(gè)綜合變量的方差較小,嚴(yán)格說來,只有前幾個(gè)綜合變量才稱得上主(要)成分,后幾個(gè)綜合變量實(shí)為次(要)成分。實(shí)踐中總是保留前幾個(gè),忽略后幾個(gè)。
7)主成分分析的主要作用
概括起來說,主成分分析主要有以下幾個(gè)方面的作用。
(1)主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù),即用研究d維的Y空間代替D維的X空間(d<D),而低維的Y空間代替高維的X空間所損失的信息很少。即:使只有一個(gè)主成分Y1(即d=1)時(shí),這個(gè)Y1仍是使用全部X變量(D個(gè))得到的。
(2)多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問題大都多于3個(gè)變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布情況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對(duì)樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。
(3)由主成分分析法構(gòu)造回歸模型,即把各主成分作為新自變量代替原來自變量X做回歸分析。
(4)用主成分分析篩選回歸變量?;貧w變量的選擇有著重要的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),以便從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合,用主成分分析篩選變量,可以用較少的計(jì)算量來選擇變量,獲得選擇最佳變量子集合的效果。
8)主成分分析法的計(jì)算步驟
(1)原始指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化采集D維隨機(jī)向量x=(x1,x2,…,xD)
T,n個(gè)樣品xi=(xi1,xi2,…,xiD)T,i=1,2,…,n,n>D,構(gòu)成樣本陣,對(duì)樣本元進(jìn)行如下標(biāo)準(zhǔn)化變換:
(2)對(duì)標(biāo)準(zhǔn)化陣Z求相關(guān)系數(shù)矩陣:
(4)將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分:
U1稱為第一個(gè)主成分,U2稱為第二個(gè)主成分,…,Ui稱為第i個(gè)主成分。
(5)對(duì)d個(gè)主成分進(jìn)行綜合評(píng)價(jià)。
對(duì)d個(gè)主成分進(jìn)行加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為每個(gè)主成分的方差貢獻(xiàn)率。
2.主成分分析改進(jìn)方法
1)概率主成分分析
概率主成分分析方法不但能完成降維的工作,而且還提供了數(shù)據(jù)分布的一種概率模型。PCA是一種常用的降維方法,它在數(shù)據(jù)降維的同時(shí)還保留了其內(nèi)在的變化,對(duì)不同的數(shù)據(jù),PCA可以根據(jù)其局部空間特性,用不同的基向量來表示。近來,針對(duì)PCA只能用全局線型來表示數(shù)據(jù),Tipping等提出了PPCA,并通過期望最大化(EM)算法來訓(xùn)練PCA的概率模型。
一般來說,對(duì)于目標(biāo)檢測問題,根據(jù)MAP(Maximumapriority)原則,似然函數(shù)可直接用作一種“度量”目標(biāo)在特征向量x處顯著性的一種函數(shù)。為簡化計(jì)算及約束取值范圍,按照上式定義如下的顯著性函數(shù):
這里S(x)為定義的顯著性函數(shù)。從式(4-19)~式(4-22)容易看出:S(x)∈(0,1)。令z=WT(x-u),則式(4-22)變?yōu)?/p>
2)EMPCA算法
主成分分析(PCA)是一種非常有用的統(tǒng)計(jì)學(xué)方法,在人臉識(shí)別和圖像壓縮方面有著廣泛的運(yùn)用,但是PCA本身存在著一些不足之處,如在數(shù)據(jù)的維數(shù)很高或者數(shù)據(jù)量很大的時(shí)候,尋找主成分比較困難;PCA不能有效地處理丟失的數(shù)據(jù);目前PCA還沒有一個(gè)有效的方法來計(jì)算它的參數(shù)等。實(shí)際上,在大數(shù)據(jù)特征提取過程中,訓(xùn)練的樣本量一般都很大,而且樣本的維數(shù)一般也比較高,而這種情況正不利于PCA性能的發(fā)揮。
假設(shè)X=[x1,x2,…,xn](其中xi=(xi1,xi2,…,xiD)T∈RD是一個(gè)樣本,i=1,2,…,n)是一個(gè)D×n的矩陣,D是每個(gè)數(shù)據(jù)的維數(shù),n是數(shù)據(jù)量,iter是EM運(yùn)算法則的循環(huán)次數(shù),d是要保留的主成分的個(gè)數(shù),將C初始化為一個(gè)D×d的矩陣,在本實(shí)驗(yàn)中通過rand函數(shù)產(chǎn)生,首先利用式(4-24)得到樣本均值mean1:
再循環(huán)執(zhí)行式(4-25)和式(4-26)iter次,得到矩陣C。
假定x是一個(gè)n維樣本,則由EM-PCA產(chǎn)生的新的向量y為
3)其他發(fā)展方向近年來有學(xué)者使用基于人臉對(duì)稱性的特征提取方法進(jìn)行人臉識(shí)別。楊瓊等人在引入鏡像樣本、應(yīng)用鏡像對(duì)稱性的基礎(chǔ)上,結(jié)合KL展開與奇偶分解原理提出對(duì)稱主分量分析算法。對(duì)于奇偶對(duì)稱KL特征分量,根據(jù)它們各自的能量進(jìn)行排序選擇,選擇能量較大(亦即方差較大)的分量作為特征值。根據(jù)特征值挑選出來的本征向量只表示熵的意義下是最優(yōu)的,它沒有類別信息。
楊健提出二維主成分分析。其基本思想是利用圖像矩陣直接構(gòu)造圖像散布矩陣,并在此基礎(chǔ)上進(jìn)行鑒別分析。2DPCA相對(duì)于PCA有以下兩個(gè)優(yōu)點(diǎn):計(jì)算散布矩陣更容易更準(zhǔn)確,計(jì)算相應(yīng)本征向量的速度更快。
4.4.3線性判別分析
1.線性判別分析原理及方法
1)LDA原理及方法線性判別分析(LDA)(或稱為Fisher線性判別)的目標(biāo)是尋找能把原始數(shù)據(jù)包含的各類數(shù)據(jù)分開的最優(yōu)線性投影方向,即可以把類間散度和類內(nèi)散度的比值最大化的投影軸,實(shí)現(xiàn)過程如下:
假設(shè)訓(xùn)練數(shù)據(jù)集X={X1,X2,…,XC},其中Xi,i=1,2,…,C是第i類數(shù)據(jù)集,其中包含的數(shù)據(jù)個(gè)數(shù)為ni,樣本x1,x2,…,xn∈RD,我們一般用矩陣的離散度來描述樣本的分布,于是,得到Fisher準(zhǔn)則:
可以用圖4-1表示LDA目標(biāo)函數(shù)的物理意義。圖4-1LDA示意圖
2)LDA存在問題
(1)LDA中存在秩限制問題。下面考查類間離散度矩陣Sb的秩,由前面定義有:
所以類間離散度矩陣Sb的秩
(2)LDA中存在的奇異性問題。
當(dāng)樣本總數(shù)大于樣本維數(shù)時(shí),類內(nèi)離散度矩陣Sw通常非奇異;否則Sw是奇異的,此種情況稱為小樣本問題,在Sw奇異的情況下,已有的解決辦法可以參考文獻(xiàn)。
2.線性判別分析改進(jìn)方法
對(duì)線性判別分析的改進(jìn)算法展開的分析和研究,分為兩類:基于類內(nèi)散度矩陣Sw
零空間和基于全散度矩陣St列空間的降維方法,探究了改進(jìn)降維算法之間的等價(jià)關(guān)系,并且其最優(yōu)解形式相同,最后總結(jié)和比較了擴(kuò)展的LDA的方法的優(yōu)缺點(diǎn),并對(duì)降維發(fā)展的方向進(jìn)行了展望。
1)基于Sw
零空間的降維算法
本節(jié)介紹基于Sw
零空間研究的降維算法:零空間LDA(NLDA),chen等人曾經(jīng)驗(yàn)證了Sw
包含了重要的判別信息。
NLDA的基空間是Sw
零空間,在零空間內(nèi)確定出線性變換矩陣G,使在Sw
零空間上類間散度最大,其基本思想是在Sw
零空間中,大量的鑒別信息存在于使Sb投影非零的方向。于是,奇異問題被有效地解決,因此,NLDA的最優(yōu)變換滿足:
另一方面,如果y∈N(Sw)∩N(Sb),有
其步驟如下:
2)基于St列空間的降維算法
本節(jié)介紹基于St列空間的降維算法:不相關(guān)LDA(ULDA)、正交LDA(OLDA)和直接LDA(DLDA),并對(duì)以上降維算法進(jìn)行了詳細(xì)的闡述。
(1)不相關(guān)LDA(ULDA)。
LDA(ULDA)尋找關(guān)于St正交的最優(yōu)鑒別矢量,其變換后的特征是線性無關(guān)的,能夠去除多余的特征描述,滿足G=argmaxtrace((GTStG)-1GTSbG)。
(2)正交LDA(OLDA)。
OLDA基空間是St的列空間,在列空間中確定線性變換矩陣G,使在St的列空間上類間數(shù)據(jù)相距較遠(yuǎn),找出相互正交的最優(yōu)鑒別矢量是OLDA與ULDA的最大不同之處,滿足:
其中,前2步與ULDA相同,令WM=U1Σt1M=QR,則G=Q即為OLDA的最優(yōu)解。
(3)直接LDA(DLDA)。
直接LDA(DLDA)是將離散矩陣一起對(duì)角化,可以有效地克服奇異問題,不同版本DLDA是由于對(duì)角化順序的不同而不同。DLDA-ST采用廣義Fisher準(zhǔn)則,DLDA-ST首先對(duì)角化St,選擇St的列空間作為基空間,求出St列空間,它是由非零特征值對(duì)應(yīng)得來的,接下來將Sw投影到此基空間,并特征分解基空間中的類內(nèi)散度矩陣,鑒別矢量G即為最小特征值所對(duì)應(yīng)的矩陣。
實(shí)現(xiàn)步驟如下:
(1)確定St的列空間:對(duì)Ht進(jìn)行奇異值分解,令Ht=U1Σt1VT,其中Σt1∈Rt×t和U1∈Rm×t(t=rank(Ht)為矩陣Ht的秩)為非零奇異值組成的對(duì)角矩陣和相應(yīng)特征矢量構(gòu)成的矩陣,均為將序排列的對(duì)角矩陣。令Z=U1Σ-1t1,則有
(2)將Sw
投影到由Z的列組成的子空間,將其對(duì)角化;經(jīng)特征值分解,有ZT
Sw
Z=YΣ2wYT取Y中較小特征值對(duì)應(yīng)的列,為了降維后的數(shù)據(jù)準(zhǔn)確性,通常情況下取t個(gè)特征矢量構(gòu)成的矩陣Y1及相應(yīng)對(duì)角矩陣Σw1。
(3)矩陣G=U1Σ-1t1Y1Σ-1w1即為DLDA—ST的最優(yōu)解。則其最優(yōu)變換滿足:
而DLDASB則是在步驟1中Sb取代St,其余步驟一樣,則最優(yōu)變換矩G=BΣ-1b1
Y1Σ-1w1,由于更多鑒別信息存在于零空間中,從而此方法不能獲得最佳的鑒別矢量。
4.4.4-獨(dú)立成分分析
1.獨(dú)立成分分析原理及方法
獨(dú)立成分分析(ICA)是近年來出現(xiàn)的一種強(qiáng)有力的數(shù)據(jù)分析工具。ICA從出現(xiàn)到現(xiàn)在雖然時(shí)間不長,然而無論從理論上還是應(yīng)用上,它正受到越來越多的關(guān)注,成為國內(nèi)外研究的一個(gè)熱點(diǎn)。
ICA是一種用來從多變量(多維)統(tǒng)計(jì)數(shù)據(jù)里找到隱含的因素或成分的方法,被認(rèn)為是主成分分析的一種擴(kuò)展。
1)ICA原理
為了給ICA下一個(gè)嚴(yán)格的定義,這里需要使用一個(gè)隱藏的統(tǒng)計(jì)變量模型
式(4-44)中的統(tǒng)計(jì)模型稱為獨(dú)立成分分析,或者ICA模型,它表示被觀察到的數(shù)據(jù)是如何由獨(dú)立成分混合而產(chǎn)生的。獨(dú)
ICA的出發(fā)點(diǎn)非常簡單,如圖4-2所示。它假設(shè)成分是統(tǒng)計(jì)獨(dú)立的,而且還必須假設(shè)獨(dú)立成分是非高斯分布的。統(tǒng)計(jì)獨(dú)立的概念將在下面給出定義,為了簡單起見,假設(shè)未知的混合陣為方陣。如果能計(jì)算出A的逆W,這樣獨(dú)立成分可由下式得到
式(4-44)中的ICA模型存在如下的兩個(gè)不確定性因素:
(1)不能確定獨(dú)立成分的方差;
(2)不能確定獨(dú)立成分的順序。圖4-2基本的ICA模型
為了描述方便,以固定某個(gè)時(shí)刻或者某種觀測樣本為例,去除樣本標(biāo)號(hào)t,將獨(dú)立成分分析模型記為
而其中的各個(gè)混合信號(hào)也可以由下式表示
這就是ICA生成模型,此模型描述了觀測樣本如何通過獨(dú)立成分S(IndependentCompo-nent,IC)混合生成。通常獨(dú)立成分S不是可以直接觀測到的成分,是一種潛在的成分,而混合矩陣A作為獨(dú)立成分的混合系數(shù)也是未知。唯一已知的變量就是X,ICA生成模型就解決了在已知觀測X和假設(shè)其中含有多個(gè)盡可能相互獨(dú)立成分的條件下求出混合矩陣A和獨(dú)立成分矩陣S。
2)ICA的約束條件
上面的ICA生成模型要使得各個(gè)成分和混合矩陣能夠被估計(jì),一般需要作一定的約束假設(shè)。
(1)假定各個(gè)獨(dú)立成分是統(tǒng)計(jì)獨(dú)立的。
假設(shè)獨(dú)立成分具有統(tǒng)計(jì)獨(dú)立是ICA成立的前提條件。但其實(shí)只要擁有這個(gè)前提條件,對(duì)于ICA生成模型就已經(jīng)可以解決問題了,這也是ICA生成模型可以為許多領(lǐng)域得以應(yīng)用的一個(gè)強(qiáng)有力的因素。
常規(guī)意義上講,兩個(gè)成分獨(dú)立,即兩個(gè)成分之間不包含對(duì)方的信息,從一方不可獲知另外一方的任何信息。而從學(xué)術(shù)上講,獨(dú)立可以通過數(shù)學(xué)定義給出,在概率統(tǒng)計(jì)中,統(tǒng)計(jì)獨(dú)立性通過概率密度給出定義,當(dāng)滿足
時(shí),x、y變量獨(dú)立,即兩個(gè)獨(dú)立隨機(jī)變量x和y的聯(lián)合密度可以分解為兩個(gè)隨機(jī)變量的邊緣概率密度之積。
(2)獨(dú)立成分具有非高斯分布。
由于高斯分布的高階累積量為零,而對(duì)于ICA模型,高階信息才是研究的重點(diǎn),所以若觀測樣本為高斯分布,那么ICA模型是失效的,因?yàn)闊o法從觀測樣本中分離出獨(dú)立的高斯成分,估計(jì)出的成分可能是高斯成分的某些線性組合,即無法從其中分離出兩個(gè)獨(dú)立的高斯分量。當(dāng)然觀測樣本中允許有一個(gè)高斯成分存在,而且有且僅有一個(gè),這樣ICA模型可以將其估計(jì)出來,因?yàn)檫@個(gè)唯一的高斯成分和其他非高斯成分不會(huì)有線性組合。
3)求解ICA生成模型的一般步驟
(1)觀測變量的中心化。
這里的中心化是指將觀測數(shù)據(jù)去均值,使其均值為零,這樣做可以簡化理論和算法,通過對(duì)觀測變量中心化的實(shí)現(xiàn),也就是對(duì)初始X進(jìn)行去均值處理:
(2)白化。
為了更清楚的解析白化,需要先解析三個(gè)概念:獨(dú)立性,不相關(guān)性,白化。
獨(dú)立性對(duì)于兩個(gè)隨機(jī)變量來說具有以下性質(zhì)
即對(duì)隨機(jī)變量x1、x2它們的任何函數(shù)的乘積的期望等于各自函數(shù)期望的乘積時(shí),則可以認(rèn)為這兩個(gè)變量相互獨(dú)立。
不相關(guān)性對(duì)于兩個(gè)隨機(jī)變量來說具有以下性質(zhì)
即當(dāng)兩個(gè)隨機(jī)變量x1,x2的協(xié)方差cov(x1,x2)為零時(shí),則這兩個(gè)變量為不相關(guān),由于在本節(jié)中對(duì)觀測樣本都去均值,所以不相關(guān)更加簡單,只需要cov(x1,x2)=E{x1,x2}=0即可??梢钥吹疆?dāng)兩個(gè)變量相互獨(dú)立時(shí),一定滿足不相關(guān),但反過來不一定成立。
白化要滿足兩個(gè)條件,對(duì)于一個(gè)均值為零的隨機(jī)向量X={x1,x2
,…,xn}T,白化過是指該向量的各個(gè)分量都具有同一單位方差且互不相關(guān),也就是要滿足
即隨機(jī)變量x的協(xié)方差矩陣為單位矩陣,也就是各分量間滿足
而每個(gè)分量自身滿足
所以白化要比不相關(guān)條件更強(qiáng)一些,要求在不相關(guān)的基礎(chǔ)上具有單位方差。
對(duì)一個(gè)變量要白化指的是對(duì)觀測向量X通過與矩陣Whiten線性相乘,即按照下式處理:
得到新的向量Z滿足不相關(guān)和單位方差的白化條件,就稱對(duì)X進(jìn)行了白化,Z是白的,Whiten就稱為X的白化矩陣。
白化方程主要有兩種:
(1)特征值分解(EigenvalueDecomposition,EVD)白化。通過對(duì)觀測數(shù)據(jù)X={x1,x2,…,xn}T的協(xié)方差矩陣進(jìn)行特征值分解:
式中,U為特征值向量的正交矩陣,每列代表一個(gè)特征向量;Λ為對(duì)應(yīng)的特征值對(duì)角矩陣。從而對(duì)X的白化過程可以通過求白化矩陣Whiten由下式實(shí)現(xiàn):
通過該白化矩陣前乘觀測數(shù)據(jù)即可將觀測數(shù)據(jù)白化。
(2)主成分分析(PrincipalComponentAnalysis,PCA)白化。
類似于特征值分解白化,主成分分析白化過程也是利用對(duì)觀測數(shù)據(jù)X={x1,x2,…,xn}T的協(xié)方差矩陣Cx進(jìn)行特征值分解:
但是,與特征值分解白化不同之處是在ICA中,通常在PCA處理步驟中要引入降維處理,體現(xiàn)在特征值和特征向量的選取上,通過對(duì)特征值進(jìn)行降序排列,從n個(gè)特征值中取前m個(gè)最大的特征值及其對(duì)應(yīng)的特征向量作為白化矩陣,這就是主成分分析中主分量的體現(xiàn),即令:
白化矩陣Whiten為
可以驗(yàn)證通過這個(gè)白化矩陣白化過的Z具有單位方差互不相關(guān),即會(huì)滿足
此外可以發(fā)現(xiàn),白化矩陣并不唯一,任何正交矩陣乘以白化矩陣依然不會(huì)改變白化性質(zhì)。
(3)ICA算法。
將白化過的觀測數(shù)據(jù)Z和白化矩陣Whiten送入ICA算法處理,得到正交矩陣B。這里可以選擇多種ICA算法,如極大化非高斯性的ICA估計(jì)算法,極大似然估計(jì)的ICA算法,極小化互信息的ICA估計(jì)算法,基于張量的ICA估計(jì)算法,基于非線性去相關(guān)和非線性PCA的ICA估計(jì)算法等。
(4)正交化。
對(duì)白化過的觀測數(shù)據(jù)Z進(jìn)行正交化,正交化會(huì)將白化數(shù)據(jù)Z中各個(gè)不相關(guān)的分量轉(zhuǎn)化為各分量間相互獨(dú)立,對(duì)白化數(shù)據(jù)正交化采用如下方式:
這樣S=(
s1,s2,…,sm)T為分解出來的各個(gè)獨(dú)立分量。對(duì)上面的式子進(jìn)行變形可以得到:
2.獨(dú)立成分分析改進(jìn)方法
有一個(gè)經(jīng)典的等式可以用來描述獨(dú)立成分分析方法:
ICA方法=目標(biāo)函數(shù)+優(yōu)化算法
ICA方法的統(tǒng)計(jì)性質(zhì),比如魯棒性、一致性等取決于目標(biāo)函數(shù)的選擇,而算法的性質(zhì),比如算法的收斂速度、穩(wěn)定性等則取決于優(yōu)化算法。只有二者結(jié)合才可以得到快速又具有魯棒性強(qiáng)的ICA生成模型分解方法。當(dāng)然,同一種優(yōu)化算法可以服務(wù)于多種不同的ICA目標(biāo)函數(shù),比如快速不動(dòng)點(diǎn)算法就可以用于優(yōu)化多種ICA目標(biāo)函數(shù)。
1)獨(dú)立成分分析算法的目標(biāo)函數(shù)
獨(dú)立成分分析算法的主要目標(biāo)函數(shù)有極大化非高斯性、極小化互信息、最大似然估計(jì)等。主要的優(yōu)化算法有非線性去相關(guān)法、梯度下降算法、非線性PCA算法、FastICA算法。
(1)極大化非高斯性目標(biāo)函數(shù)。
度量非高斯性的相關(guān)概念有熵、KL散度、負(fù)熵。
①熵用來衡量信息量大小,熵是指在信號(hào)當(dāng)中包含的平均信息量。對(duì)于離散隨機(jī)變量取x=xi所能獲取的信息量會(huì)根據(jù)其后驗(yàn)概率的升高而增加,不過它會(huì)根據(jù)其先驗(yàn)概率的增加而減少。
對(duì)x=xi隨機(jī)變量獲得的信息量Ii:
在不考慮噪聲和干擾時(shí),后驗(yàn)概率為1,先驗(yàn)概率為Pi。對(duì)于離散信號(hào)M個(gè)不同取值的N次輸出所得總信息量為I:
所以每次輸出隨機(jī)變量獲得的平均信息量H為
H稱為熵。
②KL散度。Kullback-leibler散度也稱為KL熵,它是兩個(gè)概率密度函數(shù)想似度的衡量。假設(shè)隨機(jī)變量x有兩種概率密度函數(shù)p(x)、q(x),那么這兩者間的KL散度為
由于總是存在
所以任何隨機(jī)變量x的KL散度總大于等于零:
散度在高斯分布中有特殊的性質(zhì),在協(xié)方差矩陣相等的概率密度函數(shù)中,高斯分布的熵值最大。假設(shè)pg(x)為高斯分布,p(x)為其他分布,且假設(shè)二者的協(xié)方差矩陣相等,則此時(shí)的隨機(jī)變量的KL散度為
由于高斯分布具有特殊性質(zhì),當(dāng)隨機(jī)變量的其他任何聯(lián)合概率密度函數(shù)和高斯分布密度函數(shù)具有同樣的協(xié)方差矩陣時(shí),具有如下的熵性質(zhì):
所以此時(shí)隨機(jī)變量的散度滿足
從而具有
即在協(xié)方差矩陣相等的概率分布中,高斯分布的熵值最大。
③負(fù)熵。在散度中討論過具有相同協(xié)方差矩陣的普通分布和高斯分布中,高斯分布的熵最大,所以把具有任意概率密度函數(shù)p(x)和與之具有同樣協(xié)方差矩陣的高斯分布之間的KL散度作為這種任意分布的非高斯性程度的度量[8],越遠(yuǎn)離高斯分布,就越非高斯化,這種非高斯性的度量就稱為負(fù)熵。定義為
也就是
由此隨機(jī)變量概率密度分布的負(fù)熵就為與之具有同樣協(xié)方差矩陣的高斯分布的信息量的差。負(fù)熵永遠(yuǎn)大于等于零,負(fù)熵越大非高斯性就越強(qiáng),負(fù)熵為零則為高斯分布。
(2)基于負(fù)熵的極大非高斯性作為ICA目標(biāo)函數(shù)。
采用極大非高斯性作為各種ICA應(yīng)用的目標(biāo)函數(shù),而且采用負(fù)熵作為極大非高斯性的度量,所以采用負(fù)熵作為ICA目標(biāo)函數(shù)時(shí),極大化負(fù)熵就是目標(biāo)函數(shù),即:
由于直接用該式來計(jì)算負(fù)熵需要大量的原始數(shù)據(jù),而很多情況下并無先驗(yàn)知識(shí),求解不方便,所以可采用一種非線性的非多項(xiàng)式函數(shù)來逼近概率密度函數(shù)。
可以將非線性函數(shù)展開成高階統(tǒng)計(jì)量表達(dá)式,比如tanh通過泰勒級(jí)數(shù)展開為
正是通過負(fù)熵的近似表示中引入了這些非線性函數(shù),而這些非線性函數(shù)隱含了高階統(tǒng)計(jì)量,從而獨(dú)立成分分析通過非線性直接或間接方式使用了高階統(tǒng)計(jì)量,獲取了比主成分分析可以獲取的更高階的信息量。
2)FastICA優(yōu)化算法
(1)固定點(diǎn)算法。
固定點(diǎn)算法(fixed-pointalgorithm)也叫固定點(diǎn)迭代算法或不動(dòng)點(diǎn)算法。為了描述該算法,結(jié)合一個(gè)常見的代數(shù)例子來說明。圖4-3迭代收斂說明圖
對(duì)于上述問題也可以采用牛頓迭代算法,對(duì)于牛頓迭代法有與上例類似的過程,也具有xm+1=g(xm)的迭代框架,如圖4-4所示,采用切線逼近的方式,步步更替迭代直到收斂于a值:
從而產(chǎn)生迭代式圖4-4-牛頓迭代說明圖
先選定一點(diǎn)B作為x取值,過點(diǎn)(x,f(x))作f(x)的切線,由切線和y=0的交點(diǎn)C作為下一個(gè)迭代x值點(diǎn),一次遞推,直到收斂得到正確的解。
從以上兩種迭代過程可以看到,對(duì)于一個(gè)問題,迭代式g(x)的選擇可以有多種,有些選擇得到的迭代過程慢,有些選擇得到的過程快,甚至不會(huì)收斂。對(duì)于牛頓迭代算法當(dāng)y=f(x)函數(shù)滿足一定條件,如選擇的初始點(diǎn)很接近a,并且在a點(diǎn)f(x)的導(dǎo)數(shù)存在,則一定能夠收斂。
所以固定點(diǎn)算法可以總結(jié)為選定初始點(diǎn),采用某種合適的迭代過程,多次更新替代原取值點(diǎn),逐步達(dá)到收斂于某固定點(diǎn)。
(2)基于負(fù)熵的ICA快速不動(dòng)點(diǎn)算法。
對(duì)于基于極大非高斯性以負(fù)熵為判據(jù)的目標(biāo)函數(shù)確定后,需要對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,以獲得好的魯棒性和快的運(yùn)行速度,可采用ICA不動(dòng)點(diǎn)算法(FastICA算法),通過基于負(fù)熵的目標(biāo)函數(shù)和不動(dòng)點(diǎn)算法相結(jié)合,可以快速分解ICA生成模型,得到好的分解效果,由于該算法采用牛頓迭代過程,所以收斂效果好,收斂速度有保證,并且迭代過程不需要調(diào)節(jié)步長等設(shè)置的參數(shù),使用簡單方便。
由上面所述,基于負(fù)熵的目標(biāo)函數(shù)求導(dǎo)有
當(dāng)穩(wěn)態(tài)時(shí)Δbi=0,可以得到固定點(diǎn)迭代的兩步算法:
式(4-99)是進(jìn)行歸一化運(yùn)算,從而式(4-97)的系數(shù)γ可以去掉,沒有影響。由于上面的兩步算式在實(shí)踐中發(fā)現(xiàn)其收斂性不是很好,進(jìn)而采用牛頓迭代算法進(jìn)行改進(jìn)得到優(yōu)化的固定點(diǎn)算式:
對(duì)于提取單個(gè)獨(dú)立分量,基于負(fù)熵的FastICA算法步驟如下:
在解決實(shí)際問題中,往往需要提取多個(gè)獨(dú)立成分,將ICA模型完全分解,按理可以通過多次重復(fù)上述提取單個(gè)分量步驟來獲取多個(gè)分量,但是為了防止多次提取同一個(gè)已經(jīng)提取過的獨(dú)立分量,可以選擇在算法中添加正交化處理,將提取過的分量去除,通過下式來達(dá)到
式中,尖括號(hào)內(nèi)為內(nèi)積。
3)快速獨(dú)立成分分析兩種模型
獨(dú)立成分分析模型有兩類,同樣基于負(fù)熵的快速獨(dú)立成分分析模型也有兩類,分別為FastICAI和FastICAII,兩種模型的區(qū)別在于FastICAI處理的樣本矩陣按行排列,FastICAII處理的樣本矩陣按列排列,其他求解步驟一致,在處理多層ICA模型擴(kuò)展算法中都是采用第二種模型。
(2)快速獨(dú)立成分分析模型2(FastICAII)。
FastICAII算法的求解步驟如下:
4)ICA模型存在的不確定性
ICA模型雖然可以完成觀測變量X的分解,但是存在不確定性,表現(xiàn)在無法確定潛在獨(dú)立成分的次序,由于獨(dú)立成分S和混合矩陣A都未知,當(dāng)更改S和A內(nèi)部數(shù)據(jù)的順序時(shí),會(huì)使估計(jì)出的獨(dú)立成分順序發(fā)生更改,如對(duì)于模型
如果變更為
4.4.5最大間距準(zhǔn)則
1.最大間距準(zhǔn)則原理及方法
最大間距準(zhǔn)則法(MaximizingMarginCriterion,MMC)是一種監(jiān)督的線性方法,它的目標(biāo)是樣本可分效果最佳。MMC有效地解決了類內(nèi)散度矩陣Sw奇異的問題,而且不用求逆矩陣,降低運(yùn)算的復(fù)雜度MMC以最大化(Sb-Sw
)為目標(biāo)克服了小樣本問題的產(chǎn)生。
研究方法基于最大間距準(zhǔn)則特征選擇算法,最大間距選擇算法對(duì)于克服Sw奇異值問題取得了很好的效果,該算法主要考慮樣本間的中心距離,如圖4-5(a)所示,但是對(duì)于圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國鐵建校園招聘面試經(jīng)典題及答案
- 代購傭金合同
- 2025年高中學(xué)業(yè)水平考試模擬信息技術(shù)試卷試題(含答案詳解)
- 農(nóng)村畜牧飼養(yǎng)與疫病防控責(zé)任協(xié)議
- 2025年高等院校邏輯學(xué)考試真題及答案
- 2025年甘肅省武威市國家公務(wù)員公共基礎(chǔ)知識(shí)模擬題(附答案)
- 2025年外事辦公室翻譯招聘面試(西班牙語)模擬題及答案
- 2025藥店員工勞動(dòng)合同協(xié)議書范例
- 公共交通站點(diǎn)與基礎(chǔ)設(shè)施規(guī)劃管理合同
- 敘事作文一件令我感動(dòng)的事700字15篇
- 讀書分享讀書交流會(huì)《鄉(xiāng)土中國》課件
- 《電子商務(wù)概論》(第3版)白東蕊主編 第一章電子商務(wù)概述課件
- 眼的生物化學(xué)講義
- 全業(yè)務(wù)競爭挑戰(zhàn)浙江公司社會(huì)渠道管理經(jīng)驗(yàn)匯報(bào)
- 護(hù)理副高職稱答辯5分鐘簡述范文
- GB/T 42195-2022老年人能力評(píng)估規(guī)范
- GB/T 4909.4-2009裸電線試驗(yàn)方法第4部分:扭轉(zhuǎn)試驗(yàn)
- GB/T 15155-1994濾波器用壓電陶瓷材料通用技術(shù)條件
- 做一名優(yōu)秀教師課件
- 企業(yè)標(biāo)準(zhǔn)編寫模板
- 商場開荒保潔計(jì)劃書
評(píng)論
0/150
提交評(píng)論