《面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)》課件第4章_第1頁
《面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)》課件第4章_第2頁
《面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)》課件第4章_第3頁
《面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)》課件第4章_第4頁
《面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)》課件第4章_第5頁
已閱讀5頁,還剩140頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第4章大數(shù)據(jù)特征提取4.1特征提取的概念4.2特征提取的分類4.3特征選擇與特征提取方法的比較4.4-線性特征提取

4.1特征提取的概念

特征提取是指采用線性映射或者非線性映射,把樣本所在的高維特征空間映射到相應(yīng)的低維特征空間。一方面,通過對(duì)高維數(shù)據(jù)的特征提取,可以得到一個(gè)效果更好、更易處理的低維數(shù)據(jù)。另一方面,利用特征提取,容易得到可視化的低維數(shù)據(jù)空間,從而發(fā)現(xiàn)數(shù)據(jù)集的空間結(jié)構(gòu)。

特征提取的數(shù)學(xué)描述如下:

給定一個(gè)高維特征空間X={Xi|i=1,2,…,n,Xi∈RD},樣本Xi是一個(gè)d維向量,總共有n個(gè)樣本,特征提取是尋找X的低維特征空間Y={Yi|i=1,2,…,n,Yi∈Rd}(d?D),過程如下:

如果是線性特征提取,映射函數(shù)f的具體形式如下:

其中,V=[V1,V2,…,Vd]D×d是一個(gè)變換矩陣。

如果是非線性特征提取,則不存在這樣一個(gè)變換矩陣。

4.2特征提取的分類

按照不同的標(biāo)準(zhǔn),降維算法可分為不同的種類。(1)根據(jù)所作的映射F是否線性,降維算法相應(yīng)地分為線性算法和非線性算法。主成分分析、線性判別分析、獨(dú)立主成分分析、最大邊緣準(zhǔn)則等為經(jīng)典的線性降維算法;核方法、等距映射、局部線性嵌入和拉普拉斯特征值映射等為典型的非線性降維算法。

(2)根據(jù)是否將數(shù)據(jù)集的局部幾何結(jié)構(gòu)納入考慮,降維算法又可分為局部降維算法與非局部降維算法。如PCA和LDA等是典型性的全局型降維算法;而諸如LLE和LE一些流行學(xué)習(xí)算法以及其對(duì)應(yīng)的線性化算法、局部保持投影(LocalityPreservingProjections,LPP)和近鄰保持嵌入(NeighborhoodPreservingEmbedding,NPE)等為局部降維算法。

(3)根據(jù)降維過程是否利用監(jiān)督信息或其他形式的標(biāo)號(hào),降維算法可分為監(jiān)督型算法和無監(jiān)督型算法。如PCA、LPP和LLE等為無監(jiān)督型約簡算法,而LDA和最大間隔準(zhǔn)則等為有監(jiān)督型約簡算法。

(4)根據(jù)所作的映射F是否依賴于樣本數(shù)據(jù)集,可分為數(shù)據(jù)依賴型約簡算法與數(shù)據(jù)獨(dú)立型約簡算法。到目前為止,眾多降維算法中使用的映射F均需從數(shù)據(jù)集X中學(xué)習(xí)獲得,如PCA的投影方向與數(shù)據(jù)集的分布有關(guān);而另外新出現(xiàn)的降維算法,如隨機(jī)投影等所做的映射與數(shù)據(jù)集的性質(zhì)并無本質(zhì)聯(lián)系,所以稱其為數(shù)據(jù)獨(dú)立型降維算法。

4.3特征選擇與特征提取方法的比較特征選擇和特征提取各有各的優(yōu)勢。原始特征空間中,特征具有語義意義,經(jīng)過特征選擇后,特征仍具有語義意義,而經(jīng)過特征提取后,就很難再給特征賦予語義意義。但是,傳統(tǒng)的特征選擇方法根據(jù)某種評(píng)分來對(duì)特征進(jìn)行排序,然后求出特征子集,忽略了特征之間的聯(lián)系,因此很難得到最優(yōu)的特征子集,而特征提取更多地考慮特征之間的聯(lián)系。另外,通過對(duì)高維數(shù)據(jù)空間進(jìn)行特征提取,更容易得到可視化的低維數(shù)據(jù)空間,從而發(fā)現(xiàn)數(shù)據(jù)集的空間結(jié)構(gòu)。

特征選擇和特征提取又是相互聯(lián)系的,比如,數(shù)據(jù)方差是無監(jiān)督的,它用于特征選擇得到方差評(píng)分,也用于特征提取得到PCA。Fisher準(zhǔn)則是監(jiān)督的,它用于特征選擇得到拉普拉斯評(píng)分,也用于特征提取得到LDA。

在模式識(shí)別系統(tǒng)的設(shè)計(jì)過程中,可以只進(jìn)行特征選擇,也可以只進(jìn)行特征提取,還可以兩者都進(jìn)行。通常情況下維數(shù)約簡的步驟如下:

首先,進(jìn)行特征選擇,去除不重要的、不相關(guān)的、干擾性甚至破壞性的特征,這些特征不需要參與特征提取,甚至不需要獲取,這樣可以降低系統(tǒng)的開銷;然后,進(jìn)行特征提取,得到維數(shù)降低的特征空間;最后,用特征選擇和特征提取得到的特征來設(shè)計(jì)分類器。

4.4-線性特征提取4.4.1線性特征提取的思想1.線性特征提取思想

線性特征提取方法,即子空間學(xué)習(xí)方法。線性特征提取方法實(shí)現(xiàn)簡單,計(jì)算效率高,有嚴(yán)格的數(shù)學(xué)背景,能夠從高維數(shù)據(jù)空間發(fā)現(xiàn)嵌入其中的線性子空間的幾何結(jié)構(gòu)。但是,它是基于這樣一個(gè)假設(shè):嵌入高維數(shù)據(jù)空間的子空間是線性的,或者一定程度上近似線性的。如果所處理的高維數(shù)據(jù)空間滿足假設(shè)條件,線性特征提取就能夠發(fā)現(xiàn)真實(shí)的線性結(jié)構(gòu),得到準(zhǔn)確的低維表示。

2.經(jīng)典線性特征提取方法

目前,比較經(jīng)典有效的線性特征提取方法有:主成分分析、線性判別分析、獨(dú)立主成分分析和最大邊緣準(zhǔn)則。

4.4.2主成分分析

1.主成分分析原理及方法

主成分分析(PCA)的目標(biāo)是尋找能夠代表原始數(shù)據(jù)結(jié)構(gòu)的最優(yōu)線性投影方向,即協(xié)方差最大的投影軸,實(shí)現(xiàn)過程如下:

給定均值為零的數(shù)據(jù)集X=[X1,X2,…,Xn]∈RD×n,樣本Xi是一個(gè)D維向量,總共有n個(gè)樣本。在PCA中,假設(shè)通過線性映射Yi

=VTXi可以得到對(duì)應(yīng)于高維向量Xi∈RD(i=1,2,…,n)的低維向量Yi

∈RD

(i=1,2,…,n),則PCA的目標(biāo)函數(shù)如下:

式中,為數(shù)據(jù)集的協(xié)方差矩陣;V是PCA尋找的線性投影方向。

1)主成分分析法的概念

主成分分析也稱主分量分析,是揭示大樣本、多變量數(shù)據(jù)或樣本之間內(nèi)在關(guān)系的一種方法,旨在利用降維的思想,把多指標(biāo)(特征)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),降低觀測空間的維數(shù),以獲取最主要的信息。

在統(tǒng)計(jì)學(xué)中,主成分分析是一種簡化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用來減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要的方面。但是,這也不是絕對(duì)的,要視具體應(yīng)用而定。

2)主成分分析的基本思想

在實(shí)證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素(特征)。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。

對(duì)同一個(gè)體進(jìn)行多項(xiàng)觀察時(shí)必定涉及多個(gè)隨機(jī)變量,它們之間都存在著相關(guān)性,一時(shí)難以綜合。這時(shí)就需要借助主成分分析來概括諸多信息的主要方面。

任何一個(gè)度量指標(biāo)的好壞除了可靠、真實(shí)之外,還必須能充分反映個(gè)體間的變異。如果有一項(xiàng)指標(biāo),不同個(gè)體的取值都大同小異,那么該指標(biāo)不能用來區(qū)分不同的個(gè)體。由這一點(diǎn)來看,一項(xiàng)指標(biāo)在個(gè)體間的變異越大越好。因此我們把“變異大”作為“好”的標(biāo)準(zhǔn)來尋求綜合指標(biāo)。

3)主成分的幾何解釋

從幾何角度來看,主成分分析是將由原變量

X=[X1,X2,…,XD]T構(gòu)成的坐標(biāo)進(jìn)行旋轉(zhuǎn),選擇具有最大方差的幾個(gè)變量構(gòu)成新的坐標(biāo)系統(tǒng),新的坐標(biāo)Y=[Y1,Y2,…,Yd]T,d<D提供了對(duì)原變量的協(xié)方差結(jié)構(gòu)的最優(yōu)逼近。假設(shè)隨機(jī)向量X的協(xié)方差矩陣為Σ,Σ有特征值特征向量對(duì)(λ1,e1),(λ2,e2),…,(λD,eD),其中λ1≥λ2≥…λD≥0。

考慮線性組合

由隨機(jī)向量變換的性質(zhì),易得

隨機(jī)變量Y1,Y2,…,Yd分別被稱作X=[X1,X2,…,XD]T的第一主成分,第二主成分,…,第d主成分,如果它們滿足:

(1)Yi與Yj(i≠j)不相關(guān);

(2)在X所有線性組合中,Y1具有最大方差;在X所有線性組合中,Y2具有最大方差且與Y1不相關(guān),…;在X所有線性組合中,Yi具有最大方差且與Y1,Y2,…,Yi-1不相關(guān)。

為了不使隨機(jī)變量Yi的方差無限大,限定aiTai=1,i=1,2,…,D。由以上條件,求第一主成分轉(zhuǎn)化為以下問題:

使用拉格朗日乘子法易得:a1=e1時(shí)上述問題有最大值,且最大值為Σ,最大特征值λ1,即

類似的方法求第i個(gè)主成分可以得到

由特征值特征向量定義,任意ei,ej(i≠j)彼此正交,因此

可見X的主成分即以協(xié)方差Σ的正交特征向量為系數(shù)的線性組合,第i個(gè)主成分的系數(shù)是對(duì)應(yīng)于第i個(gè)協(xié)方差特征根λi的特征向量,其方差為λi。

利用d個(gè)主成分可以代替D個(gè)相關(guān)變量進(jìn)行數(shù)據(jù)分析,d個(gè)主成分要能夠概括原變量所提供信息的大部分,為說明各主成分Yi概括原變量信息的大小,定義某主成分Yi的方差貢獻(xiàn)率為

4)主成分分析法的基本原理

主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差矩陣變換成對(duì)角形矩陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的d個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度將其轉(zhuǎn)換成低維變量系統(tǒng),再通過構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。

5)主成分的性質(zhì)

主成分C1,C2,…,Cd具有如下幾個(gè)性質(zhì)。

(1)主成分間互不相關(guān),即對(duì)任意i和j,Ci和Cj的相關(guān)系數(shù):

(2)組合系數(shù)(a11,a12,…,a1d)構(gòu)成的向量為單位向量。

(3)各主成分的方差是依次遞減的,即var(C1)≥var(C2)≥,…,≥var(Cd)。

(4)總方差不增不減,即

這一性質(zhì)說明,主成分是原變量的線性組合,是對(duì)原變量信息的一種改組,主成分不增加總信息量,也不減少總信息量。

(5)主成分和原變量的相關(guān)系數(shù)corr(Ci,xj)=aij。

(6)令X1,X2,…,Xd的相關(guān)矩陣為R,(a11,a12,…,a1d)則是相關(guān)矩陣R的第i個(gè)特征向量(eigenvector)。而且,特征值Ii就是第i個(gè)主成分的方差,即

其中,Ii為相關(guān)矩陣R的第i個(gè)特征值(eigenvalue)

6)主成分?jǐn)?shù)目的選取

前已指出,設(shè)有d個(gè)隨機(jī)變量,便有d個(gè)主成分。由于總方差不增不減,C1、C2等前幾個(gè)綜合變量的方差較大,而Cd、Cd-1等后幾個(gè)綜合變量的方差較小,嚴(yán)格說來,只有前幾個(gè)綜合變量才稱得上主(要)成分,后幾個(gè)綜合變量實(shí)為次(要)成分。實(shí)踐中總是保留前幾個(gè),忽略后幾個(gè)。

7)主成分分析的主要作用

概括起來說,主成分分析主要有以下幾個(gè)方面的作用。

(1)主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù),即用研究d維的Y空間代替D維的X空間(d<D),而低維的Y空間代替高維的X空間所損失的信息很少。即:使只有一個(gè)主成分Y1(即d=1)時(shí),這個(gè)Y1仍是使用全部X變量(D個(gè))得到的。

(2)多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問題大都多于3個(gè)變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布情況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對(duì)樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。

(3)由主成分分析法構(gòu)造回歸模型,即把各主成分作為新自變量代替原來自變量X做回歸分析。

(4)用主成分分析篩選回歸變量?;貧w變量的選擇有著重要的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),以便從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合,用主成分分析篩選變量,可以用較少的計(jì)算量來選擇變量,獲得選擇最佳變量子集合的效果。

8)主成分分析法的計(jì)算步驟

(1)原始指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化采集D維隨機(jī)向量x=(x1,x2,…,xD)

T,n個(gè)樣品xi=(xi1,xi2,…,xiD)T,i=1,2,…,n,n>D,構(gòu)成樣本陣,對(duì)樣本元進(jìn)行如下標(biāo)準(zhǔn)化變換:

(2)對(duì)標(biāo)準(zhǔn)化陣Z求相關(guān)系數(shù)矩陣:

(4)將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分:

U1稱為第一個(gè)主成分,U2稱為第二個(gè)主成分,…,Ui稱為第i個(gè)主成分。

(5)對(duì)d個(gè)主成分進(jìn)行綜合評(píng)價(jià)。

對(duì)d個(gè)主成分進(jìn)行加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為每個(gè)主成分的方差貢獻(xiàn)率。

2.主成分分析改進(jìn)方法

1)概率主成分分析

概率主成分分析方法不但能完成降維的工作,而且還提供了數(shù)據(jù)分布的一種概率模型。PCA是一種常用的降維方法,它在數(shù)據(jù)降維的同時(shí)還保留了其內(nèi)在的變化,對(duì)不同的數(shù)據(jù),PCA可以根據(jù)其局部空間特性,用不同的基向量來表示。近來,針對(duì)PCA只能用全局線型來表示數(shù)據(jù),Tipping等提出了PPCA,并通過期望最大化(EM)算法來訓(xùn)練PCA的概率模型。

一般來說,對(duì)于目標(biāo)檢測問題,根據(jù)MAP(Maximumapriority)原則,似然函數(shù)可直接用作一種“度量”目標(biāo)在特征向量x處顯著性的一種函數(shù)。為簡化計(jì)算及約束取值范圍,按照上式定義如下的顯著性函數(shù):

這里S(x)為定義的顯著性函數(shù)。從式(4-19)~式(4-22)容易看出:S(x)∈(0,1)。令z=WT(x-u),則式(4-22)變?yōu)?/p>

2)EMPCA算法

主成分分析(PCA)是一種非常有用的統(tǒng)計(jì)學(xué)方法,在人臉識(shí)別和圖像壓縮方面有著廣泛的運(yùn)用,但是PCA本身存在著一些不足之處,如在數(shù)據(jù)的維數(shù)很高或者數(shù)據(jù)量很大的時(shí)候,尋找主成分比較困難;PCA不能有效地處理丟失的數(shù)據(jù);目前PCA還沒有一個(gè)有效的方法來計(jì)算它的參數(shù)等。實(shí)際上,在大數(shù)據(jù)特征提取過程中,訓(xùn)練的樣本量一般都很大,而且樣本的維數(shù)一般也比較高,而這種情況正不利于PCA性能的發(fā)揮。

假設(shè)X=[x1,x2,…,xn](其中xi=(xi1,xi2,…,xiD)T∈RD是一個(gè)樣本,i=1,2,…,n)是一個(gè)D×n的矩陣,D是每個(gè)數(shù)據(jù)的維數(shù),n是數(shù)據(jù)量,iter是EM運(yùn)算法則的循環(huán)次數(shù),d是要保留的主成分的個(gè)數(shù),將C初始化為一個(gè)D×d的矩陣,在本實(shí)驗(yàn)中通過rand函數(shù)產(chǎn)生,首先利用式(4-24)得到樣本均值mean1:

再循環(huán)執(zhí)行式(4-25)和式(4-26)iter次,得到矩陣C。

假定x是一個(gè)n維樣本,則由EM-PCA產(chǎn)生的新的向量y為

3)其他發(fā)展方向近年來有學(xué)者使用基于人臉對(duì)稱性的特征提取方法進(jìn)行人臉識(shí)別。楊瓊等人在引入鏡像樣本、應(yīng)用鏡像對(duì)稱性的基礎(chǔ)上,結(jié)合KL展開與奇偶分解原理提出對(duì)稱主分量分析算法。對(duì)于奇偶對(duì)稱KL特征分量,根據(jù)它們各自的能量進(jìn)行排序選擇,選擇能量較大(亦即方差較大)的分量作為特征值。根據(jù)特征值挑選出來的本征向量只表示熵的意義下是最優(yōu)的,它沒有類別信息。

楊健提出二維主成分分析。其基本思想是利用圖像矩陣直接構(gòu)造圖像散布矩陣,并在此基礎(chǔ)上進(jìn)行鑒別分析。2DPCA相對(duì)于PCA有以下兩個(gè)優(yōu)點(diǎn):計(jì)算散布矩陣更容易更準(zhǔn)確,計(jì)算相應(yīng)本征向量的速度更快。

4.4.3線性判別分析

1.線性判別分析原理及方法

1)LDA原理及方法線性判別分析(LDA)(或稱為Fisher線性判別)的目標(biāo)是尋找能把原始數(shù)據(jù)包含的各類數(shù)據(jù)分開的最優(yōu)線性投影方向,即可以把類間散度和類內(nèi)散度的比值最大化的投影軸,實(shí)現(xiàn)過程如下:

假設(shè)訓(xùn)練數(shù)據(jù)集X={X1,X2,…,XC},其中Xi,i=1,2,…,C是第i類數(shù)據(jù)集,其中包含的數(shù)據(jù)個(gè)數(shù)為ni,樣本x1,x2,…,xn∈RD,我們一般用矩陣的離散度來描述樣本的分布,于是,得到Fisher準(zhǔn)則:

可以用圖4-1表示LDA目標(biāo)函數(shù)的物理意義。圖4-1LDA示意圖

2)LDA存在問題

(1)LDA中存在秩限制問題。下面考查類間離散度矩陣Sb的秩,由前面定義有:

所以類間離散度矩陣Sb的秩

(2)LDA中存在的奇異性問題。

當(dāng)樣本總數(shù)大于樣本維數(shù)時(shí),類內(nèi)離散度矩陣Sw通常非奇異;否則Sw是奇異的,此種情況稱為小樣本問題,在Sw奇異的情況下,已有的解決辦法可以參考文獻(xiàn)。

2.線性判別分析改進(jìn)方法

對(duì)線性判別分析的改進(jìn)算法展開的分析和研究,分為兩類:基于類內(nèi)散度矩陣Sw

零空間和基于全散度矩陣St列空間的降維方法,探究了改進(jìn)降維算法之間的等價(jià)關(guān)系,并且其最優(yōu)解形式相同,最后總結(jié)和比較了擴(kuò)展的LDA的方法的優(yōu)缺點(diǎn),并對(duì)降維發(fā)展的方向進(jìn)行了展望。

1)基于Sw

零空間的降維算法

本節(jié)介紹基于Sw

零空間研究的降維算法:零空間LDA(NLDA),chen等人曾經(jīng)驗(yàn)證了Sw

包含了重要的判別信息。

NLDA的基空間是Sw

零空間,在零空間內(nèi)確定出線性變換矩陣G,使在Sw

零空間上類間散度最大,其基本思想是在Sw

零空間中,大量的鑒別信息存在于使Sb投影非零的方向。于是,奇異問題被有效地解決,因此,NLDA的最優(yōu)變換滿足:

另一方面,如果y∈N(Sw)∩N(Sb),有

其步驟如下:

2)基于St列空間的降維算法

本節(jié)介紹基于St列空間的降維算法:不相關(guān)LDA(ULDA)、正交LDA(OLDA)和直接LDA(DLDA),并對(duì)以上降維算法進(jìn)行了詳細(xì)的闡述。

(1)不相關(guān)LDA(ULDA)。

LDA(ULDA)尋找關(guān)于St正交的最優(yōu)鑒別矢量,其變換后的特征是線性無關(guān)的,能夠去除多余的特征描述,滿足G=argmaxtrace((GTStG)-1GTSbG)。

(2)正交LDA(OLDA)。

OLDA基空間是St的列空間,在列空間中確定線性變換矩陣G,使在St的列空間上類間數(shù)據(jù)相距較遠(yuǎn),找出相互正交的最優(yōu)鑒別矢量是OLDA與ULDA的最大不同之處,滿足:

其中,前2步與ULDA相同,令WM=U1Σt1M=QR,則G=Q即為OLDA的最優(yōu)解。

(3)直接LDA(DLDA)。

直接LDA(DLDA)是將離散矩陣一起對(duì)角化,可以有效地克服奇異問題,不同版本DLDA是由于對(duì)角化順序的不同而不同。DLDA-ST采用廣義Fisher準(zhǔn)則,DLDA-ST首先對(duì)角化St,選擇St的列空間作為基空間,求出St列空間,它是由非零特征值對(duì)應(yīng)得來的,接下來將Sw投影到此基空間,并特征分解基空間中的類內(nèi)散度矩陣,鑒別矢量G即為最小特征值所對(duì)應(yīng)的矩陣。

實(shí)現(xiàn)步驟如下:

(1)確定St的列空間:對(duì)Ht進(jìn)行奇異值分解,令Ht=U1Σt1VT,其中Σt1∈Rt×t和U1∈Rm×t(t=rank(Ht)為矩陣Ht的秩)為非零奇異值組成的對(duì)角矩陣和相應(yīng)特征矢量構(gòu)成的矩陣,均為將序排列的對(duì)角矩陣。令Z=U1Σ-1t1,則有

(2)將Sw

投影到由Z的列組成的子空間,將其對(duì)角化;經(jīng)特征值分解,有ZT

Sw

Z=YΣ2wYT取Y中較小特征值對(duì)應(yīng)的列,為了降維后的數(shù)據(jù)準(zhǔn)確性,通常情況下取t個(gè)特征矢量構(gòu)成的矩陣Y1及相應(yīng)對(duì)角矩陣Σw1。

(3)矩陣G=U1Σ-1t1Y1Σ-1w1即為DLDA—ST的最優(yōu)解。則其最優(yōu)變換滿足:

而DLDASB則是在步驟1中Sb取代St,其余步驟一樣,則最優(yōu)變換矩G=BΣ-1b1

Y1Σ-1w1,由于更多鑒別信息存在于零空間中,從而此方法不能獲得最佳的鑒別矢量。

4.4.4-獨(dú)立成分分析

1.獨(dú)立成分分析原理及方法

獨(dú)立成分分析(ICA)是近年來出現(xiàn)的一種強(qiáng)有力的數(shù)據(jù)分析工具。ICA從出現(xiàn)到現(xiàn)在雖然時(shí)間不長,然而無論從理論上還是應(yīng)用上,它正受到越來越多的關(guān)注,成為國內(nèi)外研究的一個(gè)熱點(diǎn)。

ICA是一種用來從多變量(多維)統(tǒng)計(jì)數(shù)據(jù)里找到隱含的因素或成分的方法,被認(rèn)為是主成分分析的一種擴(kuò)展。

1)ICA原理

為了給ICA下一個(gè)嚴(yán)格的定義,這里需要使用一個(gè)隱藏的統(tǒng)計(jì)變量模型

式(4-44)中的統(tǒng)計(jì)模型稱為獨(dú)立成分分析,或者ICA模型,它表示被觀察到的數(shù)據(jù)是如何由獨(dú)立成分混合而產(chǎn)生的。獨(dú)

ICA的出發(fā)點(diǎn)非常簡單,如圖4-2所示。它假設(shè)成分是統(tǒng)計(jì)獨(dú)立的,而且還必須假設(shè)獨(dú)立成分是非高斯分布的。統(tǒng)計(jì)獨(dú)立的概念將在下面給出定義,為了簡單起見,假設(shè)未知的混合陣為方陣。如果能計(jì)算出A的逆W,這樣獨(dú)立成分可由下式得到

式(4-44)中的ICA模型存在如下的兩個(gè)不確定性因素:

(1)不能確定獨(dú)立成分的方差;

(2)不能確定獨(dú)立成分的順序。圖4-2基本的ICA模型

為了描述方便,以固定某個(gè)時(shí)刻或者某種觀測樣本為例,去除樣本標(biāo)號(hào)t,將獨(dú)立成分分析模型記為

而其中的各個(gè)混合信號(hào)也可以由下式表示

這就是ICA生成模型,此模型描述了觀測樣本如何通過獨(dú)立成分S(IndependentCompo-nent,IC)混合生成。通常獨(dú)立成分S不是可以直接觀測到的成分,是一種潛在的成分,而混合矩陣A作為獨(dú)立成分的混合系數(shù)也是未知。唯一已知的變量就是X,ICA生成模型就解決了在已知觀測X和假設(shè)其中含有多個(gè)盡可能相互獨(dú)立成分的條件下求出混合矩陣A和獨(dú)立成分矩陣S。

2)ICA的約束條件

上面的ICA生成模型要使得各個(gè)成分和混合矩陣能夠被估計(jì),一般需要作一定的約束假設(shè)。

(1)假定各個(gè)獨(dú)立成分是統(tǒng)計(jì)獨(dú)立的。

假設(shè)獨(dú)立成分具有統(tǒng)計(jì)獨(dú)立是ICA成立的前提條件。但其實(shí)只要擁有這個(gè)前提條件,對(duì)于ICA生成模型就已經(jīng)可以解決問題了,這也是ICA生成模型可以為許多領(lǐng)域得以應(yīng)用的一個(gè)強(qiáng)有力的因素。

常規(guī)意義上講,兩個(gè)成分獨(dú)立,即兩個(gè)成分之間不包含對(duì)方的信息,從一方不可獲知另外一方的任何信息。而從學(xué)術(shù)上講,獨(dú)立可以通過數(shù)學(xué)定義給出,在概率統(tǒng)計(jì)中,統(tǒng)計(jì)獨(dú)立性通過概率密度給出定義,當(dāng)滿足

時(shí),x、y變量獨(dú)立,即兩個(gè)獨(dú)立隨機(jī)變量x和y的聯(lián)合密度可以分解為兩個(gè)隨機(jī)變量的邊緣概率密度之積。

(2)獨(dú)立成分具有非高斯分布。

由于高斯分布的高階累積量為零,而對(duì)于ICA模型,高階信息才是研究的重點(diǎn),所以若觀測樣本為高斯分布,那么ICA模型是失效的,因?yàn)闊o法從觀測樣本中分離出獨(dú)立的高斯成分,估計(jì)出的成分可能是高斯成分的某些線性組合,即無法從其中分離出兩個(gè)獨(dú)立的高斯分量。當(dāng)然觀測樣本中允許有一個(gè)高斯成分存在,而且有且僅有一個(gè),這樣ICA模型可以將其估計(jì)出來,因?yàn)檫@個(gè)唯一的高斯成分和其他非高斯成分不會(huì)有線性組合。

3)求解ICA生成模型的一般步驟

(1)觀測變量的中心化。

這里的中心化是指將觀測數(shù)據(jù)去均值,使其均值為零,這樣做可以簡化理論和算法,通過對(duì)觀測變量中心化的實(shí)現(xiàn),也就是對(duì)初始X進(jìn)行去均值處理:

(2)白化。

為了更清楚的解析白化,需要先解析三個(gè)概念:獨(dú)立性,不相關(guān)性,白化。

獨(dú)立性對(duì)于兩個(gè)隨機(jī)變量來說具有以下性質(zhì)

即對(duì)隨機(jī)變量x1、x2它們的任何函數(shù)的乘積的期望等于各自函數(shù)期望的乘積時(shí),則可以認(rèn)為這兩個(gè)變量相互獨(dú)立。

不相關(guān)性對(duì)于兩個(gè)隨機(jī)變量來說具有以下性質(zhì)

即當(dāng)兩個(gè)隨機(jī)變量x1,x2的協(xié)方差cov(x1,x2)為零時(shí),則這兩個(gè)變量為不相關(guān),由于在本節(jié)中對(duì)觀測樣本都去均值,所以不相關(guān)更加簡單,只需要cov(x1,x2)=E{x1,x2}=0即可??梢钥吹疆?dāng)兩個(gè)變量相互獨(dú)立時(shí),一定滿足不相關(guān),但反過來不一定成立。

白化要滿足兩個(gè)條件,對(duì)于一個(gè)均值為零的隨機(jī)向量X={x1,x2

,…,xn}T,白化過是指該向量的各個(gè)分量都具有同一單位方差且互不相關(guān),也就是要滿足

即隨機(jī)變量x的協(xié)方差矩陣為單位矩陣,也就是各分量間滿足

而每個(gè)分量自身滿足

所以白化要比不相關(guān)條件更強(qiáng)一些,要求在不相關(guān)的基礎(chǔ)上具有單位方差。

對(duì)一個(gè)變量要白化指的是對(duì)觀測向量X通過與矩陣Whiten線性相乘,即按照下式處理:

得到新的向量Z滿足不相關(guān)和單位方差的白化條件,就稱對(duì)X進(jìn)行了白化,Z是白的,Whiten就稱為X的白化矩陣。

白化方程主要有兩種:

(1)特征值分解(EigenvalueDecomposition,EVD)白化。通過對(duì)觀測數(shù)據(jù)X={x1,x2,…,xn}T的協(xié)方差矩陣進(jìn)行特征值分解:

式中,U為特征值向量的正交矩陣,每列代表一個(gè)特征向量;Λ為對(duì)應(yīng)的特征值對(duì)角矩陣。從而對(duì)X的白化過程可以通過求白化矩陣Whiten由下式實(shí)現(xiàn):

通過該白化矩陣前乘觀測數(shù)據(jù)即可將觀測數(shù)據(jù)白化。

(2)主成分分析(PrincipalComponentAnalysis,PCA)白化。

類似于特征值分解白化,主成分分析白化過程也是利用對(duì)觀測數(shù)據(jù)X={x1,x2,…,xn}T的協(xié)方差矩陣Cx進(jìn)行特征值分解:

但是,與特征值分解白化不同之處是在ICA中,通常在PCA處理步驟中要引入降維處理,體現(xiàn)在特征值和特征向量的選取上,通過對(duì)特征值進(jìn)行降序排列,從n個(gè)特征值中取前m個(gè)最大的特征值及其對(duì)應(yīng)的特征向量作為白化矩陣,這就是主成分分析中主分量的體現(xiàn),即令:

白化矩陣Whiten為

可以驗(yàn)證通過這個(gè)白化矩陣白化過的Z具有單位方差互不相關(guān),即會(huì)滿足

此外可以發(fā)現(xiàn),白化矩陣并不唯一,任何正交矩陣乘以白化矩陣依然不會(huì)改變白化性質(zhì)。

(3)ICA算法。

將白化過的觀測數(shù)據(jù)Z和白化矩陣Whiten送入ICA算法處理,得到正交矩陣B。這里可以選擇多種ICA算法,如極大化非高斯性的ICA估計(jì)算法,極大似然估計(jì)的ICA算法,極小化互信息的ICA估計(jì)算法,基于張量的ICA估計(jì)算法,基于非線性去相關(guān)和非線性PCA的ICA估計(jì)算法等。

(4)正交化。

對(duì)白化過的觀測數(shù)據(jù)Z進(jìn)行正交化,正交化會(huì)將白化數(shù)據(jù)Z中各個(gè)不相關(guān)的分量轉(zhuǎn)化為各分量間相互獨(dú)立,對(duì)白化數(shù)據(jù)正交化采用如下方式:

這樣S=(

s1,s2,…,sm)T為分解出來的各個(gè)獨(dú)立分量。對(duì)上面的式子進(jìn)行變形可以得到:

2.獨(dú)立成分分析改進(jìn)方法

有一個(gè)經(jīng)典的等式可以用來描述獨(dú)立成分分析方法:

ICA方法=目標(biāo)函數(shù)+優(yōu)化算法

ICA方法的統(tǒng)計(jì)性質(zhì),比如魯棒性、一致性等取決于目標(biāo)函數(shù)的選擇,而算法的性質(zhì),比如算法的收斂速度、穩(wěn)定性等則取決于優(yōu)化算法。只有二者結(jié)合才可以得到快速又具有魯棒性強(qiáng)的ICA生成模型分解方法。當(dāng)然,同一種優(yōu)化算法可以服務(wù)于多種不同的ICA目標(biāo)函數(shù),比如快速不動(dòng)點(diǎn)算法就可以用于優(yōu)化多種ICA目標(biāo)函數(shù)。

1)獨(dú)立成分分析算法的目標(biāo)函數(shù)

獨(dú)立成分分析算法的主要目標(biāo)函數(shù)有極大化非高斯性、極小化互信息、最大似然估計(jì)等。主要的優(yōu)化算法有非線性去相關(guān)法、梯度下降算法、非線性PCA算法、FastICA算法。

(1)極大化非高斯性目標(biāo)函數(shù)。

度量非高斯性的相關(guān)概念有熵、KL散度、負(fù)熵。

①熵用來衡量信息量大小,熵是指在信號(hào)當(dāng)中包含的平均信息量。對(duì)于離散隨機(jī)變量取x=xi所能獲取的信息量會(huì)根據(jù)其后驗(yàn)概率的升高而增加,不過它會(huì)根據(jù)其先驗(yàn)概率的增加而減少。

對(duì)x=xi隨機(jī)變量獲得的信息量Ii:

在不考慮噪聲和干擾時(shí),后驗(yàn)概率為1,先驗(yàn)概率為Pi。對(duì)于離散信號(hào)M個(gè)不同取值的N次輸出所得總信息量為I:

所以每次輸出隨機(jī)變量獲得的平均信息量H為

H稱為熵。

②KL散度。Kullback-leibler散度也稱為KL熵,它是兩個(gè)概率密度函數(shù)想似度的衡量。假設(shè)隨機(jī)變量x有兩種概率密度函數(shù)p(x)、q(x),那么這兩者間的KL散度為

由于總是存在

所以任何隨機(jī)變量x的KL散度總大于等于零:

散度在高斯分布中有特殊的性質(zhì),在協(xié)方差矩陣相等的概率密度函數(shù)中,高斯分布的熵值最大。假設(shè)pg(x)為高斯分布,p(x)為其他分布,且假設(shè)二者的協(xié)方差矩陣相等,則此時(shí)的隨機(jī)變量的KL散度為

由于高斯分布具有特殊性質(zhì),當(dāng)隨機(jī)變量的其他任何聯(lián)合概率密度函數(shù)和高斯分布密度函數(shù)具有同樣的協(xié)方差矩陣時(shí),具有如下的熵性質(zhì):

所以此時(shí)隨機(jī)變量的散度滿足

從而具有

即在協(xié)方差矩陣相等的概率分布中,高斯分布的熵值最大。

③負(fù)熵。在散度中討論過具有相同協(xié)方差矩陣的普通分布和高斯分布中,高斯分布的熵最大,所以把具有任意概率密度函數(shù)p(x)和與之具有同樣協(xié)方差矩陣的高斯分布之間的KL散度作為這種任意分布的非高斯性程度的度量[8],越遠(yuǎn)離高斯分布,就越非高斯化,這種非高斯性的度量就稱為負(fù)熵。定義為

也就是

由此隨機(jī)變量概率密度分布的負(fù)熵就為與之具有同樣協(xié)方差矩陣的高斯分布的信息量的差。負(fù)熵永遠(yuǎn)大于等于零,負(fù)熵越大非高斯性就越強(qiáng),負(fù)熵為零則為高斯分布。

(2)基于負(fù)熵的極大非高斯性作為ICA目標(biāo)函數(shù)。

采用極大非高斯性作為各種ICA應(yīng)用的目標(biāo)函數(shù),而且采用負(fù)熵作為極大非高斯性的度量,所以采用負(fù)熵作為ICA目標(biāo)函數(shù)時(shí),極大化負(fù)熵就是目標(biāo)函數(shù),即:

由于直接用該式來計(jì)算負(fù)熵需要大量的原始數(shù)據(jù),而很多情況下并無先驗(yàn)知識(shí),求解不方便,所以可采用一種非線性的非多項(xiàng)式函數(shù)來逼近概率密度函數(shù)。

可以將非線性函數(shù)展開成高階統(tǒng)計(jì)量表達(dá)式,比如tanh通過泰勒級(jí)數(shù)展開為

正是通過負(fù)熵的近似表示中引入了這些非線性函數(shù),而這些非線性函數(shù)隱含了高階統(tǒng)計(jì)量,從而獨(dú)立成分分析通過非線性直接或間接方式使用了高階統(tǒng)計(jì)量,獲取了比主成分分析可以獲取的更高階的信息量。

2)FastICA優(yōu)化算法

(1)固定點(diǎn)算法。

固定點(diǎn)算法(fixed-pointalgorithm)也叫固定點(diǎn)迭代算法或不動(dòng)點(diǎn)算法。為了描述該算法,結(jié)合一個(gè)常見的代數(shù)例子來說明。圖4-3迭代收斂說明圖

對(duì)于上述問題也可以采用牛頓迭代算法,對(duì)于牛頓迭代法有與上例類似的過程,也具有xm+1=g(xm)的迭代框架,如圖4-4所示,采用切線逼近的方式,步步更替迭代直到收斂于a值:

從而產(chǎn)生迭代式圖4-4-牛頓迭代說明圖

先選定一點(diǎn)B作為x取值,過點(diǎn)(x,f(x))作f(x)的切線,由切線和y=0的交點(diǎn)C作為下一個(gè)迭代x值點(diǎn),一次遞推,直到收斂得到正確的解。

從以上兩種迭代過程可以看到,對(duì)于一個(gè)問題,迭代式g(x)的選擇可以有多種,有些選擇得到的迭代過程慢,有些選擇得到的過程快,甚至不會(huì)收斂。對(duì)于牛頓迭代算法當(dāng)y=f(x)函數(shù)滿足一定條件,如選擇的初始點(diǎn)很接近a,并且在a點(diǎn)f(x)的導(dǎo)數(shù)存在,則一定能夠收斂。

所以固定點(diǎn)算法可以總結(jié)為選定初始點(diǎn),采用某種合適的迭代過程,多次更新替代原取值點(diǎn),逐步達(dá)到收斂于某固定點(diǎn)。

(2)基于負(fù)熵的ICA快速不動(dòng)點(diǎn)算法。

對(duì)于基于極大非高斯性以負(fù)熵為判據(jù)的目標(biāo)函數(shù)確定后,需要對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,以獲得好的魯棒性和快的運(yùn)行速度,可采用ICA不動(dòng)點(diǎn)算法(FastICA算法),通過基于負(fù)熵的目標(biāo)函數(shù)和不動(dòng)點(diǎn)算法相結(jié)合,可以快速分解ICA生成模型,得到好的分解效果,由于該算法采用牛頓迭代過程,所以收斂效果好,收斂速度有保證,并且迭代過程不需要調(diào)節(jié)步長等設(shè)置的參數(shù),使用簡單方便。

由上面所述,基于負(fù)熵的目標(biāo)函數(shù)求導(dǎo)有

當(dāng)穩(wěn)態(tài)時(shí)Δbi=0,可以得到固定點(diǎn)迭代的兩步算法:

式(4-99)是進(jìn)行歸一化運(yùn)算,從而式(4-97)的系數(shù)γ可以去掉,沒有影響。由于上面的兩步算式在實(shí)踐中發(fā)現(xiàn)其收斂性不是很好,進(jìn)而采用牛頓迭代算法進(jìn)行改進(jìn)得到優(yōu)化的固定點(diǎn)算式:

對(duì)于提取單個(gè)獨(dú)立分量,基于負(fù)熵的FastICA算法步驟如下:

在解決實(shí)際問題中,往往需要提取多個(gè)獨(dú)立成分,將ICA模型完全分解,按理可以通過多次重復(fù)上述提取單個(gè)分量步驟來獲取多個(gè)分量,但是為了防止多次提取同一個(gè)已經(jīng)提取過的獨(dú)立分量,可以選擇在算法中添加正交化處理,將提取過的分量去除,通過下式來達(dá)到

式中,尖括號(hào)內(nèi)為內(nèi)積。

3)快速獨(dú)立成分分析兩種模型

獨(dú)立成分分析模型有兩類,同樣基于負(fù)熵的快速獨(dú)立成分分析模型也有兩類,分別為FastICAI和FastICAII,兩種模型的區(qū)別在于FastICAI處理的樣本矩陣按行排列,FastICAII處理的樣本矩陣按列排列,其他求解步驟一致,在處理多層ICA模型擴(kuò)展算法中都是采用第二種模型。

(2)快速獨(dú)立成分分析模型2(FastICAII)。

FastICAII算法的求解步驟如下:

4)ICA模型存在的不確定性

ICA模型雖然可以完成觀測變量X的分解,但是存在不確定性,表現(xiàn)在無法確定潛在獨(dú)立成分的次序,由于獨(dú)立成分S和混合矩陣A都未知,當(dāng)更改S和A內(nèi)部數(shù)據(jù)的順序時(shí),會(huì)使估計(jì)出的獨(dú)立成分順序發(fā)生更改,如對(duì)于模型

如果變更為

4.4.5最大間距準(zhǔn)則

1.最大間距準(zhǔn)則原理及方法

最大間距準(zhǔn)則法(MaximizingMarginCriterion,MMC)是一種監(jiān)督的線性方法,它的目標(biāo)是樣本可分效果最佳。MMC有效地解決了類內(nèi)散度矩陣Sw奇異的問題,而且不用求逆矩陣,降低運(yùn)算的復(fù)雜度MMC以最大化(Sb-Sw

)為目標(biāo)克服了小樣本問題的產(chǎn)生。

研究方法基于最大間距準(zhǔn)則特征選擇算法,最大間距選擇算法對(duì)于克服Sw奇異值問題取得了很好的效果,該算法主要考慮樣本間的中心距離,如圖4-5(a)所示,但是對(duì)于圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論