《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第5、6章 工業(yè)大數(shù)據(jù)分類與聚類;工業(yè)大數(shù)據(jù)挖掘與知識圖譜_第1頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第5、6章 工業(yè)大數(shù)據(jù)分類與聚類;工業(yè)大數(shù)據(jù)挖掘與知識圖譜_第2頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第5、6章 工業(yè)大數(shù)據(jù)分類與聚類;工業(yè)大數(shù)據(jù)挖掘與知識圖譜_第3頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第5、6章 工業(yè)大數(shù)據(jù)分類與聚類;工業(yè)大數(shù)據(jù)挖掘與知識圖譜_第4頁
《數(shù)字化網(wǎng)絡(luò)化智能技術(shù):工業(yè)大數(shù)據(jù)及其應(yīng)用》課件 第5、6章 工業(yè)大數(shù)據(jù)分類與聚類;工業(yè)大數(shù)據(jù)挖掘與知識圖譜_第5頁
已閱讀5頁,還剩253頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

工業(yè)大數(shù)據(jù)及其應(yīng)用05工業(yè)大數(shù)據(jù)分類與聚類隨著工業(yè)4.0和智能制造的興起,工業(yè)大數(shù)據(jù)已成為推動制造業(yè)轉(zhuǎn)型升級的重要力量。在海量數(shù)據(jù)中,如何有效地提取有價(jià)值的信息、優(yōu)化生產(chǎn)流程、提高產(chǎn)品質(zhì)量,成為了企業(yè)關(guān)注的焦點(diǎn)。工業(yè)大數(shù)據(jù)分類、聚類以及降維技術(shù)都是處理工業(yè)大數(shù)據(jù)的重要手段。它們可以幫助企業(yè)從海量的數(shù)據(jù)中提取有價(jià)值的信息,優(yōu)化生產(chǎn)流程,提高產(chǎn)品質(zhì)量。在未來的工業(yè)大數(shù)據(jù)應(yīng)用中,這些技術(shù)將繼續(xù)發(fā)揮重要作用,推動制造業(yè)的轉(zhuǎn)型升級。本章將深入探討工業(yè)大數(shù)據(jù)分類、聚類的作用及其相應(yīng)的實(shí)現(xiàn)方法,同時(shí)介紹降維技術(shù)在處理工業(yè)大數(shù)據(jù)中的應(yīng)用。1.1分類分析基本概念分類算法是解決分類問題的方法,是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識別中一個重要的研究領(lǐng)域。分類算法通過對已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測新數(shù)據(jù)的類別。分類任務(wù)的輸入數(shù)據(jù)是記錄的集合。每條記錄也稱作為實(shí)例或樣例,可以用二元組(x,y)表示,其中x是屬性的集合,而y是一個特殊屬性,表示樣例的類標(biāo)號,即樣例的分類屬性或目標(biāo)屬性。分類就是通過學(xué)習(xí)得到一個目標(biāo)函數(shù)f,屬性集x通過目標(biāo)函數(shù)映射到預(yù)先定義的類標(biāo)號y。目標(biāo)函數(shù)也稱分類模型(ClassificationModel)。數(shù)據(jù)分類過程一般包含兩個階段,一是構(gòu)建分類模型的學(xué)習(xí)階段,二是基于模型預(yù)測目標(biāo)類標(biāo)號的分類階段。分類模型一般有兩大用途:一是進(jìn)行描述性建模,分類模型可以用作解釋性工具來區(qū)別目標(biāo)數(shù)據(jù)中的不同類別;二是進(jìn)行預(yù)測性建模,即使用分類模型來預(yù)測未知記錄的類標(biāo)號。1.1分類分析基本概念分類技術(shù)實(shí)際上是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的系統(tǒng)方法。常用的分類技術(shù)包括支持向量機(jī)、決策樹、樸素貝葉斯方法、K最近鄰(KNN)算法、邏輯回歸等。這些技術(shù)都使用某一種學(xué)習(xí)算法來確定分類模型,然后依據(jù)模型來擬合輸入數(shù)據(jù)中類標(biāo)號和屬性集之間的聯(lián)系。學(xué)習(xí)得到的模型不僅要能很好擬合輸入數(shù)據(jù),還要確保能夠正確預(yù)測未知樣本的類標(biāo)號,建立分類的方法一般過程包括兩個步驟,如圖5-1所示,首先,利用目標(biāo)數(shù)據(jù)取出一定數(shù)據(jù)作為訓(xùn)練集,據(jù)此進(jìn)行學(xué)習(xí)算法的訓(xùn)練學(xué)習(xí)來建立分類模型;然后,取出部分?jǐn)?shù)據(jù)作為檢驗(yàn)集,用于模型的檢驗(yàn)。圖5-1建立分類模型的一般方法1.2分類分析方法主要的分類方法,包括k近鄰法(KNN)、樸素貝葉斯方法、決策樹、邏輯回歸、支持向量機(jī)等,下面分別予以介紹。1.2分類分析方法1.2.1k最近鄰法(KNN)k最近鄰法(k-NearestNeighbors,KNN)是一種基本分類與回歸算法(本文只討論分類算法)。它根據(jù)某個數(shù)據(jù)點(diǎn)周圍的最近K個鄰的類別標(biāo)簽情況,賦予這個數(shù)據(jù)點(diǎn)一個類別。具體的過程如下,給定一個數(shù)據(jù)點(diǎn),計(jì)算它與數(shù)據(jù)集中其他數(shù)據(jù)點(diǎn)的距離;找出距離最近的K個數(shù)據(jù)點(diǎn),作為該數(shù)據(jù)點(diǎn)的近鄰數(shù)據(jù)點(diǎn)集合;根據(jù)這K個最近鄰所歸屬的類別,來確定當(dāng)前數(shù)據(jù)點(diǎn)的類別。比如,在圖5-2中,采用歐式距離,K的值確定為7,正方形表示類別一,圓形表示類別二?,F(xiàn)在要確定灰色方塊的類別,圖中的虛線圓圈表示其K最近鄰所在的區(qū)域。在虛線圓圈里面,除了待定數(shù)據(jù)點(diǎn)外,其他數(shù)據(jù)點(diǎn)的分類情況為:類別一有5個,類別二有2個。采用投票法進(jìn)行分類,根據(jù)多數(shù)原則,灰色數(shù)據(jù)點(diǎn)的分類確定為類別一。圖5-2KNN算法實(shí)例1.2分類分析方法1.2.1k最近鄰法(KNN)在KNN算法中,兩個數(shù)據(jù)點(diǎn)的距離是兩個實(shí)例點(diǎn)相似程度的發(fā)映??捎玫木嚯x包括歐式距離、夾角余弦等。距離越?。ň嚯x越近),表示兩個數(shù)據(jù)點(diǎn)屬于同一類別的可能性越大。下面為距離公式(x為需要分類的數(shù)據(jù)點(diǎn)(向量),p為近鄰數(shù)據(jù)點(diǎn))。當(dāng)K個最近鄰確定之后,當(dāng)前數(shù)據(jù)點(diǎn)的類別確定,可以采用投票法或者加權(quán)投票法。投票法就是根據(jù)少數(shù)服從多數(shù)的原則,在近鄰中,哪個類別的數(shù)據(jù)點(diǎn)越多,當(dāng)前數(shù)據(jù)點(diǎn)就屬于該類。而加權(quán)投票法,則根據(jù)距離的遠(yuǎn)近,對近鄰的投票進(jìn)行加權(quán),距離越近權(quán)重越大,權(quán)重為距離平方的倒數(shù),最后確定當(dāng)前數(shù)據(jù)點(diǎn)的類別。權(quán)重的計(jì)算公式為(K個近鄰的權(quán)重之和正好是1):其中,KNN算法的原理很容易理解,也容易實(shí)現(xiàn)。它無須進(jìn)行參數(shù)估計(jì),也無須訓(xùn)練過程,有了標(biāo)注數(shù)據(jù)之后,直接進(jìn)行分類即可。它能夠處理的情況不僅限于二分類問題,還包括具有多個類別的復(fù)雜場景,特別是在診斷設(shè)備或系統(tǒng)故障等應(yīng)用中非常有效。1.2分類分析方法1.2.1k最近鄰法(KNN)KNN算法的主要缺點(diǎn)是計(jì)算量較大,對K值敏感,小樣本下性能差,算法的解釋性差。在KNN算法中,K值的選擇非常重要。如果K值太小,則分類結(jié)果容易受到噪聲數(shù)據(jù)點(diǎn)影響;而K值太大,則近鄰中可能包含太多其他類別的數(shù)據(jù)點(diǎn)。上述加權(quán)投票法可以降低K能設(shè)定不適當(dāng)?shù)囊恍┯绊?。根?jù)經(jīng)驗(yàn)法則,一般來講,K值可以設(shè)定為訓(xùn)練樣本數(shù)的平方根。KNN算法在工業(yè)應(yīng)用中非常廣泛,如產(chǎn)品缺陷檢測、協(xié)同過濾推薦、手寫數(shù)字識別等領(lǐng)域。1.2分類分析方法1.2.2樸素貝葉斯法樸素貝葉斯(na?veBayes)法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,也是一種常用的監(jiān)督學(xué)習(xí)方法。對于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸入輸出的聯(lián)合概率分布;然后基于此模型,對給定的輸入x,利用貝葉斯定理求出后驗(yàn)概率最大的輸出y。貝葉斯定理中,設(shè)??表示屬性,??表示類變量。如果類變量和屬性之間的關(guān)系不確定,則可以把??和??作是隨機(jī)變量,用??(??|??)來表示二者之間的關(guān)系。這個概率稱作??在條件??下的后驗(yàn)概率(Posteriorprobability)。與之對應(yīng),??(??)即為??的先驗(yàn)概率(Priorprobabiliy)。同理??(??|??)是在條件??下??的后驗(yàn)概率,????是??的先驗(yàn)概率。貝葉斯定理提供了利用????、??(??)和??(??|??)來計(jì)算后驗(yàn)概率??(??|??)的方法。定理公式如下:1.2分類分析方法樸素貝葉斯的工作原理(1)設(shè)??是訓(xùn)練集及其相關(guān)聯(lián)的類標(biāo)號的集合。一般情況下,每個訓(xùn)練元組用一個??維屬性向量??={??1,??2,…,????}表示,描述由??個屬性??1,??2,…,????對訓(xùn)練元組的??個測量。(2)假定有??個類??1,??2,…,????。給定元組X,分類算法將預(yù)測X屬于具有最高后驗(yàn)概率的類。也就是說,樸素貝葉斯分類法認(rèn)為屬于類????,當(dāng)且僅當(dāng)這樣,將使??????|??的值最大的類????稱為最大后驗(yàn)假設(shè)。由貝葉斯定理式5.3可知,1.2分類分析方法樸素貝葉斯的工作原理(3)由于????對所有的類來說是常數(shù),想使??????∣??最大,只需要????∣??????????最大即可。如果在類的先驗(yàn)概率未知的情況下,一般假設(shè)這些類都是等概率的,即????1=????2=…=??????,據(jù)此使????∣????或????∣??????????最大化。在此,類的先驗(yàn)概率??????=????,??/|??|。其中????,??是訓(xùn)練集D中類的訓(xùn)練元組數(shù)。(4)數(shù)據(jù)集中如果有很多屬性,計(jì)算????∣????的開銷可能會非常大。因此為了降低計(jì)算開銷,可以假定類條件是獨(dú)立的。給定元組的類標(biāo)號,假定屬性值之間相互獨(dú)立,即各屬性之間不存在依賴關(guān)系。因此有下式:式中的????1∣????、????2∣????、…、??????∣????可以由訓(xùn)練元組方便計(jì)算得到。1.2分類分析方法樸素貝葉斯的工作原理(5)為了預(yù)測??的類標(biāo)號,對每個類????,依次計(jì)算????∣??????????。該分類法預(yù)測元組??的類為????,當(dāng)且僅當(dāng)即預(yù)測結(jié)果的類標(biāo)號就是使????∣??????????最大的類????。1.2分類分析方法1.2.3決策樹決策樹是一種基本的分類與回歸方法(本文只討論分類算法),是具有樹狀結(jié)構(gòu)的一個預(yù)測模型。它表示對象屬性和對象類別之間的一種映射。決策樹中的非葉子節(jié)點(diǎn),表示對象屬性的判斷條件,其分支表示符合節(jié)點(diǎn)件的所有對象,樹的葉子節(jié)點(diǎn)表示對象所屬的類別。決策樹可以轉(zhuǎn)化為一系列規(guī)則(Rule),從而構(gòu)成一個規(guī)則集(RuleSet)。比如上述決策樹,最左邊的分支,對應(yīng)的規(guī)則是:如果客戶年齡屬于青年,而且有工作,那么就可以批準(zhǔn)其貸款申請。這樣的規(guī)則很容易被人們理解和運(yùn)用。1.2分類分析方法決策樹的構(gòu)造過程決策樹的創(chuàng)建從根節(jié)點(diǎn)開始,首先需要確定一個屬性,根據(jù)不同記錄在該屬性上的取值,對所有記錄進(jìn)行劃分。接下來,對每個分支重復(fù)這個過程,即對每個分支,選擇另外一個未參與樹的創(chuàng)建的屬性,繼續(xù)對樣本進(jìn)行劃分,一直到某個分支上的樣本都屬于同一類(或者隸屬該路徑的樣本大部分都屬于同一類)。屬性的選擇也稱為特征選擇。特征選擇的目的,是使得分類后的數(shù)據(jù)集更“純”,即數(shù)據(jù)子集里的樣本,主要屬于某個類別。理想的情況是,通過特征的選擇,能把不同類別的數(shù)據(jù)集貼上對應(yīng)的類別標(biāo)簽。為了衡量一個數(shù)據(jù)集的純度,需要引入數(shù)據(jù)純度函數(shù)。其中一個應(yīng)用廣泛的度量函數(shù)是信息增益(InformationGain)。信息熵,表示的是不確定性。非均勻分布時(shí),不確定性最大,此時(shí)熵就最大。當(dāng)選擇某個特征,對數(shù)據(jù)集進(jìn)行分類時(shí),分類后的數(shù)據(jù)集其信息熵會比分類前的要小,其差值表示為信息增益。信息增益可以用于衡量某個特征對分類結(jié)果的影響大小。1.2分類分析方法決策樹的構(gòu)造過程對于一個數(shù)據(jù)集,特征A作用之前的信息熵計(jì)算公式為:其中,D表示訓(xùn)練數(shù)據(jù)集,c表示類別數(shù)量,Pi表示類別i樣本數(shù)量占所有樣本的比例。對應(yīng)數(shù)據(jù)集D,選擇特征A作為決策樹判斷節(jié)點(diǎn)時(shí),在特征A作用后的信息熵為??????????(??)(特征A作用后的信息熵計(jì)算公式),計(jì)算公式為:其中,k表示樣本D被劃分為k個子集。信息增熵,表示數(shù)據(jù)集D在特征A的作用后,其信息減少的值,也就是信息熵差值,其計(jì)算公式為:在決策樹的構(gòu)建過程中,在需要選擇特征值的時(shí)候,都選擇??????????值最大的特征。1.2分類分析方法決策樹的剪枝在決策樹建立的過程中,很容易出現(xiàn)過擬合(Overfitting)現(xiàn)象。過擬合是指模型非常逼近訓(xùn)練樣本。模型是在訓(xùn)練樣本上訓(xùn)練出來的,在訓(xùn)練樣本上預(yù)測的準(zhǔn)確率很高,但是對測試樣本的預(yù)測準(zhǔn)確率就不高了,也就是模型的泛化能力(Generalization)差。當(dāng)把模型應(yīng)用到新?lián)系臅r(shí)候,其預(yù)測效果更不好了,過擬合不利于模型的實(shí)際應(yīng)用。當(dāng)決策樹出現(xiàn)過擬合現(xiàn)象時(shí),可以通過剪枝減輕過擬合。剪枝分為預(yù)先剪枝和后剪枝兩種情況。預(yù)先剪枝是指在決策樹構(gòu)造過程中,使用一定條件加以限制,使產(chǎn)生完全擬合的決策之前,就停止生長。預(yù)先剪枝的判斷方法有很多,比如信息增益小于一定閾值的時(shí)候,通過剪枝使決策樹停止生長。1.2分類分析方法決策樹的剪枝后剪枝是在決策樹構(gòu)造完成之后,也就是所有的訓(xùn)練樣本都可以用決策樹劃分到不同子類以后,按照自底向上的方向,修剪決策樹。后剪枝有兩種方式,一種是用新的葉子節(jié)點(diǎn)替換子樹,該節(jié)點(diǎn)的預(yù)測類由子樹數(shù)據(jù)集中的多數(shù)類決定;另一種是用子樹中最常使用的分支代替子樹。后剪枝一般能夠產(chǎn)生更好的效果,因?yàn)轭A(yù)先剪枝可能過早地終止決策樹構(gòu)造過程。決策樹優(yōu)點(diǎn)是規(guī)則性強(qiáng),缺點(diǎn)是易產(chǎn)生過擬合。1.2分類分析方法1.2.4邏輯回歸邏輯回歸(LogisticRegression),本質(zhì)上是一種分類方法,主要用來解決二分類問題。邏輯回歸與多元線性回歸,有很多相同之處,兩者可以歸于同一個模型家族,即廣義線性回歸模型(GeneralizedLinearModel)。這一家族的模型形式類似,即樣本特征的線性組合。最大的區(qū)別是因變量的不同。如果因變量是連續(xù)的,即多元線性回歸;如果因變是二項(xiàng)分布,即邏輯回歸。為了了解邏輯回歸,需要首先了解邏輯函數(shù)(或稱為Sigmoid函數(shù))。其函數(shù)形式為??(??)=11+?????。這個函數(shù)的自變量的變化范圍是(?∞,∞),函數(shù)值的變化范用是(0,1),函數(shù)的圖像如圖5-3所示。1.2分類分析方法1.2.4邏輯回歸邏輯回歸分類器(LogisticRegressionClassifier),是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出的一個0/1分類模型。這個模型以樣本特征(??1,??2,...,????是某樣本數(shù)據(jù)的各個特征,維度為n)的線性組合??0+??1??1+...+????????=????=0????????=??????作為自變量,使用邏輯函數(shù)將自變量映射到(0,1)上。圖5-3邏輯函數(shù)圖像1.2分類分析方法1.2.4邏輯回歸將上述線性組合代入邏輯函數(shù),構(gòu)造一個預(yù)測函數(shù)???(??)=??(??????)=11+?????????。???(??)函數(shù)的值具有特殊的含義,它表示結(jié)果取1的概率。對于輸入x,分類結(jié)果為類別1的概率為??(??=1|??,??)=???(??),分類結(jié)果為類別0的概率??(??=0|??,??)=1????(??)?,F(xiàn)在有一個新的數(shù)據(jù)點(diǎn)Z,新樣本具有特征??1,??2,...,????;首先計(jì)算線性組合??0+??1??1...+????????=??????,然后代入?????,計(jì)算其函數(shù)值。如果函數(shù)值大于0.5,那么類別y=1;否則類別y=0。這里假設(shè)統(tǒng)計(jì)樣本是均勻分布的,所以設(shè)閾值為0.5。1.2分類分析方法1.2.4邏輯回歸給定訓(xùn)練數(shù)據(jù)集,需要根據(jù)這些訓(xùn)練數(shù)據(jù),計(jì)算分類器的參數(shù),也就是各特征屬性的加權(quán)參數(shù)??={??0,??1,??2,...,????}。具體的計(jì)算過程可以使用極大似然估計(jì)(MaximumLikelihoodEstimation)、梯度上升(下降)算法或者牛頓-拉菲森迭代算法。邏輯回歸分類器,適用于數(shù)值型數(shù)據(jù)和類別型數(shù)據(jù),其計(jì)算代價(jià)不高,容易理解和實(shí)現(xiàn)。邏輯回歸分類器可以應(yīng)用于很多領(lǐng)域,比如,要探討電主軸發(fā)生的故障模式,可以選擇兩組電主軸樣本,一組是故障組,另一組是健康組。兩組電主軸樣本有不同的工況模式。對問題進(jìn)行建模的時(shí)候,因變量為是否故障,取值為“是”或者“否”,而自變量可以包括很多因素,比如轉(zhuǎn)速、扭矩、切削力。自變量可以是連續(xù)的,也可以是分類的。對采集的樣本數(shù)據(jù)進(jìn)行邏輯回歸分析,獲得每個數(shù)據(jù)點(diǎn)的各個特征屬性的加權(quán)參數(shù)。根據(jù)權(quán)重的不同,就可以大致了解,到底哪些因素是電主軸發(fā)生故障的因素,即權(quán)重比較大的特征屬性。當(dāng)建立這樣的邏輯回歸模型,就可預(yù)測,在不同的變量下,發(fā)生某種故障的概率有多大。1.2分類分析方法1.2.5支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)是一種二分類的監(jiān)督學(xué)習(xí)算法。SVM的基本模型是定義在特征空間上的線性分類器,其決策邊界是實(shí)例空間中距離最近的訓(xùn)練數(shù)據(jù)點(diǎn)(支持向量)具有最大間隔的線性超平面。對于線性不可分的情況,SVM使用核技巧通過非線性映射將原始輸入空間映射到更高維的特征空間內(nèi),使得數(shù)據(jù)在新空間中線性可分。因其在解決小樣本、非線性以及高維模式識別中效果好、泛化性能高,被廣泛應(yīng)用于故障診斷、優(yōu)化調(diào)度、預(yù)測分析等。1.2分類分析方法二維空間(即平面)數(shù)據(jù)點(diǎn)的分類下面通過一個二維平面上的數(shù)據(jù)點(diǎn)的分類,來介紹支持向量機(jī)技術(shù)。如圖5-4所示,在平面上有兩種不同的點(diǎn),用不同的形狀表示,一種為三角形,另一種為正方形。現(xiàn)在要求在平面上繪制一條直線,把兩類數(shù)據(jù)分開。可見這樣的直線可以繪制很多條,到底哪一條才是最合適的分割線呢?圖5-4二維平面上的數(shù)據(jù)分類(有無數(shù)條分割直線)在二維平面上,把兩類數(shù)據(jù)分開(假設(shè)可以分成兩類),需要一條直線。那么到了三維空間,要把兩類數(shù)據(jù)分開,就需要一個平面。把上述分類機(jī)制擴(kuò)展到基本情形,在高維空間里,把兩類數(shù)據(jù)分開,需要一個超平面。直線和平面是超平面在二維和三維空間的表現(xiàn)形式。1.2分類分析方法支持向量需要找出分類函數(shù)??=??(??)=???????+????=??(??)=???????+??。先將超平面上的點(diǎn)代入這個分類函數(shù),得到??(??)=0??(??)=0;將超平面一側(cè)的數(shù)據(jù)點(diǎn)代入分類函數(shù),得到??(??)≥1??(??)≥1。將超平面另外一側(cè)的數(shù)據(jù)點(diǎn)代入分類函數(shù),得到??(??)≥?1??(??)≥?1。在二維平面上,這個分類函數(shù)對應(yīng)一根直線??=??(??)=????+????=??(??)=????+??。在二維平面上確定一條直線,就是確定上述方程中的a和b。而在高維空間上確定一個超面,則是需要確定w向量和b向量。那么,應(yīng)該如何確定w和b呢?答案是尋找一個超平面,使它到兩個類別數(shù)據(jù)點(diǎn)的距離都盡可能地大。這樣的超平面為最優(yōu)的超平面。在圖5-5中,中間的那條直線到兩類數(shù)據(jù)點(diǎn)的距離是相等的(圖中雙向簡頭的長度表示離d)。為了確定這條直線,不需要所有的數(shù)據(jù)點(diǎn)(向量)參與決策,只需要圖中顯示為深灰的數(shù)據(jù)點(diǎn)(向量)即可。這些向量唯一確定了數(shù)據(jù)劃分的直線(超平面),稱為支持向量。1.2分類分析方法支持向量圖5-5支持向量(d表示超平面到不同類別數(shù)據(jù)點(diǎn)的距離)通過對上述實(shí)例的分析和解釋,了解到支持向量機(jī)是一個對高維數(shù)據(jù)進(jìn)行分類的分器。數(shù)據(jù)點(diǎn)分別被劃分到兩個不相交的半空間(HalfSpace),從而實(shí)現(xiàn)分類。劃分兩個半空的是一個超平面。SVM分類的主要任務(wù)是尋找到與兩類數(shù)據(jù)點(diǎn)都具有最大距離的超平面,目的是使得把兩類數(shù)據(jù)點(diǎn)分開的間限(Margin)最大化。下面是對SVM分類的形式化描述。1.2分類分析方法SVM問題模型將線性問題轉(zhuǎn)化為求max(MarginWidth)??梢钥闯捎蓸颖緲?gòu)成的向量(??+????)(??+????),在分類超平面上的法向量上????????????的投影。1.2分類分析方法假設(shè)訓(xùn)練數(shù)據(jù)假設(shè)訓(xùn)練數(shù)據(jù)為:線性分類函數(shù):1.2分類分析方法線性SVM問題建模將最優(yōu)分類平面求解問題,表示成約束優(yōu)化問題。最小化目標(biāo)函數(shù):約束條件:對最優(yōu)超平面進(jìn)行計(jì)算,是一個二次規(guī)劃問題??梢酝ㄟ^應(yīng)用拉格朗日對偶性(LagrangeDuality),求解對偶問題得到最優(yōu)解。具體細(xì)節(jié)請參考相關(guān)資料。1.2分類分析方法非線性SVM問題支持向量機(jī)功能強(qiáng)大,不僅能夠處理線性分類,還能夠處理非線性分類(使用核函數(shù)),以及容忍異常值(使用松弛變量)。有時(shí)候兩個數(shù)據(jù)點(diǎn)集,在低維空間中無法找到一個超平面來進(jìn)行清晰的劃分。例如,圖5-6(a)中的二維平面上的兩類數(shù)據(jù)點(diǎn),找不到一條直線把它們劃分開。SVM數(shù)據(jù)分析方法中,有一個核(Kernel)函數(shù)的技巧,可以巧妙地解決這個問題。通過核函數(shù),可以把低維空問的數(shù)據(jù)點(diǎn)(向量),映射到高維空間中。經(jīng)過映射以后,兩類數(shù)據(jù)點(diǎn)在高維空間里,可以用一個超平面分開。(a)二維平面上的兩類數(shù)據(jù)點(diǎn)(不易分類)(b)經(jīng)過核函數(shù)映射后的三維空間上的兩類1.2分類分析方法非線性SVM問題數(shù)據(jù)點(diǎn)(容易分類)圖5-6SVM的核函數(shù)技巧示意圖在圖5-6(b)中,兩類數(shù)據(jù)點(diǎn)經(jīng)過映射以后,映射到三維空的數(shù)據(jù)點(diǎn)。在三維空間里,兩類數(shù)據(jù)點(diǎn)可以用一個平面予以分開。核函數(shù)??(????,????)允許我們在高維空間進(jìn)行點(diǎn)積運(yùn)算,而不必直接計(jì)算高維空間中的坐標(biāo)。常用的核函數(shù)包括:多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、指數(shù)徑向基核函數(shù)、神經(jīng)網(wǎng)絡(luò)核函數(shù)等,表5-1為常用核函數(shù)的表達(dá)式與特點(diǎn)。表5-1常用核函數(shù)1.2分類分析方法異常值的處理在SVM模型中,超平面是由少數(shù)幾個支持向量確定的,未考慮Outlier(離群值)的影響。通過下面的實(shí)例,展示異常值的影響。在下面的實(shí)例里,不同形狀表示不同類別的數(shù)據(jù)點(diǎn),深灰色的數(shù)據(jù)點(diǎn)則表示異常值,如圖5-5所示。這個異常值將導(dǎo)致分類錯誤。目標(biāo)是計(jì)算一個分割超平面,把分類錯誤降低到最小。上述的問題可通過在模型中引入松弛(Relax)變量來解決。松弛變量是為了糾正或約束少量“不安分”的或脫離集體不好歸類的數(shù)據(jù)點(diǎn)的因子。引入松弛變量后,支持向量機(jī)的超平面的求解問題,仍然可以轉(zhuǎn)化成一個二次規(guī)劃問題來求解。在引入松弛變量的情況下,最優(yōu)分類平面求解問題,可表示成如下的約束優(yōu)化問題。最小化目標(biāo)函數(shù):約束條件:1.2分類分析方法異常值的處理正則化參數(shù)C,可以理解為允許劃分錯誤的權(quán)重。當(dāng)C越大時(shí),表示越不容許出錯;而當(dāng)C較小的時(shí)候,則允許少量樣本劃分錯誤。圖5-7SVM分類器中異常值的處理1.3分類器評估方法模型評估用來在不同的模型類型、調(diào)節(jié)參數(shù)、特征組合中選擇適合的模型,因此,需要設(shè)計(jì)個模型評估的流程來估計(jì)訓(xùn)練得到的模那對于非樣本數(shù)據(jù)的泛化能力,并且還需要恰當(dāng)?shù)哪P驮u估度量手段來衡量模型的性能表現(xiàn)。分類問題可以采用的評價(jià)指標(biāo)有:準(zhǔn)確率(Accuracy)、精確率(Precision)、召同率(Recall)和F1分?jǐn)?shù)(F1-score)等。1.3分類器評估方法1.3.1混淆矩陣(ConfusionMatrix)混淆矩陣的每一列代表了預(yù)測類別,每一列的總數(shù)表示預(yù)測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實(shí)歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實(shí)例的數(shù)目。每一列中的數(shù)值表示真實(shí)數(shù)據(jù)被預(yù)測為該類的數(shù)目。以二分類為例,假設(shè)類別1為正,類別0為負(fù),那么,對于數(shù)據(jù)測試結(jié)果有下面4種情況,真正值(TruePositive,TP):預(yù)測類別為正,實(shí)際類別為正。假正值(FalsePositive,F(xiàn)P):預(yù)測類別為正,實(shí)際類別為負(fù)。假負(fù)值(FalseNegative,F(xiàn)N):預(yù)測類別為負(fù),實(shí)際類別為正。真負(fù)值(TrueNegative,TN):預(yù)測類別為負(fù),實(shí)際類別為負(fù)。其中,TP和TN表示分類器分類正確的樣本,F(xiàn)P和FN表示分類器分類錯誤的樣本。混淆矩陣如表5-2所示。表5-2混淆矩陣1.3分類器評估方法1.3.2評價(jià)指標(biāo)定義準(zhǔn)確率(Accuracy):表示分類器預(yù)測正確的樣本數(shù)占總體樣本數(shù)的比重,計(jì)算公式在有些情況下,數(shù)據(jù)集實(shí)際類別并不平衡,更關(guān)心稀有類別的預(yù)測情況。由于準(zhǔn)確率將每個類別看作同等重要,這時(shí)準(zhǔn)確率對模型的評估不再有效。在這種情況下,可以使用精確率和召回率評估模型。精確率(Precision):表示在分類器預(yù)測類別為正的樣本中,實(shí)際類別為正的樣本的比重,計(jì)算公式召回率(Recall):表示在實(shí)際類別為正的樣本中,被分類器預(yù)測類別為正的樣本的比重,計(jì)算公式1.3分類器評估方法1.3.2評價(jià)指標(biāo)定義考慮極端情況,如果分類器將所有樣本都預(yù)測為正,那么模型具有極高的召回率,但是精確率卻極低;反之,如果分類器僅將一個實(shí)際類別為正的樣本預(yù)測為正,其余樣本預(yù)測為負(fù),那么模型具有很高的精確率,但是召回率卻極低。因此,有時(shí)候需要綜合考慮精確率和召回率,最常見的方法就是F-score方法。F1-score綜合考慮精確率和召回率,是它們的加權(quán)調(diào)和平均值。當(dāng)精確率和召回率的權(quán)重相同時(shí),得到的調(diào)和平均值稱為F1-score,計(jì)算公式1.3分類器評估方法1.3.3ROC曲線和AUCROC(ReceiveroperatingCharacteristic)全稱是“接受者操作特征”。ROC曲線的面積就是AUC(AreaUndertheCurve)。AUC用于衡量“二分類問題”機(jī)器學(xué)習(xí)算法性能(泛化能力)。首先介紹幾個有關(guān)概念。真正率(TPR):也叫靈敏度,表示在實(shí)際類別為正的樣本中,預(yù)測類別為正的樣本比重,計(jì)算公式??????=????(????+????),和召回率計(jì)算公式一致。假正率(FPR):也叫特異度,表示在實(shí)際類別為負(fù)的樣本中,預(yù)測類別為正的樣本比重,計(jì)算公式??????=????(????+????)。截?cái)帱c(diǎn)(CutOffValue):即判斷標(biāo)準(zhǔn),是判定樣本預(yù)測為正或負(fù)的界值。例如,如果截?cái)帱c(diǎn)為0.5,分類器預(yù)測一個樣本類別為正的概率為0.7,那么該樣本預(yù)測類別即為正;如果截?cái)嘀禐?8,那么該樣本的預(yù)測類別為負(fù)。1.3分類器評估方法1.3.3ROC曲線和AUCROC曲線對所有可能的截?cái)帱c(diǎn)做計(jì)算,顯示敏感度和特異度之間相互關(guān)系。首先,通過改變截?cái)帱c(diǎn),獲得多個真正率與特異度序?qū)?,然后,以特異度為橫坐標(biāo),真正率為縱坐標(biāo),做圖得到的曲線稱為ROC曲線。其曲線一定經(jīng)過(0,0)和(1,1)兩點(diǎn),分別代表靈敏度為0、特異度為0和靈敏度為1、特異度為1的坐標(biāo)點(diǎn)。對于一個理想的分類模型,ROC曲線表現(xiàn)為從原點(diǎn)垂直上升至左上角,然后水平到達(dá)右上角的一個直角折線。而完全無價(jià)值的分類模型,表現(xiàn)在圖上是一條從原點(diǎn)到右上角的對角線,這條線也被稱作機(jī)會線。但對于大多數(shù)分類模型來說,預(yù)測類別為正的概率分布和預(yù)測為負(fù)的分布是重疊的。任何截?cái)帱c(diǎn)都將導(dǎo)致一些實(shí)際類別為負(fù)的樣本被錯分為正類,或一些實(shí)際類別為正的樣本被錯分為負(fù)類,或兩種情況兼有。1.3分類器評估方法1.3.3ROC曲線和AUCROC曲線下方的面積AUC可以用于評估分類模型的平均性能。理想的分類器模型AUC為1,隨機(jī)的分類器模型AUC為0.5。AUC越接近1,認(rèn)為分類模型平均性能越好。在Sklearn中,sklearn.metrics.roc_curvey和sklearn.metrics.roc_auc_score分別實(shí)現(xiàn)了ROC和AUC的相關(guān)計(jì)算:fpr,tpr,thresholds=roc_curve(y_true,y_scores)auc=roc_auc_score(y_ture,y_scores)其中,參數(shù)y_ture:樣本實(shí)際類別,參數(shù)y_scores:目標(biāo)分?jǐn)?shù),即在通常情況下使用樣本被預(yù)測為正類的概率。1.3分類器評估方法1.3.3ROC曲線和AUC相關(guān)計(jì)算過程如下:將y_score中的值按照降序排序,再將每一個值作為截?cái)帱c(diǎn)threshold,能夠得到若干組FPR和TPR的值。例如,假設(shè)正類標(biāo)簽記為1,負(fù)類標(biāo)簽記為0,有4個樣本,真實(shí)標(biāo)簽為y_true=[0,0,1,1],分類器預(yù)測這4個樣本為正類的概率為y_score=[0.1,0.4,0.35,0.8],當(dāng)選取0.4作為截?cái)帱c(diǎn)threshold時(shí),第2個和第4個樣本被預(yù)測為正類,其余為負(fù)類,混淆矩陣顯示如表5-3所示。表5-3混淆矩陣舉例其他組FPR和TPR計(jì)算過程類似。利用這些FPR和TPR值,可以繪制ROC曲線,計(jì)算AUC的值。2工業(yè)大數(shù)據(jù)聚類2工業(yè)大數(shù)據(jù)聚類聚類是針對給定的樣本,依據(jù)它們特征的相似度或距離,將其歸并到若干個“類”或“簇”的數(shù)據(jù)分析問題。一個類是給定樣本集合的一個子集。直觀上,相似的樣本聚集在相同的類,不相似的樣本分散在不同的類。這里,樣本之間的相似度或距離起著重要作用。聚類的目的是通過得到的類或簇來發(fā)現(xiàn)數(shù)據(jù)的特點(diǎn)或?qū)?shù)據(jù)進(jìn)行處理,在數(shù)據(jù)挖掘、模式識別等領(lǐng)域有著廣泛的應(yīng)用。聚類屬于無監(jiān)督學(xué)習(xí),因?yàn)橹皇歉鶕?jù)樣本的相似度或距離將其進(jìn)行歸類,而類或簇事先并不知道。2.1聚類分析基本概念本節(jié)介紹聚類的基本概念,包括樣本之間的距離或相似度、類或簇、類與類之間的距離。2.1聚類分析基本概念2.1.1相似度或距離聚類的對象是觀測數(shù)據(jù)或樣本集合。假設(shè)有n個樣本,每個樣本由m個屬性的特征向量組成。樣本集合可以用矩陣X表示:矩陣的第j列表示第j個樣本,j=1,2,…,n;第i行表示第i個屬性,i=1,2,…,m;矩陣元素xij表示第j個樣本的第i個屬性值,i=1,2,…,m,j=1,2,…,n。聚類的核心概念是相似度(similarity)或距離(distance),有多種相似度或距離的定義。因?yàn)橄嗨贫戎苯佑绊懢垲惖慕Y(jié)果,所以其選擇是聚類的根本問題。具體哪種相似度更合適取決于應(yīng)用問題的特性。2.1聚類分析基本概念閔可夫斯基距離在聚類中,可以將樣本集合看作是向量空間中點(diǎn)的集合,以該空間的距離表示樣本之間的相似度。常用的距離有閔可夫斯基距離,特別是歐氏距離。閔可夫斯基距離越大,相似度越?。痪嚯x越小,相似度越大。給定樣本集合X,X是m維實(shí)數(shù)向量空間Rm中點(diǎn)的集合,其中????,????∈??????,????∈??,????=(??1??????=(??1??,??2??,?,??????)????2??,?,??????)??,????=(??1??,??2??,?,??????)??????=(??1??,??2??,?,??????)??,樣本????????與樣本????????的閔可夫斯基距離(Minkowskidistance)定義為這里p≥1。當(dāng)p=2時(shí)稱為歐氏距離(Euclideandistance),即2.1聚類分析基本概念閔可夫斯基距離當(dāng)p=1時(shí)稱為曼哈頓距離(Manhattandistance),即當(dāng)p=∞時(shí)稱為切比雪夫距離(Chebyshevdistance),取各個坐標(biāo)數(shù)值差的絕對值的最大值,即2.1聚類分析基本概念馬哈拉諾比斯距離馬哈拉諾比斯距離(Mahalanobisdistance)簡稱馬氏距離,也是另一種常用的相似度,考慮各個分量(特征)之間的相關(guān)性并與各個分量的尺度無關(guān)。馬哈拉諾比斯距離越大,相似度越小;距離越小,相似度越大。給定一個樣本集合??,??=[??????]??×??,其協(xié)方差矩陣記作S。樣本????與樣本????之間的馬哈拉諾比斯距離??????定義為其中,當(dāng)S為單位矩陣時(shí),即樣本數(shù)據(jù)的各個分量互相獨(dú)立且各個分量的方差為1時(shí),馬氏距離就是歐氏距離,所以馬氏距離是歐氏距離的推廣。2.1聚類分析基本概念相關(guān)系數(shù)樣本之間的相似度也可以用相關(guān)系數(shù)(correlationcoefficient)來表示。相關(guān)系數(shù)的絕對值越接近1,表示樣本越相似;越接近0,表示樣本越不相似。樣本????與樣本????之間的相關(guān)系數(shù)定義為其中,2.1聚類分析基本概念夾角余弦樣本之間的相似度也可以用夾角余弦(cosine)來表示。夾角余弦越接近1,表示樣本越相似;越接近0,表示樣本越不相似。樣本????與樣本????之間的余弦夾角定義為由上述定義看出,用距離度量相似度時(shí),距離越小,樣本越相似;用相關(guān)系數(shù)時(shí),相關(guān)系數(shù)越大,樣本越相似。注意不同相似度度量得到的結(jié)果并不一定一致,如圖5-8所示。圖5-8距離與相關(guān)系數(shù)的關(guān)系2.1聚類分析基本概念夾角余弦從圖5-8可以看出,如果從距離的角度看,A和B比A和C更相似;但從相關(guān)系數(shù)的角度看,A和C比A和B更相似。所以,進(jìn)行聚類時(shí),選擇適合的距離或相似度非常重要。2.1聚類分析基本概念2.1.2類或簇通過聚類得到的關(guān)或簇本質(zhì)是樣本的子集。如果一個聚關(guān)方法假定一個樣本只能屬于一個類或類的交集為空集,那么該方法稱為硬聚類(hardclustering)方法。否則,如果一個樣本可以屬于多個類或類的交集不為空集,那么該方法稱為軟聚類(softclustering)方法。本小節(jié)只考慮硬聚類方法。用G表示類或簇(cluster),用????,????表示類中的樣本,用????表示G中樣本的個數(shù),用??????表示樣本????與樣本????之間的距離。類或簇有多種定義,下面給出幾個常見的定義。定義1:設(shè)T為給定的正數(shù),若對于集合G中任意兩個樣本????,????,有則稱G為一個類或簇。2.1聚類分析基本概念2.1.2類或簇定義2:設(shè)T為給定的正數(shù),若對集合G的任意樣本????,一定存在G中的另一個樣本????,使得則稱G為一個類或簇。定義3:設(shè)T為給定的正數(shù),若對集合G中任意一個樣本????,G中的另一個樣本????滿足其中????為G中樣本的個數(shù),則稱G為一個類或簇。定義4:設(shè)T和V為給定的兩個正數(shù),如果集合G中任意兩個樣本????,????的距離??????滿足則稱G為一個類或簇。以上四個定義中,第一個定義最常用,并且由它可推出其他三個定義。類的特征可以通過不同角度來刻畫,常用的特征有下面三種:2.1聚類分析基本概念類的均值????,又稱為類的中心式中????是類G的樣本個數(shù)。2.1聚類分析基本概念類的直徑(diameter)????類的直徑????是類中任意兩個樣本之間的最大距離,即(3)類的樣本散布矩陣(scattermatrix)????與樣本協(xié)方差矩陣(covariancematrix)????類的樣本散布矩陣????為樣本協(xié)方差矩陣????為2.1聚類分析基本概念2.1.3類與類之間的距離下面考慮類????與類????之間的距離??(??,??),也稱為連接(linkage)。類與類之間的距離也有多種定義。設(shè)類????包含????個樣本,????包含????個樣本,分別用????和????表示????和????的均值,即類的中心。2.1聚類分析基本概念最短距離或單連接(singlelinkage)定義類????的樣本與類????的樣本之間的最短距離為兩類之間的距離:2.1聚類分析基本概念最長距離或完全連接(completelinkage)定義類????的樣本與類????的樣本之間的最長距離為兩類之間的距離:2.1聚類分析基本概念中心距離定義類????與類????的中心????與????之間的距離為兩類之間的距離:2.1聚類分析基本概念平均距離定義類????與類????任意兩個樣本之間距離的平均值為兩類之間的距離:2.2聚類分析方法2.2.1層次聚類層次聚類假設(shè)類別之間存在層次結(jié)構(gòu),將樣本聚到層次化的類中。層次聚類又有聚合(agglomerative)或自下而上(bottom-up)聚類、分裂(divisive)或自上而下(top-down)聚類兩種方法。因?yàn)槊總€樣本只屬于一個類,所以層次聚類屬于硬聚類。聚合聚類開始將每個樣本各自分到一個類,之后將相距最近的兩類合井,建立一個新的類,重復(fù)此操作直到滿足停止條件,得到層次化的類別。分裂聚類開始將所有樣本分到一個類,之后將已有類中相距最遠(yuǎn)的樣本分到兩個新的類,重復(fù)此操作直到滿足停止條件,得到層次化的類別。2.2聚類分析方法聚合聚類的要素對于給定的樣本集合,開始將每個樣本分到一個類;然后按照一定規(guī)則,如類間距離最小,將最滿足規(guī)則條件的兩個類進(jìn)行合并;如此反復(fù)進(jìn)行,每次減少一個類,直到滿足停止條件,如所有樣本聚為一類。由此可知,聚合聚類需要預(yù)先確定下面三個要素:(1)距離或相似度;(2)合并規(guī)則;(3)停止條件。2.2聚類分析方法聚合聚類的具體過程根據(jù)這些要素的不同組合,就可以構(gòu)成不同的聚類方法。距離或相似度可以是閔可夫斯基距離、馬哈拉諾比斯距離、相關(guān)系數(shù)、夾角余弦。合并規(guī)則一般是類間距離最小,類間距離可以是最短距離、最長距離、中心距離、平均距離。停止條件可以是類的個數(shù)達(dá)到閾值(極端情況類的個數(shù)是1)、類的直徑超過閥值。如果采用歐氏距離為樣本之間距離;類間距離最小為合并規(guī)則,其中最短距離為類間距離;類的個數(shù)是1,即所有樣本聚為一類為停止條件,那么聚合聚類的算法如下:輸入:n個樣本組成的樣本集合及樣本之間的距離。輸出:對樣本集合的一個層次化聚類。2.2聚類分析方法聚合聚類的具體過程(4)計(jì)算新類與當(dāng)前各類的距離。若類的個數(shù)為1,終止計(jì)算,否則,回到步驟(3)。(3)合并類間距離最小的兩個類,其中最短距離為類間距離,構(gòu)建一個新類。(2)構(gòu)造n個類,每個類只包含一個樣本。(1)計(jì)算n個樣本兩兩之間的歐氏距離??????,記作矩陣??=????????×??。在右側(cè)編輯區(qū)輸入內(nèi)容在右側(cè)編輯區(qū)輸入內(nèi)容在右側(cè)編輯區(qū)輸入內(nèi)容可以看出聚合層次聚類算法的復(fù)雜度是??(??3??),其中m是樣本的維數(shù),n是樣本個數(shù)。2.2聚類分析方法2.2.2k均值聚類k均值聚類是基于樣本集合劃分的聚類算法。k均值聚類將樣本集合劃分為k個子集,構(gòu)成k個類,將n個樣本分到k個類中,每個樣本到其所屬類的中心的距離最小。每個樣本只能屬于一個類,所以k均值聚類是硬聚類。下面分別介紹k均值聚類的模型、策略、算法,討論算法的特性及相關(guān)問題。1.k均值聚類模型給定n個樣本的集合??=??1,??2,?,????,每個樣本由一個特征向量表示,特征向量的維數(shù)是m。k均值聚類的目標(biāo)是將n個樣本分到k個不同的類或簇中,這里假設(shè)k<n。k個類??1,??2,?,????形成對樣本集合X的劃分,其中????∩????=?,??=1??????=??。用C表示劃分,一個劃分對應(yīng)著一個聚類結(jié)果。2.2聚類分析方法2.2.2k均值聚類劃分C是一個多對一的函數(shù)。事實(shí)上,如果把每個樣本用一個整數(shù)??=1,2,?,??表示,每個類也用一個整數(shù)??=1,2,?,??表示,那么劃分或者聚類可以用函數(shù)??=??(??)表示,其中??∈1,2,?,??,??∈1,2,?,??。所以k均值聚類的模型是一個從樣本到類的函數(shù)。2.k均值聚類策略k均值聚類歸結(jié)為樣本集合X的劃分,或者從樣本到類的函數(shù)的選擇問題。k均值聚類的策略是通過損失函數(shù)的最小化選取最優(yōu)的劃分或函數(shù)???。首先,采用歐氏距離平方(squaredEuclideandistance)作為樣本之間的距離??(????,????):然后,定義樣本與其所屬類的中心之間的距離的總和為損失函數(shù),即2.2聚類分析方法2.2.2k均值聚類其中,????=(??1??,??2??,?,??????)??是第l個類的均值或中心,????=??=1????(??(??)=??),??(??(??)=??)是指示函數(shù),取值為1或0。函數(shù)W(C)也稱為能量,表示相同類中的樣本相似的程度。k均值聚類就是求解最優(yōu)化問題:相似的樣本被聚到同類時(shí),損失函數(shù)值最小,這個目標(biāo)函數(shù)的最優(yōu)化能達(dá)到聚類的目的。但是,這是一個組合優(yōu)化問題,n個樣本分到k類,所有可能分法的數(shù)目是這個數(shù)字是指數(shù)級的。事實(shí)上,k均值聚類的最優(yōu)解求解問題是NP困難問題?,F(xiàn)實(shí)中采用迭代的方法求解。2.2聚類分析方法2.2.2k均值聚類3.k均值聚類算法k均值聚類的算法是一個迭代的過程,每次迭代包括兩個步驟。首先選擇k個類的中心,將樣本逐個指派到與其最近的中心的類中,得到一個聚類結(jié)果:然后更新每個類的樣本的均值,作為類的新的中心;重復(fù)以上步驟,直到收斂為止。具體過程如下。首先,對于給定的中心值(??1,??2,?,????),求一個劃分C,使得目標(biāo)函數(shù)極小化:在類中心確定的情況下,將每個樣本分到一個類中,使樣本和其所屬類的中心之間的距離總和最小。求解結(jié)果,將每個樣本指派到與其最近的中心????的類????中。然后,對給定的劃分C,再求各個類的中心(??1,??2,?,????),使得目標(biāo)函數(shù)極小化:2.2聚類分析方法2.2.2k均值聚類在劃分確定的情況下,使樣本和其所屬類的中心之間的距離總和最小。求解結(jié)果,對于每個包含????個樣本的類????,更新其均值????:重復(fù)以上兩個步驟,直到劃分不再改變,得到聚類結(jié)果。k均值聚類算法具體如下。輸入:n個樣本的集合X。輸出:樣本集合的聚類???。(1)初始化。令t=0,隨機(jī)選擇k個樣本點(diǎn)作為初始聚類中心??(0)=(??1(0),?,????(0),?,????(0))。(2)對樣本進(jìn)行聚類。對固定的類中心??(??)=(??1(??),?,????(??),?,????(??)),其中????(??)為類????的中心,計(jì)算每個樣本到類中心的距離,將每個樣本指派到與其最近的中心的類中,構(gòu)成聚類結(jié)果??(??)。2.2聚類分析方法2.2.2k均值聚類(3)計(jì)算新的類中心。對聚類結(jié)果??(??),計(jì)算當(dāng)前各個類中的樣本的均值,作為新的類中心??(??+1)=(??1(??+1),?,????(??+1),?,????(??+1))。(4)如果迭代收斂或符合停止條件,輸出???=??(??);否則,令??=??+1,返回步驟(2)。k均值聚類算法的復(fù)雜度是??(??????),其中??是樣本維數(shù),??是樣本個數(shù),??是類別個數(shù)。4.k均值聚類算法特性2.2聚類分析方法總體特點(diǎn)k均值聚類有以下特點(diǎn):基于劃分的聚類方法;類別數(shù)k事先指定;以歐氏距離平方表1示樣本之間的距離,以中心或樣本的均值表示類別;以樣本和其所屬類的中心之間的距離的2的總和為最優(yōu)化的目標(biāo)函數(shù);得到的類別是平坦的、非層次化的;算法是迭代算法,不能保證得到全局最優(yōu)。32.2聚類分析方法收斂性k均值聚類屬于啟發(fā)式方法,不能保證收斂到全局最優(yōu),初始中心的選擇會直接影響聚類結(jié)果。注意,類中心在聚類的過程中會發(fā)生移動,但是往往不會移動太大,因?yàn)樵诿恳徊?,樣本被分到與其最近的中心的類中。2.2聚類分析方法初始類的選擇選擇不同的初始中心會得到不同的聚類結(jié)果。對于初始中心的選擇,可以用層次聚類對樣本進(jìn)行聚類,得到k個類時(shí)停止,然后從每個類中選取一個與中心距離最近的點(diǎn)。2.2聚類分析方法類別數(shù)k的選擇k均值聚類中的類別數(shù)k值需要預(yù)先指定,而在實(shí)際應(yīng)用中最優(yōu)的k值是不知道的。解決這個問題的一個方法是嘗試用不同的k值聚類,檢驗(yàn)各自得到的聚類結(jié)果的質(zhì)量,推測最優(yōu)的k值。聚類結(jié)果的質(zhì)量可以用類的平均直徑來衡量。一般地,類別數(shù)變小時(shí),平均直徑會增加;類別數(shù)變大超過某個值以后,平均直徑會不變,而這個值正是最優(yōu)的k值。圖5-9說明類別數(shù)與平均直徑的關(guān)系。實(shí)驗(yàn)時(shí),可以采用二分查找,快速找到最優(yōu)的k值。圖5-9類別數(shù)與平均直徑的關(guān)系2.3聚類評估2.3.1調(diào)整蘭德指數(shù)其中,a:實(shí)際類別中屬于同一類,預(yù)測類別中也屬于同一類的樣本對數(shù)。b:實(shí)際類別中不屬于同一類,預(yù)測類別中也不屬于同一類的樣本對數(shù)。????samples2:數(shù)據(jù)中可以組合的總對數(shù)。RI的取值范圍為[0,1],值越大意味著聚類效果與真實(shí)情況越吻合。例如,給定6個數(shù)據(jù)樣本,設(shè)它們對應(yīng)的實(shí)際類別Label_true=[0,0,0,1,1,1],聚類后的預(yù)測類別Label_pred=[3,3,1,1,2,2]。在表5-4中,統(tǒng)計(jì)每一對樣本間實(shí)際類別與預(yù)測類別結(jié)果的對照情況。其中,符號“√”代表屬于同一類別,“×”代表不屬于同一類別。表5-4樣本對之間聚類對照表2.3聚類評估2.3.1調(diào)整蘭德指數(shù)a對應(yīng)(√,√)的總數(shù)目,a=2;b對應(yīng)(×,×)的總數(shù)目,b=8;????samples2=??62=15。可得????=23。但是,對于隨機(jī)聚類的結(jié)果,特別是在類別值與樣本值相近的情況下,隨機(jī)聚類的RI值卻不能接近于0。例如,給定實(shí)際類別Label_true=[0,0,1,1,2,2],隨機(jī)聚類后得到的預(yù)測類別Label_pred=[0,1,2,3,4,5],每一對樣本間實(shí)際類別與預(yù)測類別結(jié)果的對照情況如表5-5所示。表5-5樣本對之間聚類對照表對應(yīng)(√,√)的總數(shù)目a=0,對應(yīng)(×,×)的總數(shù)目b=12,????samples2=??62=15,可得????=45。2.3聚類評估2.3.1調(diào)整蘭德指數(shù)為了實(shí)現(xiàn)“在聚類結(jié)果隨機(jī)產(chǎn)生的情況下,指標(biāo)應(yīng)該接近零”,提出了調(diào)整蘭德系數(shù)(AdjustedRandIndex,ARI),它具有更高的區(qū)分度。ARI取值范圍為[-1,1],值越大意味著聚類結(jié)果與真實(shí)情況越吻合。從廣義的角度來講,ARI衡量的是兩個數(shù)據(jù)分布的吻合程度。2.3聚類評估2.3.2互信息評分互信息(MutualInformation,MI)可用來衡量兩個數(shù)據(jù)分布的吻合程度。假設(shè)U與V是對N個樣本標(biāo)簽的分配情況,則兩種分布的熵分別為:其中,U為樣本實(shí)際類別分配情況,V為樣本聚類后的標(biāo)簽預(yù)測情況。????=??????,用類別i在訓(xùn)練集中所占比例來估計(jì)。??'??=??????,簇j在訓(xùn)練集中所占比例。????,??=????∩??????,來自于類別i被分配搭配簇j的樣本的數(shù)目占訓(xùn)練集的比例;利用互信息可以衡量實(shí)際類別與預(yù)測類別的吻合程度,NMI是對MI進(jìn)行的標(biāo)準(zhǔn)化,AMI的處理則與ARI相同,以使隨機(jī)聚類的評分接近于0。NMI的取值范圍為[0,1],AMI的取值范圍為[-1,1],值越大意味著聚類結(jié)果與真實(shí)情況越吻合。2.3聚類評估2.3.3同質(zhì)性、完整性以及調(diào)和平均同質(zhì)性(Homogeneity):每個結(jié)果簇中只包含單個類別(實(shí)際類別)成員。1其中,????是簇k包含的樣本數(shù)目,????是類別C包含的樣本數(shù)目,????,??是來自類別C卻被分配到簇k的樣本的數(shù)目。2完整性(Completeness):給定類別(實(shí)際類別)的所有成員都被分配到同一個簇(聚類得到的結(jié)果簇)中。32.3聚類評估2.3.4Fowlkes-Mallows評分精確度和召回率的幾何平均數(shù):??????=????????+????????+????用符號“√”代表屬于同一類別,“×”代表不屬于同一類別,則:TP:在實(shí)際類別中屬于同一類,在預(yù)測類別中也屬于同一類的樣本對數(shù)。(√,√)FP:在實(shí)際類別中屬于同一類,在預(yù)測類別中不屬于同一類的樣本對數(shù)。(√,×)FN:在實(shí)際類別中不屬于同一類,在預(yù)測類別中屬于同一類的樣本對數(shù)。(×,√)例如,給定實(shí)際類別Label_true=[0,0,0,1,1,1],隨機(jī)聚類后得到的預(yù)測類別Label_pred=[3,3,1,1,2,2],每一對樣本間實(shí)際類別與預(yù)測類別結(jié)果的對照情況如表5-6所示。表5-6統(tǒng)計(jì)信息經(jīng)計(jì)算可得:TP=2,F(xiàn)P=4,F(xiàn)N=1,F(xiàn)MI=0.471。2.3聚類評估2.3.4Fowlkes-Mallows評分FMI的取值范圍為[0,1],值越大意味著聚類效果越好。缺點(diǎn)是需要事先知道真實(shí)類別。2.3聚類評估2.3.5輪廓系數(shù)其中,a:某樣本與同類別中其他樣本的平均速度。b:某樣本與不同類別中距離最近的樣本的平均距離。上述是單個樣本的輪廓系數(shù)(SilhouetteCoefficient)。對于一個樣本集合,它的輪廓系數(shù)是所有樣本輪廓系數(shù)的平均值。輪廓系數(shù)的范圍為[-1,1],同類別樣本距離越近且不同類別樣本距離越遠(yuǎn),分?jǐn)?shù)越高。2.3聚類評估2.3.6Calinski-Harabz指數(shù)其中,????:簇之間的協(xié)方差矩陣;????:簇內(nèi)部數(shù)據(jù)的協(xié)方差矩陣;N:訓(xùn)練集樣本數(shù);K:簇個數(shù);????:簇q的中心樣本;C:訓(xùn)練集的中心樣本;????:簇q的樣本數(shù)目;????:矩陣的跡。簇之間的協(xié)方差越大,簇與簇之間界限越明顯,聚類效果也就越好;簇內(nèi)部數(shù)據(jù)的協(xié)方差越小,同一簇內(nèi)包含的樣本越相似,聚類效果也就越好。對應(yīng)的即s(k)越大,聚類效果越好。3工業(yè)大數(shù)據(jù)降維3.1主成分分析(PCA)主成分分析(PrincipalComponentAnalysis,PCA)法是一種使用廣泛的數(shù)據(jù)降維算法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量稱為主成分。主成分分析是由K.皮爾森(KarlPearson)對非隨機(jī)變量引入的,之后H.霍特林(HarolfHotelling)將此方法推廣到隨機(jī)變量。3.1主成分分析(PCA)基本思想主成分分析法的基本思想是設(shè)法將原來具有一定相關(guān)性的指標(biāo)X1,X2,,Xp,(比如p個指標(biāo)),重新組合成一組較少個數(shù)的互不相關(guān)的綜合指標(biāo)Fm來替代原來指標(biāo)。那么綜合指標(biāo)應(yīng)該如何提取,使其既能最大限度地反應(yīng)原變量所代表的信息,又能保證新指標(biāo)之間互不相關(guān)(信息不重疊)。通常數(shù)學(xué)上的處理就是將原來的p個指標(biāo)線性組合,作為新的綜合指標(biāo)。設(shè)F1表示原變量的第一個線性組合所形成的主成分指標(biāo),即F1=a11X1+a12X2++a1pXp,由數(shù)學(xué)知識可知,每一個主成分所提取的信息量可用其方差來度量,其方差Var(F1)越大,表示F1包含的信息量越多。常常希望第一主成分F1所含的信息量最大,因此在所有的線性組合中選取的F1應(yīng)該是X1,X2,,Xp的所有線性組合中方差最大的,故稱F1為第一主成分。3.1主成分分析(PCA)基本思想如果第一主成分不足以代表原來p個指標(biāo)的信息,再考慮選取第二個主成分指標(biāo)F2,為有效地反應(yīng)原信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,即F2與F1要保持獨(dú)立、不相關(guān),用數(shù)學(xué)語言表達(dá)就是其協(xié)方差Cov(F1,F2)=0,所以F2是與F1不相關(guān)的X1,X2,,Xp的所有線性組合中方差最大的,故稱F2為第二主成分,依此類推構(gòu)造出的F1,F2,,Fm為原變量指標(biāo)X1,X2,,Xp的第一,第二,,第m個主成分。由以上分析可見,主成分分析法的主要任務(wù)有兩點(diǎn)。(1)確定各主成分Fi(i=1,2,,m)關(guān)于原變量Xj(j=1,2,,p)的表達(dá)式,即系數(shù)aij(i=1,2,,m;j=1,2,,p)。從數(shù)學(xué)上可以證明,原變量協(xié)方差矩陣的特征根是主成分的方差,3.1主成分分析(PCA)基本思想所以前m個較大特征根就代表前m個較大的主成分方差值;原變量協(xié)方差矩陣前m個較大的特征值λi(這樣選取才能保證主成分的方差依次增大)所對應(yīng)的特征向量就是相應(yīng)主成分Fi表達(dá)式的系數(shù)ai,為了加以限制,系數(shù)ai啟用的是λi對應(yīng)的單位化的特征向量,即有a,iai=1。(2)計(jì)算主成分載荷。主成分載荷反應(yīng)主成分Fi與原變量Xj之間的相互關(guān)聯(lián)程度:3.1主成分分析(PCA)主要計(jì)算步驟主成分分析的具體步驟如下。(1)計(jì)算協(xié)方差矩陣。計(jì)算數(shù)據(jù)的協(xié)方差矩陣:其中:(2)求出∑的特征值λi及相應(yīng)的正交化單位特征向量ai?!频那癿個較大的特征值λ1≥λ2≥≥λm>0,就是前m個主成分對應(yīng)的方差,λi對應(yīng)的單位特征向量ai就是主成分Fi關(guān)于原變量的系數(shù),則原變量的第i個主成分為主成分的方差(信息)貢獻(xiàn)率αi用來反映信息量的大小,其表達(dá)式為3.1主成分分析(PCA)主要計(jì)算步驟(3)選擇主成分。最終要選擇幾個主成分,即F1,F2,,Fm中m的確定是通過方差(信息)累計(jì)貢獻(xiàn)率G(m)來確定的,有當(dāng)累計(jì)貢獻(xiàn)率大于85%時(shí),就認(rèn)為能足夠反映原來變量的信息了,對應(yīng)的m就是抽取的前m個主成分。(4)計(jì)算主成分載荷。主成分載荷是反映主成分Fi與原變量Xj之間的相互關(guān)聯(lián)程度的,原變量Xj(j=1,2,,p)在諸主成分Fi(i=1,2,,m)上的載荷lij(i=1,2,,m;j=1,2,,p)為3.1主成分分析(PCA)主要計(jì)算步驟(5)計(jì)算主成分得分。計(jì)算樣品在m個主成分上的得分為實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多辦法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:根據(jù)數(shù)學(xué)公式可知,一方面,任何隨機(jī)變量做標(biāo)準(zhǔn)化變換后,其協(xié)方差與其相關(guān)系數(shù)是一回事,即標(biāo)準(zhǔn)化后的變量的協(xié)方差矩陣就是其相關(guān)系數(shù)矩陣。另一方面,根據(jù)協(xié)方差的公式可以推得標(biāo)準(zhǔn)化后的協(xié)方差就是原變量的相關(guān)系數(shù),即標(biāo)準(zhǔn)化后的變量的協(xié)方差矩陣就是原變量的相關(guān)系數(shù)矩陣。也就是在標(biāo)準(zhǔn)化前后,變量的相關(guān)系數(shù)矩陣不變化。因此,為消除量綱的影響,將變量標(biāo)準(zhǔn)化后再計(jì)算其協(xié)方差矩陣,就是直接計(jì)算原變量的相關(guān)系數(shù)矩陣,所以主成分分析的實(shí)際常用計(jì)算步驟如下:3.1主成分分析(PCA)主要計(jì)算步驟(1)計(jì)算相關(guān)系數(shù)矩陣;1(2)求出相關(guān)系數(shù)矩陣的特征值λi及相應(yīng)的正交化單位特征向量ai;2(3)選擇主成分;3(4)計(jì)算主成分得分。43.1主成分分析(PCA)3主成分分析法的優(yōu)缺點(diǎn)主成分分析法的優(yōu)點(diǎn):(1)可消除評估指標(biāo)之間的相關(guān)影響。因此主成分分析法在對原始數(shù)據(jù)指標(biāo)變量進(jìn)行變換后形成了彼此相互獨(dú)立的主成分,而且實(shí)踐證明指標(biāo)間的相關(guān)程度越高,主成分分析效果越好。(2)可減少指標(biāo)選擇的工作量,對于其他評估方法,由于難以消除評估指標(biāo)間的相關(guān)影響,所以選擇指標(biāo)時(shí)要花費(fèi)不少精力,而主成分分析法由于可以消除這種相關(guān)影響,所以在指標(biāo)選擇上相對容易些。(3)主成分分析中各主成分是按方差大小依次排列順序的,在分析問題時(shí),可以舍棄一部分主成分,只取前面方差較大的幾個主成分來代表原變量,從而減少了計(jì)算工作量。用主成分分析法作綜合評估時(shí),由于選擇的原則是累計(jì)貢獻(xiàn)率大于等于85%,因此不會為節(jié)省工作量把關(guān)鍵指標(biāo)漏掉而影響評估結(jié)果。(4)完全無參數(shù)限制。在主成分分析的計(jì)算過程中完全不需要人為設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯τ?jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)有關(guān),與用戶是無關(guān)的。3.1主成分分析(PCA)3主成分分析法的優(yōu)缺點(diǎn)主成分分析法的缺點(diǎn):(1)在主成分分析中,首先應(yīng)保證所提取的前幾個主成分的累計(jì)貢獻(xiàn)率達(dá)到一個較高的水平(即變量降維后的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋(否則主成分將空有信息量而無實(shí)際含義)。(2)主成分含義的解釋一般多少帶有模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。因此,提取的主成分個數(shù)m通常應(yīng)明顯小于原始變量個數(shù)p(除非p本身較小),否則維數(shù)降低的“利”可能抵不過主成分含義沒有原始變量清楚的“弊”。(3)當(dāng)主成分的因子負(fù)荷的符號有正有負(fù)時(shí),綜合評價(jià)函數(shù)意義就不明確。(4)有時(shí)數(shù)據(jù)的分布并不滿足高斯分布。在非高斯分布的情況下,PCA方法得出的主元可能并不是最優(yōu)的。3.2主成分追蹤假定存在一個數(shù)據(jù)矩陣X∈Rm×n,m指的是變量個數(shù),n是指采樣觀測值的數(shù)目,X可以被分解為兩個部分:其中:A是一個低秩矩陣;E是一個稀疏矩陣,兩個矩陣中元素的幅值大小在數(shù)據(jù)矩陣分解時(shí)未作限制。圖5.10可以形象地表示主成分追蹤(principalcomponentpursuit,PCP)方法的分解原理。圖5-10PCP分解示意圖3.2主成分追蹤PCP的目標(biāo)是從數(shù)據(jù)矩陣中精確地分解出包含重要過程信息的低秩矩陣和包含數(shù)據(jù)中可能存在的異常值,即PCP的目標(biāo)是求解一個如式GOTOBUTTONZEqnNum298574REFZEqnNum298574\*Charformat\!(5.78)所示的優(yōu)化問題:其中,‖E‖0是矩陣E的l0范數(shù),是矩陣E中所有非零元素的個數(shù),λ是一個平衡兩個因子的參數(shù)。3.2主成分追蹤式GOTOBUTTONZEqnNum298574REFZEqnNum298574\*Charformat\!(5.78)是一個求解困難的非凸優(yōu)化問題。為了將式GOTOBUTTONZEqnNum298574REFZEqnNum298574\*Charformat\!(5.78)轉(zhuǎn)換為一個可求解的凸優(yōu)化函數(shù),使矩陣的核范數(shù)可近似代替計(jì)算矩陣的秩,矩陣的范數(shù)l1可近似代替計(jì)算矩陣的l0范數(shù),可以將式GOTOBUTTONZEqnNum298574REFZEqnNum298574\*Charformat\!3.2主成分追蹤(5.78)中的目標(biāo)函數(shù)攜程式GOTOBUTTONZEqnNum369624REFZEqnNum369624\*Charformat\!(5.79)所示的形式,使目標(biāo)函數(shù)轉(zhuǎn)換為凸優(yōu)化函數(shù)。其中,‖A‖*代表矩陣A的核范數(shù),通過計(jì)算矩陣A的奇異值之和獲得;‖E‖1表示矩陣E的l1范數(shù),通過計(jì)算矩陣E中所有非零元素的絕對值之和獲得,λ是一個平衡‖A‖*和3.2主成分追蹤求解式GOTOBUTTONZEqnNum369624REFZEqnNum369624\*Charformat\!(5.79)所示的凸優(yōu)化函數(shù),可以采用多種方法,例如:迭代閾值方法(iterativethresholdingmethod)、加速鄰近梯度法(acceleratedproximalgradientmethod)、對偶方法(dualmethod)等。本節(jié)僅介紹一種不確定增廣拉格朗日算子(inexactaugmentedLagrangemultipliers,IALM)的方法求解式GOTOBUTTONZEqnNum369624REFZEqnNum369624\*Charformat\!(5.79)所示的凸優(yōu)化函數(shù)。3.2主成分追蹤增廣拉格朗日算子的方法一般被用來求解式GOTOBUTTONZEqnNum926698REFZEqnNum926698\*Charformat\!(5.80)所示的優(yōu)化問題:其中,f:Rn→R,h:Rn→Rm。根據(jù)式GOTOBUTTONZEqnNum926698REFZEqnNum926698\*Charformat\!(5.80)定義為增廣拉格朗日函數(shù),如式GOTOBUTTONZEqnNum521761REFZEqnNum521761\*Charformat\!(5.81)所示:3.2主成分追蹤其中,μ是一個正數(shù)標(biāo)量。利用不確定增廣拉格朗日算子的方法求解式GOTOBUTTONZEqnNum967271REFZEqnNum967271\*Charformat\!(5.82)中的拉格朗日函數(shù),總結(jié)如算法(利用IALM算法求解PCP問題)如下所示。利用迭代收斂的方法求解凸優(yōu)化函數(shù)式GOTOBUTTONZEqnNum369624REFZEqnNum369624\*Charformat\!(5.79),算法1的求解需要利用定理1和定理2。3.2主成分追蹤定理5-1對于一個向量y∈Rn和一個閾值τ,軟收縮算子(softshrinkageoperator)可以描述為定理5-2假設(shè)有一個秩為r的數(shù)據(jù)矩陣X∈Rn×m以及一個參數(shù)τ,則奇異值收縮算子(singularvalueshrinkageoperator)可以描述為因此,根據(jù)定理1,可以得到矩陣E的計(jì)算公式為根據(jù)定理2,可以得到矩陣A的計(jì)算公式為4案例分析4.1基于SVM的故障診斷案例算法介紹支持向量機(jī)(SVM)理論是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,它在解決小樣本、高維度以及非線性問題時(shí)表現(xiàn)出了極為獨(dú)特的優(yōu)勢,所構(gòu)造的模型具備極好的泛化能力。自支持向量機(jī)理論提出以來,其在故障診斷與識別領(lǐng)域得到了廣泛的應(yīng)用。支持向量機(jī)理論對伺服刀架的故障診斷方面有較好的適用性。通過支持向量機(jī)可以識別伺服刀架不同故障,達(dá)到故障診斷的目的。4.1基于SVM的故障診斷案例工業(yè)數(shù)據(jù)介紹案例在數(shù)控刀架可靠性試驗(yàn)系統(tǒng)上進(jìn)行故障診斷。試驗(yàn)系統(tǒng)采用了電液伺服控制的液壓加載方法,可以通過對數(shù)控刀架的靜、動態(tài)載荷實(shí)際工況的模擬,實(shí)現(xiàn)對數(shù)控刀架的自動控制、信號實(shí)時(shí)采集、數(shù)據(jù)存儲、切削力模擬加載等功能,數(shù)控刀架試驗(yàn)系統(tǒng)如圖5-11所示。1-信號采集系統(tǒng)顯示器;2-24V電源;3-N采集卡;4-數(shù)顯式壓力變送器;5-上位機(jī)控制界面;6-刀架安裝臺;7-數(shù)控刀架;8-伺服加載機(jī)構(gòu);9-伺服加載控制器圖5-11數(shù)控刀架可靠性試驗(yàn)系統(tǒng)4.1基于SVM的故障診斷案例工業(yè)數(shù)據(jù)介紹圖5-12時(shí)序環(huán)節(jié)T1和T2故障試驗(yàn)在不同時(shí)序環(huán)節(jié)中,數(shù)控刀架的關(guān)鍵子系統(tǒng)不盡相同,故障模式也不相同。因此,對數(shù)控刀架的故障數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,確定數(shù)控刀架的典型故障類型,開展數(shù)控刀架在時(shí)序環(huán)節(jié)T1中接近開關(guān)松開故障、時(shí)序環(huán)節(jié)T2中撞刀故障、時(shí)序環(huán)節(jié)T3中齒盤嚙合偏離故障及油管道泄漏故障和時(shí)序環(huán)節(jié)T4中刀具夾持松動5個典型故障的試驗(yàn),具體試驗(yàn)狀態(tài)如圖5-12至圖5-14所示4.1基于SVM的故障診斷案例工業(yè)數(shù)據(jù)介紹圖5-13時(shí)序環(huán)節(jié)T3故障試驗(yàn)圖5-14時(shí)序環(huán)節(jié)T4刀具夾持松動試驗(yàn)1診斷流程SVM診斷算法的步驟如圖5-15所示,其適應(yīng)度值為診斷結(jié)果準(zhǔn)確率。由于數(shù)控刀架的故障樣本較少,且故障發(fā)生的時(shí)間間隔較長。因此,SVM方法可以很好地解決刀架小樣本故障診斷問題。案例選擇高斯核函數(shù)作為支持向量機(jī)的核函數(shù),利用SVM方法在不同時(shí)序環(huán)節(jié)分別診斷各子系統(tǒng)的狀態(tài),再綜合4個時(shí)序環(huán)節(jié)的診斷結(jié)果,實(shí)現(xiàn)數(shù)控刀架整個周期的故障診斷,具體流程如圖5-16所示。圖5-16數(shù)控刀架SVM故障診斷方法流程示意圖1診斷流程lgo首先,基于時(shí)序環(huán)節(jié)對數(shù)控刀架信號進(jìn)行特征提取。按照數(shù)控刀架關(guān)鍵子系統(tǒng)的敏感信號,將信號處理分為4類,即振動信號、電流信號、油壓信號和接近開關(guān)信號。圖5-15算法步驟1診斷流程振動電流信號:根據(jù)數(shù)控刀架工作過程中振動V和電流U信號的特征分析可知,這兩個信號具有較強(qiáng)的沖擊成分,為非平穩(wěn)非線性信號。因此,采用適用非平穩(wěn)信號的總體平均經(jīng)驗(yàn)?zāi)B(tài)分解(Empiricalensemblemodedecomposition,EEMD)方法對振動和電流進(jìn)行時(shí)頻分析。在對原始信號進(jìn)行EEMD的處理后,將信號分解成為J個互不相關(guān)、近似正交的IMF分量,求出每個IMF分量與原始信號的相關(guān)系數(shù):????=??=0????(??)????(??)??=0????2(??)??=0??????2(??)(5-87)其中:j=1,2,,J表示IMF分量個數(shù);T為信號采樣點(diǎn)數(shù);cj(t)為第j個IMF分量;μj為第j個IMF分量與原始信號的相關(guān)系數(shù)。1診斷流程???=??????(????)10×??????(????)?3(5-88)其中:μh為閾值;μj為第j個IMF分量與原始信號相關(guān)系數(shù);max(μj)為所有IMF與原始信號相關(guān)系數(shù)最大的值,表示所有IMF與原始信號相關(guān)系數(shù)最大的值。高于閾值的IMF分量作為對原始信號敏感分量被保留,而低于閾值的IMF分量將作為虛假分量被舍棄。篩選與原始信號相關(guān)性高的IMF分量,求得這些分量的能量占原始信號總能量的比重:????=??=0????2(??)(5-89)??=??=1??????(5-90)????=??????(5-91)1診斷流程其中:k=1,2,,K,K表示相關(guān)系數(shù)高于閾值的IMF分量個數(shù);Ek為第k個IMF分量的能量值。因此,振動特征、電流特征如下所示:??=[????1,????2,?,??????](5-92)??=[????1,????2,?,??????](5-93)油壓信號:由于油壓信號表現(xiàn)出一定的階躍特征,用來表征數(shù)控刀架動作結(jié)束時(shí)油壓信號的狀態(tài)。案例選擇有效值和均方根值分別表征液壓系統(tǒng)的油壓值和波動情況,因此油壓信號特征向量為:??=[??1,??2](5-94)接近開關(guān)信號:接近開關(guān)信號是一種表征滑塊檢測位置的階躍高低電平信號。以數(shù)控刀架每個時(shí)序環(huán)節(jié)動作結(jié)束時(shí)松開、鎖緊時(shí)接近開關(guān)傳感器信號的高低電平狀態(tài)作為特征值,并定義高定平為1,低電平為0,則接近開關(guān)信號特征向量為:1診斷流程??=[??????,??????](5-95)綜上所述,對以上4種特征信號的數(shù)據(jù)處理和特征提取,構(gòu)建了數(shù)控刀架基于故障數(shù)據(jù)處理及特征提取的高維特征向量T1~T4。每個時(shí)序環(huán)節(jié)數(shù)控刀架的工作狀態(tài)特征矩陣可通過敏感信號特征表示:??1=[??????]??2=[????]??3=[??????]??4=[??](5-96)2診斷結(jié)果及分析logo對5個故障試驗(yàn)進(jìn)行數(shù)據(jù)處理和特征提取后,采用SVM對5個故障進(jìn)行診斷。選擇每個環(huán)節(jié)的訓(xùn)練樣本與測試樣本的占比分別為60%和40%。基于SVM數(shù)控刀架各時(shí)序環(huán)節(jié)的診斷結(jié)果如圖5-17至圖5-20所示。a)分類精度及適應(yīng)度曲線b)診斷結(jié)果圖5-17時(shí)序環(huán)節(jié)T1SVM診斷結(jié)果圖2診斷結(jié)果及分析a)分類精度及適應(yīng)度曲線b)診斷結(jié)果圖5-18時(shí)序環(huán)節(jié)T2SVM診斷結(jié)果圖2診斷結(jié)果及分析a)分類精度及適應(yīng)度曲線b)診斷結(jié)果圖5-19時(shí)序環(huán)節(jié)T3SVM診斷結(jié)果圖2診斷結(jié)果及分析a)分類精度及適應(yīng)度曲線b)診斷結(jié)果圖5-20時(shí)序環(huán)節(jié)T4SVM診斷結(jié)果圖2診斷結(jié)果及分析采用SVM方法的診斷結(jié)果統(tǒng)計(jì)如表5-7所示。在時(shí)序環(huán)節(jié)T1~T4中SVM診斷模型中PSO算法迭代尋優(yōu)得到了對應(yīng)環(huán)節(jié)的最優(yōu)參數(shù)組合(C,γ),這使得SVM模型的診斷準(zhǔn)確度得到極大的提升。由于時(shí)序環(huán)節(jié)T1為接近開關(guān)松開故障,其信號表現(xiàn)為簡單的階躍高低電平信號,因此,采用兩種方法的診斷準(zhǔn)確率均為100%。而時(shí)序環(huán)節(jié)T2、T3、T4診斷準(zhǔn)確率分別提高了28%、23%、5%,因此獲得了更高的診斷準(zhǔn)確率。5-7SVM模型診斷結(jié)果綜上所述,案例首先對不同時(shí)序環(huán)節(jié)敏感信號進(jìn)行特征提取。分別對一個換刀-切削周期中的振動、電流、油壓信號以及接近開關(guān)的信號進(jìn)行處理與特征提取,構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論