《模式識別》課件 第十章 半監(jiān)督學習_第1頁
《模式識別》課件 第十章 半監(jiān)督學習_第2頁
《模式識別》課件 第十章 半監(jiān)督學習_第3頁
《模式識別》課件 第十章 半監(jiān)督學習_第4頁
《模式識別》課件 第十章 半監(jiān)督學習_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十章半監(jiān)督學習

研究背景ImageNet數(shù)據(jù)集——圖像分類數(shù)據(jù)DOTA數(shù)據(jù)集——目標檢測數(shù)據(jù)集深度學習方法性能大量標注數(shù)據(jù)依賴獲取引言研究背景缺乏大量的標注數(shù)據(jù),獲取標注數(shù)據(jù)成本大,如遙感領域、醫(yī)學領域訓練過程中有從未見過的新類,新類只能借助少數(shù)標注樣本訓練樣本數(shù)量不足,限制了已有很多分類模型、檢測模型的泛化性能如何將少量標注數(shù)據(jù)上學習到的知識和大量未標記數(shù)據(jù)上的信息共同利用?小樣本問題高光譜遙感影像醫(yī)學影像光學遙感影像引言傳統(tǒng)機器學習分兩類:監(jiān)督學習、無監(jiān)督學習監(jiān)督學習利用有標記樣本進行學習,對標記樣本的數(shù)量要求較多;無監(jiān)督學習僅僅是對未標記樣本進行學習,不能保證精度?,F(xiàn)實情況下,同時存在有標記樣本和未標記樣本的情況也會經(jīng)常出現(xiàn)。引言實際上,未標記樣本雖然沒有直接含有類別標記信息,但如果它們和有標記樣本是從相同的數(shù)據(jù)中獨立同分布采樣得到的,則它們包含的有關數(shù)據(jù)分布的信息對學習模型有很大幫助。如何讓學習過程不依賴外界的咨詢交互,自動利用未標記樣本所含信息來提高模型性能便是本專題所要介紹的內容,即半監(jiān)督學習(Semi-SupervisedLearning,SSL)。引言目錄10.1半監(jiān)督學習10.2半監(jiān)督分類10.3半監(jiān)督聚類10.4應用實例10.5延伸閱讀目錄10.1半監(jiān)督學習10.2半監(jiān)督分類10.3半監(jiān)督聚類10.4應用實例10.5延伸閱讀10.1半監(jiān)督學習在互聯(lián)網(wǎng)應用中,有一項叫做網(wǎng)頁推薦,其應用十分廣泛。在商家進行網(wǎng)頁推薦時,需要用戶先對感興趣的網(wǎng)頁進行標記。實際上,有標記的網(wǎng)頁樣本是少數(shù)的。僅僅利用少部分有標記網(wǎng)頁來進行訓練,得到的模型泛化能力不會太好?;ヂ?lián)網(wǎng)上存在著無數(shù)網(wǎng)頁可以用作未標記樣本,能不能有效的利用這些未標記網(wǎng)頁來提高模型的性能呢?10.1半監(jiān)督學習將這個問題形式化,用具體的公式符號來表示。訓練樣本集類別標記是已知的,稱為“有標記”(labeled)樣本。樣本集類標標記是未知的,稱為“未標記”(unlabeled)樣本。10.1半監(jiān)督學習一般思路僅利用已標記樣本集中的樣本進行模型構建。弊端未標記樣本集中的信息就會被浪費,此外,樣本數(shù)量一般較小,也就是說訓練樣本數(shù)量不足,那么學習得到的模型的泛化能力和性能往往是不好的。解決思路合理的結合使用樣本集。10.1半監(jiān)督學習解決思路一把中的樣本全部進行標記,也就是把未標記樣本轉化成標記樣本后用于學習。弊端顯然需要大量精力和時間。10.1半監(jiān)督學習解決思路二可以利用中的樣本先學習得到一個模型,然后利用這個模型從中挑出一個樣本,對這個樣本的標簽進行查詢,然后把這個獲得標簽的樣本作為新的標記樣本加入中重新學習一個模型,之后再去中挑樣本,不斷重復這個操作。這樣的學習方式被稱為主動學習(ActiveLearning)。其目標是希望盡可能少的查詢標簽來獲得盡量好的模型性能。10.1半監(jiān)督學習弊端顯然主動學習引入了額外的專家知識,仍然需要與外界產(chǎn)生交互來將部分未標記樣本轉變?yōu)橛袠擞洏颖尽?0.1半監(jiān)督學習解決思路三利用未標記樣本提供的數(shù)據(jù)分布的信息。聚類模型(a)無未標記樣本(b)有未標記樣本(a)(b)10.1半監(jiān)督學習以上這樣的學習方式被稱為半監(jiān)督學習。讓學習器不依賴外界交互、自動的利用未標記樣本來提升學習性能,就是半監(jiān)督學習(Semi-SupervisedLearning,SSL)。即訓練集中同時包含有標記樣本數(shù)據(jù)和未標記樣本數(shù)據(jù)。10.1半監(jiān)督學習兩個前提假設聚類假設(ClusterAssumption):假設數(shù)據(jù)存在簇結構,同一個簇的樣本屬于同一個類別。流形假設(ManifoldAssumption):假設數(shù)據(jù)分布在一個流形結構上,鄰近的樣本擁有相似的輸出值。10.1半監(jiān)督學習一個更一般的假設半監(jiān)督假設:如果兩個樣本相似,那么他們具有相似的輸出。聚類假設(ClusterAssumption)流形假設(ManifoldAssumption)10.1半監(jiān)督學習半監(jiān)督學習的分類純(pure)半監(jiān)督學習直推學習(TransudativeLearning)目錄10.1半監(jiān)督學習10.2半監(jiān)督分類10.3半監(jiān)督聚類10.4應用實例10.5延伸閱讀10.2半監(jiān)督分類半監(jiān)督學習的提出半監(jiān)督學習提出于大約20世紀60年代中期,隨著在應用中利用未標記數(shù)據(jù)的需求的發(fā)展,提出了許多半監(jiān)督思想的算法。生成式模型是最早的半監(jiān)督學習方法,緊接著出現(xiàn)了轉導SVM(TransductiveSVM,TSVM)、基于圖的半監(jiān)督算法等一系列經(jīng)典算法。10.2半監(jiān)督分類10.2.1生成式模型給定樣本,類別標記為假設樣本是由高斯混合模型生成的。且每一個類別都對應一個高斯混合成分,數(shù)據(jù)是由如下概率密度生成:為混合系數(shù);是樣本屬于第個高斯混合成分的概率;和為高斯混合成分的參數(shù)10.2半監(jiān)督分類通過標記與未標記樣本預測模型的參數(shù)用表示模型對樣本的預測值,是樣本隸屬的高斯混合成分。最大化后驗概率得

是第個高斯混合成分生成且類別為的概率10.2半監(jiān)督分類其中是樣本由第個高斯混合成分生成的后驗概率10.2半監(jiān)督分類在上式中,要想估計,需要已知樣本的標記,也就是說要必須使用有標記樣本,而中則不需要有標記樣本。這樣,就可以同時利用有標記和未標記樣本。高斯混合模型10.2半監(jiān)督分類參數(shù)求解過程假設給定了有標記數(shù)據(jù)集,未標記數(shù)據(jù)集。假設所有樣本獨立同分布且由同一個高斯混合模型生成。使用極大似然估計得到高斯混合模型的參數(shù)。使用EM算法對其參數(shù)進行求解。10.2半監(jiān)督分類使用極大似然估計得到高斯混合模型的參數(shù)的對數(shù)似然可以寫作第一項是基于有標記數(shù)據(jù)的有監(jiān)督項,第二項是基于未標記數(shù)據(jù)的無監(jiān)督項10.2半監(jiān)督分類使用EM算法對其參數(shù)

進行求解E步驟:根據(jù)目前的模型各參數(shù)計算未標記樣本

屬于各高斯混合成分的概率。10.2半監(jiān)督分類使用EM算法對其參數(shù)進行求解M步驟:根據(jù)重新更新模型參數(shù)。

表示第類中有標記數(shù)據(jù)的個數(shù)10.2半監(jiān)督分類小結將此過程中的高斯混合模型替換成其他各類模型,可以得到其他多種生成式半監(jiān)督模型。如果使用的模型不能和真實數(shù)據(jù)的分布相符合,那么采用未標記數(shù)據(jù)會降低模型的性能,方法就不再有效。在實際應用中,很難得到一個正確的模型假設,所以此方法實用性并不高。10.2半監(jiān)督分類10.2.2半監(jiān)督SVM鑒于支持向量機(SVM)在模式識別領域的蓬勃發(fā)展,研究人員將其推廣到了半監(jiān)督學習領域,產(chǎn)生了半監(jiān)督SVM,其中使用最廣泛的是TSVM。在統(tǒng)計學習中,轉導推理(TransductiveInference)是一種通過觀察特定的訓練樣本,進而預測特定的測試樣本的方法。將轉導的思想應用于半監(jiān)督學習中與SVM結合,進而形成TSVM。10.2半監(jiān)督分類TSVM針對的問題與標準SVM相同,TSVM針對的是二分類問題。TSVM的實現(xiàn)框架首先將未標記樣本都分別看作正例或者反例。在所有這些結果中,尋求一個在所有樣本上間隔最大化的劃分超平面。當劃分超平面確定后,未標記樣本最終的標記也就是它的預測結果。10.2半監(jiān)督分類TSVM算法給定標記樣本集和未標記樣本集,且目標是給出中的樣本的預測標記使得劃分超平面具有最大邊界。10.2半監(jiān)督分類即10.2半監(jiān)督分類小結TSVM是一個時間和計算復雜度都十分高的算法。因此,半監(jiān)督SVM需要重點研究如何設計出高效的優(yōu)化策略。10.2半監(jiān)督分類10.2.3

基于圖的半監(jiān)督學習對于一個樣本集,我們可以把其樣本之間的關系用一個圖來表示,其中每個樣本對應圖中的一個節(jié)點。如果兩個樣本直接的相關性很高,則對應的兩個結點之間會存在一條邊并且邊的權重和樣本之間的相似度成正比。代表算法:一種多分類標記傳播算法。10.2半監(jiān)督分類一種多分類標記傳播算法假設給定標記樣本集和未標記樣本集,且,。首先用建立一個圖,節(jié)點集為,邊集可以用一個矩陣表示。常使用高斯函數(shù)定義。10.2半監(jiān)督分類對角矩陣和標記矩陣定義對角矩陣的對角元素。定義一個大小為的非負標記矩陣,其第行元素為樣本的標記向量,其分類準則為。對,進行初始化。10.2半監(jiān)督分類標記傳播矩陣和迭代公式根據(jù)矩陣邊矩陣建立一個標記傳播矩陣,其中,我們得到迭代公式經(jīng)過上式迭代直到收斂可以得到其中,是由用戶個人控制的參數(shù)10.2半監(jiān)督分類算法步驟10.2半監(jiān)督分類小結算法復雜度上存在較大的不足,很難處理大規(guī)模數(shù)據(jù)。在構建圖的過程中,只考慮到訓練樣本集,很難判斷新的樣本在圖中的位置。在出現(xiàn)新的樣本時,需要將新樣本加入到原樣本集對圖進行重建且進行標記傳播。10.2半監(jiān)督分類10.2.4

基于分歧的方法“協(xié)同訓練”(Co-Training)一種采用多分類器的基于分歧的方法,最早提出于1998年。使用兩個學習器來協(xié)同訓練,在訓練過程中,兩個分類器挑選置信度較高的已標記和未標記樣本交給對方學習,直到達到某個終止條件。10.2半監(jiān)督分類協(xié)同訓練的模型給出一個樣本空間,其中和對應于一個樣本的兩種不同“視圖”(View)。一個樣本往往擁有多個屬性,在這里,每個屬性就構成了一個視圖。在此基礎上,每個樣本可以用一對來表示。10.2半監(jiān)督分類前提假設假設每個視圖本身就足以進行正確的分類。表示樣本在視圖中的特征向量,表示樣本在視圖中的特征向量。假設樣本空間的目標函數(shù)為,對于一個樣本來說,,其中是樣本的類別標記。10.2半監(jiān)督分類相容性概念假用代表樣本空間的一個分布,和分別是和定義的概念類,如果在上滿足的樣本的概率為0,就稱目標函數(shù)與相容,也就是說不同的視圖具有相容性,即它們包含的關于輸出類別的信息是一致的。10.2半監(jiān)督分類協(xié)同訓練的框架假設擁有兩個條件獨立且充分的兩個視圖和。利用每個視圖基于有標記樣本分別訓練得到一個分類器,然后讓每個分類器各自去選擇自己“最信任的”的未標記樣本賦值一個偽標記,并且把這個偽標記的樣本作為一個有標記樣本提供給另外一個分類器進行訓練更新。這個“互相學習”的過程不斷的進行迭代,直到達到迭代的終止條件為止。10.2半監(jiān)督分類算法步驟10.2半監(jiān)督分類不足與改進實際問題中,滿足這兩個假設的樣本集是很少的。S.Goldman和Y.Zhou在2000年提出了一種協(xié)同訓練算法,該算法不要求樣本集滿足上述的兩個假設。Zhou和Li在2007年提出了Tri-training算法,即采用三個分類器進行協(xié)同訓練,對樣本集沒有苛刻的要求。10.2半監(jiān)督分類Tri-training算法對于每一個分類器,將剩余的兩個分類器作為其輔助分類器來對未標記樣本進行分類,標記相同的未標記樣本就會被作為置信度較高的樣本。主分類器會隨機從中選取一些偽標記樣本添加到標記樣本集中進行訓練。每一次被挑選出來的未標記樣本在參與完本輪的迭代后,仍然作為未標記樣本保留在未標記數(shù)據(jù)集中。10.2半監(jiān)督分類算法概覽首先對有標記樣本集進行可重復抽樣來獲得三個有標記訓練集進行初始分類器的訓練。在迭代過程中,每個分類器輪流作為主分類器,其余兩個作為輔助分類器來為主分類器提供新的無標記數(shù)據(jù)用來訓練。在進行樣本預測時,使用三個分類器的結果進行投票得到最終的分類標記。目錄10.1半監(jiān)督學習10.2半監(jiān)督分類10.3半監(jiān)督聚類10.4應用實例10.5延伸閱讀10.3半監(jiān)督聚類聚類是一種典型的無監(jiān)督學習方法,利用少量的標記樣本對聚類算法進行輔助。在半監(jiān)督聚類中,被利用的少量監(jiān)督信息的類型有兩種,一種是數(shù)據(jù)對是否屬于同一類別的約束關系,另一種則是類別標記。根據(jù)對于少量監(jiān)督信息的使用方式不同,分成兩大類?;诰嚯x的半監(jiān)督聚類算法基于約束的半監(jiān)督聚類算法10.3半監(jiān)督聚類基于距離的半監(jiān)督聚類算法傳統(tǒng)的聚類算法大部分采用的是基于距離的度量準則來對樣本的相似度進行描述。不足:對于距離度量方式的選擇比較困難,沒有一個統(tǒng)一的標準來進行衡量。根據(jù)約束或者類別信息來構造某種距離度量,然后在該距離度量的基礎上進行聚類。10.3半監(jiān)督聚類基于約束的半監(jiān)督聚類算法利用監(jiān)督信息對聚類的搜索過程進行約束。目前很多半監(jiān)督聚類算法都是在傳統(tǒng)的K-means算法上改進而來的,比如Constrained-K-means算法和Seeded-K-means算法等。10.3半監(jiān)督聚類Constrained-K-means和Seeded-K-means算法在K-means算法的基礎上,引入了由少量標記樣本組成的Seed集合,含有全部的K個聚類簇,每種類別最少有一個樣本。對Seed進行劃分得到K個聚類并且基于此來進行初始化,即初始的聚類中心。利用EM算法來進行優(yōu)化步驟。10.3半監(jiān)督聚類兩種算法的區(qū)別與比較優(yōu)化過程有所不同。在Seeded-K-means算法中,Seed集的標記是可以發(fā)生改變的,而在Constrained-K-means算法中,Seed集的樣本標記是固定的。在不含噪聲的情況下,Constrained-K-means算法的性能較好,而在Seed集中含有噪聲的情況下,Seeded-K-means的性能明顯更優(yōu)。10.3半監(jiān)督聚類小結半監(jiān)督聚類算法的目標是利用少量有標記數(shù)據(jù)來提高聚類算法性能,在實際情況中具有很大的應用價值。目前半監(jiān)督聚類算法大多數(shù)還都是對以往聚類算法的改進,因此對半監(jiān)督聚類算法還需進行更加深入的研究

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論