Python數(shù)據(jù)分析與挖掘 課件 第 12 章 離群點(diǎn)檢測(cè)_第1頁(yè)
Python數(shù)據(jù)分析與挖掘 課件 第 12 章 離群點(diǎn)檢測(cè)_第2頁(yè)
Python數(shù)據(jù)分析與挖掘 課件 第 12 章 離群點(diǎn)檢測(cè)_第3頁(yè)
Python數(shù)據(jù)分析與挖掘 課件 第 12 章 離群點(diǎn)檢測(cè)_第4頁(yè)
Python數(shù)據(jù)分析與挖掘 課件 第 12 章 離群點(diǎn)檢測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第12章離群點(diǎn)檢測(cè)第10章離群點(diǎn)檢測(cè)本章內(nèi)容離群點(diǎn)概述離群點(diǎn)檢測(cè)sklearn中的異常值檢測(cè)方法14六月202521離群點(diǎn)概述3數(shù)據(jù)庫(kù)中的數(shù)據(jù)由于各種原因常常會(huì)包含一些異常記錄,對(duì)這些異常記錄的檢測(cè)和解釋有很重要的意義。異常檢測(cè)目前在入侵檢測(cè)、工業(yè)損毀檢測(cè)、金融欺詐、股票分析、醫(yī)療處理等領(lǐng)域都有著比較好的實(shí)際應(yīng)用效果。異常檢測(cè)的實(shí)質(zhì)是尋找觀測(cè)值和參照值之間有意義的偏差。離群點(diǎn)檢測(cè)是異常檢測(cè)中最常用的方法之一,是為了檢測(cè)出那些與正常數(shù)據(jù)行為或特征屬性差別較大的異常數(shù)據(jù)或行為。1離群點(diǎn)概述4離群點(diǎn)的概念離群點(diǎn)(Outlier)是指顯著偏離一般水平的觀測(cè)對(duì)象。離群點(diǎn)檢測(cè)(或稱(chēng)異常檢測(cè))是找出不同于預(yù)期對(duì)象行為的過(guò)程。離群點(diǎn)的本質(zhì)仍然是數(shù)據(jù)對(duì)象,但它與其他對(duì)象又顯著差異,又被稱(chēng)為異常值。1離群點(diǎn)概述5離群點(diǎn)不同于噪聲數(shù)據(jù)。噪聲是指被觀測(cè)數(shù)據(jù)的隨機(jī)誤差或方差,觀測(cè)值是真實(shí)數(shù)據(jù)與噪聲的混合。而離群點(diǎn)屬于觀測(cè)值,既可能是真實(shí)數(shù)據(jù)產(chǎn)生,也有可能由噪聲帶來(lái)。離群點(diǎn)的產(chǎn)生主要有以下原因:1.第一類(lèi)離群值是總體固有變異性的極端表現(xiàn),這類(lèi)離群值與樣本中其余觀測(cè)值屬于同一總體。2.第二類(lèi)離群值是由于試驗(yàn)條件和試驗(yàn)方法的偶然偏離所產(chǎn)生的結(jié)果,或產(chǎn)生于觀測(cè)、記錄、計(jì)算中的失誤,這類(lèi)離群值與樣本中其余觀測(cè)值不屬于同一總體。1離群點(diǎn)概述6離群點(diǎn)的類(lèi)型:全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。1.全局離群點(diǎn)當(dāng)一個(gè)數(shù)據(jù)對(duì)象明顯地偏離了數(shù)據(jù)集中絕大多數(shù)對(duì)象時(shí),該數(shù)據(jù)對(duì)象就是全局離群點(diǎn)(GlobalOutlier)。全局離群點(diǎn)有時(shí)也稱(chēng)為點(diǎn)異常,是最簡(jiǎn)單的一類(lèi)離群點(diǎn)。如圖10-1中區(qū)域R中的點(diǎn),它們顯著偏離數(shù)據(jù)集的絕大多數(shù)的數(shù)據(jù)對(duì)象,因此屬于全局離群點(diǎn)。1離群點(diǎn)概述7離群點(diǎn)的類(lèi)型:全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。2.條件離群點(diǎn)與全局離群點(diǎn)不同,當(dāng)且僅當(dāng)在某種特定情境下,一個(gè)數(shù)據(jù)對(duì)象顯著地偏離數(shù)據(jù)集中的其他對(duì)象時(shí),該數(shù)據(jù)對(duì)象被稱(chēng)為條件離群點(diǎn)(ContextualOutlier)。一般地,在情境離群點(diǎn)檢測(cè)中所考慮對(duì)象的屬性劃分為條件屬性和行為屬性。條件屬性是指數(shù)據(jù)對(duì)象的定義中定義情境的屬性。行為屬性指數(shù)據(jù)對(duì)象中定義對(duì)象特征的屬性。1離群點(diǎn)概述8離群點(diǎn)的類(lèi)型:全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。3.集體離群點(diǎn)當(dāng)數(shù)據(jù)集中的一些數(shù)據(jù)對(duì)象顯著地偏離整個(gè)數(shù)據(jù)集時(shí),該集合形成集體離群點(diǎn)(CollectionOutlier)。不同于全局或條件離群點(diǎn),在集體離群點(diǎn)檢測(cè)中,除了考慮個(gè)體對(duì)象的行為,還要考慮集體的行為。1離群點(diǎn)概述9離群點(diǎn)檢測(cè)的挑戰(zhàn):1.正常對(duì)象和離群點(diǎn)的有效建模2.針對(duì)應(yīng)用的離群點(diǎn)檢測(cè)3.在離群點(diǎn)檢測(cè)中處理噪聲4.可理解性2離群點(diǎn)的檢測(cè)離群點(diǎn)的檢測(cè)方法很多,每種方法在檢測(cè)時(shí)都會(huì)對(duì)正常數(shù)據(jù)對(duì)象或離群點(diǎn)作出假設(shè),從所做假設(shè)的角度,離群點(diǎn)檢測(cè)方法可以分為基于統(tǒng)計(jì)學(xué)的離群點(diǎn)檢測(cè)、基于近鄰的離群點(diǎn)檢測(cè)、基于聚類(lèi)以及基于分類(lèi)的離群點(diǎn)檢測(cè)。102離群點(diǎn)的檢測(cè)基于統(tǒng)計(jì)學(xué)的離群點(diǎn)檢測(cè)在基于統(tǒng)計(jì)學(xué)的離群點(diǎn)檢測(cè)方法中,假設(shè)數(shù)據(jù)集中的正常數(shù)據(jù)對(duì)象由一個(gè)統(tǒng)計(jì)模型產(chǎn)生,如果某數(shù)據(jù)不符合該統(tǒng)計(jì)模型,則該數(shù)據(jù)對(duì)象是離群點(diǎn)。在基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)過(guò)程中,一般先設(shè)定數(shù)據(jù)集的分布模型,如正態(tài)分布、泊松分布和二項(xiàng)式分布等,然后根據(jù)模型進(jìn)行不和諧檢驗(yàn)以發(fā)現(xiàn)離群點(diǎn)。不和諧檢驗(yàn)中需要樣本空間數(shù)據(jù)集的參數(shù)知識(shí)、分布的參數(shù)知識(shí)以及期望的離群點(diǎn)數(shù)目。112離群點(diǎn)的檢測(cè)基于統(tǒng)計(jì)學(xué)的離群點(diǎn)檢測(cè)122離群點(diǎn)的檢測(cè)2基于鄰近性的離群點(diǎn)檢測(cè)給定特征空間中的數(shù)據(jù)對(duì)象集,可以使用距離度量對(duì)象之間的相似性。直觀地,遠(yuǎn)離其他大多數(shù)對(duì)象的數(shù)據(jù)對(duì)象被視為離群點(diǎn)?;卩徑缘姆椒俣x群點(diǎn)對(duì)象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對(duì)象與其近鄰之間的鄰近性。基于鄰近型的離群點(diǎn)檢測(cè)方法有基于距離的和基于密度的方法。132離群點(diǎn)的檢測(cè)

基于鄰近性的離群點(diǎn)檢測(cè)(1)

基于距離的離群點(diǎn)檢測(cè)方法在基于距離的離群點(diǎn)檢測(cè)方法中,離群點(diǎn)就是遠(yuǎn)離大部分對(duì)象的點(diǎn),即與數(shù)據(jù)集中的大多數(shù)對(duì)象的距離都大于某個(gè)給定閾值的點(diǎn)?;诰嚯x的檢測(cè)方法考慮的是對(duì)象給定半徑的鄰域。如果在某個(gè)對(duì)象的鄰域內(nèi)沒(méi)有足夠的其他的點(diǎn),則稱(chēng)此對(duì)象為離群點(diǎn)?;诰嚯x的離群點(diǎn)方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。142離群點(diǎn)的檢測(cè)

基于鄰近性的離群點(diǎn)檢測(cè)(1)

基于距離的離群點(diǎn)檢測(cè)方法基于距離的離群點(diǎn)方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。下面簡(jiǎn)要介紹嵌套-循環(huán)算法。152離群點(diǎn)的檢測(cè)

基于鄰近性的離群點(diǎn)檢測(cè)(2)

基于密度的離群點(diǎn)檢測(cè)方法基于密度的離群點(diǎn)檢測(cè)方法考慮的是對(duì)象與它近鄰的密度。如果一個(gè)對(duì)象的密度相對(duì)于它的近鄰低得多,則被視為離群點(diǎn)。最有代表性的基于密度的離群點(diǎn)檢測(cè)方法是基于局部離群點(diǎn)離群因子的離群點(diǎn)檢測(cè)方法。局部離群因子(LocalOutlierFactor,LOF)會(huì)給數(shù)據(jù)集中的每個(gè)點(diǎn)計(jì)算一個(gè)離群因子LOF,通過(guò)判斷LOF是否接近于1來(lái)判定是否是離群因子。162離群點(diǎn)的檢測(cè)

基于鄰近性的離群點(diǎn)檢測(cè)(2)

基于密度的離群點(diǎn)檢測(cè)方法局部離群因子(LocalOutlierFactor,LOF)會(huì)給數(shù)據(jù)集中的每個(gè)點(diǎn)計(jì)算一個(gè)離群因子LOF,通過(guò)判斷LOF是否接近于1來(lái)判定是否是離群因子。若LOF遠(yuǎn)大于1,則認(rèn)為是離群因子,接近于1,則是正常點(diǎn)。對(duì)于任何給定的數(shù)據(jù)點(diǎn),局部離群因子算法計(jì)算的離群度等于數(shù)據(jù)點(diǎn)p的k近鄰集合的平均局部數(shù)據(jù)密度與數(shù)據(jù)點(diǎn)自身局部數(shù)據(jù)密度的比值。172離群點(diǎn)的檢測(cè)3基于聚類(lèi)的離群點(diǎn)檢測(cè)離群點(diǎn)與簇的概念高度相關(guān),因此,可以通過(guò)考察對(duì)象與簇之間的關(guān)系檢測(cè)離群點(diǎn)。直觀地,離群點(diǎn)是一個(gè)屬于小的偏遠(yuǎn)簇或者不屬于任何簇的數(shù)據(jù)對(duì)象?;诰垲?lèi)的離群點(diǎn)檢測(cè)方法分為兩個(gè)階段,首先對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),然后計(jì)算對(duì)象或簇的離群因子,將離群因子大的對(duì)象或稀疏簇中的對(duì)象判定為離群點(diǎn)。對(duì)于基于原型的聚類(lèi),可以用對(duì)象到其簇中心的距離度量對(duì)象屬于簇的程度。182離群點(diǎn)的檢測(cè)4基于分類(lèi)的離群點(diǎn)檢測(cè)如果訓(xùn)練數(shù)據(jù)中有類(lèi)標(biāo)號(hào),則可以將其視為分類(lèi)問(wèn)題。該問(wèn)題的解決思路是訓(xùn)練一個(gè)可以區(qū)分正常數(shù)據(jù)和離群點(diǎn)的分類(lèi)模型。構(gòu)造分類(lèi)器時(shí),訓(xùn)練數(shù)據(jù)的分布可能極不均衡,相對(duì)正常數(shù)據(jù),離群點(diǎn)的數(shù)目極少,這樣會(huì)造成在構(gòu)建分類(lèi)器時(shí)精度收到很大影響。為了解決兩類(lèi)數(shù)據(jù)的不均衡問(wèn)題,可以使用一類(lèi)模型(One-classModel)進(jìn)行檢測(cè)。193sklearn中的異常值檢測(cè)方法sklearn中關(guān)于異常檢測(cè)的方法主要有兩種:(1)noveltydetection:當(dāng)訓(xùn)練數(shù)據(jù)中沒(méi)有離群點(diǎn),我們的目標(biāo)是用訓(xùn)練好的模型去檢測(cè)另外新發(fā)現(xiàn)的樣本;(2)outlierdetection:當(dāng)訓(xùn)練數(shù)據(jù)中包含離群點(diǎn),模型訓(xùn)練時(shí)要匹配訓(xùn)練數(shù)據(jù)的中心樣本,忽視訓(xùn)練樣本中的其他異常點(diǎn);203sklearn中的異常值檢測(cè)方法sklearn提供了一些機(jī)器學(xué)習(xí)方法,可用于奇異(Novelty)點(diǎn)或異常(Outlier)點(diǎn)檢測(cè),包括OneClassSVM、IsolationForest、LocalOutlierFactor(LOF)等。其中OneClassSVM可用于NoveltyDetection,而后兩者可用于OutlierDetection。21本章小結(jié)離群點(diǎn)(Outlier)是指顯著偏離一般水平的觀測(cè)對(duì)象。離群點(diǎn)不同于噪聲數(shù)據(jù)。離群點(diǎn)一般分為全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。離群點(diǎn)檢測(cè)方法可以分為基于統(tǒng)計(jì)學(xué)的離群點(diǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論