




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第10章離群點分析第10章離群點分析10.1離群點分析基礎(chǔ)10.2基于統(tǒng)計的離群點分析10.3基于距離的離群點分析10.4基于密度的離群點分析10.5實踐——異常小麥種子分析10.6本章小結(jié)10.1離群點分析基礎(chǔ)10.1離群點分析基礎(chǔ)10.1.1離群點分析的定義10.1.2離群點分析的作用10.1.1離群點分析的定義離群點分析(OutlierAnalysis),也稱為異常檢測(AnomalyDetection),是數(shù)據(jù)分析的一種方法,旨在識別和分析數(shù)據(jù)集中與其他數(shù)據(jù)點明顯不同的異常觀測值或數(shù)據(jù)點。離群點是指與大多數(shù)數(shù)據(jù)點具有明顯差異的極端值。離群點分析通過使用統(tǒng)計、距離或密度等方法,尋找數(shù)據(jù)中的離群點,并對其進(jìn)行進(jìn)一步的分析和處理。這種分析可以幫助分析者發(fā)現(xiàn)數(shù)據(jù)中的異常情況、改善數(shù)據(jù)質(zhì)量、改進(jìn)預(yù)測模型,并發(fā)現(xiàn)新的知識和見解。10.1離群點分析基礎(chǔ)10.1.2離群點分析的作用1.異常檢測2.數(shù)據(jù)質(zhì)量控制3.預(yù)測模型改進(jìn)4.發(fā)現(xiàn)新的知識和見解10.1離群點分析基礎(chǔ)1.異常檢測離群點分析可用于檢測數(shù)據(jù)中的異常情況。這些異??赡苁怯蓴?shù)據(jù)收集或記錄錯誤、系統(tǒng)故障、欺詐行為、異常事件等引起的。通過識別和分析離群點,可以及早發(fā)現(xiàn)異常情況,并采取相應(yīng)的措施進(jìn)行處理。10.1離群點分析基礎(chǔ)2.數(shù)據(jù)質(zhì)量控制離群點分析可用于評估數(shù)據(jù)的質(zhì)量,并幫助發(fā)現(xiàn)潛在的數(shù)據(jù)質(zhì)量問題。通過檢測和處理離群點,可以改善數(shù)據(jù)的準(zhǔn)確性、一致性和完整性。10.1離群點分析基礎(chǔ)3.預(yù)測模型改進(jìn)離群點對于構(gòu)建準(zhǔn)確的預(yù)測模型有很大影響。離群點的存在可能導(dǎo)致模型的偏差和誤差,從而降低模型的性能。通過識別和處理離群點,可以改善預(yù)測模型的準(zhǔn)確性和魯棒性。10.1離群點分析基礎(chǔ)4.發(fā)現(xiàn)新的知識和見解離群點可能包含與常規(guī)數(shù)據(jù)不同的有價值的信息。通過分析離群點,可以發(fā)現(xiàn)新的模式、趨勢或異常情況,從而生成新的知識和見解。10.1離群點分析基礎(chǔ)10.2基于統(tǒng)計的離群點分析在基于統(tǒng)計的離群點分析中,可以利用數(shù)據(jù)的統(tǒng)計特性來識別和分析離群點。這種方法假設(shè)正常數(shù)據(jù)點遵循某種概率分布,而離群點則違反了該分布。在這一小節(jié)中,將介紹兩種常見的基于統(tǒng)計的離群點分析方法:均值與標(biāo)準(zhǔn)差方法和箱線圖方法。10.2基于統(tǒng)計的離群點分析10.2.1均值與標(biāo)準(zhǔn)差方法10.2.2箱線圖方法10.2.1均值與標(biāo)準(zhǔn)差方法均值與標(biāo)準(zhǔn)差方法(MeanandStandardDeviationMethod)是一種基于統(tǒng)計的離群點分析方法,用于識別數(shù)據(jù)集中的離群點。該方法假設(shè)數(shù)據(jù)點服從正態(tài)分布,并使用數(shù)據(jù)的均值和標(biāo)準(zhǔn)差來確定離群點。這種方法的基本思想是,正常數(shù)據(jù)點在正態(tài)分布的均值附近,而離群點則遠(yuǎn)離均值。通過計算數(shù)據(jù)點與數(shù)據(jù)集均值之間的差異,可以確定數(shù)據(jù)點的異常程度。一般來說,如果一個數(shù)據(jù)點的值與均值的差異超過了幾倍標(biāo)準(zhǔn)差,那么它很可能是一個離群點。10.2基于統(tǒng)計的離群點分析均值與標(biāo)準(zhǔn)差方法的步驟計算數(shù)據(jù)集的均值(mean)和標(biāo)準(zhǔn)差(standarddeviation)。確定一個閾值,通常是均值加減幾倍的標(biāo)準(zhǔn)差。常用的閾值包括2倍、3倍甚至更多倍數(shù)的標(biāo)準(zhǔn)差。對于每個數(shù)據(jù)點,計算其與均值之間的差異,即數(shù)據(jù)點的偏離程度。如果數(shù)據(jù)點的偏離程度超過設(shè)定的閾值,則將其視為離群點。10.2基于統(tǒng)計的離群點分析10.2.2箱線圖方法箱線圖方法(BoxPlotMethod)是一種基于統(tǒng)計的離群點分析方法,用于識別數(shù)據(jù)集中的離群點。它通過繪制箱線圖來展示數(shù)據(jù)的分布情況和離群點。箱線圖由五個統(tǒng)計量組成:最小值、下四分位數(shù)(Q1)、中位數(shù)(Q2)、上四分位數(shù)(Q3)和最大值。箱體表示了數(shù)據(jù)的四分位距離(IQR,InterquartileRange),即Q3和Q1之間的距離。根據(jù)箱線圖的繪制規(guī)則,離群點被定義為位于上下四分位數(shù)之外的觀測值。10.2基于統(tǒng)計的離群點分析箱線圖方法的步驟計算數(shù)據(jù)集的Q1和Q3,以及IQR(IQR=Q3-Q1)。根據(jù)內(nèi)限(通常為1.5倍的IQR)計算上下內(nèi)限值,即
上內(nèi)限=Q3+1.5*IQR,下內(nèi)限=Q1-1.5*IQR。根據(jù)上下內(nèi)限值確定離群點,所有小于下內(nèi)限或大于上內(nèi)限的觀測值都被視為離群點。10.2基于統(tǒng)計的離群點分析10.3基于距離的離群點分析在基于距離的離群點分析中,使用距離度量來衡量數(shù)據(jù)點之間的相似性或差異性,并進(jìn)而識別離群點。這一小節(jié)包括兩個方面內(nèi)容:歐式距離和曼哈頓距離。10.3基于距離的離群點分析10.3.1歐式距離10.3.2曼哈頓距離10.3.1歐式距離歐式距離(EuclideanDistance)是一種常用的距離度量方法,用于衡量數(shù)據(jù)點之間的相似性或差異性。在離群點分析中,歐式距離常被用來計算數(shù)據(jù)點在多維空間中的直線距離。歐式距離的計算方法基于勾股定理,它衡量了數(shù)據(jù)點之間的直線距離。對于兩個n維數(shù)據(jù)點(x1,x2,...,xn)和(y1,y2,...,yn),歐式距離的計算公式為式子(10-1)。10.3基于距離的離群點分析10.3.2曼哈頓距離曼哈頓距離(ManhattanDistance),也稱為城市街區(qū)距離或L1距離,是一種常用的距離度量方法,用于衡量數(shù)據(jù)點之間的相似性或差異性。在離群點分析中,曼哈頓距離常被用來計算數(shù)據(jù)點在多維空間中的曼哈頓街區(qū)距離。曼哈頓距離的計算方法基于數(shù)據(jù)點在坐標(biāo)軸上的絕對差值之和。對于兩個n維數(shù)據(jù)點(x1,x2,...,xn)和(y1,y2,...,yn),曼哈頓距離的計算公式為式子(10-2)。10.3基于距離的離群點分析10.4基于密度的離群點分析基于密度的離群點分析是一種常用的離群點檢測方法,它基于數(shù)據(jù)點的密度來識別離群點。在本小節(jié)中,將介紹兩種基于密度的離群點分析方法:局部離群因子(LOF)方法和基于密度的空間聚類(DBSCAN)方法。10.4基于密度的離群點分析10.4.1局部離群因子(LOF)方法10.4.2基于密度的空間聚類(DBSCAN)方法10.4.1局部離群因子(LOF)方法局部離群因子(LocalOutlierFactor,LOF)方法是一種基于密度的離群點分析方法,用于識別數(shù)據(jù)集中的離群點。LOF方法通過計算每個數(shù)據(jù)點相對于其鄰域的離群程度來確定離群點。10.4基于密度的離群點分析基本原理將每個數(shù)據(jù)點的局部離群因子與其鄰域中的其他數(shù)據(jù)點進(jìn)行比較。局部離群因子是一個反映數(shù)據(jù)點相對于其鄰域密度的指標(biāo),它衡量了數(shù)據(jù)點相對于其鄰域的離散程度。具體來說,LOF方法計算每個數(shù)據(jù)點的局部離群因子,即數(shù)據(jù)點與其鄰域內(nèi)其他數(shù)據(jù)點的密度比值。10.4基于密度的離群點分析計算過程對于每個數(shù)據(jù)點,確定其鄰域,可以使用距離度量(如歐式距離)來定義鄰域的大小。計算每個數(shù)據(jù)點的局部可達(dá)密度(LocalReachabilityDensity,LRD),即數(shù)據(jù)點與其鄰域內(nèi)其他數(shù)據(jù)點的平均距離的倒數(shù)。計算每個數(shù)據(jù)點的局部離群因子(LOF),即數(shù)據(jù)點的LRD與其鄰域內(nèi)其他數(shù)據(jù)點的平均LRD的比值。根據(jù)計算得到的LOF值,確定離群點。通常,LOF值大于1的數(shù)據(jù)點被視為離群點。10.4基于密度的離群點分析10.4.2基于密度的空間聚類(DBSCAN)方法基于密度的空間聚類(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)方法是一種基于密度的離群點分析方法,用于識別數(shù)據(jù)集中的離群點。DBSCAN方法通過定義數(shù)據(jù)點的密度和鄰域關(guān)系來確定離群點。10.4基于密度的離群點分析基本原理將數(shù)據(jù)點分為三類:核心點、邊界點和噪聲點。核心點是在鄰域內(nèi)具有足夠數(shù)量的數(shù)據(jù)點的密集區(qū)域;邊界點是在鄰域內(nèi)不具備足夠數(shù)量的數(shù)據(jù)點但位于核心點鄰域中;噪聲點是既不是核心點也不是邊界點的點。10.4基于密度的離群點分析計算過程對于每個數(shù)據(jù)點,確定其ε鄰域內(nèi)的所有數(shù)據(jù)點。ε是一個預(yù)先設(shè)置的鄰域半徑。對于每個核心點,將其鄰域內(nèi)的所有數(shù)據(jù)點標(biāo)記為核心點的鄰域點。根據(jù)核心點之間的鄰域關(guān)系,將相鄰的核心點組成一個簇。將邊界點分配給與其鄰域內(nèi)的核心點相鄰的簇。將剩余的噪聲點標(biāo)記為離群點。10.4基于密度的離群點分析10.5實踐——異常小麥種子分析本節(jié)對異常小麥種子進(jìn)行分析和識別,從而幫助農(nóng)民或種植專家發(fā)現(xiàn)和解決種子質(zhì)量問題,提高農(nóng)作物的產(chǎn)量和質(zhì)量。10.5實踐—異常小麥種子分析10.5.1讀入數(shù)據(jù)10.5.2數(shù)據(jù)初步分析10.5.3數(shù)據(jù)預(yù)處理10.5.4構(gòu)建離群點模型10.5.5評估離群點模型10.5.6離群點分析的意義10.5.1讀入數(shù)據(jù)本節(jié)使用小麥種子數(shù)據(jù)集,此數(shù)據(jù)集來源于數(shù)據(jù)科學(xué)競賽平臺kaggle:https://www./datasets/jmcaro/wheat-seedsuci,此數(shù)據(jù)集包含了一些關(guān)于小麥種子的特征,這些特征可以用來描述和區(qū)分不同類型的小麥種子。10.5實踐——異常小麥種子...10.5.1讀入數(shù)據(jù)加載和預(yù)覽這個數(shù)據(jù)集查看數(shù)據(jù)條數(shù)10.5實踐——異常小麥種子...加載和預(yù)覽這個數(shù)據(jù)集10.5實踐——異常小麥種子...查看數(shù)據(jù)條數(shù)由運行結(jié)果可知,此數(shù)據(jù)集共有199條信息,5個浮點型特征,1個整型特征,沒有缺失值。10.5實踐——異常小麥種子...10.5.2數(shù)據(jù)初步分析10.5實踐——異常小麥種子...10.5.3數(shù)據(jù)預(yù)處理10.5實踐——異常小麥種子...10.5.4構(gòu)建離群點模型LOF(LocalOutlierFactor)算法有兩個重要的超參數(shù),n_neighbors和contamination。n_neighbors表示在計算局部可達(dá)密度時考慮的最近鄰樣本的數(shù)量。它決定了算法在計算密度時要考慮多少個相鄰樣本。contamination表示異常值的比例或者期望的異常值比例。它指定了在數(shù)據(jù)集中預(yù)期的異常值所占的比例。10.5實踐——異常小麥種子...10.5.4構(gòu)建離群點模型使用網(wǎng)格搜索方式確定兩個超參數(shù)運行結(jié)果查看數(shù)據(jù)條數(shù)10.5實踐——異常小麥種子...使用網(wǎng)格搜索方式確定兩個超參數(shù)10.5實踐——異常小麥種子...運行結(jié)果本節(jié)使用基于密度的局部離群因子(LOF)算法來檢測離群點,兩個超參數(shù)分別設(shè)置為n_neighbors=5,contamination=0.15。由運行結(jié)果可知,最后一列為-1,表明此數(shù)據(jù)為離群點數(shù)據(jù)。10.5實踐——異常小麥種子...查看數(shù)據(jù)條數(shù)由運行結(jié)果可知,通過此離群點模型篩選出30個離群點。10.5實踐——異常小麥種子...10.5.5評估離群點模型為了評估離群點檢測模型,可以查看檢測到的離群點的數(shù)量,并可視化這些離群點與正常點的關(guān)系。利用標(biāo)準(zhǔn)化后的“區(qū)域”和“周長”特征繪制散點圖,顏色表示每個點是否被檢測為離群點。藍(lán)色點表示正常點,而紅色點表示檢測到的離群點。10.5實踐——異常小麥種子...圖10-1離群點可視化結(jié)果由圖10-1所知,面積范圍為11到15之間,直徑值為12到14之間,離群點比較稠密。10.5實踐——異常小麥種子...10.5.6離群點分析的意義異常檢測數(shù)據(jù)質(zhì)量控制特征分析預(yù)測模型改進(jìn)10.5實踐——異常小麥種子...10.6本章小結(jié)本章系統(tǒng)地介紹了離群點分析的基礎(chǔ)概念和常用方法。首先定義了離群點分析的概念,并探討了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育政策在醫(yī)療健康培訓(xùn)中的應(yīng)用探索
- 教育大數(shù)據(jù)背景下學(xué)生評價體系的重構(gòu)
- 申論考試題庫及答案大全
- 2026屆上海市浦東新區(qū)進(jìn)才中學(xué)高三化學(xué)第一學(xué)期期中檢測模擬試題含解析
- C語言程序設(shè)計 課件 任務(wù) 1 學(xué)生成績管理系統(tǒng)之系統(tǒng)啟動
- 福建閩侯第六中學(xué)2026屆化學(xué)高二第一學(xué)期期中經(jīng)典試題含解析
- 2026屆吉林省白城市一中化學(xué)高二上期中綜合測試試題含解析
- 急性炎癥性脫髓鞘性多發(fā)性神經(jīng)病
- 原發(fā)性輸卵管癌的MR表現(xiàn)
- 海南國際養(yǎng)生島戰(zhàn)略計劃及項目可行性研究分析
- 2025年基層黨支部書記考試題與答案
- 預(yù)見性護(hù)理在骨科的應(yīng)用
- 高二班主任班級管理課件
- 2025初中美術(shù)教師招聘選調(diào)考試綜合模擬試卷及答案
- 2025年行政執(zhí)法證考試題庫及參考答案
- 2025年廣西專業(yè)技術(shù)人員繼續(xù)教育公需科目(三)答案
- GB/T 15166.4-2021高壓交流熔斷器第4部分:并聯(lián)電容器外保護(hù)用熔斷器
- 一年級數(shù)學(xué)50以內(nèi)加減法練習(xí)題
- 阿片類藥物不良反應(yīng)防治1副本
- 四川滑雪場商業(yè)綜合體設(shè)計方案文本含個方案 知名設(shè)計院
- 完整版醫(yī)院體檢報告范本
評論
0/150
提交評論