大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第8章 分類分析_第1頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第8章 分類分析_第2頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第8章 分類分析_第3頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第8章 分類分析_第4頁
大數(shù)據(jù)分析方法及應(yīng)用-基于Python實(shí)現(xiàn) 課件 第8章 分類分析_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第8章分類分析分類和數(shù)值預(yù)測(cè)是預(yù)測(cè)問題的兩種主要類型,本章將重點(diǎn)介紹分類問題。分類是一種重要的數(shù)據(jù)分析形式,它提取并刻畫了數(shù)據(jù)中重要的類別模式。這種模式提取的模型被稱為分類器,它用于預(yù)測(cè)數(shù)據(jù)實(shí)例的分類,這些分類通常是離散且無序的。目前,分類算法已經(jīng)出現(xiàn)了很多種方法,本章主要學(xué)習(xí)決策樹、樸素貝葉斯分類、支持向量機(jī)等算法的思想、步驟以及如何評(píng)估這些分類方法的指標(biāo)。第8章分類分析8.1分類分析的基礎(chǔ)8.2決策樹8.3貝葉斯分類8.4支持向量機(jī)8.5分類的評(píng)價(jià)指標(biāo)8.6實(shí)踐----分類分析8.7本章小結(jié)8.1分類分析的基礎(chǔ)在大數(shù)據(jù)分析中,分類問題是指通過對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí)和模式識(shí)別,將數(shù)據(jù)實(shí)例劃分為不同的類別或標(biāo)簽的任務(wù)。這種任務(wù)的目標(biāo)是建立一個(gè)模型,能夠自動(dòng)地將新的數(shù)據(jù)實(shí)例歸類到已知的類別中,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效分類和管理。分類問題通常涉及使用已知的數(shù)據(jù)集進(jìn)行訓(xùn)練,然后利用訓(xùn)練好的模型對(duì)未知數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。在大數(shù)據(jù)環(huán)境下,分類問題可以應(yīng)用于各種領(lǐng)域,如金融、醫(yī)療、電子商務(wù)等,用來解決諸如風(fēng)險(xiǎn)評(píng)估、疾病診斷、用戶行為分析等實(shí)際挑戰(zhàn)。8.1分類分析的基礎(chǔ)8.1.1二元分類和多元分類8.1.2分類的步驟8.1.1二元分類和多元分類分類問題可以分為兩種主要類型:二元分類和多元分類。在二元分類中,數(shù)據(jù)被分為兩個(gè)互斥的類別,例如將電子郵件分類為“垃圾郵件”或“非垃圾郵件”。而多元分類則涉及將數(shù)據(jù)分為三個(gè)或更多個(gè)互斥的類別,例如將圖像識(shí)別為“貓”、“狗”、“汽車”或“飛機(jī)”。在解決實(shí)際問題時(shí),選擇二元分類還是多元分類取決于具體的數(shù)據(jù)和問題特征。8.1分類分析的基礎(chǔ)8.1.2分類的步驟數(shù)據(jù)分類是一個(gè)兩階段過程,包括學(xué)習(xí)階段(構(gòu)建分類模型)和分類階段(使用模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)號(hào))。第一階段:建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器。第二階段:使用模型進(jìn)行分類。8.1分類分析的基礎(chǔ)8.2決策樹決策樹是數(shù)據(jù)挖掘的有力工具之一,決策樹學(xué)習(xí)算法是從一組樣本數(shù)據(jù)集(一個(gè)樣本數(shù)據(jù)也可以稱為實(shí)例)為基礎(chǔ)的一種歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的樣本數(shù)據(jù)(概念)中推理出決策樹表示形式的分類規(guī)則。8.2決策樹8.2.1決策樹歸納8.2.2屬性選擇度量8.2.3實(shí)例分析8.2.4樹剪枝處理8.2.1決策樹歸納決策樹的學(xué)習(xí)過程是歸納的,從訓(xùn)練數(shù)據(jù)中總結(jié)出一般性規(guī)則,并且分類的過程是簡單而快速的。常見的決策樹算法包括ID3、C4.5和CART。這些算法都采用貪心方法,即在構(gòu)建樹的過程中每次選擇當(dāng)前看起來最優(yōu)的特征進(jìn)行劃分,而不進(jìn)行回溯。決策樹的構(gòu)建是以自頂向下遞歸的方式進(jìn)行的,從訓(xùn)練數(shù)據(jù)集的整體開始,逐步劃分為較小的子集,直到滿足停止條件為止。8.2決策樹決策樹歸納過程1.樹從單個(gè)結(jié)點(diǎn)N開始,N代表D中訓(xùn)練元組,D為數(shù)據(jù)分區(qū);2.如果D中的元組都為同一類,則結(jié)點(diǎn)變成樹葉并用該類標(biāo)記它。3.否則算法調(diào)用屬性選擇方法確定分裂準(zhǔn)則,分裂準(zhǔn)則指定分裂屬性也指出分裂點(diǎn)或分裂子集。理想情況下,分裂準(zhǔn)則要使得每個(gè)分支上的輸出分區(qū)盡可能“純”。一個(gè)分區(qū)是純的就是它的所有元組都屬于同一類。4.結(jié)點(diǎn)N用分裂準(zhǔn)則標(biāo)記作為結(jié)點(diǎn)上的測(cè)試。對(duì)分類準(zhǔn)則的每個(gè)輸出,由結(jié)點(diǎn)N生長一個(gè)分支,D中的元組據(jù)此進(jìn)行劃分有三種可能的情況:(1)A是離散值的(2)A是連續(xù)值的(3)A是離散值并且必須產(chǎn)生二叉樹5.對(duì)于D的每個(gè)結(jié)果分區(qū)Dj上的元組,算法使用同樣的過程遞歸地形成決策樹。6.遞歸劃分步驟僅當(dāng)下列終止條件之一成立時(shí)停止:(1)分區(qū)D的所有元組都是同一個(gè)類。(2)沒有剩余屬性可以用來進(jìn)一步劃分元組。使用多數(shù)表決,將N轉(zhuǎn)化為樹葉,并用D中的多數(shù)類標(biāo)記它。也可以存放結(jié)點(diǎn)元組的類分布。(3)給定的分枝沒有元組,即分區(qū)Dj為空,用D中的多數(shù)類創(chuàng)建一個(gè)樹葉。8.2決策樹8.2.2屬性選擇度量屬性選擇度量是一種選擇分裂準(zhǔn)則,把給定類標(biāo)記的訓(xùn)練元組的數(shù)據(jù)分區(qū)D“最好地”劃分成單獨(dú)類的啟發(fā)式方法。理想情況是,劃分成較小的分區(qū)后,每個(gè)分區(qū)應(yīng)當(dāng)是純的(即落在一個(gè)給定分區(qū)的所有元組都屬于相同的類),屬性選擇度量決定了給定結(jié)點(diǎn)上的元組如何分裂,所以又稱作分裂準(zhǔn)則。常用的屬性選擇度量有信息增益、增益率和基尼指數(shù)。設(shè)D為有類標(biāo)號(hào)的訓(xùn)練集,訓(xùn)練集分為m個(gè)類,分別為C1,C2,......,Cm,Ci,D是D中屬于Ci類的元組集合,|D|和|Ci,D|分別表示D和Ci,D中的元組個(gè)數(shù)。8.2決策樹8.2.2屬性選擇度量1.信息增益2.增益率3.基尼指數(shù)4.度量對(duì)比8.2決策樹1.信息增益信息增益定義為原來信息需求與新的信息需求之間的差。一般而言,信息增益越大,則意味著使用屬性A來進(jìn)行劃分所獲得的“純度提升”越大。著名的ID3決策樹學(xué)習(xí)算法就是使用信息增益作為屬性選擇度量的。8.2決策樹1.信息增益式子(8-1)式子(8-2)式子(8-3)8.2決策樹式子(8-1)8.2決策樹式子(8-2)8.2決策樹式子(8-3)Grain(A)=Info(D)-InfoA(D)8.2決策樹2.增益率8.2決策樹3.基尼指數(shù)8.2決策樹4.度量對(duì)比信息增益偏向于多值屬性,增益率調(diào)整了這種偏倚,但是它傾向于產(chǎn)生不平衡的劃分,其中一個(gè)分區(qū)比其他分區(qū)小得多?;嶂笖?shù)偏向于多值屬性,當(dāng)類的數(shù)量很大時(shí)會(huì)有困難。它還傾向于導(dǎo)致等大小的分區(qū)和純度。8.2決策樹8.2.3實(shí)例分析蘋果的評(píng)估信息數(shù)據(jù)集D由五個(gè)特征:編號(hào)、大小、形狀和類別(是否為好果)構(gòu)成,共有10個(gè)樣本,具體信息見表8-1。8.2決策樹8.2.3實(shí)例分析表8-1蘋果數(shù)據(jù)信息表最終的決策樹對(duì)新的數(shù)據(jù)樣本進(jìn)行預(yù)測(cè)8.2決策樹表8-1蘋果數(shù)據(jù)信息表8.2決策樹最終的決策樹8.2決策樹對(duì)新的數(shù)據(jù)樣本進(jìn)行預(yù)測(cè)8.2決策樹8.2.4樹剪枝處理樹剪枝兩種常用兩種方法:先剪枝和后剪枝。8.2決策樹8.2.4樹剪枝處理1.先剪枝2.后剪枝8.2決策樹1.先剪枝先剪枝通過提前停止樹的構(gòu)建對(duì)樹進(jìn)行剪枝,停止之后結(jié)點(diǎn)就成為樹葉。該樹葉可以持有子集元組中最頻繁的類,或這些元組的概率分布。在構(gòu)造樹時(shí)可以用統(tǒng)計(jì)顯著性、信息增益、基尼指數(shù)等度量來評(píng)估劃分的優(yōu)劣。如果一個(gè)劃分的結(jié)點(diǎn)的元組導(dǎo)致低于預(yù)定義閾值的劃分,則給定子集的進(jìn)一步劃分停止。但選擇一個(gè)合適的閾值是困難的。8.2決策樹2.后剪枝通過刪除結(jié)點(diǎn)的分枝并用樹葉替換它而剪掉給定結(jié)點(diǎn)上的子樹。該樹葉的類標(biāo)號(hào)用子樹中最頻繁的類標(biāo)記。CART使用的代價(jià)復(fù)雜度剪枝算法,該方法把樹的復(fù)雜度看作樹中樹葉結(jié)點(diǎn)的個(gè)數(shù)和樹的錯(cuò)誤率的函數(shù),錯(cuò)誤率是樹誤分類的元組所占的百分比。它從樹的底部開始。對(duì)于每個(gè)內(nèi)部結(jié)點(diǎn)N,計(jì)算N的子樹的代價(jià)復(fù)雜度和該子樹剪枝后N的子樹的代價(jià)復(fù)雜度。使用標(biāo)記類元組的錯(cuò)誤率來評(píng)估代價(jià)復(fù)雜度,該集合獨(dú)立于用于建立未剪枝樹的訓(xùn)練集和用于準(zhǔn)確率評(píng)估的驗(yàn)證集。一般而言,最小化代價(jià)復(fù)雜度的最小決策樹是首選。8.2決策樹8.3貝葉斯分類貝葉斯分類法是統(tǒng)計(jì)學(xué)分類方法,他們可以預(yù)測(cè)類隸屬關(guān)系的概率,如一個(gè)給定的元組屬于一個(gè)特定類的概率。貝葉斯分類基于貝葉斯定理,本節(jié)給出相關(guān)概念。8.3貝葉斯分類8.3.1相關(guān)概念8.3.2樸素貝葉斯分類器8.3.3樸素貝葉斯實(shí)例分析8.3.4拉普拉斯修正8.3.5樸素貝葉斯算法偽代碼8.3.1相關(guān)概念1.先驗(yàn)概率2.條件概率3.后驗(yàn)概率4.貝葉斯定理8.3貝葉斯分類1.先驗(yàn)概率先驗(yàn)概率是基于背景常識(shí)或者歷史數(shù)據(jù)的統(tǒng)計(jì)得出的預(yù)判概率,一般只包含一個(gè)變量。例如P(A),P(B)。8.3貝葉斯分類2.條件概率條件概率是表示一個(gè)事件發(fā)生后另一個(gè)事件發(fā)生的概率,一般情況下B表示某一個(gè)因素,A表示結(jié)果,P(A|B)表示在因素B的條件下A發(fā)生的概率,即由因求果,公式見式子(8-8)。8.3貝葉斯分類3.后驗(yàn)概率后驗(yàn)概率是由果求因,也就是在知道結(jié)果的情況下求原因的概率,例如Y事件是X引起的,那么P(X|Y)就是后驗(yàn)概率,也可以說它是事件發(fā)生后的反向條件概率。8.3貝葉斯分類4.貝葉斯定理貝葉斯定理是一種概率理論中的基本定理,用于計(jì)算在已知一些先驗(yàn)條件的情況下,某一事件的后驗(yàn)概率。該定理以英國數(shù)學(xué)家托馬斯·貝葉斯的名字命名,其數(shù)學(xué)表達(dá)式見式子(8-9)。8.3貝葉斯分類8.3.2樸素貝葉斯分類器樸素貝葉斯分類器的思想源于貝葉斯定理且是一種簡單而有效的分類方法。在該算法中,假設(shè)待分類項(xiàng)的各個(gè)屬性之間是相互獨(dú)立的,即一個(gè)屬性值在給定類別下的影響與其他屬性值無關(guān)?;谶@一假設(shè),可以通過計(jì)算待分類項(xiàng)屬于各個(gè)類別的概率,并選擇具有最大概率的類別作為待分類項(xiàng)的類別。8.3貝葉斯分類8.3.2樸素貝葉斯分類器樸素貝葉斯分類法的工作過程(見教材)8.3貝葉斯分類8.3.3樸素貝葉斯實(shí)例分析根據(jù)表8-1所給的數(shù)據(jù)信息,利用樸素貝葉斯分類器預(yù)測(cè)表8-8中新的數(shù)據(jù)樣本類別。蘋果的類別信息好果和壞果分別對(duì)應(yīng)C1和C2表示。8.3貝葉斯分類8.3.4拉普拉斯修正相比原始貝葉斯分類器,樸素貝葉斯分類器基于單個(gè)的屬性計(jì)算類條件概率更加容易操作,需要注意的是:若某個(gè)屬性值在訓(xùn)練集中和某個(gè)類別沒有一起出現(xiàn)過,這樣會(huì)抹掉其它屬性的信息,因?yàn)樵摌颖镜念悧l件概率計(jì)算結(jié)果為0。因此在估計(jì)概率值時(shí),常常進(jìn)行平滑處理,拉普拉斯修正就是其中的一種經(jīng)典方法,具體計(jì)算方法如式子(8-14)8.3貝葉斯分類8.3.5樸素貝葉斯算法偽代碼算法8.2:樸素貝葉斯分類算法輸入:訓(xùn)練樣本,特征屬性輸出:待預(yù)測(cè)特征屬性的所屬類別8.3貝葉斯分類8.4支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)是一種監(jiān)督學(xué)習(xí)的廣義線性分類器,用于二元分類問題。它通過求解學(xué)習(xí)樣本的最大邊距超平面來確定決策邊界,并將問題轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題。當(dāng)樣本線性可分時(shí),SVMMM能夠直接在原始空間中找到兩類樣本的最優(yōu)分類超平面;而當(dāng)樣本線性不可分時(shí),支持向量機(jī)引入松弛變量,并通過非線性映射將低維度輸入空間的樣本映射到高維度空間,使其變?yōu)榫€性可分,從而在新的特征空間中尋找最優(yōu)分類超平面。這樣的特性使得支持向量機(jī)在處理各種數(shù)據(jù)集時(shí)能夠表現(xiàn)出高度準(zhǔn)確性的分類能力。8.4支持向量機(jī)8.4.1數(shù)據(jù)線性可分情況8.4.2最大邊緣超平面8.4.3硬間隔支持向量機(jī)8.4.4軟間隔支持向量機(jī)8.4.5核支持向量機(jī)8.4.1數(shù)據(jù)線性可分情況設(shè)給定的數(shù)據(jù)集D為(x1,y1),(x2,y2),....,(x|D|,y|D|),其中xi是訓(xùn)練元組,具有類標(biāo)號(hào)yi。每個(gè)yi可以取值+1和-1(即yi∈{+1,-1})。為了便于可視化,考慮一個(gè)基于兩個(gè)輸入屬性A1和A2的例子,如圖8-5所示。從該圖可以看出,該二維數(shù)據(jù)線性可分的(或簡稱“線性的”),因?yàn)榭梢援嬕粭l直線,把類+1的元組和類-1的元組分開。8.4支持向量機(jī)8.4.2最大邊緣超平面SVM是一種分類算法,通過尋找最大邊緣超平面(MaximumMarginalHyperplane,MMH)來處理分類問題。在圖8-6中,可以看到兩個(gè)可能的分離超平面及它們相關(guān)的邊緣。雖然這兩個(gè)超平面都能正確地將數(shù)據(jù)元組分類,但期望具有更大邊緣的超平面(如圖8-6(b)所示)在對(duì)未來的數(shù)據(jù)元組分類時(shí)比較小邊緣的平面(如圖8-6(a)所示)更準(zhǔn)確。因此,SVM通過尋找具有最大邊緣的超平面來提高分類的準(zhǔn)確性。8.4支持向量機(jī)8.4.3硬間隔支持向量機(jī)8.4支持向量機(jī)8.4.4軟間隔支持向量機(jī)軟間隔是一種考慮數(shù)據(jù)中可能存在噪音點(diǎn)的情況的方法。在傳統(tǒng)方法中,要求將兩類數(shù)據(jù)完全分開,這一要求相當(dāng)嚴(yán)格。為了解決這個(gè)問題,引入了松弛因子,從而放寬了這一要求。噪音點(diǎn)不再強(qiáng)制要求完全分類,這樣可以使模型更具魯棒性,更好地適應(yīng)真實(shí)世界的數(shù)據(jù)情況。8.4支持向量機(jī)圖8-8軟間隔優(yōu)化示意圖8.4支持向量機(jī)8.4.5核支持向量機(jī)在線性可分?jǐn)?shù)據(jù)的情況下,可以使用線性SVM有效地找到一個(gè)直線來分隔兩個(gè)類別。但是,當(dāng)數(shù)據(jù)是線性不可分的時(shí)候,這種方法就不再適用了。在這種情況下,不能簡單地找到一個(gè)直線來完美地分隔兩個(gè)類別。好消息是,可以擴(kuò)展線性SVM以處理線性不可分的數(shù)據(jù),創(chuàng)建非線性SVM。這種非線性SVM能夠在輸入空間中找到非線性的決策邊界,也就是非線性超平面。擴(kuò)展線性SVM的方法主要分為兩個(gè)步驟:8.4支持向量機(jī)8.4.5核支持向量機(jī)1.非線性映射2.在新空間搜索超平面【例8-1】原輸入數(shù)據(jù)到較高維空間的非線性變換8.4支持向量機(jī)1.非線性映射使用非線性映射將原始的輸入數(shù)據(jù)轉(zhuǎn)換到一個(gè)更高維的空間。這一步可以采用多種常用的非線性映射方法,例如多項(xiàng)式映射、徑向基函數(shù)(RBF)映射等。通過這種映射,原本在低維空間中線性不可分的數(shù)據(jù)在高維空間可能會(huì)變得線性可分。8.4支持向量機(jī)2.在新空間搜索超平面在轉(zhuǎn)換后的高維空間中尋找一個(gè)超平面來分隔數(shù)據(jù)。盡管在高維空間中進(jìn)行操作可能會(huì)導(dǎo)致計(jì)算復(fù)雜性增加,但仍然可以使用線性SVM的優(yōu)化方法來解決這個(gè)問題。找到的最大邊緣超平面在原始空間中對(duì)應(yīng)于一個(gè)非線性的分隔超平面。8.4支持向量機(jī)【例8-1】原輸入數(shù)據(jù)到較高維空間的非線性變換8.4支持向量機(jī)核技巧8.4支持向量機(jī)核函數(shù)8.4支持向量機(jī)8.5分類的評(píng)價(jià)指標(biāo)8.5分類的評(píng)價(jià)指標(biāo)8.5.1二元分類的評(píng)價(jià)指標(biāo)8.5.2多元分類的評(píng)價(jià)指標(biāo)8.5.1二元分類的評(píng)價(jià)指標(biāo)二元分類的評(píng)價(jià)指標(biāo)包括混淆矩陣、準(zhǔn)確率、精確率、召回率、F1值、ROC曲線和AUC值?;煜仃囈约皽?zhǔn)確率、精確率和召回率分別展示了分類器在不同方面的性能表現(xiàn),F(xiàn)1值綜合考慮了分類器的準(zhǔn)確性和識(shí)別能力。ROC曲線和AUC值提供了對(duì)分類器整體性能的直觀評(píng)估,尤其適用于比較不同閾值下的性能。這些評(píng)價(jià)指標(biāo)在二元分類中相輔相成,能夠全面評(píng)估分類器的性能,為模型選擇和優(yōu)化提供重要依據(jù)。8.5分類的評(píng)價(jià)指標(biāo)8.5.1二元分類的評(píng)價(jià)指標(biāo)混淆矩陣(ConfusionMatrix)1.準(zhǔn)確率2.精確率3.召回率4.F1值(F1-score)5.ROC曲線和AUC值8.5分類的評(píng)價(jià)指標(biāo)混淆矩陣(ConfusionMatrix)混淆矩陣(ConfusionMatrix)是一種用于可視化分類模型性能的表格,它將模型的預(yù)測(cè)結(jié)果與實(shí)際標(biāo)簽進(jìn)行對(duì)比,以便評(píng)估分類器的準(zhǔn)確性?;煜仃囃ǔJ且粋€(gè)二維矩陣,行表示實(shí)際標(biāo)簽,列表示預(yù)測(cè)標(biāo)簽,每個(gè)單元格中的值表示對(duì)應(yīng)標(biāo)簽的樣本數(shù)量。8.5分類的評(píng)價(jià)指標(biāo)混淆矩陣的實(shí)例8.5分類的評(píng)價(jià)指標(biāo)1.準(zhǔn)確率8.5分類的評(píng)價(jià)指標(biāo)2.精確率8.5分類的評(píng)價(jià)指標(biāo)3.召回率8.5分類的評(píng)價(jià)指標(biāo)4.F1值(F1-score)8.5分類的評(píng)價(jià)指標(biāo)5.ROC曲線和AUC值ROC曲線(ReceiverOperatingCharacteristicCurve)和AUC值(AreaUndertheROCCurve)是評(píng)價(jià)分類器性能的重要工具,尤其適用于二分類問題。ROC曲線以假陽率(FalsePositiveRate)為橫軸,真陽率(TruePositiveRate)為縱軸,展示了在不同閾值下分類器的性能表現(xiàn)。ROC曲線的形狀越靠近左上角,表示分類器在保持較高真陽率的情況下,能夠保持較低的假陽率,即性能越好。AUC值則是ROC曲線下的面積,它表示了分類器將正樣本排在負(fù)樣本前面的概率。AUC值的范圍在0到1之間,通常情況下,AUC值越接近1,說明分類器性能越好;而AUC值為0.5時(shí),表示分類器的預(yù)測(cè)與隨機(jī)猜測(cè)沒有區(qū)別,即分類器無法區(qū)分正負(fù)樣本。因此,ROC曲線和AUC值提供了對(duì)分類器性能的直觀評(píng)估,能夠幫助理解分類器在不同閾值下的性能表現(xiàn),并且對(duì)于樣本不平衡的情況下,也能夠提供有效的性能評(píng)估。8.5分類的評(píng)價(jià)指標(biāo)8.5.2多元分類的評(píng)價(jià)指標(biāo)多元分類的評(píng)價(jià)指標(biāo)與二元分類有很多相似之處,但在計(jì)算時(shí)需要考慮到多個(gè)類別的情況,以確保評(píng)估結(jié)果的準(zhǔn)確性和全面性。8.5分類的評(píng)價(jià)指標(biāo)8.5.2多元分類的評(píng)價(jià)指標(biāo)1.準(zhǔn)確率(Accuracy)2.宏平均3.微平均4.加權(quán)宏平均8.5分類的評(píng)價(jià)指標(biāo)1.準(zhǔn)確率(Accuracy)8.5分類的評(píng)價(jià)指標(biāo)2.宏平均8.5分類的評(píng)價(jià)指標(biāo)3.微平均8.5分類的評(píng)價(jià)指標(biāo)4.加權(quán)宏平均加權(quán)宏平均是宏平均的一種變體,它考慮了每個(gè)類別的權(quán)重,以解決樣本不平衡的問題。在加權(quán)宏平均中,對(duì)每個(gè)類別的指標(biāo)(如準(zhǔn)確率、召回率、F1分?jǐn)?shù)等)進(jìn)行計(jì)算時(shí),使用類別的樣本數(shù)量或其他相關(guān)指標(biāo)作為權(quán)重。這樣可以更加客觀地評(píng)估模型在不同類別上的性能,避免樣本數(shù)量較少的類別對(duì)整體評(píng)估造成的偏差。通過加權(quán)宏平均,可以根據(jù)不同類別的重要性來調(diào)整評(píng)估結(jié)果,從而更準(zhǔn)確地評(píng)估模型在不平衡數(shù)據(jù)集上的性能。8.5分類的評(píng)價(jià)指標(biāo)8.6實(shí)踐----分類分析在本節(jié)中,將應(yīng)用決策樹、樸素貝葉斯和支持向量機(jī)這三種機(jī)器學(xué)習(xí)算法來對(duì)銀行客戶流失、糖尿病和垃圾進(jìn)行分類處理。通過對(duì)不同算法的比較和評(píng)估,將探索哪種算法在不同情境下表現(xiàn)更優(yōu)秀,從而為相關(guān)領(lǐng)域的決策和預(yù)測(cè)提供更有效的支持。8.6實(shí)踐----分類分析8.6.1利用決策樹構(gòu)建銀行客戶流失模型8.6.2利用樸素貝葉斯構(gòu)建垃圾郵件分類模型8.6.3利用SVM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論