




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1決策樹(shù)(Decision Tree)2022-4-1321、分類的意義數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)了解類別屬性了解類別屬性與特征與特征預(yù)測(cè)預(yù)測(cè)分類模型決策樹(shù)分類模型聚類一、分類(Classification)2022-4-133數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)分類標(biāo)記分類標(biāo)記性別性別年齡年齡婚姻婚姻否否是是否否是是FemaleFemaleMaleMale35353535未婚未婚已婚已婚2022-4-132、分類的技術(shù)(1)決策樹(shù)4(2)聚類2022-4-133、分類的程序5模型建立(Model Building)模型評(píng)估(Model Evaluation)使用模型(Use Model)2022-4-13決策樹(shù)分類的步驟6數(shù)據(jù)庫(kù)
2、2022-4-13訓(xùn)練樣本(training samples)建立模型測(cè)試樣本(testing samples)評(píng)估模型例:7資料訓(xùn)練樣本訓(xùn)練樣本婚姻年齡 家庭 所得否是否是未婚已婚3535低高否小康1.建立模型測(cè)試樣本2.模型評(píng)估錯(cuò)誤率為66.67%修改模型3.使用模型2022-4-134、分類算法的評(píng)估8預(yù)測(cè)的準(zhǔn)確度:指模型正確地預(yù)測(cè)新的或先前未見(jiàn)過(guò)的數(shù)據(jù)的類標(biāo)號(hào)的能力。訓(xùn)練測(cè)試法(training-and-testing)交叉驗(yàn)證法(cross-validation)例如,十折交叉驗(yàn)證。即是將數(shù)據(jù)集分成十分,輪流將其中9份做訓(xùn)練1份做測(cè)試,10次的結(jié)果的均值作為對(duì)算法精度的估計(jì),一般還需
3、要進(jìn)行多次10倍交叉驗(yàn)證求均值,例如10次10倍交叉驗(yàn)證,更精確一點(diǎn)。2022-4-132022-4-139速度:指產(chǎn)生和使用模型的計(jì)算花費(fèi)。建模的速度、預(yù)測(cè)的速度強(qiáng)壯性:指給定噪聲數(shù)據(jù)或具有缺失值的數(shù)據(jù),模型正確預(yù)測(cè)的能力??稍忈屝裕褐改P偷慕忉屇芰?。102022-4-13決策樹(shù)歸納的基本算法是貪心算法,它以自頂向下遞歸各個(gè)擊破的方式構(gòu)造決策樹(shù)。貪心算法:在每一步選擇中都采取在當(dāng)前狀態(tài)下最好/優(yōu)的選擇。在其生成過(guò)程中,分割方法即屬性選擇度量是關(guān)鍵。通過(guò)屬性選擇度量,選擇出最好的將樣本分類的屬性。根據(jù)分割方法的不同,決策樹(shù)可以分為兩類:基于信息論的方法(較有代表性的是ID3、C4.5算法等)和
4、最小GINI指標(biāo)方法(常用的有CART、SLIQ及SPRINT算法等)。二、決策樹(shù)(Decision Tree)(一)決策樹(shù)的結(jié)構(gòu)11根部節(jié)點(diǎn)(root node)中間節(jié)點(diǎn)(non-leaf node)(代表測(cè)試的條件)分支(branches)(代表測(cè)試的結(jié)果)葉節(jié)點(diǎn)(leaf node)(代表分類后所獲得的分類標(biāo)記)2022-4-132022-4-1312(二)決策樹(shù)的形成例:13n根部節(jié)點(diǎn)n中間節(jié)點(diǎn)n停止分支?2022-4-13(三)ID3算法(C4.5,C5.0)142022-4-13Quinlan(1979)提出,以Shannon(1949)的信息論為依據(jù)。ID3算法的屬性選擇度量就是
5、使用信息增益,選擇最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性。信息論:若一事件有k種結(jié)果,對(duì)應(yīng)的概率為Pi。則此事件發(fā)生后所得到的信息量I(視為Entropy)為:I=-(p1*log2(p1)+ p2*log2(p2)+ pk*log2(pk)Example 1:設(shè) k=4p1=0.25,p2=0.25,p3=0.25,p4=0.25 I=-(.25*log2(.25)*4)=2Example 2:設(shè)k=4p1=0,p2=0.5,p3=0,p4=0.5I=-(.5*log2(.5)*2)=1Example 3:設(shè) k=4p1=1,p2=0,p3=0,p4=0 I=-(1*log2(1)=020
6、22-4-13152022-4-1316信息增益17Example(Gain) n=16 n1=4I(16,4)=(4/16)*log2(4/16)+(12/16)*log2(12/16)=0.8113E(年齡)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年齡)=I(16,4)-E(年齡)=0.0167nGain(年齡)=0.0167nMax:作為第一個(gè)分類依據(jù)2022-4-13nGain(性別)=0.0972nGain(家庭所得)=0.0177Example(續(xù))18nGain(家庭所得)=0.688I(7,3)=-(3/7)*log2(3/7)+(4
7、/7)*log2(4/7)=0.9852nGain(年齡)=0.9852nGain(年齡)=0.2222I(9,1)=-(1/9)*log2(1/9)+(8/9)*log2(8/9)=0.5032nGain(家庭所得)=0.50322022-4-13Example(end)ID3算法19分類規(guī)則:IF性別=Female AND家庭所得= 低所得THEN購(gòu)買RV房車=否IF性別=Female AND家庭所得= 小康THEN購(gòu)買RV房車=否IF性別=Female AND家庭所得= 高所得THEN購(gòu)買RV房車=是IF性別=Male AND年齡35 THEN購(gòu)買RV房車=否IF性別=Male AND年
8、齡35 THEN購(gòu)買RV房車=是n資料nDecision Tree2022-4-13(四)Decision Tree的建立過(guò)程201、決策樹(shù)的停止決策樹(shù)是通過(guò)遞歸分割(recursive partitioning)建立而成,遞歸分割是一種把數(shù)據(jù)分割成不同小的部分的迭代過(guò)程。 如果有以下情況發(fā)生,決策樹(shù)將停止分割:該群數(shù)據(jù)的每一筆數(shù)據(jù)都已經(jīng)歸類到同一類別。該群數(shù)據(jù)已經(jīng)沒(méi)有辦法再找到新的屬性來(lái)進(jìn)行節(jié)點(diǎn)分割。該群數(shù)據(jù)已經(jīng)沒(méi)有任何尚未處理的數(shù)據(jù)。2022-4-132、決策樹(shù)的剪枝(pruning)21決策樹(shù)學(xué)習(xí)可能遭遇模型過(guò)度擬合(over fitting)的問(wèn)題,過(guò)度擬合是指模型過(guò)度訓(xùn)練,導(dǎo)致模型記
9、住的不是訓(xùn)練集的一般性,反而是訓(xùn)練集的局部特性。如何處理過(guò)度擬合呢?對(duì)決策樹(shù)進(jìn)行修剪。樹(shù)的修剪有幾種解決的方法,主要為先剪枝和后剪枝方法。2022-4-13(1)先剪枝方法22在先剪枝方法中,通過(guò)提前停止樹(shù)的構(gòu)造(例如,通過(guò)決定在給定的節(jié)點(diǎn)上不再分裂或劃分訓(xùn)練樣本的子集)而對(duì)樹(shù)“剪枝”。一旦停止,節(jié)點(diǎn)成為樹(shù)葉。確定閥值法:在構(gòu)造樹(shù)時(shí),可將信息增益用于評(píng)估岔的優(yōu)良性。如果在一個(gè)節(jié)點(diǎn)劃分樣本將導(dǎo)致低于預(yù)定義閥值的分裂,則給定子集的進(jìn)一步劃分將停止。測(cè)試組修剪法:在使用訓(xùn)練組樣本產(chǎn)生新的分岔時(shí),就立刻使用測(cè)試組樣本去測(cè)試這個(gè)分岔規(guī)則是否能夠再現(xiàn),如果不能,就被視作過(guò)度擬合而被修剪掉,如果能夠再現(xiàn),則
10、該分岔予以保留而繼續(xù)向下分岔。2022-4-13(2)后剪枝方法23后剪枝方法是由“完全生長(zhǎng)”的樹(shù)剪去分枝。通過(guò)刪除節(jié)點(diǎn)的分枝,剪掉葉節(jié)點(diǎn)。案例數(shù)修剪是在產(chǎn)生完全生長(zhǎng)的樹(shù)后,根據(jù)最小案例數(shù)閥值,將案例數(shù)小于閥值的樹(shù)節(jié)點(diǎn)剪掉。成本復(fù)雜性修剪法是當(dāng)決策樹(shù)成長(zhǎng)完成后,演算法計(jì)算所有葉節(jié)點(diǎn)的總和錯(cuò)誤率,然后計(jì)算去除某一葉節(jié)點(diǎn)后的總和錯(cuò)誤率,當(dāng)去除該葉節(jié)點(diǎn)的錯(cuò)誤率降低或者不變時(shí),則剪掉該節(jié)點(diǎn)。反之,保留。2022-4-13應(yīng)用案例:在農(nóng)業(yè)中的應(yīng)用2022-4-1324第一步:屬性離散化2022-4-1325第二步:概化(泛化)2022-4-1326第三步:計(jì)算各屬性的期望信息2022-4-1327=(1
11、7/30)*LOG(17/30),2)+(10/30)*LOG(10/30),2)+(3/30)*LOG(3/30),2)計(jì)算各屬性的信息增益2022-4-1328第四步:決策樹(shù)2022-4-1329案例2:銀行違約率2022-4-13302022-4-1331案例3 對(duì)電信客戶的流失率分析2022-4-1332數(shù)據(jù)倉(cāng)庫(kù)條件屬性類別屬性客戶是否流失案例4:在銀行中的應(yīng)用2022-4-1333案例5:個(gè)人信用評(píng)級(jí)2022-4-1334個(gè)人信用評(píng)級(jí)決策樹(shù)(五)其他算法35C4.5與C5.0算法Gini Index算法CART算法PRISM算法CHAID算法2022-4-131、C4.5與C5.0算
12、法36C5.0算法則是C4.5算法的修訂版 ,適用在處理大數(shù)據(jù)集,采用Boosting(提升)方式提高模型準(zhǔn)確率,又稱為Boosting Trees,在軟件上的計(jì)算速度比較快,占用的內(nèi)存資源較少。2022-4-13類別屬性的信息熵2、Gini Index算法37ID3 and PRISM適用于類別屬性的分類方法。Gini Index能數(shù)值型屬性的變量來(lái)做分類。著重解決當(dāng)訓(xùn)練集數(shù)據(jù)量巨大,無(wú)法全部放人內(nèi)存時(shí),如何高速準(zhǔn)確地生成更快的,更小的決策樹(shù)。2022-4-13集合T包含N個(gè)類別的記錄,那么其Gini指標(biāo)就是如果集合T分成兩部分N1 和 N2。則此分割的Gini就是提供最小Gini split就被選擇作為分割的標(biāo)準(zhǔn)(對(duì)于每個(gè)屬性都要經(jīng)過(guò)所有可以的分割方法)。Gini Index算法382( ) 11jNgini Tpjpjj 為類別出現(xiàn)的頻率)()()(2211TginiNNTginiNNTginisplit2022-4-13案例:在汽車銷售中的應(yīng)用2022-4-13392022-4-13402022-4-1341NNYYYNYYYNNN3、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 做人與做事(人與自我 )-2024年高考英語(yǔ)話題寫作攻略(解析)
- 醫(yī)療器械零售品牌建設(shè)考核試卷
- 農(nóng)業(yè)保險(xiǎn)產(chǎn)品設(shè)計(jì)與化肥產(chǎn)業(yè)風(fēng)險(xiǎn)管理效率評(píng)估考核試卷
- 志愿者服務(wù)與管理體系的可持續(xù)發(fā)展路徑考核試卷
- 小升初熱點(diǎn)命題:長(zhǎng)方體和正方體(含答案)-蘇教版六年級(jí)數(shù)學(xué)下冊(cè)
- 數(shù)字化技能培訓(xùn)平臺(tái)建設(shè)考核試卷
- 園藝植物遺傳育種??荚囶}與參考答案解析
- 工程施工質(zhì)量誤差限度規(guī)定
- 部編版三年級(jí)語(yǔ)文上冊(cè)第六單元綜合達(dá)標(biāo)測(cè)試(A卷)單元試卷(含答案)
- 人工智能在智慧消防中的應(yīng)用
- 《SMT基礎(chǔ)培訓(xùn)資料》課件
- 學(xué)校維修維護(hù)合同模板
- 設(shè)備安裝應(yīng)急應(yīng)對(duì)預(yù)案
- 民事訴訟委托書(shū)
- 高考物理一輪復(fù)習(xí)考點(diǎn)精講精練第21講 磁場(chǎng)的描述 磁場(chǎng)對(duì)電流的作用(原卷版)
- 《國(guó)家電網(wǎng)有限公司電力建設(shè)安全工作規(guī)程第4部分:分布式光伏》知識(shí)培訓(xùn)
- 生豬屠宰及肉制品深加工項(xiàng)目可行性研究報(bào)告
- 2024-2025學(xué)年江蘇省南京二十九中學(xué)數(shù)學(xué)九年級(jí)第一學(xué)期開(kāi)學(xué)監(jiān)測(cè)試題【含答案】
- 2024年個(gè)人公司代持股協(xié)議書(shū)
- 2024年廣西氣象行業(yè)職業(yè)技能競(jìng)賽(綜合業(yè)務(wù)理論)試題庫(kù)(含答案)
- 初中一年級(jí)思維邏輯訓(xùn)練數(shù)學(xué)題300道附答案
評(píng)論
0/150
提交評(píng)論