




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第6章組合分類器主要內(nèi)容6.1組合分類器的設(shè)計6.2Bagging算法6.3隨機森林6.4Boosting算法6.5組合分類的實例輸入樣本個體分類器1個體分類器2
個體分類器M組合分類輸出結(jié)果6.1組合分類器的設(shè)計(1)基本概念組合分類器:構(gòu)建一組單獨的分類器(個體),整合各個體分類器決策結(jié)果,以獲得更好的性能。組合分類器示意圖6.1組合分類器的設(shè)計個體分類器為同一種稱為同質(zhì),反之稱為異質(zhì)要求:多樣性,不同個體分類器間的分類結(jié)果具有差異性準(zhǔn)確性,個體分類器具有較好的分類性能設(shè)計要點:個體分類器的差異設(shè)計分類器性能度量組合策略(1)基本概念(2)個體分類器的差異設(shè)計6.1組合分類器的設(shè)計數(shù)據(jù)樣本擾動留出法獲取不同的訓(xùn)練樣本集,設(shè)計多個個體分類器將數(shù)據(jù)集X
劃分為兩個互斥子集,分別作為訓(xùn)練集和測試集,多次隨機劃分,用不同的訓(xùn)練集訓(xùn)練個體分類器。6.1組合分類器的設(shè)計交叉驗證法
自舉法可重復(fù)采樣在數(shù)據(jù)集較小、難以有效劃分時很有用,但是新的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,會引入估計偏差6.1組合分類器的設(shè)計樣本屬性擾動隨機選擇訓(xùn)練樣本部分維的數(shù)據(jù),構(gòu)成若干屬性子集,基于每個屬性子集訓(xùn)練個體分類器。屬性個數(shù)減少而降低計算量,節(jié)省時間開銷。由于屬性間的冗余性,減少一些屬性后依然能保證分類器的性能。如果數(shù)據(jù)本身屬性較少,或者冗余性低,則不適合采用這種方法。特點6.1組合分類器的設(shè)計參數(shù)擾動通過隨機設(shè)置分類器的參數(shù),產(chǎn)生差異性較大的個體分類器。(3)分類器性能度量6.1組合分類器的設(shè)計真實狀態(tài)決策結(jié)果正例負(fù)例正例真正例(TP)假負(fù)例(FN)負(fù)例假正例(FP)真負(fù)例(TN)二分類時狀態(tài)與決策的可能關(guān)系正確率:錯誤率:6.1組合分類器的設(shè)計查準(zhǔn)率、查全率及相關(guān)性能度量查準(zhǔn)率:查全率:真實狀態(tài)決策結(jié)果正例負(fù)例正例真正例(TP)假負(fù)例(FN)負(fù)例假正例(FP)真負(fù)例(TN)查準(zhǔn)率(Precision)和查全率(Recall)相互矛盾,不能同時得到最優(yōu)值,往往查全率越高,查準(zhǔn)率越低;查全越低,查準(zhǔn)率越高。PR曲線和RP圖:取不同閾值,得多組R、P值,以R作橫軸,以P為縱軸,作圖,越靠右上方,性能越好AP:RP曲線下的面積6.1組合分類器的設(shè)計F1度量:
0和1之間,越大性能越好
ROC曲線及相關(guān)性能度量6.1組合分類器的設(shè)計真正例率假正例率真實狀態(tài)決策結(jié)果正例負(fù)例正例真正例(TP)假負(fù)例(FN)負(fù)例假正例(FP)真負(fù)例(TN)ROC(ReceiverOperatingCharacteristic)曲線:取不同閾值,得多組TPR、FPR值,以FPR作橫軸,以TPR為縱軸,作圖,越靠左上方,性能越好AUC:ROC曲線下的相對面積其他性能度量6.1組合分類器的設(shè)計決策錯誤帶來的損失,稱為代價矩陣。計算復(fù)雜度,一般通過比較分類器在執(zhí)行過程中耗費的CPU總數(shù)來實現(xiàn)。分類器的魯棒性:能否處理含有噪聲的或不完整的數(shù)據(jù)。使用不同的性能度量評價不同的方面,但不能簡單地定義分類器的好壞,需要根據(jù)具體的任務(wù)需求、數(shù)據(jù)分布特點等,選擇合適的分類器。(4)組合策略6.1組合分類器的設(shè)計采用一定的方式將不同分類器的輸出組合,常用的有平均規(guī)則、投票規(guī)則、加權(quán)處理等方法。平均規(guī)則或者
6.1組合分類器的設(shè)計投票規(guī)則絕對多數(shù)投票法:
6.1組合分類器的設(shè)計投票規(guī)則相對多數(shù)投票法:加權(quán)投票法:6.1組合分類器的設(shè)計基于貝葉斯決策思路的組合策略樣本x在分類器的輸入:不同類型的分類器輸出的類概率值不能直接進(jìn)行比較,可以轉(zhuǎn)化為類標(biāo)記輸出進(jìn)行投票6.2Bagging算法BootstrapAggregating,多次采樣同一數(shù)據(jù)集得到多組數(shù)據(jù),分別進(jìn)行訓(xùn)練得到若干弱分類器,再通過對弱分類器結(jié)果投票得到強分類器特點:并行(1)基本概念例6-5:有12個血壓數(shù)據(jù),如表所示,用三個最小距離分類器設(shè)計Bagging組合分類器。
6.2Bagging算法序號123456血壓(100,70)(119,80)(99,78)(105,75)(125,82)(123,85)是否高血壓否否否否否否序號789101112血壓(145,76)(123,92)(115,98)(150,80)(138,100)(144,97)是否高血壓是是是是是是(2)例題設(shè)計一設(shè)計最小距離分類器一
決策抽樣6.2Bagging算法隨機自舉采樣,兩類各自抽取4個樣本,序號為6、6、5、2、10、7、9、8
設(shè)計二設(shè)計最小距離分類器二決策抽樣隨機自舉采樣,兩類各自抽取4個樣本,序號為1、2、3、1、10、9、11、116.2Bagging算法
設(shè)計三設(shè)計最小距離分類器三決策抽樣隨機自舉采樣,兩類各自抽取4個樣本,序號為4、6、4、6、8、11、8、116.2Bagging算法投票表決序號123456789101112-1-1-1-1-1-11-1-1111-1-1-1-111111111-1-1-1-1-1-1111111投票結(jié)果-1-1-1-1-1-11111116.2Bagging算法程序clc,clear,closeall;X1=[10070;11980;9978;10575;12582;12385];X2=[13576;12390;11598;13480;138100;14497];[N,n]=size(X1);result=zeros(2*N,1);M=3;form=1:Mmout=mdc(X1,X2,N);result=result+mout;endresult(result<0)=-1;result(result>0)=1;6.2Bagging算法functionout=mdc(in1,in2,N)
%最小距離分類器sampling1=randi(N,1,floor(N/2)+1);sampling2=randi(N,1,floor(N/2)+1);X1=in1(sampling1,:);
X2=in2(sampling2,:);m1=mean(X1);
m2=mean(X2);out1=ones(N,1);
out2=ones(N,1);
out1(pdist2(in1(1:N,:),m1)<pdist2(in1(1:N,:),m2))=-1;out2(pdist2(in2(1:N,:),m1)<pdist2(in2(1:N,:),m2))=-1;out=[out1;out2];end6.2Bagging算法6.3隨機森林訓(xùn)練中的數(shù)據(jù)集只是所有可能的數(shù)據(jù)中的一次隨機抽樣,訓(xùn)練得到的分類器也具有一定的偶然性,是基于數(shù)據(jù)的模式識別方法都面臨的一個共同問題決策樹方法中構(gòu)建決策樹的過程是根據(jù)每個節(jié)點下局部的劃分準(zhǔn)則進(jìn)行的,受樣本隨機性的影響可能更明顯一些,容易導(dǎo)致過學(xué)習(xí)隨機森林(RandomForest,RF):建立很多決策樹,組成一個決策樹的“森林”,通過多棵樹投票來進(jìn)行決策,能有效地提高對新樣本的分類準(zhǔn)確度RF除了樣本擾動,還增加了屬性擾動(1)基本概念6.3隨機森林
增加樣本和屬性擾動,生成多棵決策樹,對樣本進(jìn)行決策并投票。MATLAB中TreeBagger類使用TreeBagger函數(shù)創(chuàng)建,實現(xiàn)隨機森林算法。(2)例題設(shè)計思路6.3隨機森林程序clc,clear,closeall;loadfisheririsrng(1);Mdl=TreeBagger(30,meas,species)
view(Mdl.Trees{1},'Mode','graph')view(Mdl.Trees{2},'Mode','graph')view(Mdl.Trees{3},'Mode','graph')pattern=[5.7,2.6,3.5,1];label1=predict(Mdl,pattern,'Trees',2);label2=predict(Mdl,pattern,'Trees',[1,2,3]);label=predict(Mdl,pattern);6.3隨機森林仿真結(jié)果lable1、label2、label均為1×1的元胞數(shù)組,取值均為'versicolor'(1)AdaBoost算法融合多個分類器進(jìn)行決策的方法;不是簡單地對多個分類器的輸出進(jìn)行投票決策,而是通過一個迭代過程對分類器的輸入和輸出進(jìn)行加權(quán)處理。
基本思路6.4Boosting算法
初始化
分類器目標(biāo)函數(shù)中各樣本對應(yīng)的項進(jìn)行加權(quán),具體問題具體分析6.4Boosting算法算法步驟6.4Boosting算法
例題6.4Boosting算法例6-7:有12個血壓數(shù)據(jù),如表所示,采用AdaBoost算法設(shè)計組合分類器。序號123456血壓(100,70)(119,80)(99,78)(105,75)(125,82)(123,85)是否高血壓否否否否否否序號789101112血壓(145,76)(123,92)(115,98)(150,80)(138,100)(144,97)是否高血壓是是是是是是采用最小距離分類器初始化進(jìn)行分類設(shè)計最小距離分類器一
決策
錯誤率正確率:91.67%6.4Boosting算法
修改權(quán)系數(shù)
設(shè)計最小距離分類器二
決策
錯誤率6.4Boosting算法
修改權(quán)系數(shù)
設(shè)計最小距離分類器三
決策
錯誤率6.4Boosting算法
修改權(quán)系數(shù)
組合分類器
決策正確率:100%
6.4Boosting算法程序clc,clear,closeall;X=[10070;11980;9978;10575;12582;12385;...
14576;12392;11598;15080;138100;14497];[N,n]=size(X);y=ones(N,1);y(1:N/2)=-1;figure,gscatter(X(:,1),X(:,2),y,'rg','x*',8)xlabel('收縮壓');ylabel('舒張壓');holdonbeta=ones(N,1)/N;M=3;alpha=zeros(1,M);g=zeros(N,M);[~,~,result1]=mdc(X,y,beta,N);plot(X(result1~=y,1),X(result1~=y,2),'bo','MarkerSize',10);6.4Boosting算法準(zhǔn)備工作form=1:M[beta,alpha(m),g(:,m)]=mdc(X,y,beta,N);ifalpha(m)==0break;endendresult2=alpha.*g;result2=sum(result2,2);result2=sign(result2);plot(X(result2~=y,1),X(result2~=y,2),'m>','MarkerSize',14);legend('第一類','第二類','弱分類錯分樣本',
'組合分類錯分樣本','Location','NW');holdoffratio1=sum(result1==y)/N;ratio2=sum(result2==y)/N;6.4Boosting算法設(shè)計組合分類器function[xcoef,alpha,g]=mdc(in,y,xcoef,N)temp=in.*xcoef;m1=sum(temp(y<0,:))/sum(xcoef(y<0));m2=sum(temp(y>0,:))/sum(xcoef(y>0));g=ones(N,1);dist1=pdist2(in,m1);dist2=pdist2(in,m2);g(dist1<dist2)=-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中藥材改良品種的育種風(fēng)險評估與管理體系構(gòu)建考核試卷
- 體育場館夜間光影秀考核試卷
- 資金管理中的金融衍生品應(yīng)用與風(fēng)險管理考核試卷
- 團(tuán)隊風(fēng)險管理能力提升策略考核試卷
- 房地產(chǎn)交易合同爭議解決機制風(fēng)險考核試卷
- 綠色制造技術(shù)在保健護(hù)理電器具生產(chǎn)中的應(yīng)用考核試卷
- 信貸政策與環(huán)境保護(hù)政策協(xié)同機制考核試卷
- 遼陽市某中學(xué)2024-2025學(xué)年七年級下學(xué)期期中考試數(shù)學(xué)試卷(含解析)
- 期末綜合試題-2024-2025學(xué)年人教版七年級數(shù)學(xué)下冊
- 2025至2030年中國鉻合金行業(yè)發(fā)展前景預(yù)測及投資戰(zhàn)略規(guī)劃研究報告
- 高三一輪復(fù)習(xí)+專題5+離子共存
- 智鼎在線測評題高潛人才
- 高中歷史說課課件
- 光伏電氣設(shè)備試驗方案
- 專題13 非連續(xù)性文本閱讀(解析版)
- 武漢××巖土工程勘察詳細(xì)報告
- 2024年長沙市雨花區(qū)金海中學(xué)小升初數(shù)學(xué)試卷附參考答案
- 春蘭基因組學(xué)與分子標(biāo)記研究
- 移出經(jīng)營異常名錄申請表
- 2024年黑龍江伊春森工集團(tuán)有限責(zé)任公司招聘筆試參考題庫含答案解析
- 極軌衛(wèi)星遙感監(jiān)測第4部分森林火災(zāi)
評論
0/150
提交評論