




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
隨機(jī)森林目標(biāo)為什么要學(xué)隨機(jī)森林什么是隨機(jī)森林隨機(jī)森林的構(gòu)建隨機(jī)森林的優(yōu)勢(shì)和不足為什么要學(xué)隨機(jī)森林決策樹(shù)往往容易出現(xiàn)過(guò)擬合的問(wèn)題,我們可以讓很多樹(shù)組成團(tuán)隊(duì)來(lái)工作,也就是——隨機(jī)森林。什么是隨機(jī)森林隨機(jī)森林有的時(shí)候也被稱為是隨機(jī)決策森林,是一種集合學(xué)習(xí)方法,既可以用于分類,也可以用于回歸。而所謂集合學(xué)習(xí)算法,其實(shí)就是把多個(gè)機(jī)器學(xué)習(xí)算法綜合在一起,制造出一個(gè)更加大模型的意思。什么是隨機(jī)森林決策樹(shù)算法很容易出現(xiàn)過(guò)擬合的現(xiàn)象。那么為什么隨機(jī)森林可以解決這個(gè)問(wèn)題呢?因?yàn)殡S機(jī)森林是把不同的幾棵決策樹(shù)打包到一起,每棵樹(shù)的參數(shù)都不相同,然后我們把每棵樹(shù)預(yù)測(cè)的結(jié)果取平均值,這樣即可以保留決策樹(shù)們的工作成效,又可以降低過(guò)擬合的風(fēng)險(xiǎn)。隨機(jī)森林的構(gòu)建隨機(jī)森林的構(gòu)建bootstrap參數(shù)代表的是bootstrapsample,也就是“有放回抽樣”的意思,指每次從樣本空間中可以重復(fù)抽取同一個(gè)樣本(因?yàn)闃颖驹诘谝淮伪怀槿≈笥直环呕厝チ耍┘僭O(shè),原始樣本是「'蘋果','西瓜','香蕉','桃子'],那么經(jīng)過(guò)bootstrapsample重構(gòu)的樣本就可能是「西瓜','西瓜','香蕉','桃子'],還有可能是['蘋果','西瓜','桃子','桃子'],bootstrapsample生成的數(shù)據(jù)集和原始數(shù)據(jù)集在數(shù)據(jù)量上是完全一樣的,但由于進(jìn)行了重復(fù)采樣,因此其中有一些數(shù)據(jù)點(diǎn)會(huì)丟失。為什么要生成bootstrapsample數(shù)據(jù)集?這是因?yàn)橥ㄟ^(guò)重新生成數(shù)據(jù)集,可以讓隨機(jī)森林中的每一棵決策樹(shù)在構(gòu)建的時(shí)候,會(huì)彼此之間有些差異。再加上每棵樹(shù)的節(jié)點(diǎn)都會(huì)去選擇不同的樣本特征,經(jīng)過(guò)這兩步動(dòng)作之后,可以完全肯定隨機(jī)森林中的每棵樹(shù)都不一樣。隨機(jī)森林的構(gòu)建模型會(huì)基于新數(shù)據(jù)集建立一棵決策樹(shù),在隨機(jī)森林當(dāng)中,算法不會(huì)讓每棵決策樹(shù)都生成最佳的節(jié)點(diǎn),而是會(huì)在每個(gè)節(jié)點(diǎn)上隨機(jī)地選擇一些樣本特征,然后讓其中之一有最好的擬合表現(xiàn)??梢杂胢ax_features這個(gè)參數(shù)來(lái)控制所選擇的特征數(shù)量最大值的,在不進(jìn)行指定的情況下,隨機(jī)森林默認(rèn)自動(dòng)選擇最大特征數(shù)量。假如把max_features設(shè)置為樣本全部的特征數(shù)n_features就意味著模型會(huì)在全部特征中進(jìn)行篩選,這樣在特征選擇這一步,就沒(méi)有隨機(jī)性可言了。而如果把max_features的值設(shè)為1,就意味著模型在數(shù)據(jù)特征上完全沒(méi)有選擇的余地,只能去尋找這1個(gè)被隨機(jī)選出來(lái)的特征向量的閾值了。max_features的取值越高,隨機(jī)森林里的每一棵決策樹(shù)就會(huì)“長(zhǎng)得更像”,它們因?yàn)橛懈嗟牟煌卣骺梢赃x擇,也就會(huì)更容易擬合數(shù)據(jù);反之,如果max_features取值越低,就會(huì)迫使每棵決策樹(shù)的樣子更加不同,而且因?yàn)樘卣魈?,決策樹(shù)們不得不制造更多節(jié)點(diǎn)來(lái)擬合數(shù)據(jù)。隨機(jī)森林的構(gòu)建n_estimators這個(gè)參數(shù)控制的是隨機(jī)森林中決策樹(shù)的數(shù)量。在隨機(jī)森林構(gòu)建完成之后,每棵決策樹(shù)都會(huì)單獨(dú)進(jìn)行預(yù)測(cè)。如果是用來(lái)進(jìn)行回歸分析的話,隨機(jī)森林會(huì)把所有決策樹(shù)預(yù)測(cè)的值取平均數(shù);如果是用來(lái)進(jìn)行分類的話,在森林內(nèi)部會(huì)進(jìn)行“投票”,每棵樹(shù)預(yù)測(cè)出數(shù)據(jù)類別的概率,比如其中一棵樹(shù)說(shuō),“這瓶酒80%屬于class_l”,另外一棵樹(shù)說(shuō)"這瓶酒60%屬于class_2”,隨機(jī)森林會(huì)把這些概率取平均值,然后把樣本放入概率最高的分類當(dāng)中。隨機(jī)森林的構(gòu)建因?yàn)殡S機(jī)森林生成每棵決策樹(shù)的方法是隨機(jī)的,那么不同的random_state參數(shù)會(huì)導(dǎo)致模型完全不同,所以如果不希望建模的結(jié)果太過(guò)于不穩(wěn)定,一定要固化random_state這個(gè)參數(shù)的數(shù)值。隨機(jī)森林的構(gòu)建對(duì)于超大數(shù)據(jù)集來(lái)說(shuō),隨機(jī)森林會(huì)比較耗時(shí),不過(guò)我們可以用多進(jìn)程并行處理的方式來(lái)解決這個(gè)問(wèn)題。實(shí)現(xiàn)方式是調(diào)節(jié)隨機(jī)森林的njobs參數(shù),記得把njobs參數(shù)數(shù)值設(shè)為和CPU內(nèi)核數(shù)一致,比如你的CPU內(nèi)核數(shù)是2,那么njobs參數(shù)設(shè)為3或者更大是沒(méi)有意義的。當(dāng)然如果你搞不清楚自己的CPU到底就多少內(nèi)核,可以設(shè)置njobs=-1,這樣隨機(jī)森林會(huì)使用CPU的全部?jī)?nèi)核,速度就會(huì)極大提升了。隨機(jī)森林的構(gòu)建隨機(jī)森林的構(gòu)建可以發(fā)現(xiàn)隨機(jī)森林所進(jìn)行的分類要更加細(xì)膩一些,對(duì)訓(xùn)練數(shù)據(jù)集的擬合更好。同學(xué)們可以自己試試調(diào)節(jié)n_estimator參數(shù)和random_state參數(shù),看看分類器的表現(xiàn)會(huì)有怎樣的變化。隨機(jī)森林的優(yōu)勢(shì)和不足在機(jī)器學(xué)習(xí)領(lǐng)域,無(wú)論是分類還是回歸,隨機(jī)森林都是應(yīng)用最廣泛的算法之一優(yōu)勢(shì)1.不需要過(guò)于在意參數(shù)的調(diào)節(jié)2.不要求對(duì)數(shù)據(jù)進(jìn)行預(yù)處理3.集成了決策樹(shù)的所有優(yōu)點(diǎn),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 煉鐵固體廢棄物資源化利用技術(shù)考核試卷
- 設(shè)施布局優(yōu)化研究考核試卷
- 內(nèi)河航道維護(hù)對(duì)貨物運(yùn)輸企業(yè)戰(zhàn)略規(guī)劃的影響評(píng)估考核試卷
- 期末模擬測(cè)試卷(含解析)-2024-2025學(xué)年人教版五年級(jí)數(shù)學(xué)下冊(cè)
- 家用紡織品價(jià)格波動(dòng)與消費(fèi)者收入水平關(guān)系探討考核試卷
- 保健食品原料市場(chǎng)消費(fèi)者忠誠(chéng)度與品牌忠誠(chéng)度分析考核試卷
- 內(nèi)科護(hù)理學(xué)??荚囶}(含答案解析)
- 遼寧省沈陽(yáng)市沈北新區(qū)2023-2024學(xué)年八年級(jí)下學(xué)期期中考試英語(yǔ)試題(解析版)
- 2020年成人高考高起專語(yǔ)文文學(xué)常識(shí)綜合應(yīng)用
- 2025至2030年中國(guó)業(yè)務(wù)流程管理(BPM)行業(yè)發(fā)展監(jiān)測(cè)及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 高血壓分級(jí)管理策略
- 2025年人教版小學(xué)四年級(jí)下冊(cè)數(shù)學(xué)期末提升測(cè)試試題(含答案和解析)
- 勁性復(fù)合樁技術(shù)規(guī)程知識(shí)培訓(xùn)
- DB43-T 2448-2022 公路邊坡地質(zhì)災(zāi)害智能監(jiān)測(cè)技術(shù)規(guī)程
- 《中華人民共和國(guó)民營(yíng)經(jīng)濟(jì)促進(jìn)法》培訓(xùn)解讀課件
- T/CHES 59-2021組合式金屬防洪擋板安裝、驗(yàn)收及維護(hù)規(guī)范
- 學(xué)生自主學(xué)習(xí)能力培養(yǎng)的關(guān)鍵路徑研究
- 基于AI的智能語(yǔ)音助手創(chuàng)業(yè)計(jì)劃書(shū)模板
- 《醫(yī)療英語(yǔ)口語(yǔ)》課件
- 糖尿病培訓(xùn)內(nèi)容
- 2025年水利工程師職稱考試試題及答案
評(píng)論
0/150
提交評(píng)論