機(jī)器學(xué)習(xí)(十)機(jī)器學(xué)習(xí)模型的評(píng)價(jià)_第1頁(yè)
機(jī)器學(xué)習(xí)(十)機(jī)器學(xué)習(xí)模型的評(píng)價(jià)_第2頁(yè)
機(jī)器學(xué)習(xí)(十)機(jī)器學(xué)習(xí)模型的評(píng)價(jià)_第3頁(yè)
機(jī)器學(xué)習(xí)(十)機(jī)器學(xué)習(xí)模型的評(píng)價(jià)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、模型不理想機(jī)時(shí),器怎學(xué)么調(diào)習(xí)整(模十型?)是機(jī)要更器多學(xué)樣習(xí)本?模是型要更的多評(píng)或者價(jià)少的附加其他特征或者多項(xiàng)式特征?正規(guī)化的 倉(cāng)數(shù)應(yīng)該更大或者更???怎么評(píng)價(jià)模型是否理想?欠擬合或者過(guò)擬合?將數(shù)據(jù)分為訓(xùn)練集70% 、測(cè)試集30% 。通過(guò)訓(xùn)練集得到可能的 E矩陣,然后根據(jù)測(cè)試集的結(jié)果選擇誤差最小的 那種模型。因?yàn)楦鶕?jù)測(cè)試集的結(jié)果選擇誤差最小是挑選過(guò)的,所以測(cè)試集的效果評(píng)價(jià)相對(duì)未知的測(cè)試數(shù)據(jù)來(lái)說(shuō)可能是過(guò)于樂(lè)觀(guān)的估計(jì)。故通常將數(shù)據(jù)集分 成三類(lèi):訓(xùn)練集 Train 60%驗(yàn)證集 CV cross validation 20%測(cè)試集 Test 20%通過(guò)訓(xùn)練集得到可能的E矩陣,然后根據(jù)驗(yàn)證集測(cè)試的結(jié)果選

2、擇所有模 型中誤差最小的那種模型。最后再根據(jù)測(cè)試集的結(jié)果說(shuō)明當(dāng)前模型的效 果。評(píng)價(jià)欠擬合:代價(jià)函數(shù)都很大 稱(chēng)為偏差 bias 大 評(píng)價(jià)過(guò)擬合:訓(xùn)練集的代價(jià)函數(shù)很小,而驗(yàn)證集、測(cè)試集的代價(jià)函數(shù)非 常大 稱(chēng)為方差 variance 大 1、正規(guī)化的 倉(cāng)數(shù)與偏差和方差的關(guān)系A(chǔ) 誼入注:?非常大時(shí),參數(shù)影響力變小,則肯定是欠擬合2、屬性參數(shù)數(shù)目多少或者屬性參數(shù)多項(xiàng)式的最高指數(shù)項(xiàng)的高低與偏差 和方差的關(guān)系degree of polynomial d屬性參數(shù)多或者多項(xiàng)式最高指數(shù)項(xiàng)的指數(shù)很高時(shí),對(duì)于訓(xùn)練樣本,比較 容易滿(mǎn)足;但是對(duì)于檢驗(yàn)樣本,因?yàn)橹皼](méi)有匹配,所以可能非常大的 誤差(過(guò)擬合)。相反,如果參數(shù)

3、項(xiàng)少或者參數(shù)的多項(xiàng)式最高指數(shù)項(xiàng)比 較低,則容易導(dǎo)致對(duì)于訓(xùn)練樣本都無(wú)法滿(mǎn)足,則對(duì)于檢測(cè)樣本也一樣(欠擬合)。3、樣本數(shù)與偏差和方差的關(guān)系在其他條件不變的情況下,樣本數(shù)增多時(shí),訓(xùn)練樣本的錯(cuò)誤都會(huì)增加比 較多,再增多時(shí),可能達(dá)到飽和,誤差的平均值沒(méi)有太大變化;而樣本 比較少時(shí),雖然訓(xùn)練樣本的錯(cuò)誤會(huì)比較低,但是因?yàn)榍窋M合,檢驗(yàn)樣本 的錯(cuò)誤均值反而比較高。High biasA如果有高偏差,則增加樣本數(shù)沒(méi)有什么作用,因?yàn)楦咂钜馕吨窋M 合,現(xiàn)有的樣本也沒(méi)用到。High variancetn (training set size)如果有高方差,意味著過(guò)擬合,增加樣本,則比較能優(yōu)化、趨同。所以 增加樣本是一種減小高方差的方法。4、 Jtrain曲線(xiàn)和Jcv曲線(xiàn)通常不會(huì)重合,因?yàn)樯窠?jīng)模型是根據(jù)Jtrain取 的,所以相對(duì)之前未知的cv檢驗(yàn)樣本,擬合得更合適。所以以誤差表示 縱軸時(shí),Jcv通常在Jtrain的上方。但是由于取樣本點(diǎn)的隨機(jī)性,可能導(dǎo) 致Jcv與Jtrain有交叉,即Jcv小于Jtrain的情況。5、神經(jīng)網(wǎng)絡(luò)方面,使用更多的隱藏層和結(jié)點(diǎn)數(shù),通常傾向于過(guò)擬合 (高方差),反之,如果更少的隱藏層和結(jié)點(diǎn)數(shù),通常傾向于欠擬合 (高偏差)。與屬性參數(shù)多少導(dǎo)致學(xué)習(xí)曲線(xiàn)的變化基本是一致的。綜上

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論