《金融大數(shù)據(jù)分析》-課件 第6章 模型驗(yàn)證_第1頁(yè)
《金融大數(shù)據(jù)分析》-課件 第6章 模型驗(yàn)證_第2頁(yè)
《金融大數(shù)據(jù)分析》-課件 第6章 模型驗(yàn)證_第3頁(yè)
《金融大數(shù)據(jù)分析》-課件 第6章 模型驗(yàn)證_第4頁(yè)
《金融大數(shù)據(jù)分析》-課件 第6章 模型驗(yàn)證_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章模型驗(yàn)證學(xué)習(xí)目標(biāo)掌握三種模型驗(yàn)證的方法及其實(shí)現(xiàn)理解過(guò)擬合與欠擬合的問(wèn)題及其原因了解模型表現(xiàn)的幾種指標(biāo)及其計(jì)算方法模型驗(yàn)證方法

模型驗(yàn)證方法

模型驗(yàn)證方法留一法的優(yōu)點(diǎn)用到了幾乎所有的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,理論上可以取得更好的訓(xùn)練效果不需要決定哪些數(shù)據(jù)作為訓(xùn)練集和驗(yàn)證集,減小了結(jié)果的隨機(jī)性留一法的缺點(diǎn)因?yàn)樾枰獙?duì)模型進(jìn)行多次估計(jì)導(dǎo)致計(jì)算量跟著數(shù)據(jù)量成倍增加當(dāng)數(shù)據(jù)量是100時(shí),我們需要進(jìn)行100次模型訓(xùn)練。當(dāng)我們對(duì)大數(shù)據(jù)用復(fù)雜的模型進(jìn)行訓(xùn)練時(shí),這個(gè)過(guò)程可能會(huì)需要巨大的計(jì)算量模型驗(yàn)證方法k折交叉驗(yàn)證的具體步驟將訓(xùn)練集分為??個(gè)子集(每個(gè)子集中有??/??個(gè)樣本)重復(fù)以下步驟??次每次取一個(gè)不同的子集作為驗(yàn)證集驗(yàn)證集之外的???1個(gè)子集上進(jìn)行訓(xùn)練在驗(yàn)證集上算出算出??個(gè)的平均值??的常用取值為10,5或3減小了留一法的計(jì)算量模型驗(yàn)證與數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理特征縮放:將特征轉(zhuǎn)換為平均值為0,標(biāo)準(zhǔn)差為1的變量缺失值填補(bǔ):用訓(xùn)練數(shù)據(jù)的平均值或中位數(shù)填補(bǔ)缺失數(shù)據(jù)驗(yàn)證集數(shù)據(jù)處理使用訓(xùn)練數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差對(duì)驗(yàn)證集的數(shù)據(jù)進(jìn)行縮放用訓(xùn)練數(shù)據(jù)的特征平均值或中位數(shù)填補(bǔ)驗(yàn)證數(shù)據(jù)的缺失值模型驗(yàn)證與數(shù)據(jù)預(yù)處理為什么我們需要進(jìn)行這些操作呢?假設(shè)我們的訓(xùn)練數(shù)據(jù)集中含有所有2010年以及之前的數(shù)據(jù)可以幫助我們來(lái)訓(xùn)練模型我們的目標(biāo)是用訓(xùn)練好的模型來(lái)預(yù)測(cè)2010年之后的每股收益(即2011年及之后的數(shù)據(jù)為驗(yàn)證數(shù)據(jù)集)當(dāng)我們身處2011年對(duì)2012年的每股收益進(jìn)行預(yù)測(cè)時(shí),理論上我們并不擁有2012至2020年間的任何數(shù)據(jù)因此,我們無(wú)法準(zhǔn)確計(jì)算驗(yàn)證數(shù)據(jù)集的標(biāo)準(zhǔn)差或平均值如果我們使用驗(yàn)證集的標(biāo)準(zhǔn)差/平均值來(lái)進(jìn)行特征縮放或填補(bǔ)缺失數(shù)據(jù),那么很容易造成模型驗(yàn)證的結(jié)果夸大模型預(yù)測(cè)的表現(xiàn)過(guò)擬合及欠擬合問(wèn)題

過(guò)擬合及欠擬合問(wèn)題過(guò)擬合及欠擬合問(wèn)題過(guò)擬合問(wèn)題對(duì)于有限的訓(xùn)練數(shù)據(jù),通過(guò)增加特征數(shù)量來(lái)提高訓(xùn)練集的擬合程度判斷方法:模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在驗(yàn)證集上表現(xiàn)不佳過(guò)擬合的主要原因訓(xùn)練數(shù)據(jù)中既含有大量信息,也有一些噪聲如果我們的模型有大量的特征,并在較小的訓(xùn)練集上進(jìn)行訓(xùn)練,那么在訓(xùn)練過(guò)程中,模型參數(shù)不但擬合數(shù)據(jù)中的的信息,也會(huì)擬合訓(xùn)練集中的噪聲因?yàn)樵肼曧?xiàng)是隨機(jī)變量,因此訓(xùn)練數(shù)據(jù)中的噪聲與驗(yàn)證數(shù)據(jù)中的噪聲會(huì)很不一樣。所以可以擬合訓(xùn)練集噪聲的模型并無(wú)法擬合訓(xùn)練集之外的數(shù)據(jù)。解決方法:增加訓(xùn)練數(shù)據(jù)量、減少模型復(fù)雜度、使用正則化過(guò)擬合及欠擬合問(wèn)題欠擬合問(wèn)題使用簡(jiǎn)單模型對(duì)數(shù)據(jù)進(jìn)行擬合時(shí),訓(xùn)練集和驗(yàn)證集數(shù)據(jù)的擬合程度都很低欠擬合模型的偏差較大,表現(xiàn)較差判斷方法訓(xùn)練集與驗(yàn)證集上的代價(jià)函數(shù)值非常接近解決方法增加模型復(fù)雜度、加入更多特征過(guò)擬合及欠擬合問(wèn)題過(guò)擬合及欠擬合問(wèn)題模型驗(yàn)證指標(biāo)

模型驗(yàn)證指標(biāo)混淆矩陣對(duì)于分類(lèi)問(wèn)題,我們可以直接檢驗(yàn)?zāi)P蛯?duì)于每個(gè)樣本的分類(lèi)進(jìn)行評(píng)判,然后再將所有樣本進(jìn)行綜合。混淆矩陣中不同的行表示實(shí)際分類(lèi)(正即為1,負(fù)為0)。不同列表示模型給出的分類(lèi)。在混淆矩陣中左上角以及右下角的兩個(gè)格表示模型給出正確分類(lèi)的樣本數(shù)量,而其他兩個(gè)格中給出的是模型給出錯(cuò)誤分類(lèi)的數(shù)量。預(yù)測(cè)為正預(yù)測(cè)為負(fù)實(shí)際為正真正例(TP)假負(fù)例(FN)實(shí)際為負(fù)假正例(FP)真負(fù)例(TN)模型驗(yàn)證指標(biāo)

模型驗(yàn)證指標(biāo)F1分?jǐn)?shù)是經(jīng)常使用的給模型總體評(píng)價(jià)的一種指標(biāo)在許多應(yīng)用場(chǎng)景中,精確度和召回率之間的平衡非常重要。F1分?jǐn)?shù)作為精確度和召回率的調(diào)和平均數(shù),能夠平衡這兩個(gè)因素。對(duì)于同時(shí)關(guān)注假正例和假負(fù)例的數(shù)量的場(chǎng)景,這一點(diǎn)尤為重要。在類(lèi)別不平衡的情況下,準(zhǔn)確率可能會(huì)誤導(dǎo)我們對(duì)模型表現(xiàn)的判斷。例如,對(duì)于一個(gè)有95%的負(fù)例的數(shù)據(jù)集,模型僅需對(duì)所有樣本都輸出負(fù)例可能會(huì)達(dá)到95%的準(zhǔn)確率。但在這種情況下,F(xiàn)1分?jǐn)?shù)將為模型提供更有用的性能度量。F1分?jǐn)?shù)結(jié)合了精確度和召回率,提供了一種容易理解的方式來(lái)評(píng)估模型的性能。接收者操作特性曲線(xiàn)(ROC)ROC曲線(xiàn)顯示二元分類(lèi)器在不同判別閾值下的能力通過(guò)繪制真正例率(TPR)與假正例率(FPR)創(chuàng)建曲線(xiàn)下面積(AUC)AUC解釋?zhuān)篈UC=0.5:模型無(wú)判別能力AUC>0.5:模型具有一定判別能力AUC=1.0:模型具有完美判別能力AUC的重要性閾值不變性不平衡類(lèi)別排序解釋接收者操作特性曲線(xiàn)(ROC)接收者操作特性曲線(xiàn)(ROC)曲線(xiàn)下面積的重要性閾值不變性與準(zhǔn)確率等其他指標(biāo)不同,曲線(xiàn)下面積不依賴(lài)于分類(lèi)的特定閾值。當(dāng)最佳閾值未知或可能改變時(shí),曲線(xiàn)下面積可能非常有參考價(jià)值。不平衡類(lèi)別在處理不平衡類(lèi)別的情況下,其中一個(gè)類(lèi)別明顯多于另一個(gè)類(lèi)別時(shí),曲線(xiàn)下面積可以給我們提供更為全面的信息。排序解釋曲線(xiàn)下面積也可以告訴我們真實(shí)的正樣本在模型中的排名是否比負(fù)樣本更高。模型驗(yàn)證代碼:驗(yàn)證集法導(dǎo)入庫(kù)使用pandas存儲(chǔ)數(shù)據(jù)導(dǎo)入sklearn庫(kù)的標(biāo)準(zhǔn)化模塊,用于對(duì)特征進(jìn)行縮放導(dǎo)入sklearn.linear_model中的線(xiàn)性回歸函數(shù),用于線(xiàn)性回歸分析導(dǎo)入sklearn庫(kù)metrics模塊中的mean_squared_error,用于計(jì)算模型的均方誤差模型驗(yàn)證代碼:驗(yàn)證集法數(shù)據(jù)讀取及處理讀取名為’ols_training.csv’的CSV文件中的數(shù)據(jù),并將其存儲(chǔ)在training_data變量中。該數(shù)據(jù)為訓(xùn)練數(shù)據(jù)集。讀取名為’ols_testing.csv’的CSV文件中的數(shù)據(jù),并將其存儲(chǔ)在testing_data變量中。該數(shù)據(jù)為驗(yàn)證數(shù)據(jù)集。顯示數(shù)據(jù)集的前五行,以了解其結(jié)構(gòu)模型驗(yàn)證代碼:驗(yàn)證集法數(shù)據(jù)結(jié)構(gòu)如下:模型驗(yàn)證代碼:驗(yàn)證集法刪除建立回歸模型不需要的數(shù)據(jù)分割數(shù)據(jù)集中的特征變量和目標(biāo)變量在X_train和X_test數(shù)據(jù)集中刪除目標(biāo)變量eps_basic提取X_train和X_test數(shù)據(jù)集中的目標(biāo)變量eps_basic,并分別保存在y_train和y_test中模型驗(yàn)證代碼:驗(yàn)證集法數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理創(chuàng)建一個(gè)StandardScaler對(duì)象,用于對(duì)特征變量進(jìn)行縮放處理。StandardScaler將特征進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化后特征的平均值為0,標(biāo)準(zhǔn)差為1。使用scaler的fit_transfrom方法計(jì)算數(shù)據(jù)集X_train的平均值和標(biāo)準(zhǔn)偏差并對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,之后將標(biāo)準(zhǔn)化后的結(jié)果儲(chǔ)存在X_train_scaled中。使用transform方法對(duì)X_test中的特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,在這一標(biāo)準(zhǔn)化過(guò)程中,我們使用的平均值/標(biāo)準(zhǔn)差來(lái)自于訓(xùn)練數(shù)據(jù)集。注意:我們不能使用驗(yàn)證數(shù)據(jù)的平均值/標(biāo)準(zhǔn)差來(lái)標(biāo)準(zhǔn)化訓(xùn)練數(shù)據(jù)。模型驗(yàn)證代碼:驗(yàn)證集法模型訓(xùn)練線(xiàn)性回歸分析使用predict方法對(duì)訓(xùn)練集的特征數(shù)據(jù)進(jìn)行預(yù)測(cè)計(jì)算均方誤差模型驗(yàn)證代碼:驗(yàn)證集法模型驗(yàn)證使用predict方法對(duì)訓(xùn)練集的特征數(shù)據(jù)進(jìn)行預(yù)測(cè)計(jì)算均方誤差分別打印訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的均方誤差模型驗(yàn)證代碼:k折交叉驗(yàn)證法導(dǎo)入庫(kù)使用pandas存儲(chǔ)數(shù)據(jù)導(dǎo)入sklearn庫(kù)impute模塊中的SimpleImputer,用于填充數(shù)據(jù)集中的缺失值導(dǎo)入sklearn庫(kù)的標(biāo)準(zhǔn)化模塊,用于對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理導(dǎo)入sklearn.linear_model中的邏輯回歸函數(shù),用于邏輯回歸分析導(dǎo)入sklearn庫(kù)model_selection模塊中的StratifiedKFold,用于進(jìn)行交叉驗(yàn)證導(dǎo)入sklearn庫(kù)metrics模塊中的roc_auc_score和roc_curve,分別用于計(jì)算ROC曲線(xiàn)下的面積(AUC)以及繪制ROC曲線(xiàn)模型驗(yàn)證代碼:k折交叉驗(yàn)證法數(shù)據(jù)讀取及處理讀取名為’test_sample_small.csv’的CSV文件中的數(shù)據(jù),并將其存儲(chǔ)在data變量中定義一個(gè)特征列表X,包含四個(gè)特征從data中選擇’isDefault’列的值,并將其存儲(chǔ)在y中模型驗(yàn)證代碼:k折交叉驗(yàn)證法模型訓(xùn)練與驗(yàn)證創(chuàng)建一個(gè)邏輯回歸模型對(duì)象創(chuàng)建一個(gè)分層K折交叉驗(yàn)證對(duì)象創(chuàng)建空列表,存儲(chǔ)訓(xùn)練集和交叉驗(yàn)證集的邏輯回歸損失模型驗(yàn)證代碼:k折交叉驗(yàn)證法創(chuàng)建ROC-AUC作為模型驗(yàn)證度量模型驗(yàn)證代碼:k折交叉驗(yàn)證法創(chuàng)建ROC-AUC作為模型驗(yàn)證度量模型驗(yàn)證代碼:k折交叉驗(yàn)證法創(chuàng)建ROC-AUC作為模型驗(yàn)證度量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論