




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章
數(shù)據(jù)預(yù)處理與特征工程方差閾值選擇法、Pearson相關(guān)系數(shù)法曼惠特尼U檢驗(yàn)法卡方檢驗(yàn)法、特征重要度法和遞歸特征消除法方差閾值選擇法第5章
特征選擇是從原來(lái)的特征變量中篩選部分影響顯著的特征變量,其結(jié)果是原來(lái)特征變量的子集。方差閾值選擇法,考察特征變量的信息(方差),通過(guò)給定閾值,刪除方差小于閾值的特征變量,可以通過(guò)機(jī)器學(xué)習(xí)包中的特征選擇模塊VarianceThreshold來(lái)實(shí)現(xiàn)。fromsklearn.feature_selectionimportVarianceThresholdimportpandasaspdimportnumpyasnp#加載波士頓房?jī)r(jià)數(shù)據(jù)集X=np.load('boston_data.npy')X_var=pd.DataFrame(X).var()#計(jì)算各自變量方差
#構(gòu)建特征選擇對(duì)象,方差閾值設(shè)置為3select1=VarianceThreshold(threshold=3)X_select1=select1.fit_transform(X)#對(duì)于X訓(xùn)練并轉(zhuǎn)換X_shape=X.shape#原始數(shù)據(jù)集規(guī)模尺寸#特征選擇后的數(shù)據(jù)集規(guī)模尺寸X_select1_shape=X_select1.shape
Pearson相關(guān)系數(shù)法第5章
Pearson相關(guān)系數(shù)法,考察特征變量與目標(biāo)變量之間的線性相關(guān)性是否顯著,通過(guò)相關(guān)系數(shù)和p值來(lái)選擇顯著特征變量,可以通過(guò)scipy包中的stats.pearsonr方法來(lái)實(shí)現(xiàn)。fromscipyimportstatsres2=[]#存放計(jì)算結(jié)果(相關(guān)系數(shù),p值)y=np.load('boston_target.npy')#提取目標(biāo)變量foriinrange(X.shape[1]):
#Pearson相關(guān)系數(shù)方法X_pear=stats.pearsonr(X[:,i],y)
#p值保留4位小數(shù)
res2.append((X_pear[0],round(X_pear[1],4)))顯示了13個(gè)特征變量與目標(biāo)變量之間的相關(guān)系數(shù)與檢驗(yàn)p值,如果按p<0.05來(lái)選擇,則每個(gè)特征都應(yīng)該保留。曼惠特尼U檢驗(yàn)法第5章
對(duì)于數(shù)據(jù)不滿足正態(tài)分布或方差不齊等情況時(shí),可以使用曼惠特尼U檢驗(yàn)法進(jìn)行特征選擇,通過(guò)scipy.stats包的mannwhitneyu方法可以實(shí)現(xiàn),該方法返回值分別為統(tǒng)計(jì)量和對(duì)應(yīng)的p值.fromscipy.statsimportmannwhitneyures3=[]#存放計(jì)算結(jié)果(統(tǒng)計(jì)量,p值)foriinrange(X.shape[1]):stat,p=mannwhitneyu(X[:,i],y)res3.append((stat,round(p,4)))顯示了13個(gè)特征變量與目標(biāo)變量之間的曼惠特尼U檢驗(yàn)統(tǒng)計(jì)量與檢驗(yàn)p值,如果按p<0.05來(lái)選擇,則每個(gè)特征都應(yīng)該保留卡方檢驗(yàn)法第5章
fromsklearn.datasetsimportload_iris#加載鶯尾花數(shù)據(jù)集fromsklearn.feature_selectionimportchi2#卡方檢驗(yàn)importnumpyasnpdata2=load_iris()#鶯尾花數(shù)據(jù)集信息X=data2.data#鶯尾花數(shù)據(jù)集特征變量y=data2.target#鶯尾花數(shù)據(jù)集目標(biāo)分類變量chi2_value,p_value=chi2(X,y)#獲得統(tǒng)計(jì)量值和檢驗(yàn)p值p_value=np.round(p_value,4)如果按p<0.05進(jìn)行選擇,則第2個(gè)特征變量將被剔除.也可以根據(jù)統(tǒng)計(jì)量值(得分)排序來(lái)選擇特征,得分最高的是第3個(gè)特征變量,其次分別為第4、1、2個(gè).Pearson相關(guān)系數(shù)法和曼惠特尼U檢驗(yàn)法,主要是針對(duì)數(shù)值型目標(biāo)變量,卡方檢驗(yàn)法則是針對(duì)離散型(分類型)目標(biāo)變量??梢酝ㄟ^(guò)sklearn.feature_selection中的chi2方法來(lái)實(shí)現(xiàn),該方法返回值分別為統(tǒng)計(jì)量值和檢驗(yàn)p值.卡方檢驗(yàn)法第5章
可以結(jié)合特征選擇包sklearn.feature_selection中的SelectKBest模塊來(lái)訓(xùn)練及轉(zhuǎn)換獲得特征選擇后的數(shù)據(jù)集fromsklearn.feature_selectionimportSelectKBestx_select4=SelectKBest(chi2,k=3).fit_transform(X,y)#chi2為前面導(dǎo)入的卡方檢驗(yàn)SelectKBest模塊對(duì)象中,取k=3,就是選擇統(tǒng)計(jì)量值(得分)最高的3個(gè)特征,分別為第3、4、1個(gè)特征變量
特征重要度法第5章
特征變量選擇與模型訓(xùn)練同時(shí)進(jìn)行,可能會(huì)選擇到更加適合模型的特征變量。事實(shí)上,部分機(jī)器學(xué)習(xí)模型,自身帶有特征選擇機(jī)制,可以通過(guò)模型的變量系數(shù)或特征變量分裂的純度來(lái)選擇對(duì)模型影響顯著的特征變量,前者一般是線性模型,后者一般是樹(shù)決策類模型。fromsklearn.linear_modelimportLinearRegressionasLRfromsklearn.ensembleimportGradientBoostingRegressorasgbr#波士頓房?jī)r(jià)數(shù)據(jù)集X=np.load('boston_data.npy')y=np.load('boston_target.npy')model_1=LR()#線性回歸模型對(duì)象model_1.fit(X,y)r1=model_1.score(X,y) coef_x=model_1.coef_#線性回歸模型變量系數(shù)model_2=gbr()#梯度增強(qiáng)回歸模型對(duì)象model_2.fit(X,y)r2=model_2.score(X,y) importances_x=model_2.feature_importances_#特征重要度特征重要度法第5章
有些模型自身并沒(méi)有變量系數(shù)或特征重要度相關(guān)信息,比如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、貝葉斯等。這里介紹一種應(yīng)用廣泛的排列重要性特征選擇方法。
排列重要性的關(guān)鍵是建立兩個(gè)模型:①原始數(shù)據(jù)集的預(yù)測(cè)模型,②隨機(jī)打亂某個(gè)特征變量的數(shù)據(jù)集的預(yù)測(cè)預(yù)測(cè)模型。特征變量的特征重要度就可以定義為兩模型下?lián)p失函數(shù)的變化程度。通過(guò)使用用sklearn.inspection包中的permutation_importance模型來(lái)實(shí)現(xiàn)。fromsklearn.inspectionimportpermutation_importanceresult_1=permutation_importance(model_1,X,y,n_repeats=10,random_state=0)result_2=permutation_importance(model_2,X,y,n_repeats=10,random_state=0)importances1_x=result_1.importances_meanimportances2_x=result_2.importances_mean顯示了之前兩個(gè)模型model_1(線性回歸)和model_2(梯度增強(qiáng)回歸)的排列重要性特征選擇方法結(jié)果遞歸特征消除法(RFE)第5章
fromsklearn.feature_selectionimportRFE#導(dǎo)入遞歸特征消除法模塊rfe=RFE(estimator=gbr(),n_features_to_select=6,step=1)#指定最優(yōu)特征個(gè)數(shù)K=6rfe.fit(X,y)x_select6=rfe.transform(X)x_support=rfe.support_遞歸特征消除法,通過(guò)遞歸減少考察的特征集規(guī)模來(lái)選擇最重要的特征,指定返回最優(yōu)的K個(gè)特征。需要注意的是,如果評(píng)估模型自身沒(méi)有特征變量系數(shù)或特征重要度信息,則不能使用遞歸特征消除法,比如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等回歸或分類模型。因此使用遞歸特征消除法的評(píng)估模型,一般是線性模型或樹(shù)決策類模型。示例代碼如下:“True”為對(duì)應(yīng)的特征被選中遞歸特征消除法(RFE)第5章
fromsklearn.model_selectionimportcross_val_score#交叉檢驗(yàn)?zāi)Kimportmatplotlib.pyplotaspltre=[]foriinrange(1,14):rfe=RFE(estimator=gbr(),n_features_to_select=i,ste
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)理核心制度解讀及案例
- 代運(yùn)營(yíng)合同范本 鑒于
- 勞務(wù)派遣合同范本2003
- 托管裝修服務(wù)合同范本
- 清酒代理合同范本
- 工程設(shè)施購(gòu)買(mǎi)合同范本
- 德邦加盟合同范本
- 拆遷分戶合同范本
- 主力攝影合同范本
- 廣告制作合同范本2017
- 2024年度軟件即服務(wù)(SaaS)平臺(tái)租賃合同3篇
- 網(wǎng)絡(luò)攻防原理與技術(shù) 第3版 教案 -第12講 網(wǎng)絡(luò)防火墻
- 2024年新課標(biāo)培訓(xùn)2022年小學(xué)英語(yǔ)新課標(biāo)學(xué)習(xí)培訓(xùn)課件
- 2024小學(xué)語(yǔ)文教學(xué)及說(shuō)課課件:二年級(jí)上冊(cè)《田家四季歌》
- 2024至2030年中國(guó)聚脲涂料行業(yè)市場(chǎng)發(fā)展調(diào)研及投資前景分析報(bào)告
- 1.1 鴉片戰(zhàn)爭(zhēng) 課件 2024-2025學(xué)年統(tǒng)編版八年級(jí)歷史上冊(cè)
- 2024至2030年中國(guó)演播室行業(yè)市場(chǎng)調(diào)查研究及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- DB11∕T 420-2019 電梯安裝、改造、重大修理和維護(hù)保養(yǎng)自檢規(guī)則
- 國(guó)旗臺(tái)施工合同
- 總代理授權(quán)書(shū)
- 醫(yī)療器械售后服務(wù)能力證明資料模板
評(píng)論
0/150
提交評(píng)論