機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 凌明勝 第1-5章 機(jī)器學(xué)習(xí)概述 - 邏輯回歸_第1頁
機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 凌明勝 第1-5章 機(jī)器學(xué)習(xí)概述 - 邏輯回歸_第2頁
機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 凌明勝 第1-5章 機(jī)器學(xué)習(xí)概述 - 邏輯回歸_第3頁
機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 凌明勝 第1-5章 機(jī)器學(xué)習(xí)概述 - 邏輯回歸_第4頁
機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ) 課件 凌明勝 第1-5章 機(jī)器學(xué)習(xí)概述 - 邏輯回歸_第5頁
已閱讀5頁,還剩183頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章機(jī)器學(xué)習(xí)概述機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ)01020304機(jī)器學(xué)習(xí)簡介機(jī)器學(xué)習(xí)的分類機(jī)器學(xué)習(xí)三要素機(jī)器學(xué)習(xí)典型應(yīng)用目錄CONTENTS05scikit-learn簡介機(jī)器學(xué)習(xí)簡介01機(jī)器學(xué)習(xí)入門案例顏色鮮紅的蘋果比較甜!5個(gè)蘋果,通過觀察蘋果外表,發(fā)現(xiàn)其中2個(gè)顏色鮮紅的比較甜,3個(gè)顏色淡的不甜訓(xùn)練集(TrainingSet)機(jī)器學(xué)習(xí)入門案例5個(gè)蘋果(5個(gè)樣本),按顏色是否鮮紅(特征)提取數(shù)值,可以描述為:得到的蘋果是否甜的結(jié)果為:數(shù)據(jù)行表示不同蘋果,也就是不同樣本,數(shù)據(jù)列表示每個(gè)樣本的“顏色是否鮮紅”這一特征值,其中編碼信息:1-鮮紅,0-不鮮紅,所有樣本的同一特征取值構(gòu)成特征向量。蘋果類別編碼為:1-甜蘋果,0-不甜的蘋果。y稱為X的標(biāo)簽向量,而5個(gè)蘋果樣本數(shù)據(jù)X叫作訓(xùn)練集(TrainingSet)。機(jī)器學(xué)到的知識==訓(xùn)練好的模型機(jī)器學(xué)習(xí)入門案例之前總結(jié)的知識識別之前總結(jié)的知識識別蘋果的準(zhǔn)確率只有60%蘋果的準(zhǔn)確率只有60%另外5個(gè)蘋果做實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)誤判了2個(gè)蘋果之前總結(jié)的知識識別蘋果的準(zhǔn)確率只有60%。測試集(TestingSet)機(jī)器學(xué)習(xí)入門案例僅僅通過“顏色是否鮮紅”判斷蘋果甜不甜是不可靠的!從更多的角度(不同特征)去判斷?蘋果的大小、產(chǎn)地和品種機(jī)器學(xué)習(xí):單個(gè)特征過于簡單,所以需要提取更多的特征。組合特征的方式:非參數(shù)化參數(shù)化通過某種方式將這些特征組合起來,讓它們一起發(fā)揮作用。機(jī)器學(xué)習(xí)入門案例

機(jī)器學(xué)習(xí)的本質(zhì)是模型的選擇以及模型參數(shù)的選定將辨識樣本是否正確作為修正信號,當(dāng)機(jī)器正確識別時(shí),對應(yīng)起作用的特征權(quán)重加分;錯(cuò)誤辨識時(shí),對應(yīng)的作用特征權(quán)重減分。通過多次試驗(yàn),最終找到合適的權(quán)重(參數(shù)),按一定方式組合起來,即可得到可靠的模型。機(jī)器學(xué)習(xí)的定義傳統(tǒng)的機(jī)器學(xué)習(xí)主要關(guān)注于如何學(xué)習(xí)一個(gè)預(yù)測模型,一般需要首先將數(shù)據(jù)表示為一組特征(Feature),特征的表示形式可以是連續(xù)的數(shù)值、離散的符號或其他形式,然后將這些特征輸入到預(yù)測模型并輸出預(yù)測結(jié)果。機(jī)器學(xué)習(xí)的定義原始數(shù)據(jù)數(shù)據(jù)預(yù)處理特征提取特征轉(zhuǎn)換預(yù)測結(jié)果特征處理淺層學(xué)習(xí)傳統(tǒng)機(jī)器學(xué)習(xí)的數(shù)據(jù)處理流程數(shù)據(jù)預(yù)處理:經(jīng)過數(shù)據(jù)的預(yù)處理,如去除噪聲等。比如在文本分類中,去除停用詞等.特征提?。簭脑紨?shù)據(jù)中提取一些有效的特征。比如在圖像分類中,提取邊緣、尺度不變特征變換(ScaleInvariantFeatureTransform,SIFT)特征等.特征轉(zhuǎn)換:對特征進(jìn)行一定的加工,如降維和升維。很多特征轉(zhuǎn)換方法也是機(jī)器學(xué)習(xí)方法。降維包括特征抽?。‵eatureExtraction)和特征選擇(FeatureSelection)兩種途徑。常用的特征轉(zhuǎn)換方法有主成分分析(PrincipalComponentsAnalysis,PCA)、線性判別分析(LinearDiscriminantAnalysis,LDA)等。預(yù)測:機(jī)器學(xué)習(xí)的核心部分,學(xué)習(xí)一個(gè)函數(shù)進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)的分類02機(jī)器學(xué)習(xí)的分類按照樣本數(shù)據(jù)的特點(diǎn)以及求解手段,機(jī)器學(xué)習(xí)有不同的分類標(biāo)準(zhǔn),按學(xué)習(xí)方式劃分有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)有監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)算法接受已知的輸入數(shù)據(jù)集(包含預(yù)測變量)和對該數(shù)據(jù)集的已知響應(yīng)(輸出,響應(yīng)變量),然后訓(xùn)練模型,使模型能夠?qū)π螺斎霐?shù)據(jù)的響應(yīng)做出合理的預(yù)測。從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)算法的過程可以被視為老師在教他的學(xué)生。該算法根據(jù)訓(xùn)練數(shù)據(jù)不斷預(yù)測結(jié)果,并由教師不斷進(jìn)行校正,學(xué)習(xí)將繼續(xù)進(jìn)行,直到算法達(dá)到可接受的性能水平。如果您嘗試去預(yù)測已知數(shù)據(jù)的輸出,則使用有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)分類技術(shù)回歸技術(shù)將輸入數(shù)據(jù)劃分成不同類別,可預(yù)測離散的響應(yīng)如果數(shù)據(jù)能進(jìn)行標(biāo)記、分類或分為特定的組或類,則使用分類。常用算法:支持向量機(jī)(SVM)、決策樹、k-最近鄰、樸素貝葉斯(NaiveBayes)、判別分析、邏輯回歸和神經(jīng)網(wǎng)絡(luò)??深A(yù)測連續(xù)的響應(yīng)。如果您在處理一個(gè)數(shù)據(jù)范圍,或您的響應(yīng)性質(zhì)是一個(gè)實(shí)數(shù),則使用回歸方法。常用算法:線性模型、非線性模型、規(guī)則化、逐步回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和自適應(yīng)神經(jīng)模糊學(xué)習(xí)。無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)可發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式或內(nèi)在結(jié)構(gòu)。這種技術(shù)可根據(jù)未做標(biāo)記的輸入數(shù)據(jù)集得到推論。之所以被稱為無監(jiān)督學(xué)習(xí),是因?yàn)榕c有監(jiān)督學(xué)習(xí)不同,沒有老師。依靠算法自己去發(fā)現(xiàn)并返回?cái)?shù)據(jù)中有趣的結(jié)構(gòu)。聚類是一種最常用的無監(jiān)督學(xué)習(xí)技術(shù)。這種技術(shù)可通過探索性數(shù)據(jù)分析發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式或分組。聚類分析的應(yīng)用包括基因序列分析、市場調(diào)查和對象識別。強(qiáng)化學(xué)習(xí)把學(xué)習(xí)過程看做一個(gè)試探性評價(jià)過程,強(qiáng)化學(xué)習(xí)主要包含五個(gè)元素:Agent(智能體)Environment(環(huán)境)State(狀態(tài))Action(行動)Reward(獎勵(lì))強(qiáng)化學(xué)習(xí)的目標(biāo)就是獲得最多的累計(jì)獎勵(lì)。強(qiáng)化學(xué)習(xí)巴甫洛夫(Pavlov)將肉給了狗,然后,狗開始流口水。用鈴鐺發(fā)出聲音,但這次狗沒有任何反應(yīng)。狗聽到鈴聲就開始流口水,即使沒有提供食物,因?yàn)楣返玫搅思訌?qiáng),只要主人鈴響了,它就會得到食物。他嘗試用鈴鐺訓(xùn)練狗,然后給他們食物。看到狗開始流口水了。機(jī)器學(xué)習(xí)算法選擇在以下情況下選擇監(jiān)督式學(xué)習(xí):需要訓(xùn)練模型進(jìn)行預(yù)測(例如溫度和股價(jià)等連續(xù)變量的值)或者分類(例如根據(jù)網(wǎng)絡(luò)攝像頭的錄像片段確定汽車的技術(shù)細(xì)節(jié))。在以下情況下選擇無監(jiān)督學(xué)習(xí):需要深入了解數(shù)據(jù)并希望訓(xùn)練模型找到好的內(nèi)部表示形式,例如將數(shù)據(jù)拆分到集群中。準(zhǔn)則:沒有最佳方法或萬全之策。找到正確的算法只是試錯(cuò)過程的一部分!機(jī)器學(xué)習(xí)三要素03模型模型(Model)就是那個(gè)用來描述客觀世界的數(shù)學(xué)模型,模型是從數(shù)據(jù)里抽象出來的。在進(jìn)行數(shù)據(jù)分析時(shí),我們通常手上只有數(shù)據(jù),然后看著數(shù)據(jù)找規(guī)律,找到的規(guī)律就是模型。模型可以是確定性的,也可以是隨機(jī)的。我們的根本目的,是找一個(gè)模型去描述我們已經(jīng)觀測到的數(shù)據(jù)。策略如何找到一個(gè)好的模型?一般,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為常用選擇模型的標(biāo)準(zhǔn)。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小是指,用這個(gè)模型,應(yīng)用到已有的觀測數(shù)據(jù)上,基本上是靠譜的。這也是大多數(shù)時(shí)候我們在機(jī)器學(xué)習(xí)時(shí)候有意或無意就用到的準(zhǔn)側(cè)。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化是一個(gè)參數(shù)優(yōu)化的過程,我們需要構(gòu)造一個(gè)損失函數(shù)來描述經(jīng)驗(yàn)風(fēng)險(xiǎn),損失函數(shù)可以理解為我們預(yù)測一個(gè)數(shù)據(jù)錯(cuò)了給我們帶來的代價(jià)。每個(gè)人對損失函數(shù)的定義都不同,所以優(yōu)化出來的結(jié)果也不同,這也導(dǎo)致最終我們學(xué)習(xí)到的模型會各種各樣,解決一個(gè)問題的方案有多種多樣!算法面對復(fù)雜的數(shù)學(xué)優(yōu)化問題我們通常難以通過簡單的求導(dǎo)獲得最終的結(jié)果,所以就要構(gòu)造一系列的算法(Algorithm)。

我們的目標(biāo)是讓算法盡量高效,更少的計(jì)算機(jī)內(nèi)存代價(jià),更快的運(yùn)算速度,更有效的參數(shù)優(yōu)化結(jié)果。機(jī)器學(xué)習(xí)典型應(yīng)用04人臉識別一般而言,一個(gè)完整的人臉識別系統(tǒng)包含4個(gè)主要組成部分,即人臉檢測、人臉對齊、人臉特征提取以及人臉識別。人臉檢測在圖像中找到人臉的位置;人臉配準(zhǔn)在人臉上找到眼睛、鼻子、嘴巴等面部器官的位置;通過人臉特征提取將人臉圖像信息抽象為字符串信息;人臉識別將目標(biāo)人臉圖像與既有人臉比對計(jì)算相似度,確認(rèn)人臉對應(yīng)的身份。語音識別語音識別技術(shù)就是讓智能設(shè)備聽懂人類的語音。語音識別存在的主要問題:對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語義的規(guī)則。語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個(gè)說話人在隨意說話和認(rèn)真說話時(shí)的語音信息是不同的。一個(gè)人的說話方式隨著時(shí)間變化。語音的模糊性。說話者在講話時(shí),不同的詞可能聽起來是相似的。這在英語和漢語中常見。單個(gè)字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。環(huán)境噪聲和干擾對語音識別有嚴(yán)重影響,致使識別率低。自動駕駛依靠計(jì)算機(jī)與人工智能技術(shù)在沒有人為操縱的情況下,完成完整、安全、有效的駕駛自動駕駛需解決以下幾個(gè)核心問題。定位。確定車輛當(dāng)前所處位置。環(huán)境感知。環(huán)境感知指確定道路、車道線、路面上的物體。這需要準(zhǔn)確的檢測道路、車道線、行人、車輛等障礙物,還需要識別交通標(biāo)志、信號燈等重要信息,給出車輛所處的環(huán)境。路徑規(guī)劃。路徑規(guī)劃是指給定車輛的當(dāng)前位置和目的地,計(jì)算出到達(dá)目的地的一條可行路徑,在行駛期間可能還要根據(jù)路況信息作出調(diào)整。決策與控制。根據(jù)車道占用情況、路況等環(huán)境信息確定要執(zhí)行的動作,得到車輛在每個(gè)時(shí)刻的行駛速度、方向等參數(shù)。scikit-learn簡介05scikit-learn基于Python語言的機(jī)器學(xué)習(xí)工具六大任務(wù)模塊:分類回歸聚類降維模型選擇預(yù)處理添加標(biāo)題在此錄入上述圖表的綜合描述說明。添加標(biāo)題在此錄入上述圖表的綜合描述說明。添加標(biāo)題在此錄入上述圖表的綜合描述說明。添加標(biāo)題在此錄入上述圖表的綜合描述說明。在此錄入上述圖表的綜合描述說明,在此錄入上述圖表的綜合描述說明。在此錄入上述圖表的綜合描述說明,在此錄入上述圖表的綜合描述說明,在此錄入上述圖表的綜合描述說明,在此錄入上述圖表的綜合描述說明。添加標(biāo)題添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。010203添加文本添加適當(dāng)?shù)奈淖?,最好不要超過200字,添加適當(dāng)?shù)奈淖?,最好不要超過200字添加文本添加適當(dāng)?shù)奈淖郑詈貌灰^200字,添加適當(dāng)?shù)奈淖?,最好不要超過200字添加文本添加適當(dāng)?shù)奈淖郑詈貌灰^200字,添加適當(dāng)?shù)奈淖?,最好不要超過200字添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題添加適當(dāng)?shù)奈淖?,一頁的文字最好不要超過200,添加適當(dāng)?shù)奈淖?,一頁的文字最好不要超過200字成功作品展示添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字ABOUTOURBUSINESS02添加文本標(biāo)題添加文本標(biāo)題添加文本標(biāo)題添加文本標(biāo)題添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字主要創(chuàng)新ABC您的內(nèi)容打在這里,或者通過復(fù)制您的文本后,在此框中選擇粘貼,并選擇只保留文字,在此錄入上述圖表的綜合描述說明。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后,在此框中選擇粘貼,并選擇只保留文字,在此錄入上述圖表的綜合描述說明。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后,在此框中選擇粘貼,并選擇只保留文字,在此錄入上述圖表的綜合描述說明。請?zhí)鎿Q文字內(nèi)容Pleasereplacetext,clickaddrelevantheadline,modifythetextcontent,alsocancopyyourcontenttothisdirectly.請?zhí)鎿Q文字內(nèi)容Pleasereplacetext,clickaddrelevantheadline,modifythetextcontent,alsocancopyyourcontenttothisdirectly.請?zhí)鎿Q文字內(nèi)容Pleasereplacetext,clickaddrelevantheadline,modifythetextcontent,alsocancopyyourcontenttothisdirectly.請?zhí)鎿Q文字內(nèi)容Pleasereplacetext,clickaddrelevantheadline,modifythetextcontent,alsocancopyyourcontenttothisdirectly.添加標(biāo)題一在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明。添加標(biāo)題四在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明。添加標(biāo)題二在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明,在此錄入上述圖表添加標(biāo)題三在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明,在此錄入上述圖表添加標(biāo)題一添加標(biāo)題三添加標(biāo)題二添加標(biāo)題四添加文本添加文本添加文本添加文本添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字此處添加說明文字添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字此處添加說明文字添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字此處添加說明文字添加文本信息此處添加說明文字添加說明文字添加說明文字此處添加說明文字此處添加說明文字存在不足之處添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字ABOUTOURBUSINESS03文字內(nèi)容文字內(nèi)容文字內(nèi)容文字內(nèi)容添加標(biāo)題文字在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明。添加標(biāo)題文字在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明。添加標(biāo)題文字在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明。添加標(biāo)題文字在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明。存在不足添加文本添加文本添加文本添加文本添加文本添加文本您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。在此錄入上述圖表的描述說明,在此錄入上述圖表的描述說明,在此錄入上述圖表根據(jù)自己的需要添加適當(dāng)?shù)奈淖?,一頁的文字最好不要超過200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖?/p>

項(xiàng)目資金短缺根據(jù)自己的需要添加適當(dāng)?shù)奈淖郑豁摰奈淖肿詈貌灰^200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖秩狈ο嚓P(guān)專業(yè)技能人才根據(jù)自己的需要添加適當(dāng)?shù)奈淖?,一頁的文字最好不要超過200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖质袌鋈萘坑邢薷鶕?jù)自己的需要添加適當(dāng)?shù)奈淖郑豁摰奈淖肿詈貌灰^200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖指偁帀毫^大1根據(jù)自己的需要添加適當(dāng)?shù)奈淖?,?jù)研究,在幻燈片中,一頁的文字最好不要超200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖忠豁摰奈淖肿詈?根據(jù)自己的需要添加適當(dāng)?shù)奈淖?,?jù)研究,在幻燈片中,一頁的文字最好不要超200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖忠豁摰奈淖肿詈貌?根據(jù)自己的需要添加適當(dāng)?shù)奈淖郑瑩?jù)研究,在幻燈片中,一頁的文字最好不要超200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖忠豁摰奈淖肿詈?根據(jù)自己的需要添加適當(dāng)?shù)奈淖郑瑩?jù)研究,在幻燈片中,一頁的文字最好不要超200字根據(jù)自己的需要添加適當(dāng)?shù)奈淖忠豁摰奈淖肿詈貌幻髂旯ぷ饔?jì)劃添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字添加相關(guān)標(biāo)題文字ABOUTOURBUSINESS04您的內(nèi)容打在這里,或者通過復(fù)制您的文本后,在此框中選擇粘貼,并選擇只保留文字。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后,在此框中選擇粘貼,并選擇只保留文字。您的內(nèi)容打在這里或者通過復(fù)制您的文本后,在此框中選擇粘貼,并選擇只保留文字您的內(nèi)容打在這里或者通過復(fù)制您的文本后,在此框中選擇粘貼,并選擇只保留文字點(diǎn)擊添加標(biāo)題點(diǎn)擊添加標(biāo)題點(diǎn)擊添加標(biāo)題點(diǎn)擊添加標(biāo)題添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。添加標(biāo)題點(diǎn)擊此處添加文字說明內(nèi)容,可以通過復(fù)制您的文本內(nèi)容,在此文本框粘貼并選擇只保留文字。標(biāo)題一標(biāo)題二標(biāo)題三標(biāo)題四您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。您的內(nèi)容打在這里,或者通過復(fù)制您的文本后。我們工作室致力于專業(yè)PPT模板的發(fā)布,課件及匯報(bào)PPT的美化,并為您提供專業(yè)的PPT個(gè)性定制服務(wù)。我們秉承“給您演示的光和熱”的理念,為您分擔(dān)職場壓力,讓您的每一次亮相都信心澎湃。專業(yè)的團(tuán)隊(duì),完善的售后,熱情的服務(wù),科學(xué)嚴(yán)謹(jǐn)?shù)倪壿?,一絲不茍的工作態(tài)度,定能使您的發(fā)展如虎添翼!單擊添加標(biāo)題我們工作室致力于專業(yè)PPT模板的發(fā)布,專業(yè)的PPT個(gè)性定制服務(wù)。單擊添加標(biāo)題我們工作室致力于專業(yè)PPT模板的發(fā)布,專業(yè)的PPT個(gè)性定制服務(wù)。單擊添加標(biāo)題我們工作室致力于專業(yè)PPT模板的發(fā)布,專業(yè)的PPT個(gè)性定制服務(wù)。開始理念此處添加詳細(xì)文本描述,建議與標(biāo)題相關(guān)并符合添加標(biāo)題此處添加詳細(xì)文本描述,建議與標(biāo)題相關(guān)并符合整體語言風(fēng)格,語言描述盡簡潔生動。盡將每頁幻燈片的字?jǐn)?shù)控制在200字以內(nèi),據(jù)統(tǒng)計(jì)每頁幻燈片的好控制在5分鐘之內(nèi)。添加標(biāo)題此處添加詳細(xì)文本描述,建議與標(biāo)題相關(guān)并符合整體語言風(fēng)格,語言描述盡簡潔生動。添加標(biāo)題此處添加詳細(xì)文本描述,建議與標(biāo)題相關(guān)并符合整體語言風(fēng)格,語言描述盡簡潔生動。添加標(biāo)題演示完畢謝謝欣賞2017報(bào)告人:亮亮圖文部門:設(shè)計(jì)部2.2萬套可編輯精品PPT動態(tài)模板僅需99元需要的朋友請聯(lián)系:QQ408699431QQ3312912466如若QQ加不上(已滿)請加微信:wangzonghu003QQ408699431百度網(wǎng)盤下載,鏈接地址密碼永久有效,持續(xù)更新。。。不止2.2W套可以用一輩子了都,都不需要再去網(wǎng)站辦會員了!掃碼加微信好友第二章模型評估選擇機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ)01020304模型的評估選擇模型驗(yàn)證模型性能評估模型優(yōu)化目錄CONTENTS模型的設(shè)計(jì)原則01案例張三(死記硬背)李四(心不在焉)王五(舉一反三)對人類來說,你所有訓(xùn)練題都做正確不算什么,重要的是每次測驗(yàn)題都能拿高分案例對機(jī)器來說,機(jī)器學(xué)習(xí)需要根據(jù)問題特點(diǎn)和已有數(shù)據(jù)確定具有最強(qiáng)解釋性或預(yù)測力的模型,其過程也可以劃分為類似于“學(xué)習(xí)-練習(xí)-考試”這樣的三個(gè)階段,每個(gè)階段的目標(biāo)和使用的資源可以歸納如下:模型擬合(modelfitting):利用訓(xùn)練數(shù)據(jù)集(trainingset)對模型的普通參數(shù)進(jìn)行擬合;模型選擇(modelselection):利用驗(yàn)證數(shù)據(jù)集(validationset)對模型的超參數(shù)進(jìn)行調(diào)整,篩選出性能最好的模型;模型評估(modelassessment):利用測試數(shù)據(jù)集(testset)來估計(jì)篩選出的模型在未知數(shù)據(jù)上的真實(shí)性能。沒有免費(fèi)午餐定理對于基于迭代的最優(yōu)化算法,不存在某種算法對所有問題(有限的搜索空間內(nèi))都有效.如果一個(gè)算法對某些問題有效,那么它一定在另外一些問題上比純隨機(jī)搜索算法更差.也就是說,不能脫離具體問題來談?wù)撍惴ǖ膬?yōu)劣,任何算法都有局限性.必須要“具體問題具體分析”。每個(gè)模型用于解決所有問題時(shí),其平均意義上的性能是一樣的。所有模型在等概率出現(xiàn)的問題上都有同樣的性能,這件事可以從兩個(gè)角度來理解:從模型的角度來看,如果單獨(dú)拿出一個(gè)特定的模型來觀察的話,這個(gè)模型必然會在解決某些問題時(shí)誤差較小,而在解決另一些問題時(shí)誤差較大;從問題的角度來看,如果單獨(dú)拿出一個(gè)特定的問題來觀察的話,必然有某些模型在解決這些問題時(shí)具有較高的精度,而另一些模型的精度就沒那么理想了。沒有免費(fèi)午餐定理NFL定理最重要的指導(dǎo)意義在于先驗(yàn)知識的使用,也就是具體問題具體分析。機(jī)器學(xué)習(xí)的目標(biāo)不是放之四海而皆準(zhǔn)的通用模型,而是關(guān)于特定問題有針對性的解決方案。因此在模型的學(xué)習(xí)過程中,一定要關(guān)注問題本身的特點(diǎn),也就是關(guān)于問題的先驗(yàn)知識。這就像學(xué)習(xí)數(shù)學(xué)有學(xué)習(xí)數(shù)學(xué)的方法,這套方法用來學(xué)習(xí)語文未必會有良好的效果,但它只要能夠解決數(shù)學(xué)的問題就已經(jīng)很有價(jià)值了。脫離問題的實(shí)際情況談?wù)撃P蛢?yōu)劣是沒有意義的,只有讓模型的特點(diǎn)和問題的特征相匹配,模型才能發(fā)揮最大的作用。奧卡姆剃刀原理“如無必要,勿增實(shí)體”簡單的模型泛化能力更好。如果有兩個(gè)性能相近的模型,我們應(yīng)該選擇更簡單的模型。因此,在機(jī)器學(xué)習(xí)的學(xué)習(xí)準(zhǔn)則上,我們經(jīng)常會引入?yún)?shù)正則化來限制模型能力,避免過擬合。機(jī)器學(xué)習(xí)學(xué)到的模型應(yīng)該能夠識別出數(shù)據(jù)背后的模式,也就是數(shù)據(jù)特征和數(shù)據(jù)類別之間的關(guān)系。當(dāng)模型本身過于復(fù)雜時(shí),特征和類別之間的關(guān)系中所有的細(xì)枝末節(jié)都被捕捉,主要的趨勢反而在亂花漸欲迷人眼中沒有得到應(yīng)有的重視,這就會導(dǎo)致過擬合(overfitting)的發(fā)生。反過來,如果模型過于簡單,它不僅沒有能力捕捉細(xì)微的相關(guān)性,甚至連主要趨勢本身都沒辦法抓住,這樣的現(xiàn)象就是欠擬合(underfitting)。訓(xùn)練誤差與泛化誤差在機(jī)器學(xué)習(xí)中,誤差被定義為學(xué)習(xí)器的實(shí)際預(yù)測輸出與樣本真實(shí)輸出之間的差異。模型在訓(xùn)練集上的誤差稱為“訓(xùn)練誤差”;模型在任一測試數(shù)據(jù)樣本上的誤差的期望稱為“泛化誤差”,常常通過測試數(shù)據(jù)集上的誤差來近似。假設(shè)訓(xùn)練數(shù)據(jù)集(訓(xùn)練題)和測試數(shù)據(jù)集(測試題)里的每一個(gè)樣本都是從同一個(gè)概率分布中相互獨(dú)立地生成的?;谠摢?dú)立同分布假設(shè),給定任意一個(gè)機(jī)器學(xué)習(xí)模型(含參數(shù)),它的訓(xùn)練誤差的期望和泛化誤差都是一樣的機(jī)器學(xué)習(xí)模型應(yīng)關(guān)注降低泛化誤差。偏差與方差偏差:模型預(yù)測值的期望和真實(shí)結(jié)果之間的區(qū)別,如果偏差為0,模型給出的估計(jì)的就是無偏估計(jì)。但這個(gè)概念是統(tǒng)計(jì)意義上的概念,它并不意味著每個(gè)預(yù)測值都與真實(shí)值吻合。方差:模型預(yù)測值的方差,也就是預(yù)測值本身的波動程度,方差越小意味著模型越有效。模型誤差=偏差(Biase)+方差(Variance)+噪聲(Noise)噪聲來源于數(shù)據(jù)自身的不確定性,體現(xiàn)的是待學(xué)習(xí)問題本身的難度,并不能通過模型的訓(xùn)練加以改善。除了噪聲之外,偏差和方差都與模型本身有關(guān)偏差與方差靶心就是我們的真實(shí)值,也就是我們完美預(yù)測的模型。離靶心的距離反映了我們的偏差的大小,離靶心越近,偏差越小;離靶心越遠(yuǎn),偏差越大。點(diǎn)的聚集程度反映了我們的方差的大小,點(diǎn)越分散,方差越大,點(diǎn)越聚攏,方差越小。偏差體現(xiàn)了射擊的準(zhǔn)確性,方差則體現(xiàn)穩(wěn)定性。偏差與方差理想的模型應(yīng)該是低偏差低方差的雙低模型模型的復(fù)雜度越低,其偏差也就越高;模型的復(fù)雜度越高,其方差也就越高。對模型復(fù)雜度的調(diào)整就是在偏差-方差的折中之間找到最優(yōu)解,使得兩者之和所表示的總誤差達(dá)到最小值。這樣的模型既能提取出特征和分類結(jié)果之間的關(guān)系,又不至于放大噪聲和干擾的影響。模型驗(yàn)證02訓(xùn)練集、驗(yàn)證集和測試集用來訓(xùn)練模型內(nèi)參數(shù)的數(shù)據(jù)集用來選擇模型就像是學(xué)生的課本,學(xué)生根據(jù)課本里的內(nèi)容來掌握知識就像是作業(yè),通過作業(yè)可以知道不同學(xué)生學(xué)習(xí)情況、進(jìn)步的速度快慢用來評價(jià)模型在未知樣本上的表現(xiàn),即泛化能力就像是考試,考的題是平常都沒有見過,考察學(xué)生舉一反三(泛化)的能力。訓(xùn)練集、驗(yàn)證集和測試集模型在驗(yàn)證集上的性能是模型選擇和評估的依據(jù)。無論使用什么樣的重采樣策略,驗(yàn)證集都需要滿足一個(gè)基本要求,就是不能和訓(xùn)練集有交集。模型本身就是在訓(xùn)練集上擬合出來的,如果再用相同的數(shù)據(jù)去驗(yàn)證的話,這種既當(dāng)運(yùn)動員又當(dāng)裁判員的做法就缺乏說服力了。所以在劃分時(shí),最基本的原則就是確保訓(xùn)練集、驗(yàn)證集和測試集三者兩兩互不相交。另一個(gè)需要注意的問題是訓(xùn)練、驗(yàn)證、測試集中樣例分布的一致性,避免在數(shù)據(jù)集之間出現(xiàn)不平衡。如果訓(xùn)練集和驗(yàn)證集中的樣本分布相差較大,這種分布差異將不可避免地給性能的估計(jì)帶來偏差,從而對模型選擇造成影響。數(shù)據(jù)集劃分方法留出法(hold-out):隨機(jī)采樣出一部分?jǐn)?shù)據(jù)作為訓(xùn)練集,再采樣出另一部分作為驗(yàn)證集通過留出法計(jì)算出來的泛化誤差本質(zhì)上也是個(gè)隨機(jī)變量,單次留出得到的估計(jì)結(jié)果就相當(dāng)于對這個(gè)分布進(jìn)行一次采樣,這單次采樣的結(jié)果沒辦法體現(xiàn)出隨機(jī)變量的分布特性。正因如此,在使用留出法時(shí)一般采用多次隨機(jī)劃分,在不同的訓(xùn)練、驗(yàn)證集上評估模型性能再取平均值的方式,以此來得到關(guān)于泛化誤差更加精確的估計(jì)。數(shù)據(jù)集劃分方法K折交叉驗(yàn)證:將原始數(shù)據(jù)集隨機(jī)劃分為k個(gè)大小相同的子集,并進(jìn)行k輪驗(yàn)證。每一輪驗(yàn)證都選擇一個(gè)子集作為驗(yàn)證集,而將剩余的k?1個(gè)子集用作訓(xùn)練集。k值的選取直接決定估計(jì)結(jié)果的精確程度。較小的k值意味著更少的數(shù)據(jù)被用于訓(xùn)練模型,這將導(dǎo)致每一輪估計(jì)得到的結(jié)果更加集中,但都會偏離真正的泛化誤差,也就是方差較小而偏差較大。隨著k的不斷增加,越來越多的數(shù)據(jù)被用在模型擬合上,計(jì)算出的泛化誤差也會越來越接近真實(shí)值。數(shù)據(jù)集劃分方法自助法:是有放回的隨機(jī)抽樣,即從已知數(shù)據(jù)集中隨機(jī)抽取一條樣本,然后將該樣本放入測試集的同時(shí)放回原數(shù)據(jù)集,繼續(xù)下一次抽樣,重復(fù)這樣的過程。自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測試集時(shí)很有用;此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,這對集成學(xué)習(xí)(強(qiáng)學(xué)習(xí)分類器)等方法有很大的好處,然而,自助法產(chǎn)生數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,這會引入估計(jì)偏差數(shù)據(jù)集劃分方法留出法優(yōu)點(diǎn)

實(shí)現(xiàn)簡單,方便,在一定程度上能夠評估泛化誤差;測試集和訓(xùn)練集分開,緩解了過擬合。缺點(diǎn)

一次劃分,結(jié)果偶然性大;數(shù)據(jù)被拆分以后,用于訓(xùn)練,測試的數(shù)據(jù)更少了。交叉驗(yàn)證法優(yōu)點(diǎn)

K可以根據(jù)實(shí)際情況設(shè)置,充分利用了所有樣本;多次劃分,評估結(jié)果相對穩(wěn)定。缺點(diǎn)

計(jì)算比較繁瑣,需要進(jìn)行k次訓(xùn)練和評估。自助法優(yōu)點(diǎn)

樣本量比較小的時(shí)候可以通過自助法產(chǎn)生多個(gè)自助樣本集,且有約36.8%的測試樣本;對于總體的理論分布沒有要求。缺點(diǎn)

無放回抽樣引起額外的偏差。已知數(shù)據(jù)集樣本量充足時(shí),通常采用留出法或者K折交叉驗(yàn)證法;對于已知數(shù)據(jù)集比較小且難以有效劃分訓(xùn)練集/測試集的時(shí)候,采用自助法;對于已知數(shù)據(jù)集比較小且可以有效劃分訓(xùn)練集/測試集的時(shí)候,采用留一法;數(shù)據(jù)集劃分方法train_test_split方法用于將數(shù)據(jù)集切分成訓(xùn)練集和測試集。sklearn.model_selection.train_test_split(*arrays,**options)Kfold類實(shí)現(xiàn)了數(shù)據(jù)集的K

折交叉切分。classsklearn.model_selection.KFold(n_splits=3,shuffle=False,random_state=None)數(shù)據(jù)集劃分方法split方法用于切分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集。返回測試集的樣本索引、訓(xùn)練集的樣本索引split(X[,y,groups])LeaveOneOut類實(shí)現(xiàn)了數(shù)據(jù)集的留一法拆分(簡稱LOO)。它是個(gè)生成器classsklearn.model_selection.LeaveOneOut(n)模型性能評估03回歸模型的評估指標(biāo)均方差(MSE)為所有樣本誤差(真實(shí)值與預(yù)測值之差)的平方和,然后取均值。

均方差的平方根(RMSE)均方差的平方根,即在MSE的基礎(chǔ)上,取平方根?;貧w模型的評估指標(biāo)平均絕對值誤差(MAE)為所有樣本誤差的絕對值和。用來表示模型擬合性的分值,值越高表示模型擬合性越好,最高為1可能為負(fù)值。

決定系數(shù)分類模型的評估指標(biāo)

預(yù)測值實(shí)際值

正樣本負(fù)樣本正樣本真的正樣本(TP)假的負(fù)樣本(FN)負(fù)樣本假的正樣本(FP)真的負(fù)樣本(TN)混淆矩陣TP:將正樣本識別為正樣本的數(shù)量(或概率)FN:將正樣本識別為負(fù)樣本的數(shù)量(或概率)FP:將負(fù)樣本識別為正樣本的數(shù)量(或概率)TN:將負(fù)樣本識別為負(fù)樣本的數(shù)量(或概率)分類模型的評估指標(biāo)正確率衡量模型對數(shù)據(jù)集樣本預(yù)測正確的比例分類模型的評估指標(biāo)召回率/查全率(recall)模型對真實(shí)正樣本的判斷能力,通俗地說,召回率則要求把盡可能少的真實(shí)正樣本判定為預(yù)測負(fù)樣本(FN)。預(yù)測為正樣本的樣本(TP)占參與預(yù)測樣本中正樣本樣本(TP+FN)的比率分類模型的評估指標(biāo)精度/查準(zhǔn)率(precision)正樣本預(yù)測值(positivepredictivevalue),表示的是預(yù)測為正樣本的樣本(TP+FP)中真正為正樣本的樣本(TP)的比率,也就是模型預(yù)測結(jié)果的準(zhǔn)確程度,通俗地說,查準(zhǔn)率要求把盡可能少的真實(shí)負(fù)樣本(TF)判定為預(yù)測正樣本(FP)。分類模型的評估指標(biāo)P-R曲線和F1值一般情況下,查準(zhǔn)率和查全率是魚和熊掌不可兼得的一對指標(biāo)。將查準(zhǔn)率和查全率畫在同一個(gè)平面直角坐標(biāo)系內(nèi),得到的就是P-R

曲線,它表示了模型可以同時(shí)達(dá)到的查準(zhǔn)率和查全率。在P-R曲線中,當(dāng)查準(zhǔn)率和查全率的平衡點(diǎn)是兩者相等時(shí),它是另外一種度量方式,即F1值:分類模型的評估指標(biāo)ROC曲線圖形的縱軸為真正樣本率(TPR—TruePositiveRate),橫軸為假正樣本率(FPR—FalsePositiveRate)。其中,真正樣本率與假正樣本率定義為:AUCAUC(AreaUndertheCurve)是指ROC曲線下的面積,使用AUC值作為評價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說明哪個(gè)分類器的效果更好,而AUC作為數(shù)值可以直觀的評價(jià)分類器的好壞,值越大越好。模型評估指標(biāo)的scikit-learn實(shí)現(xiàn)mean_absolute_error用于計(jì)算回歸預(yù)測誤差絕對值的均值(meanabsoluteerror:MAE)sklearn.metrics.mean_absolute_error(y_true,y_pred,sample_weight=None,multioutput='uniform_average')返回預(yù)測誤差絕對值的均值。mean_squared_error用于計(jì)算回歸預(yù)測誤差平方的均值(meansquareerror:MSE)sklearn.metrics.mean_squared_error(y_true,y_pred,sample_weight=None,multioutput='uniform_average')返回預(yù)測誤差的平方的平均值。模型評估指標(biāo)的scikit-learn實(shí)現(xiàn)accuracy_score用于計(jì)算分類結(jié)果的準(zhǔn)確率sklearn.metrics.accuracy_score(y_true,y_pred,normalize=True,sample_weight=None)如果normalize為True,則返回準(zhǔn)確率;如果normalize為False,則返回正確分類的數(shù)量。precision_score用于計(jì)算分類結(jié)果的查準(zhǔn)率sklearn.metrics.precision_score(y_true,y_pred,labels=None,pos_label=1,average='binary',sample_weight=None)返回查準(zhǔn)率模型評估指標(biāo)的scikit-learn實(shí)現(xiàn)返回F1值recall_score用于計(jì)算分類結(jié)果的查全率sklearn.metrics.recall_score(y_true,y_pred,labels=None,pos_label=1,average='binary',sample_weight=None)返回查全率f1_score用于計(jì)算分類結(jié)果的F1值sklearn.metrics.f1_score(y_true,y_pred,labels=None,pos_label=1,average='binary',sample_weight=None)模型評估指標(biāo)的scikit-learn實(shí)現(xiàn)classification_report以文本方式給出了分類結(jié)果的主要預(yù)測性能指標(biāo)。sklearn.metrics.classification_report(y_true,y_pred,labels=None,target_names=None,sample_weight=None,digits=2)返回一個(gè)格式化的字符串,給出了分類評估報(bào)告。confusion_matrix給出了分類結(jié)果的混淆矩陣。sklearn.metrics.confusion_matrix(y_true,y_pred,labels=None)返回一個(gè)格式化的字符串,給出了分類結(jié)果的混淆矩陣。模型評估指標(biāo)的scikit-learn實(shí)現(xiàn)precision_recall_curve用于計(jì)算分類結(jié)果的P-R曲線。sklearn.metrics.precision_recall_curve(y_true,probas_pred,pos_label=None,sample_weight=None)roc_curve用于計(jì)算分類結(jié)果的ROC曲線。sklearn.metrics.roc_curve(y_true,y_score,pos_label=None,sample_weight=None,drop_intermediate=True)模型評估指標(biāo)的scikit-learn實(shí)現(xiàn)roc_auc_score用于計(jì)算分類結(jié)果的ROC曲線的面積AUC。sklearn.metrics.roc_auc_score(y_true,y_score,average='macro',sample_weight=None)返回值為AUC值模型優(yōu)化04超參數(shù)往往機(jī)器學(xué)習(xí)的算法中包含了成千上百萬的參數(shù),這些參數(shù)有的可以通過訓(xùn)練來優(yōu)化,我們稱為參數(shù)(Parameter);也有一部分參數(shù)不能通過訓(xùn)練來優(yōu)化,我們稱為超參數(shù)(Hyperparameter)。機(jī)器學(xué)習(xí)中的超參數(shù)優(yōu)化旨在尋找使得機(jī)器學(xué)習(xí)算法在驗(yàn)證數(shù)據(jù)集上表現(xiàn)性能最佳的超參數(shù)。超參數(shù)與一般模型參數(shù)不同,超參數(shù)是在訓(xùn)練前提前設(shè)置的。超參數(shù)優(yōu)化找到一組超參數(shù),這些超參數(shù)返回一個(gè)優(yōu)化模型,該模型減少了預(yù)定義的損失函數(shù),進(jìn)而提高了給定獨(dú)立數(shù)據(jù)的預(yù)測或者分類精度。超參數(shù)優(yōu)化方法手動調(diào)參依靠試錯(cuò)法手動對超參數(shù)進(jìn)行調(diào)參優(yōu)化,這一方法依賴大量的經(jīng)驗(yàn),并且比較耗時(shí),因此發(fā)展出了許多自動化超參數(shù)優(yōu)化方法。網(wǎng)格化尋優(yōu)(GridSearch)網(wǎng)格化尋優(yōu)可以說是最基本的超參數(shù)優(yōu)化方法。使用這種技術(shù),我們只需為所有超參數(shù)的可能構(gòu)建獨(dú)立的模型,評估每個(gè)模型的性能,并選擇產(chǎn)生最佳結(jié)果的模型和超參數(shù)。超參數(shù)優(yōu)化方法隨機(jī)尋優(yōu)(RandomSearch)通常并不是所有的超參數(shù)都有同樣的重要性,某些超參數(shù)可能作用更顯著。而隨機(jī)尋優(yōu)方法相對于網(wǎng)格化尋優(yōu)方法能夠更準(zhǔn)確地確定某些重要的超參數(shù)的最佳值。隨機(jī)尋優(yōu)方法在超參數(shù)網(wǎng)格的基礎(chǔ)上選擇隨機(jī)的組合來進(jìn)行模型訓(xùn)練??梢钥刂平M合的數(shù)量,基于時(shí)間和計(jì)算資源的情況,選擇合理的計(jì)算次數(shù)。超參數(shù)優(yōu)化方法的scikit-learn實(shí)現(xiàn)GridSearchCV類用于實(shí)現(xiàn)網(wǎng)格化超參數(shù)優(yōu)化classsklearn.model_selection.GridSearchCV(estimator,param_grid,scoring=None,fit_params=None,n_jobs=1,iid=True,refit=True,cv=None,verbose=0,pre_dispatch='2*n_jobs',error_score='raise',return_train_score='warn')類方法有:fit(X[,y,groups]):執(zhí)行參數(shù)優(yōu)化。predict(X)

:使用學(xué)到的最佳學(xué)習(xí)器來預(yù)測數(shù)據(jù)。predict_log_proba(X)

:使用學(xué)到的最佳學(xué)習(xí)器來預(yù)測數(shù)據(jù)為各類別的概率的對數(shù)值。predict_proba(X)

:使用學(xué)到的最佳學(xué)習(xí)器來預(yù)測數(shù)據(jù)為各類別的概率。score(X[,y])

:通過給定的數(shù)據(jù)集來判斷學(xué)到的最佳學(xué)習(xí)器的預(yù)測性能。transform(X):對最佳學(xué)習(xí)器執(zhí)行transform

。inverse_transform(X):對最佳學(xué)習(xí)器執(zhí)行逆transform

。decision_function(X):對最佳學(xué)習(xí)器調(diào)用決策函數(shù)。超參數(shù)優(yōu)化方法的scikit-learn實(shí)現(xiàn)RandomizedSearchCV采用隨機(jī)搜索所有的候選參數(shù)對的方法來尋找最優(yōu)的參數(shù)組合。classsklearn.model_selection.RandomizedSearchCV(estimator,param_distributions,n_iter=10,scoring=None,fit_params=None,n_jobs=1,iid=True,refit=True,cv=None,verbose=0,pre_dispatch='2*n_jobs',random_state=None,error_score='raise',return_train_score='warn')屬性和方法參考GridSearchCV

。第二章模型評估選擇機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ)凌明勝常州信息職業(yè)技術(shù)學(xué)院第三章線性回歸機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ)01020304問題引入模型建立參數(shù)求解模型評估目錄CONTENTS05scikit-learn中的線性回歸05波士頓房價(jià)預(yù)測問題引入01問題引入編號面積(m2)售價(jià)(萬元)1751002100180312022041403005200400………房價(jià)數(shù)據(jù)房價(jià)數(shù)據(jù)可視化線性回歸模型擬合房價(jià)數(shù)據(jù)假設(shè)面積與售價(jià)存在線性關(guān)系,從機(jī)器學(xué)習(xí)角度講,線性回歸就是要構(gòu)建一個(gè)模型--線性函數(shù),使得該函數(shù)與目標(biāo)值之間的擬合性最好。模型建立02一元線性回歸

多元線性回歸影響房屋價(jià)格也很可能不只房屋面積一個(gè)因素,可能還有交通便利,周邊配套,房間數(shù)量,房屋所在層數(shù),房屋建筑年代等諸多因素。這些因素,對房屋價(jià)格影響的力度(權(quán)重)是不同的,例如,房屋所在層數(shù)對房屋價(jià)格的影響就遠(yuǎn)不及房屋面積,因此,我們可以使用多個(gè)權(quán)重來表示多個(gè)因素與房屋價(jià)格的關(guān)系:

多元線性回歸

令:??0=1,??0=??

這樣,就可以表示為:

參數(shù)求解03誤差與分布機(jī)器學(xué)習(xí)的過程,就是確定(學(xué)習(xí))模型參數(shù)(即模型的權(quán)重與偏置)的過程,因?yàn)橹灰P偷膮?shù)確定了,我們就可以利用模型進(jìn)行預(yù)測(有參數(shù)模型)模型的參數(shù)該如果求解呢?之前總結(jié)的知識識別之前總結(jié)的損失函數(shù),也稱目標(biāo)函數(shù)或代價(jià)函數(shù),簡單的說,就是關(guān)于誤差的一個(gè)函數(shù)。損失函數(shù)用來衡量模型預(yù)測值與真實(shí)值之間的差異。機(jī)器學(xué)習(xí)的目標(biāo),就是要建立一個(gè)損失函數(shù),使得該函數(shù)的值最小。誤差與分布

最大似然估計(jì)

模型的損失函數(shù),目標(biāo)是部分值最小最小二乘法從簡單的角度看,其實(shí)就是要尋找一條合適的直線(平面),使得所有樣本距離直線(平面)的距離(誤差),達(dá)到最小化即可,如圖所示,其中紅色點(diǎn)為數(shù)據(jù)點(diǎn),藍(lán)色線為最佳解,綠色線即為誤差。

最小二乘法

*除以2是一個(gè)微積分技巧,用于消除計(jì)算偏導(dǎo)數(shù)時(shí)出現(xiàn)的2。由于:最小二乘法

有:令:

因此:

最小二乘法隨機(jī)生成測試數(shù)據(jù)importnumpyasnp

np.random.seed(1234)X=2*np.random.rand(100,1)y=4+3*X+np.random.randn(100,1)數(shù)據(jù)可視化%matplotlibinlineimportmatplotlibasmplimportmatplotlib.pyplotasplt

mpl.rc('axes',labelsize=14)mpl.rc('xtick',labelsize=12)mpl.rc('ytick',labelsize=12)plt.plot(X,y,"b.")plt.xlabel("$x_1$",fontsize=18)plt.ylabel("$y$",rotation=0,fontsize=18)plt.axis([0,2,0,15])plt.show()最小二乘法

#將x0=1添加到數(shù)據(jù)集的每個(gè)樣本上

X_b=np.c_[np.ones((100,1)),X]w_best=np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)array([[3.78034545],[3.16033646]])

繪制擬合曲線w=2.82475222b=4.21031524defy_hat(x):returnw*x+bplt.plot(X,y,"b.")plt.plot(X,y_hat(X),"r")plt.show()梯度下降

梯度下降通過梯度指引的方向,進(jìn)而求解函數(shù)的極值,過程為:設(shè)定一個(gè)初始坐標(biāo)點(diǎn)。求解該坐標(biāo)點(diǎn)的梯度值。根據(jù)梯度值指定的方向,前進(jìn)一段距離,更新坐標(biāo)值。重復(fù)步驟2-3,直到迭代到指定的次數(shù),或者連續(xù)迭代兩次的y值小于指定的閾值為止。梯度下降線性回歸模型權(quán)重更新

梯度下降代碼演示importnumpyasnp

np.random.seed(1234)X=2*np.random.rand(100,1)y=4+3*X+np.random.randn(100,1)

#定義梯度下降類SGDclassSGD:#定義初始化方法。eat:學(xué)習(xí)率,iter_time:迭代次數(shù)。def__init__(self,eta,iter_time):self.eta=etaself.iter_time=iter_time

#定義用于訓(xùn)練模型的方法。X:

樣本訓(xùn)練數(shù)據(jù),y:

樣本對應(yīng)的標(biāo)簽。deffit(self,X,y):#權(quán)重初始化self.w_=np.zeros(X.shape[1])self.b_=0

#對所有樣本進(jìn)行iter_time輪迭代。foriinrange(self.iter_time):forx,targetinzip(X,y):#計(jì)算預(yù)測值y_hat=np.dot(self.w_,x)+self.b_#更新權(quán)重self.w_=self.w_+self.eta*(target-y_hat)*xself.b_=self.b_+self.eta*(target-y_hat)

sgd=SGD(0.01,100)sgd.fit(X,y)print(sgd.w_)print(sgd.b_)b=4.05413287,w=2.89545057,與我們期待w=3,b=4比較接近。

梯度下降梯度下降分類隨機(jī)梯度下降(SGD-Stochasticgradientdescent)批量梯度下降(BGD-BatchGradientDescent)小批量梯度下降(MBGD-Mini-BatchGradientDescent)

隨機(jī)梯度下降每次使用一個(gè)樣本更新權(quán)重,其中樣本i可能是按順序選擇,也可能是隨機(jī)選擇。

批量梯度下降使用所有樣本來更新權(quán)重。

小批量梯度下降每次使用一個(gè)批次的樣本更新數(shù)據(jù)

權(quán)重更新的方式不同特征縮放提升模型精度許多機(jī)器學(xué)習(xí)學(xué)習(xí)算法中目標(biāo)函數(shù)的基礎(chǔ)都是假設(shè)所有的特征都是零均值并且具有同一階數(shù)上的方差。如果某個(gè)特征的方差比其他特征大幾個(gè)數(shù)量級,那么它就會在學(xué)習(xí)算法中占據(jù)主導(dǎo)位置,導(dǎo)致模型并不能像我們說期望的那樣,從其他特征中學(xué)習(xí)。從經(jīng)驗(yàn)上說,標(biāo)準(zhǔn)化是讓不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類器的準(zhǔn)確性。提升收斂速度對于線性模型而言,數(shù)據(jù)歸一化后,最優(yōu)解的尋優(yōu)過程明顯會變得平緩,更容易正確的收斂到最優(yōu)解。特征縮放

標(biāo)準(zhǔn)化的方法用原始數(shù)據(jù)減去均值再除以標(biāo)準(zhǔn)差,不管原始特征的取值范圍有多大,得到的每組新數(shù)據(jù)都是均值為0,方差為1,這意味著所有數(shù)據(jù)被強(qiáng)行拉到同一個(gè)尺度之上;歸一化的方法則是用每個(gè)特征的取值區(qū)間作為一把尺子,再利用這把尺將不同的數(shù)據(jù)按比例進(jìn)行轉(zhuǎn)換,讓所有數(shù)據(jù)都落在[0,1]這個(gè)范圍之內(nèi)。特征縮放scikit-learn實(shí)現(xiàn)sklearn.preprocessing.scale()方法sklearn.preprocessing.StandardScaler類sklearn.preprocessing.MinMaxScaler類直接將給定數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化可以存儲平均值和標(biāo)準(zhǔn)差,并直接保存的參數(shù)值對其他數(shù)據(jù)進(jìn)行轉(zhuǎn)換實(shí)現(xiàn)將數(shù)據(jù)縮放到一個(gè)指定的最大和最小值(通常是1-0)之間。模型評估04scikit-learn中的線性回歸05scikit-learn中的線性回歸LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=None)sklearn.linear_model.LinearRegression類fit()方法用于擬合輸入輸出數(shù)據(jù)model.fit(X,y,sample_weight=None)參數(shù):fit_intercept:布爾型參數(shù),表示是否計(jì)算該模型截距??蛇x參數(shù)。normalize:布爾型參數(shù),若為True,則X在回歸前進(jìn)行歸一化??蛇x參數(shù)。默認(rèn)值為False。copy_X:布爾型參數(shù),若為True,則X將被復(fù)制;否則將被覆蓋??蛇x參數(shù)。默認(rèn)值為True。n_jobs:整型參數(shù),表示用于計(jì)算的作業(yè)數(shù)量;若為-1,則用所有的CPU??蛇x參數(shù)。默認(rèn)值為1。參數(shù):X:X為訓(xùn)練向量;y:y為相對于X的目標(biāo)向量;sample_weight:分配給各個(gè)樣本的權(quán)重?cái)?shù)組,一般不需要使用,可省略。波士頓房價(jià)預(yù)測06數(shù)據(jù)集描述波士頓房價(jià)數(shù)據(jù)集來源于1978年美國某經(jīng)濟(jì)學(xué)雜志,收錄在scikit-learn的datasets中,使用sklearn.datasets.load_boston即可加載數(shù)據(jù)。該數(shù)據(jù)包含若干波士頓房屋的價(jià)格及各項(xiàng)數(shù)據(jù),共有506個(gè)樣本,每個(gè)樣本13個(gè)輸入變量和1個(gè)輸出變量。每條數(shù)據(jù)包含房屋以及房屋周圍的詳細(xì)信息。其中包含城鎮(zhèn)犯罪率,一氧化氮濃度,住宅平均房間數(shù),到中心區(qū)域的加權(quán)距離以及自住房平均房價(jià)等。13個(gè)輸入變量分別是:CRIM:城鎮(zhèn)人均犯罪率。ZN:住宅用地超過25000sq.ft.的比例。INDUS:城鎮(zhèn)非零售商用土地的比例。CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。NOX:一氧化氮濃度。RM:住宅平均房間數(shù)。AGE:1940年之前建成的自用房屋比例。DIS:到波士頓五個(gè)中心區(qū)域的加權(quán)距離。RAD:輻射性公路的接近指數(shù)。TAX:每10000美元的全值財(cái)產(chǎn)稅率。PTRATIO:城鎮(zhèn)師生比例。B:1000(Bk-0.63)^2,其中Bk指代城鎮(zhèn)中黑人的比例。LSTAT:人口中地位低下者的比例。MEDV:自住房的平均房價(jià),以千美元計(jì)。導(dǎo)入數(shù)據(jù)fromsklearnimportdatasets

boston=datasets.load_boston()X=boston.datay=boston.targetprint(X.shape)print(y.shape)打印feature_name屬性,查看輸入特征名稱。print(boston.feature_names)將數(shù)據(jù)集轉(zhuǎn)換為DataFrame結(jié)構(gòu),通過head()方法查看前5個(gè)樣本數(shù)據(jù)。importpandasaspdX=pd.DataFrame(X,columns=boston.feature_names)y=pd.DataFrame(y,columns=['price'])boston_df=pd.concat([X,y],axis=1)#橫向拼接X,yprint(boston_df.head())輸出顯示X和y形狀分別為(506,13)和(506,)輸出:['CRIM''ZN''INDUS''CHAS''NOX''RM''AGE''DIS’'RAD''TAX''PTRATIO''B''LSTAT']

輸出前5條數(shù)據(jù)(行),每條數(shù)據(jù)13個(gè)特征和一個(gè)輸出(列)分析數(shù)據(jù)通過describe()方法對數(shù)據(jù)進(jìn)行大致分析,顯示每個(gè)特征樣本數(shù)、均值、均方差、最大最小值、四分位數(shù)。X.describe()計(jì)算每一個(gè)特征與輸出變量(price)的相關(guān)系數(shù)corr=boston_df.corr()['price']print(corr)CRIM-0.388305ZN0.360445INDUS-0.483725CHAS0.175260NOX-0.427321RM0.695360AGE-0.376955DIS0.249929RAD-0.381626TAX-0.468536PTRATIO-0.507787B0.333461LSTAT-0.737663price1.000000Name:price,dtype:float64

將相關(guān)系數(shù)大于0.5的特征畫圖顯示出來importmatplotlib.pyplotasplt

corr[abs(corr)>0.5].sort_values().plot.bar()plt.show()劃分?jǐn)?shù)據(jù)集+數(shù)據(jù)縮放將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。fromsklearn.model_selectionimporttrain_test_split

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0)fromsklearn.preprocessingimportStandardScaler

scaler=StandardScaler()X_train=scaler.fit_transform(X_train)X_test=scaler.fit_transform(X_test)y_train=scaler.fit_transform(y_train)y_test=scaler.fit_transform(y_test)將訓(xùn)練集和測試集數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。訓(xùn)練、預(yù)測、評估模型fromsklearn.linear_modelimportLinearRegression

lr=LinearRegression()lr.fit(X_train,y_train)通過predict()方法對測試數(shù)據(jù)進(jìn)行預(yù)測,并利用決定系數(shù)R2對模型進(jìn)行評估。訓(xùn)練模型fromsklearn.metricsimportr2_score,mean_squared_error,mean_absolute_error

y_predict=lr.predict(X_test)print('thevalueofR-squaredofLRis',r2_score(y_test,y_predict))評估結(jié)果為:thevalueofR-squaredofLRis0.6654717219960746

第三章線性回歸機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ)凌明勝常州信息職業(yè)技術(shù)學(xué)院第四章過擬合與欠擬合機(jī)器學(xué)習(xí)應(yīng)用基礎(chǔ)過擬合與欠擬合相關(guān)概念多項(xiàng)式擴(kuò)展多項(xiàng)式擬合示例:多項(xiàng)式擴(kuò)展解決欠擬合目錄CONTENTS流水線多項(xiàng)式產(chǎn)生過擬合正則化010203040506070809scikit-learn中Lasso回歸、嶺回歸和ElasticNet回歸實(shí)現(xiàn)波士頓房價(jià)預(yù)測——基于Lasso回歸、嶺回歸和ElasticNet回歸過擬合與欠擬合相關(guān)概念01過擬合過擬合(Overfitting),主要由于模型過于復(fù)雜,過分捕獲樣本數(shù)據(jù)的特征,從而將樣本數(shù)據(jù)中一些特殊特征當(dāng)成了共性特征。表現(xiàn)為模型在訓(xùn)練集上的效果非常好,但是在未知數(shù)據(jù)上的表現(xiàn)效果不好。二哈(訓(xùn)練集)金毛(測試集)狗狗識別二哈不是狗將二哈的所有特征當(dāng)成了狗的共性特征欠擬合二哈(訓(xùn)練集)狗狗識別不是二哈無法識別二哈欠擬合(under-fitting),主要是模型過于簡單,未能充分捕獲樣本數(shù)據(jù)的特征,不能夠很好地?cái)M合數(shù)據(jù),即模型對訓(xùn)練集的一般性質(zhì)學(xué)習(xí)表現(xiàn)的很差,表現(xiàn)為模型在訓(xùn)練集上的效果不好。過擬合、欠擬合區(qū)分模型處于過擬合還是欠擬合,可以通過畫出誤差趨勢圖來觀察。若模型在訓(xùn)練集與測試集上誤差均很大,則說明模型的偏差很大,此時(shí)需要想辦法處理欠擬合;若是訓(xùn)練誤差與測試誤差之間有個(gè)很大的差異,則說明模型的方差很大,這時(shí)需要想辦法處理過擬合。正弦曲線擬合示意圖產(chǎn)生欠擬合、過擬合的原因欠擬合出現(xiàn)原因模型復(fù)雜度過低;特征量過少。過擬合出現(xiàn)原因建模樣本選取有誤,如樣本數(shù)量太少,選樣方法錯(cuò)誤,樣本標(biāo)簽錯(cuò)誤等,導(dǎo)致選取的樣本數(shù)據(jù)不足以代表預(yù)定的分類規(guī)則;樣本噪音干擾過大,使得機(jī)器將部分噪音認(rèn)為是特征從而擾亂了預(yù)設(shè)的分類規(guī)則;假設(shè)的模型無法合理存在,或者說是假設(shè)成立的條件實(shí)際并不成立;參數(shù)太多,模型復(fù)雜度過。很多因素可能導(dǎo)致這兩種擬合問題,在這里我們重點(diǎn)討論兩個(gè)因素:模型復(fù)雜度和訓(xùn)練數(shù)據(jù)集的大小。解決欠擬合、過擬合的方法欠擬合解決方案增加新特征。可以考慮加入進(jìn)特征組合、高次特征,來增大假設(shè)空間。添加多項(xiàng)式特征,這個(gè)在機(jī)器學(xué)習(xí)算法里面用的很普遍,例如將線性模型通過添加二次項(xiàng)或者三次項(xiàng)使模型泛化能力更強(qiáng)。減少正則化參數(shù),正則化的目的是用來防止過擬合的,但是模型出現(xiàn)了欠擬合,則需要減少正則化參數(shù)使用非線性模型,比如核SVM

、決策樹、深度學(xué)習(xí)等模型。調(diào)整模型的容量(capacity),通俗地,模型的容量是指其擬合各種函數(shù)的能力。過擬合的解決方案正則化(Regularization)(L1和L2);數(shù)據(jù)擴(kuò)增,即增加訓(xùn)練數(shù)據(jù)樣本;降低模型的復(fù)雜度;減少迭代次數(shù);選擇簡單的模型。多項(xiàng)式擴(kuò)展02多項(xiàng)式擴(kuò)展現(xiàn)實(shí)中,數(shù)據(jù)未必總是線性(或接近線性)的。當(dāng)數(shù)據(jù)并非線性時(shí),直接使用LinearRegression的效果可能會較差,可能產(chǎn)生欠擬合。importnumpyasnpimportmatplotlibasmplimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLinearRegression

mpl.rcParams["font.family"]="SimHei"mpl.rcParams["axes.unicode_minus"]=False

x=np.linspace(0,10,50)y=x*np.sin(x)X=x[:,np.newaxis]lr=LinearRegression()lr.fit(X,y)print(lr.score(X,y))plt.scatter(x,y,c="g",label="樣本數(shù)據(jù)")plt.plot(X,lr.predict(X),"r-",label="擬合線")plt.legend()plt.show()

多項(xiàng)式擴(kuò)展多項(xiàng)式擴(kuò)展,可以認(rèn)為是對現(xiàn)有數(shù)據(jù)進(jìn)行的一種轉(zhuǎn)換,通過將數(shù)據(jù)映射到更高維度的空間中,該模型就可以擬合更廣泛的數(shù)據(jù)。

多項(xiàng)式擬合03多項(xiàng)式擬合

多項(xiàng)式轉(zhuǎn)換規(guī)則:我們可以使用sklearn中提供的PolynomialFeatures類來實(shí)現(xiàn)多項(xiàng)式擴(kuò)展。通過powers_屬性可以獲取擴(kuò)展之后每個(gè)輸入特征的指數(shù)矩陣。指數(shù)矩陣的形狀為[輸出特征數(shù),輸入特征數(shù)]。powers_[i,j]表示第i個(gè)輸出特征中,第j個(gè)輸入特征的指數(shù)值。多項(xiàng)式擬合

例如,如果輸入樣本的特征數(shù)為2,多項(xiàng)式擴(kuò)展階數(shù)為2,則指數(shù)矩陣為:

即:

多項(xiàng)式擬合

importnumpyasnpfromsklearn.preprocessingimportPolynomialFeaturesX=np.array([[1,2],[3,4]])#定義多項(xiàng)式擴(kuò)展類,參數(shù)為要擴(kuò)展的階數(shù)。poly=PolynomialFeatures(2)#擬合模型,計(jì)算指數(shù)矩陣power_的值。poly.fit(X)#對數(shù)據(jù)集X進(jìn)行多項(xiàng)式擴(kuò)展,即進(jìn)行多項(xiàng)式轉(zhuǎn)換。r=poly.transform(X)#擬合與轉(zhuǎn)換可以同時(shí)進(jìn)行,使用fit_transform方法。#r=poly.fit_transform(X)print("轉(zhuǎn)換之后的結(jié)果:")print(r)print("指數(shù)矩陣:")#指數(shù)矩陣,形狀為(輸出特征數(shù),輸入特征數(shù))。print(poly.powers_)print(f"輸入的特征數(shù)量:{poly.n_input_features_}")print(f"輸出的特征數(shù)量:{poly.n_output_features_}")#根據(jù)power_矩陣,自行計(jì)算轉(zhuǎn)換結(jié)果。#循環(huán)獲取X中的每一個(gè)樣本。forx1,x2inX:fore1,e2inpoly.powers_:print(x1**e1*x2**e2,end="\t")print()轉(zhuǎn)換之后的結(jié)果:[[1.1.2.1.2.4.]

[1.3.4.9.12.16.]]指數(shù)矩陣:[[00][10][01][20][11][02]]輸入的特征數(shù)量:2輸出的特征數(shù)量:611212413491216示例:多項(xiàng)式擴(kuò)展解決欠擬合04多項(xiàng)式擬合

importnumpyasnpimportmatplotlibasmplimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLinearRegressionfromsklearn.preprocessingimportPolynomialFeaturesmpl.rcParams["font.family"]="SimHei"mpl.rcParams["axes.unicode_minus"]=Falsex=np.linspace(0,10,50)y=x*np.sin(x)X=x[:,np.newaxis]figure,ax=plt.subplots(2,3)figure.set_size_inches(18,10)ax=ax.ravel()#n為要進(jìn)行多項(xiàng)式擴(kuò)展的階數(shù)。forninrange(1,7):poly=PolynomialFeatures(degree=n)X_transform=poly.fit_transform(X)lr=LinearRegression()#使用多項(xiàng)式擴(kuò)展之后的數(shù)據(jù)集來訓(xùn)練模型。lr.fit(X_transform,y)ax[n-1].set_title(f"{n}階,擬合度:{lr.score(X_transform,y):.3f}")ax[n-1].scatter(x,y,c="g",label="樣本數(shù)據(jù)")ax[n-1].plot(x,lr.predict(X_transform),"r-",label="擬合線")ax[n-1].legend()

流水線05流水線

問題:當(dāng)數(shù)據(jù)預(yù)處理步驟作較多時(shí),一一執(zhí)行會顯得過于繁瑣。流水線(Pipeline類):可以將每個(gè)評估器視為一個(gè)步驟,然后將多個(gè)步驟作為一個(gè)整體來依次執(zhí)行,這樣,我們就無需分別執(zhí)行每個(gè)步驟。流水線中的所有評估器(除了最后一個(gè)評估器外)都必須具有轉(zhuǎn)換功能(transform方法)。當(dāng)調(diào)用某個(gè)方法f時(shí),會首先對前n-1個(gè)(假設(shè)流水線具有n個(gè)評估器)評估器執(zhí)行transf

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論