機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)課件_第1頁(yè)
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)課件_第2頁(yè)
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)課件_第3頁(yè)
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)課件_第4頁(yè)
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)課件_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

MachineLearning制作者:黃皓璇 陳韜2015年5月7日MachineLearning制作者:黃皓璇2015年5月目錄1234機(jī)器學(xué)習(xí)常見(jiàn)算法集成方法遷移學(xué)習(xí)2目錄1234機(jī)器學(xué)習(xí)常見(jiàn)算法集成方法遷移學(xué)習(xí)21.機(jī)器學(xué)習(xí)1.1概念簡(jiǎn)介機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。機(jī)器學(xué)習(xí)算法是一類(lèi)從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法。由于機(jī)器學(xué)習(xí)是人工智能的一個(gè)核心領(lǐng)域,所以也有如下定義:“機(jī)器學(xué)習(xí)是一門(mén)人工智能的科學(xué),該領(lǐng)域的主要研究對(duì)象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能。31.機(jī)器學(xué)習(xí)1.1概念簡(jiǎn)介31.機(jī)器學(xué)習(xí)1.2分類(lèi)(1)監(jiān)督學(xué)習(xí):從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù),當(dāng)新的數(shù)據(jù)到來(lái)時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出,也可以說(shuō)是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。常見(jiàn)的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類(lèi)。(2)無(wú)監(jiān)督學(xué)習(xí):與監(jiān)督學(xué)習(xí)相比,訓(xùn)練集沒(méi)有人為標(biāo)注的結(jié)果。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法為聚類(lèi)。(3)半監(jiān)督學(xué)習(xí):介于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間,如遷移學(xué)習(xí)。(4)增強(qiáng)學(xué)習(xí):通過(guò)觀察來(lái)學(xué)習(xí)做成如何的動(dòng)作。每個(gè)動(dòng)作都會(huì)對(duì)環(huán)境有所影響,學(xué)習(xí)對(duì)象根據(jù)觀察到的周?chē)h(huán)境的反饋來(lái)做出判斷。41.機(jī)器學(xué)習(xí)1.2分類(lèi)(1)監(jiān)督學(xué)習(xí):從給定的訓(xùn)練數(shù)據(jù)集中2.常見(jiàn)算法2.1簡(jiǎn)介分類(lèi)算法:最近鄰居法、樸素貝葉斯、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。聚類(lèi)算法:K均值、DBSCAN算法、EM算法、模糊C均值、SOM(自組織映射)等。52.常見(jiàn)算法2.1簡(jiǎn)介52.常見(jiàn)算法2.2決策樹(shù)(C4.5)62.常見(jiàn)算法2.2決策樹(shù)(C4.5)62.常見(jiàn)算法2.2決策樹(shù)(C4.5)相親決策樹(shù):72.常見(jiàn)算法2.2決策樹(shù)(C4.5)相親決策樹(shù):72.常見(jiàn)算法2.3支持向量機(jī)(SVM)82.常見(jiàn)算法2.3支持向量機(jī)(SVM)82.常見(jiàn)算法2.3支持向量機(jī)(SVM)92.常見(jiàn)算法2.3支持向量機(jī)(SVM)93.集成方法3.1概念簡(jiǎn)介集成方法(ensemble)是機(jī)器學(xué)習(xí)領(lǐng)域中用來(lái)提升分類(lèi)算法準(zhǔn)確率的技術(shù),主要包括Bagging和Boosting即裝袋和提升。前面介紹的決策樹(shù)、樸素貝葉斯等均屬于弱分類(lèi)器,通過(guò)集成方法可以將不同的弱分類(lèi)器組合起來(lái),構(gòu)造強(qiáng)分類(lèi)器。比較有代表性的集成方法有:AdaBoost、隨機(jī)森林(RandomForest)等。103.集成方法3.1概念簡(jiǎn)介103.集成方法3.2AdaBoost算法(1)在沒(méi)有先驗(yàn)知識(shí)的情況下,初始的分布為等概分布,也就是訓(xùn)練集如果有n個(gè)樣本,每個(gè)樣本的分布概率為1/n,并設(shè)置迭代次數(shù)m。(2)每次訓(xùn)練后得到一個(gè)基分類(lèi)器,并根據(jù)準(zhǔn)確率計(jì)算其權(quán)值。接著提高錯(cuò)誤樣本的分布概率,即讓分類(lèi)錯(cuò)誤的樣本在訓(xùn)練集中的權(quán)重增大,分類(lèi)正確的樣本權(quán)重減小,使得下一次訓(xùn)練的基分類(lèi)器能集中力量對(duì)這些錯(cuò)誤樣本進(jìn)行判斷。(3)最后通過(guò)級(jí)聯(lián)m個(gè)基分類(lèi)器形成一個(gè)強(qiáng)分類(lèi)器。113.集成方法3.2AdaBoost算法(1)在沒(méi)有先驗(yàn)知識(shí)4.遷移學(xué)習(xí)在傳統(tǒng)分類(lèi)學(xué)習(xí)中,為了保證訓(xùn)練得到的分類(lèi)模型具有準(zhǔn)確性和高可靠性,都有兩個(gè)基本的假設(shè):(1)用于學(xué)習(xí)的訓(xùn)練樣本與新的測(cè)試樣本滿(mǎn)足獨(dú)立同分布的條件;(2)必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)好的分類(lèi)模型。

但是,在實(shí)際應(yīng)用中我們發(fā)現(xiàn),這兩個(gè)條件往往無(wú)法滿(mǎn)足。于是乎,遷移學(xué)習(xí)應(yīng)運(yùn)而生。遷移學(xué)習(xí),是一種運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域的問(wèn)題進(jìn)行求解的新的機(jī)器學(xué)習(xí)方法。4.1概念簡(jiǎn)介124.遷移學(xué)習(xí)4.1概念簡(jiǎn)介124.遷移學(xué)習(xí)針對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域樣本是否標(biāo)注以及任務(wù)是否相同,可以把遷移學(xué)習(xí)劃分為:1、歸納遷移學(xué)習(xí)2、直推式遷移學(xué)習(xí)3、無(wú)監(jiān)督遷移學(xué)習(xí)而按照遷移學(xué)習(xí)方法采用的技術(shù)劃分,又可以把遷移學(xué)習(xí)方法大體上分為:1、基于特征選擇的遷移學(xué)習(xí)算法研究2、基于特征映射的遷移學(xué)習(xí)算法研究3、基于權(quán)重的遷移學(xué)習(xí)算法研究4.2分類(lèi)134.遷移學(xué)習(xí)4.2分類(lèi)134.遷移學(xué)習(xí)TrAdaBoost算法的目標(biāo)就是從輔助的源數(shù)據(jù)中找出那些適合測(cè)試數(shù)據(jù)的實(shí)例,并把這些適合的實(shí)例遷移到目標(biāo)領(lǐng)域中少量有標(biāo)簽樣本的學(xué)習(xí)中去。該算法的關(guān)鍵思想是利用Boosting技術(shù)過(guò)濾掉源領(lǐng)域數(shù)據(jù)中那些與目標(biāo)領(lǐng)域中少量有標(biāo)簽樣本最不像的樣本數(shù)據(jù)。在TrAdaBoost算法中,AdaBoost被用于在目標(biāo)領(lǐng)域里少量有標(biāo)簽的樣本中,以保證分類(lèi)模型在目標(biāo)領(lǐng)域數(shù)據(jù)上的準(zhǔn)確性;而Hedge()被用在源領(lǐng)域數(shù)據(jù)上,用于自動(dòng)調(diào)節(jié)源領(lǐng)域數(shù)據(jù)的重要度。4.3TrAdaBoost算法144.遷移學(xué)習(xí)4.3TrAdaBoost算法144.遷移學(xué)習(xí)4.3TrAdaBoost算法機(jī)制訓(xùn)練數(shù)據(jù)源訓(xùn)練數(shù)據(jù)輔助訓(xùn)練數(shù)據(jù)基本分類(lèi)器AdaBoostHedge()154.遷移學(xué)習(xí)4.3TrAdaBoost算法機(jī)制訓(xùn)練數(shù)據(jù)源訓(xùn)4.遷移學(xué)習(xí)4.4TrAdaBoost算法示意圖164.遷移學(xué)習(xí)4.4TrAdaBoost算法示意圖164.遷移學(xué)習(xí)4.5TrAdaBoost算法描述輸入:兩個(gè)訓(xùn)練數(shù)據(jù)集和(訓(xùn)練數(shù)據(jù)集),一個(gè)基本分類(lèi)算法以及迭代次數(shù)N。初始化:1.初始化權(quán)重向量,各個(gè)元素均為1。For1.設(shè)置滿(mǎn)足:

2.調(diào)用基本分類(lèi)器,根據(jù)合并后的訓(xùn)練數(shù)據(jù)以及上的權(quán)重分布,得到一個(gè)分類(lèi)器。3.計(jì)算在上的錯(cuò)誤率:174.遷移學(xué)習(xí)4.5TrAdaBoost算法描述輸入:兩個(gè)訓(xùn)4.遷移學(xué)習(xí)4.5TrAdaBoost算法描述4.令和

5.按如下公式更新權(quán)重向量:輸出:最終分類(lèi)器184.遷移學(xué)習(xí)4.5TrAdaBoost算法描述18謝謝聆聽(tīng)·192022/11/23謝謝聆聽(tīng)·192022/11/22MachineLearning制作者:黃皓璇 陳韜2015年5月7日MachineLearning制作者:黃皓璇2015年5月目錄1234機(jī)器學(xué)習(xí)常見(jiàn)算法集成方法遷移學(xué)習(xí)21目錄1234機(jī)器學(xué)習(xí)常見(jiàn)算法集成方法遷移學(xué)習(xí)21.機(jī)器學(xué)習(xí)1.1概念簡(jiǎn)介機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。機(jī)器學(xué)習(xí)算法是一類(lèi)從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法。由于機(jī)器學(xué)習(xí)是人工智能的一個(gè)核心領(lǐng)域,所以也有如下定義:“機(jī)器學(xué)習(xí)是一門(mén)人工智能的科學(xué),該領(lǐng)域的主要研究對(duì)象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能。221.機(jī)器學(xué)習(xí)1.1概念簡(jiǎn)介31.機(jī)器學(xué)習(xí)1.2分類(lèi)(1)監(jiān)督學(xué)習(xí):從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù),當(dāng)新的數(shù)據(jù)到來(lái)時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出,也可以說(shuō)是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。常見(jiàn)的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計(jì)分類(lèi)。(2)無(wú)監(jiān)督學(xué)習(xí):與監(jiān)督學(xué)習(xí)相比,訓(xùn)練集沒(méi)有人為標(biāo)注的結(jié)果。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法為聚類(lèi)。(3)半監(jiān)督學(xué)習(xí):介于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間,如遷移學(xué)習(xí)。(4)增強(qiáng)學(xué)習(xí):通過(guò)觀察來(lái)學(xué)習(xí)做成如何的動(dòng)作。每個(gè)動(dòng)作都會(huì)對(duì)環(huán)境有所影響,學(xué)習(xí)對(duì)象根據(jù)觀察到的周?chē)h(huán)境的反饋來(lái)做出判斷。231.機(jī)器學(xué)習(xí)1.2分類(lèi)(1)監(jiān)督學(xué)習(xí):從給定的訓(xùn)練數(shù)據(jù)集中2.常見(jiàn)算法2.1簡(jiǎn)介分類(lèi)算法:最近鄰居法、樸素貝葉斯、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。聚類(lèi)算法:K均值、DBSCAN算法、EM算法、模糊C均值、SOM(自組織映射)等。242.常見(jiàn)算法2.1簡(jiǎn)介52.常見(jiàn)算法2.2決策樹(shù)(C4.5)252.常見(jiàn)算法2.2決策樹(shù)(C4.5)62.常見(jiàn)算法2.2決策樹(shù)(C4.5)相親決策樹(shù):262.常見(jiàn)算法2.2決策樹(shù)(C4.5)相親決策樹(shù):72.常見(jiàn)算法2.3支持向量機(jī)(SVM)272.常見(jiàn)算法2.3支持向量機(jī)(SVM)82.常見(jiàn)算法2.3支持向量機(jī)(SVM)282.常見(jiàn)算法2.3支持向量機(jī)(SVM)93.集成方法3.1概念簡(jiǎn)介集成方法(ensemble)是機(jī)器學(xué)習(xí)領(lǐng)域中用來(lái)提升分類(lèi)算法準(zhǔn)確率的技術(shù),主要包括Bagging和Boosting即裝袋和提升。前面介紹的決策樹(shù)、樸素貝葉斯等均屬于弱分類(lèi)器,通過(guò)集成方法可以將不同的弱分類(lèi)器組合起來(lái),構(gòu)造強(qiáng)分類(lèi)器。比較有代表性的集成方法有:AdaBoost、隨機(jī)森林(RandomForest)等。293.集成方法3.1概念簡(jiǎn)介103.集成方法3.2AdaBoost算法(1)在沒(méi)有先驗(yàn)知識(shí)的情況下,初始的分布為等概分布,也就是訓(xùn)練集如果有n個(gè)樣本,每個(gè)樣本的分布概率為1/n,并設(shè)置迭代次數(shù)m。(2)每次訓(xùn)練后得到一個(gè)基分類(lèi)器,并根據(jù)準(zhǔn)確率計(jì)算其權(quán)值。接著提高錯(cuò)誤樣本的分布概率,即讓分類(lèi)錯(cuò)誤的樣本在訓(xùn)練集中的權(quán)重增大,分類(lèi)正確的樣本權(quán)重減小,使得下一次訓(xùn)練的基分類(lèi)器能集中力量對(duì)這些錯(cuò)誤樣本進(jìn)行判斷。(3)最后通過(guò)級(jí)聯(lián)m個(gè)基分類(lèi)器形成一個(gè)強(qiáng)分類(lèi)器。303.集成方法3.2AdaBoost算法(1)在沒(méi)有先驗(yàn)知識(shí)4.遷移學(xué)習(xí)在傳統(tǒng)分類(lèi)學(xué)習(xí)中,為了保證訓(xùn)練得到的分類(lèi)模型具有準(zhǔn)確性和高可靠性,都有兩個(gè)基本的假設(shè):(1)用于學(xué)習(xí)的訓(xùn)練樣本與新的測(cè)試樣本滿(mǎn)足獨(dú)立同分布的條件;(2)必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)好的分類(lèi)模型。

但是,在實(shí)際應(yīng)用中我們發(fā)現(xiàn),這兩個(gè)條件往往無(wú)法滿(mǎn)足。于是乎,遷移學(xué)習(xí)應(yīng)運(yùn)而生。遷移學(xué)習(xí),是一種運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域的問(wèn)題進(jìn)行求解的新的機(jī)器學(xué)習(xí)方法。4.1概念簡(jiǎn)介314.遷移學(xué)習(xí)4.1概念簡(jiǎn)介124.遷移學(xué)習(xí)針對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域樣本是否標(biāo)注以及任務(wù)是否相同,可以把遷移學(xué)習(xí)劃分為:1、歸納遷移學(xué)習(xí)2、直推式遷移學(xué)習(xí)3、無(wú)監(jiān)督遷移學(xué)習(xí)而按照遷移學(xué)習(xí)方法采用的技術(shù)劃分,又可以把遷移學(xué)習(xí)方法大體上分為:1、基于特征選擇的遷移學(xué)習(xí)算法研究2、基于特征映射的遷移學(xué)習(xí)算法研究3、基于權(quán)重的遷移學(xué)習(xí)算法研究4.2分類(lèi)324.遷移學(xué)習(xí)4.2分類(lèi)134.遷移學(xué)習(xí)TrAdaBoost算法的目標(biāo)就是從輔助的源數(shù)據(jù)中找出那些適合測(cè)試數(shù)據(jù)的實(shí)例,并把這些適合的實(shí)例遷移到目標(biāo)領(lǐng)域中少量有標(biāo)簽樣本的學(xué)習(xí)中去。該算法的關(guān)鍵思想是利用Boosting技術(shù)過(guò)濾掉源領(lǐng)域數(shù)據(jù)中那些與目標(biāo)領(lǐng)域中少量有標(biāo)簽樣本最不像的樣本數(shù)據(jù)。在TrAdaBoost算法中,AdaBoost被用于在目標(biāo)領(lǐng)域里少量有標(biāo)簽的樣本中,以保證分類(lèi)模型在目標(biāo)領(lǐng)域數(shù)據(jù)上的準(zhǔn)確性;而Hedge()被用在源領(lǐng)域數(shù)據(jù)上,用于自動(dòng)調(diào)節(jié)源領(lǐng)域數(shù)據(jù)的重要度。4.3TrAdaBoost算法334.遷移學(xué)習(xí)4.3TrAdaBoost算法144.遷移學(xué)習(xí)4.3TrAdaBoost算法機(jī)制訓(xùn)練數(shù)據(jù)源訓(xùn)練數(shù)據(jù)輔助訓(xùn)練數(shù)據(jù)基本分類(lèi)器AdaBoostHedge()344.遷移學(xué)習(xí)4.3TrAdaBoost算法機(jī)制訓(xùn)練數(shù)據(jù)源訓(xùn)4.遷移學(xué)習(xí)4.4TrAdaBoost算法示意圖354.遷移學(xué)習(xí)4.4TrAdaBoost算法示意圖164.遷移學(xué)習(xí)4.5TrAdaBoost算法描述輸入:兩個(gè)訓(xùn)練數(shù)據(jù)集和(訓(xùn)練數(shù)據(jù)集),一個(gè)基本分類(lèi)算法以及迭代次數(shù)N。初始化:1.初始化權(quán)重向量,各個(gè)元素均為1。For1.設(shè)置滿(mǎn)足:

2.調(diào)用基本分類(lèi)器,根據(jù)合并后的訓(xùn)練數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論