大學(xué)計(jì)算機(jī)-計(jì)算思維與信息素養(yǎng) 課件 第14章 第19講-機(jī)器是怎樣學(xué)習(xí)的-樣本-訓(xùn)練與分類_第1頁
大學(xué)計(jì)算機(jī)-計(jì)算思維與信息素養(yǎng) 課件 第14章 第19講-機(jī)器是怎樣學(xué)習(xí)的-樣本-訓(xùn)練與分類_第2頁
大學(xué)計(jì)算機(jī)-計(jì)算思維與信息素養(yǎng) 課件 第14章 第19講-機(jī)器是怎樣學(xué)習(xí)的-樣本-訓(xùn)練與分類_第3頁
大學(xué)計(jì)算機(jī)-計(jì)算思維與信息素養(yǎng) 課件 第14章 第19講-機(jī)器是怎樣學(xué)習(xí)的-樣本-訓(xùn)練與分類_第4頁
大學(xué)計(jì)算機(jī)-計(jì)算思維與信息素養(yǎng) 課件 第14章 第19講-機(jī)器是怎樣學(xué)習(xí)的-樣本-訓(xùn)練與分類_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第19講機(jī)器是怎樣學(xué)習(xí)的?

—樣本-訓(xùn)練與分類【思考】AlphaGo戰(zhàn)勝人類圍棋世界冠軍為什么引發(fā)了人工智能的高關(guān)注度?AlphaGo使用了什么樣的創(chuàng)新技術(shù),這些技術(shù)對(duì)人工智能發(fā)展有什么意義?

從AlphaGo看人工智能AlphaGo是什么?AlphaGo是首個(gè)擊敗人類圍棋選手職業(yè)冠軍的計(jì)算機(jī)程序從AlphaGo看人工智能圍棋規(guī)則及行棋復(fù)雜性棋盤:19*19的平行線構(gòu)成,形成361個(gè)交叉點(diǎn),交叉點(diǎn)放置棋子。對(duì)局:雙方各執(zhí)一色棋子,輪流下子于交叉點(diǎn)。勝負(fù):圍住空間多的一方獲勝。復(fù)雜性:假如用1,2,…,361來表示每一個(gè)交叉點(diǎn)即棋子位置,則一盤棋局就是這些棋子位置的一種組合。而棋盤上所有可能位置組合(枚舉)多達(dá)10170(=3361):361個(gè)位置,每個(gè)位置黑子、白子、無子3種狀態(tài)),是一種非常復(fù)雜的游戲。圍棋可觀測(cè)宇宙的直徑達(dá)920億光年,包含不計(jì)其數(shù)的星系,估算出的原子總量也只有1080個(gè)從AlphaGo看人工智能圍棋的智能問題圍棋形勢(shì)判斷圍棋待行棋位置的決策輪黑方或白方下子時(shí),選擇哪一個(gè)交叉點(diǎn)落子才能取勝圍棋形勢(shì)的判斷行棋到某一狀態(tài)時(shí),對(duì)圍棋勝負(fù)局面的判斷機(jī)器是怎樣通過學(xué)習(xí)提高智能的?圍棋對(duì)弈與人工智能和機(jī)器學(xué)習(xí)有什么關(guān)系?人工智能機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)專家系統(tǒng)多智能體系統(tǒng)演化計(jì)算知識(shí)表示深度學(xué)習(xí)機(jī)器學(xué)習(xí)是一門從數(shù)據(jù)中研究算法的多領(lǐng)域交叉學(xué)科。機(jī)器學(xué)習(xí)研究計(jì)算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為機(jī)器學(xué)習(xí)從以往的經(jīng)驗(yàn)中得到數(shù)據(jù),通過學(xué)習(xí)構(gòu)建模型,預(yù)測(cè)新數(shù)據(jù),并提供對(duì)問題的決策支持典型方法:決策樹、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、關(guān)聯(lián)規(guī)則學(xué)習(xí)、深度學(xué)習(xí)等數(shù)據(jù)模型決策學(xué)習(xí)經(jīng)驗(yàn)機(jī)器學(xué)習(xí)與人工智能機(jī)器學(xué)習(xí)相關(guān)內(nèi)容概述機(jī)器是怎樣學(xué)習(xí)的?【示例】有100個(gè)病患,已知每個(gè)病患的兩個(gè)項(xiàng)目的檢查數(shù)據(jù),且每個(gè)病患的診斷結(jié)果(疾病類別1或疾病類別2)已知。問:如何根據(jù)這些數(shù)據(jù)反推出疾病診斷的標(biāo)準(zhǔn)并用于對(duì)未分類病患的疾病診斷?兩特征兩類別分類問題已知模型,對(duì)【數(shù)據(jù)】進(jìn)行分類

怎樣求出這條直線的方程呢?待求方程形式:其中<x(i),y(i)>為樣本點(diǎn),而為按方程計(jì)算的點(diǎn)已知樣本數(shù)據(jù)及其分類結(jié)果,反求模型:線性回歸(擬合)兩特征兩類別分類問題【線性回歸】枚舉w和b,使【損失函數(shù)】L值最小枚舉-計(jì)算-驗(yàn)證-優(yōu)化算法

算法:最小二乘法、梯度下降法(略)兩特征方程形式:多特征方程形式:兩特征vs.多特征兩類別分類問題多特征線性方程形式模型形式一定是線性的嗎?模型假設(shè)?---仍用直線分割(分類)?模型假設(shè)?---用曲線如何?理想很豐滿,現(xiàn)實(shí)很骨感--對(duì)于更復(fù)雜的數(shù)據(jù),如何求解?兩特征兩類別分類問題曲線擬合分類問題:線性分類vs.非線性分類數(shù)學(xué)是不是很有用呢?哪些函數(shù)形式能產(chǎn)生什么形式的曲線?兩特征兩類別分類問題曲線擬合存在的問題:【欠擬合】與【過擬合】

如何判斷邊界內(nèi)外邏輯回歸:將結(jié)果映射為0和1的函數(shù)

多類分類問題可以轉(zhuǎn)化為兩類分類問題進(jìn)行解決--例如將其中一個(gè)類視為正類、其它類統(tǒng)一視為負(fù)類ONE-VS-REST模式)推廣到多類問題,如何求解?問題:假設(shè)采用ONE-VS-REST模式,且共有N個(gè)類,則需要構(gòu)建多少個(gè)二類分類器?多類別分類問題多類別分類問題分類問題模型形式具有待確定參數(shù)w1,w2,…wn的關(guān)于x1,x2,…xn的一組方程組分類/識(shí)別(已知方程求分類結(jié)果)結(jié)果S屬于哪一類別的判斷已明確分類結(jié)果(標(biāo)簽)的樣本數(shù)據(jù)集合{Si,<標(biāo)簽>}其中每個(gè)Si都有n個(gè)特征值Si:(x1,x2,…xn)

訓(xùn)練/學(xué)習(xí)已知分類結(jié)果,反求方程參數(shù)w1,w2,…wn模型具有明確參數(shù)的w1,w2,…wn的一組方程組待分類的數(shù)據(jù)S:(x1,x2,…xn)

已標(biāo)注標(biāo)簽的樣本數(shù)據(jù)集合{Si,<標(biāo)簽>},其中每個(gè)Si都有n個(gè)特征值Si:(x1,x2,…xn)

調(diào)試/開發(fā)(調(diào)優(yōu):改變學(xué)習(xí)過程的一些參數(shù),如迭代次數(shù)、收斂程度等)什么是機(jī)器學(xué)習(xí)基本概念與過程監(jiān)督學(xué)習(xí)是用已知類別【標(biāo)簽】的樣本來學(xué)習(xí)模型參數(shù)分類:對(duì)離散數(shù)據(jù),尋找決策邊界(屬于哪一類)回歸:對(duì)連續(xù)數(shù)據(jù),尋找最優(yōu)擬合無監(jiān)督學(xué)習(xí)是用未知類別【標(biāo)簽】的樣本來學(xué)習(xí)模型參數(shù)聚類:一組數(shù)據(jù)究竟應(yīng)該分為幾類什么是機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)是綜合使用大量的未標(biāo)記數(shù)據(jù),以及小部分標(biāo)記數(shù)據(jù)來進(jìn)行學(xué)習(xí)遷移學(xué)習(xí)是把為任務(wù)A開發(fā)的模型重新應(yīng)用在為任務(wù)B開發(fā)模型的過程中

強(qiáng)化學(xué)習(xí)是通過智能體與環(huán)境的交互學(xué)習(xí)策略以實(shí)現(xiàn)回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)時(shí)序信息,在決定合適的行動(dòng)時(shí),需要考慮后續(xù)步驟延后給出的獎(jiǎng)勵(lì)值(如下棋最終的勝負(fù))什么是機(jī)器學(xué)習(xí)其他類型的學(xué)習(xí)AlphaGo是怎樣學(xué)習(xí)的?再從機(jī)器學(xué)習(xí)看AlphaGo圍棋的機(jī)器內(nèi)表示方法0000000000000000000000000000000001000000000000000000001000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001000001000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000000100000100000000000000000000000000000000000000000000000多個(gè)19*19的矩陣表示當(dāng)前第N-k步到第N步的黑棋棋譜或白棋棋譜N個(gè)圍棋19*19二值矩陣表示白棋棋譜:0無;1白棋19*19二值矩陣表示黑棋棋譜:0無;1黑棋再從機(jī)器學(xué)習(xí)看AlphaGo圍棋規(guī)則及行棋復(fù)雜性圍棋形勢(shì)判斷圍棋形勢(shì)的判斷所圍空間形狀擬合—計(jì)算所圍空間大小---較難將所圍空間形狀擬合問題轉(zhuǎn)變?yōu)閳D像匹配問題,找到包含該局面的所有對(duì)局,然后由已知輸贏結(jié)果的對(duì)局來判斷圍棋形勢(shì)圍棋待行棋位置的決策(選擇下在哪一個(gè)交叉點(diǎn)的決策)圍棋未來N步可能行棋后的形勢(shì)判斷(用于輔助即將行棋位置的決策,即所謂“走一步前看N步”)蒙特卡羅樹搜索算法由已知輸贏結(jié)果的對(duì)局訓(xùn)練算法AlphaGo首先利用了人類職業(yè)六段以上選手已知輸贏結(jié)果的16萬局對(duì)局來訓(xùn)練機(jī)器在不同狀態(tài)下的最優(yōu)位置選擇能力AlphaGoZero使用兩個(gè)機(jī)器相互對(duì)局來訓(xùn)練最優(yōu)位置選擇能力白方勝1盤歷史對(duì)局白方負(fù)n盤歷史對(duì)局在n盤對(duì)局中出現(xiàn)m盤,其中k盤勝,m-k盤負(fù)簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索算法思想基于當(dāng)前狀態(tài),選擇出評(píng)估值最優(yōu)的節(jié)點(diǎn),準(zhǔn)備擴(kuò)展將前步選擇出的節(jié)點(diǎn)展開其子樹節(jié)點(diǎn)對(duì)每個(gè)子樹的葉節(jié)點(diǎn),模擬直到已知?jiǎng)儇?fù),從而算出評(píng)估值作為該葉節(jié)點(diǎn)的評(píng)估值。將該子樹葉節(jié)點(diǎn)的評(píng)估值反向傳播,修改其父節(jié)點(diǎn)的評(píng)估值,直到根節(jié)點(diǎn)。【節(jié)點(diǎn)示例

】評(píng)估值=勝局?jǐn)?shù)/總對(duì)局?jǐn)?shù)(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)111xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over111xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over0/111xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0/10/10(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over(3,2)(3,3)(2,3)2/201xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0/10/10/102/22/2(4,3)1(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over(3,2)(3,3)(2,3)2/21xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0/10/10/102/22/2(4,3)1(4,1)over(4,2)00/10/10/1(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over(3,2)(3,3)(2,3)2/21xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0/10/10/102/22/2(4,3)1(4,1)over(4,2)00/10/10/1(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over(3,2)(3,3)(2,3)2/21xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0/10/10/102/22/2(4,3)1(4,1)over(4,2)00/10/10/1(2,4)(1,4)over0/100/1(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over(3,2)(3,3)(2,3)2/30/1xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0/10/10/102/32/3(4,3)1(4,1)over(4,2)00/10/10/1(2,4)(1,4)over0/100/1(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over(3,2)(3,3)(2,3)3/41/2xy12341234簡單了解蒙特卡洛樹搜索算法蒙特卡洛樹搜索示例【機(jī)器人路徑規(guī)劃問題求解】0/10/10/103/43/4(4,3)1(4,1)over(4,2)00/10/10/1(2,4)(1,4)over1/200/1(3,4)arrive11/1(2,1)A/B

A成功次數(shù)B模擬總次數(shù)(1,1)(2,2)(3,1)(1,2)(1,3)over(3,2)(3,3)(2,3)3/51/2xy123412

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論