《機器學(xué)習(xí)》課件-第6章 強化學(xué)習(xí)_第1頁
《機器學(xué)習(xí)》課件-第6章 強化學(xué)習(xí)_第2頁
《機器學(xué)習(xí)》課件-第6章 強化學(xué)習(xí)_第3頁
《機器學(xué)習(xí)》課件-第6章 強化學(xué)習(xí)_第4頁
《機器學(xué)習(xí)》課件-第6章 強化學(xué)習(xí)_第5頁
已閱讀5頁,還剩129頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

2025/9/13計算機應(yīng)用技術(shù)研究所11機器學(xué)習(xí)MachineLearning2025/9/13計算機應(yīng)用技術(shù)研究所2第6章強化學(xué)習(xí)

2025/9/13

基本強化學(xué)習(xí)2

示例強化學(xué)習(xí)3

強化學(xué)習(xí)概述14

本章學(xué)習(xí)內(nèi)容2025/9/13計算機應(yīng)用技術(shù)研究所4強化學(xué)習(xí)概述2025/9/13計算機應(yīng)用技術(shù)研究所5強化學(xué)習(xí)概述

強化學(xué)習(xí)基本知識馬爾科夫模型強化學(xué)習(xí)計算方式強化學(xué)習(xí)概述

強化學(xué)習(xí)主要通過不斷獲取外部環(huán)境反饋信息的方式實現(xiàn)對連續(xù)多步自動決策問題的優(yōu)化求解,所要解決的問題形式和所涉及的基本概念與前述監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方式都有著較大差異。

強化學(xué)習(xí)的具體過程主要是智能體與其外部環(huán)境之間進行不斷地動態(tài)交互過程,通常采用馬爾可夫模型表示這種動態(tài)交互過程并通過策略迭代、值迭代和策略搜索等方式進行優(yōu)化計算,獲得最優(yōu)的連續(xù)性多步?jīng)Q策。72025/9/13強化學(xué)習(xí)引入

序貫決策過程是在游戲博弈或?qū)牡葢?yīng)用場合完成任務(wù)時需要連續(xù)進行多步?jīng)Q策的過程;

序貫決策問題是如何讓計算機像人類一樣能夠自動進行合理的序貫決策。

強化學(xué)習(xí)的目標(biāo)是通過機器學(xué)習(xí)方式有效解決序貫決策問題,或者說通過機器學(xué)習(xí)方式實現(xiàn)對連續(xù)多步自動決策問題的優(yōu)化求解。82025/9/13強化學(xué)習(xí)特點

區(qū)別于監(jiān)督學(xué)習(xí)以明確的樣本標(biāo)簽作為經(jīng)驗數(shù)據(jù)或先驗知識直接告訴模型該如何完成指定任務(wù),強化學(xué)習(xí)主要通過學(xué)習(xí)先驗知識尋找最優(yōu)決策過程。

強化學(xué)習(xí)使用的經(jīng)驗數(shù)據(jù)或先驗知識則較為模糊,通常是由智能體所處環(huán)境提供的某種反饋信息。

92025/9/13強化學(xué)習(xí)構(gòu)成

如上圖所示:強化學(xué)習(xí)系統(tǒng)主要包括智能體、動作、系統(tǒng)環(huán)境

、狀態(tài)、獎勵或反饋這五個基本要素。

102025/9/13強化學(xué)習(xí)構(gòu)成

智能體是行為的執(zhí)行者,在實際應(yīng)用中可能是一個游戲玩家、一個棋手或一輛自動駕駛的汽車等;

動作是智能體發(fā)出的行為,例如在自動駕駛?cè)蝿?wù)中汽車向右轉(zhuǎn)彎便是一個動作;

系統(tǒng)環(huán)境是智能體所處的外部環(huán)境,也是智能體的交互對象,例如在自動駕駛?cè)蝿?wù)中系統(tǒng)環(huán)境便是實際的交通環(huán)境。

112025/9/13強化學(xué)習(xí)構(gòu)成

狀態(tài)是智能體當(dāng)前所處的可觀察狀態(tài),如自動駕駛?cè)蝿?wù)中的汽車速度、汽車與路邊的距離等。

獎勵或反饋是系統(tǒng)環(huán)境能夠?qū)χ悄荏w的行為做出的某種合理評價。例如可將汽車自動駕駛的安全行駛里程數(shù)作為反饋信息。

強化學(xué)習(xí)的目標(biāo)是使得智能體的動作滿足某一任務(wù)需求,例如希望自動駕駛汽車能夠通過一系列自動操作安全駕駛到目的地。122025/9/13強化學(xué)習(xí)模型

通過能否建立環(huán)境模型,將強化學(xué)習(xí)劃分為兩種:有模型強化學(xué)習(xí)和無模型強化學(xué)習(xí)。

有模型強化學(xué)習(xí):強化學(xué)習(xí)通過建立環(huán)境模型來對智能體和系統(tǒng)環(huán)境進行模擬,并且系統(tǒng)環(huán)境滿足已知且有限。

132025/9/13強化學(xué)習(xí)模型

系統(tǒng)環(huán)境有限指的是動作集合,獎勵集合,狀態(tài)集合為有限集。

系統(tǒng)環(huán)境已知指的是在智能體選擇某一動作時環(huán)境給予的獎勵值為已知,并且在動作執(zhí)行后環(huán)境的狀態(tài)改變?yōu)橐阎?/p>

不能或難以建立環(huán)境模型的強化學(xué)習(xí)稱為無模型強化學(xué)習(xí)。142025/9/13值函數(shù)引入

值函數(shù)描述了從當(dāng)前動作開始到將來的某一個動作執(zhí)行完畢為止所獲累計獎勵值,故值函數(shù)是對多次連續(xù)動作滿意度的度量。

由于強化學(xué)習(xí)的目的是使得智能體一系列的動作滿足任務(wù)需求,故通常將值函數(shù)作為強化學(xué)習(xí)優(yōu)化計算的目標(biāo)函數(shù)。152025/9/13面臨的挑戰(zhàn)

強化學(xué)習(xí)的目的是使得智能體一系列的動作滿足任務(wù)需求,能夠綜合考慮一段時間內(nèi)智能體的相關(guān)動作是否能得到最優(yōu)的回報,根據(jù)累計回報確定最優(yōu)策略。然而,強化學(xué)習(xí)在解決序貫決策問題也面臨著如下挑戰(zhàn):

(1)收斂速度慢

(2)探索未知和利用已知的平衡

(3)時間權(quán)重分配162025/9/13收斂速度慢

收斂速度慢與維數(shù)災(zāi)難問題有著密切的關(guān)系。多數(shù)強化學(xué)習(xí)算法收斂到最優(yōu)解的理論保障都是建立在任意狀態(tài)都能被無限次訪問到這個前提條件之上。

當(dāng)問題環(huán)境比較復(fù)雜或出現(xiàn)維數(shù)災(zāi)難問題時,智能體的探索策略不能保證每個狀態(tài)都能在有限的時間內(nèi)被訪問足夠多的次數(shù),因而智能體沒有足夠經(jīng)驗?zāi)軌蛟谶@些較少遇到的狀態(tài)下做出正確決策,導(dǎo)致算法的收斂速度較慢。172025/9/13探索平衡

強化學(xué)習(xí)會經(jīng)常面臨利用已經(jīng)學(xué)到知識還是對未知知識進行探索的平衡難題。產(chǎn)生這個問題的根源在于難以權(quán)衡長期利益和短期利益。

一方面為了獲得較高的獎賞,智能體需要利用學(xué)到的經(jīng)驗在已經(jīng)探索過的動作中貪心地選擇一個獲益最大的動作;

另一方面,為了發(fā)現(xiàn)更好的策略,智能體需要擴大探索范圍,嘗試以前沒有或較少試過的動作。若不能權(quán)衡好兩者的關(guān)系,智能體就處于進退兩難境地。182025/9/13時間權(quán)重分配

由于強化學(xué)習(xí)具有回報延遲的特點,即環(huán)境反饋給智能體的信息比較稀疏且有一定延時,故當(dāng)智能體收到一個獎賞信號時,決定先前的哪些行為應(yīng)分配到多大權(quán)重有時比較困難。

例如,某籃球隊若在比賽最后一刻壓哨絕殺獲得比賽勝利,則難以量化計算之前的每個決策對于這個勝利結(jié)果究竟做出多少貢獻。2025/9/13計算機應(yīng)用技術(shù)研究所19強化學(xué)習(xí)概述強化學(xué)習(xí)基本知識馬爾科夫模型強化學(xué)習(xí)計算方式馬爾科夫鏈

馬爾科夫過程

對于給定的有限狀態(tài)集合和狀態(tài)轉(zhuǎn)移概率分布,從某一個狀態(tài)出發(fā)所能獲得的馬爾可夫鏈可能不只一條。

為表示所有可能存在的馬爾可夫鏈狀態(tài)轉(zhuǎn)移過程,通常使用馬爾可夫過程定量表示這種由多個馬爾可夫鏈并發(fā)形成的狀態(tài)轉(zhuǎn)移過程。

馬爾科夫過程

馬爾科夫過程

馬爾科夫決策過程

馬爾科夫決策過程

上圖表示一個狀態(tài)空間規(guī)模為4的馬爾科夫決策過程強化學(xué)習(xí)狀態(tài)轉(zhuǎn)移

確定轉(zhuǎn)移

隨機轉(zhuǎn)移

累計反饋

累計反饋

累計反饋

累計反饋

強化學(xué)習(xí)中確定累計反饋的基本流程圖

累計反饋

強化學(xué)習(xí)策略

在某個狀態(tài)下選擇某個或某些動作的方式被稱為強化學(xué)習(xí)的策略。

其中選擇某個或某些確定動作的策略稱為確定策略,從多個可能動作中依概率選擇某個或某些動作的策略稱

為隨機策略。

確定策略

隨機策略

累計反饋期望

累計反饋期望

累計反饋期望

動作值函數(shù)

動作值函數(shù)

動作值函數(shù)

最優(yōu)值函數(shù)

最優(yōu)值函數(shù)

例題

【例】如下圖a所示棋盤,智能體從左下角的“開始”位置出發(fā),到達“終點”位置則任務(wù)結(jié)束。智能體到達終點時給予反饋值100,其他動作給予的反饋值為0,折扣因子為0.9。若采用如圖b所示的策略選擇動作,試求智能體位于“開始”位置時的狀態(tài)值函數(shù)和動作值函數(shù)取值。

例題

圖a

圖b

例題

例題

2025/9/13計算機應(yīng)用技術(shù)研究所49強化學(xué)習(xí)概述

強化學(xué)習(xí)基本知識馬爾可夫模型強化學(xué)習(xí)計算方式強化學(xué)習(xí)計算方式

有模型強化學(xué)習(xí)

有模型強化學(xué)習(xí)

無模型強化學(xué)習(xí)

分層方法

狀態(tài)空間分解又稱為任務(wù)分解,是指通過分治法將整個狀態(tài)空間分解成為多個子空間,再分別實現(xiàn)對各個子空間上問題的求解;

狀態(tài)抽象是指忽略狀態(tài)中的非相關(guān)元素,實現(xiàn)降低狀態(tài)維的效果;

動作抽象是指將MDP中僅考慮單步時間內(nèi)完成的元動作擴展到多步的抽象動作情形。

啟發(fā)式方法

啟發(fā)式方法

啟發(fā)式函數(shù)

啟發(fā)函數(shù)的選擇對強化學(xué)習(xí)的效果具有很大影響。目前主要通過兩種方式確定啟發(fā)函數(shù)。

第一種方式是直接基于領(lǐng)域先驗知識構(gòu)造啟發(fā)函數(shù)。

第二種方式是通過在學(xué)習(xí)過程中獲得的信息構(gòu)造啟發(fā)函數(shù)。

啟發(fā)式函數(shù)

啟發(fā)函數(shù)的構(gòu)造過程可大致分為兩個基本階段:

第一階段是結(jié)構(gòu)提取階段,完成的任務(wù)是根據(jù)值函數(shù)實現(xiàn)領(lǐng)域結(jié)構(gòu)的提??;

第二階段是啟發(fā)式構(gòu)造階段,完成的任務(wù)是根據(jù)提取到的領(lǐng)域結(jié)構(gòu)構(gòu)造啟發(fā)式函數(shù)。下圖表示啟發(fā)函數(shù)構(gòu)造的基本流程。

2025/9/13

強化學(xué)習(xí)概述1示范強化學(xué)習(xí)3基本強化學(xué)習(xí)2

本章學(xué)習(xí)內(nèi)容2025/9/13計算機應(yīng)用技術(shù)研究所60基本強化學(xué)習(xí)2025/9/13計算機應(yīng)用技術(shù)研究所61

基本強化學(xué)習(xí)

值迭代學(xué)習(xí)哈時序差分學(xué)習(xí)

Q學(xué)習(xí)值迭代學(xué)習(xí)

值迭代學(xué)習(xí)

值迭代學(xué)習(xí)

值迭代學(xué)習(xí)

值迭代學(xué)習(xí)

冗余值迭代

冗余值迭代

冗余值迭代

冗余值迭代

冗余值迭代

例題

例題

例題

例題

例題

第二次迭代:

由于與終點位置相鄰處的最優(yōu)動作已確定,故這些位置的狀態(tài)值函數(shù)不再發(fā)生變化。其他位置逐一嘗試四個動作,從中選擇最優(yōu)動作并更新狀態(tài)值函數(shù)取值。如下圖所示:

例題

同理可得第三次迭代如下所示:

由于第三次迭代結(jié)果與第二次迭代結(jié)果相同,故可認(rèn)為已求得最優(yōu)狀態(tài)值函數(shù)和最優(yōu)策略。2025/9/13計算機應(yīng)用技術(shù)研究所78基本強化學(xué)習(xí)

值迭代學(xué)習(xí)時序差分學(xué)習(xí)

Q學(xué)習(xí)

時序差分學(xué)習(xí)

時序差分學(xué)習(xí)的基本思想是首先通過模擬一段時序中的狀態(tài)變化方式估計動作值函數(shù)的取值,然后,在每執(zhí)行一次或幾次狀態(tài)轉(zhuǎn)移之后根據(jù)所得新狀態(tài)的價值對估計值進行迭代更新。單步時序差分

單步時序差分

單步時序差分

單步時序差分

Sarsa算法

Sarsa算法步驟

Sarsa算法步驟

例題

例題

例題

【解】可將該網(wǎng)格游戲看成是一個馬爾科夫決策過程,其中狀態(tài)空間包括當(dāng)前位置、陷阱位置、目標(biāo)位置以及空位置,并將兩個陷阱位置設(shè)為同一個狀態(tài),決策空間包括上下左右四個動作,分別用0,1,2,3表示,如下圖所示。

例題

例題

例題

例題

此時一個情節(jié)結(jié)束,第一輪迭代結(jié)束。

例題

例題

例題

例題

例題

例題

多步時序差分

多步時序差分

TD(λ)算法

2025/9/13計算機應(yīng)用技術(shù)研究所103

基本強化學(xué)習(xí)

值迭代學(xué)習(xí)時序差分學(xué)習(xí)

Q學(xué)習(xí)Q學(xué)習(xí)

Q學(xué)習(xí)算法過程

Q學(xué)習(xí)算法過程

例題

例題

例題

例題

例題

例題

例題

例題

例題

例題

例題

如下圖中箭頭所示的智能體從2號房間到室外的最優(yōu)路徑。2025/9/13

本章學(xué)習(xí)內(nèi)容

強化學(xué)習(xí)概述1

基本強化學(xué)習(xí)24

示范強化學(xué)習(xí)32025/9/13計算機應(yīng)用技術(shù)研究所119示范強化學(xué)習(xí)2025/9/13計算機應(yīng)用技術(shù)研究所120

示范強化學(xué)習(xí)

模仿強化學(xué)習(xí)逆向強化學(xué)習(xí)2025/9/13模仿強化學(xué)習(xí)

模仿學(xué)習(xí)是通過觀察和效仿其它個體行為以改善自身行為的一種學(xué)習(xí)方式。

在模仿強化學(xué)習(xí)中,通常稱被模仿對象為示教者。模仿強化學(xué)習(xí)的基本模仿思路是讓指示教者提供作為示教信息或模仿范例的決策過程數(shù)據(jù),智能體從示教者提供的示教信息中學(xué)習(xí)。2025/9/13模仿強化學(xué)習(xí)

2025/9/13模仿強化學(xué)習(xí)

2025/9/13例題

【例】假設(shè)模仿強化學(xué)習(xí)的目標(biāo)是讓機器人學(xué)會像人類一樣能夠直立行走,則該學(xué)習(xí)過程中的示教者可以是人也可以是已掌握直立行走行為的其它機器人。 【解】上圖表示機器人模仿學(xué)習(xí)的基本流程2025/9/13例題

模仿強化學(xué)習(xí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論