




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章強化學習主講教師:薄純娟人工智能通識基礎(chǔ)1目錄第四章強化學習什么是強化學習01強化學習發(fā)展歷史02強化學習模型分類03強化學習實際應(yīng)用042引導問題:玩《王者榮耀》時,AI隊友突然“賣”你是策略還是Bug?如果掃地機器人總是“撞墻試探”,它是真的笨,還是在探索最優(yōu)路徑?如果AI炒股,它怎么避免虧成“韭菜”?34什么是強化學習011什么是強化學習無監(jiān)督學習監(jiān)督學習強化學習深度學習機器學習人工智能深度學習:基于深層神經(jīng)網(wǎng)絡(luò),使用神經(jīng)網(wǎng)絡(luò)模擬人腦進行學習和決策。無監(jiān)督學習:使用未標記的數(shù)據(jù)進行訓練,發(fā)現(xiàn)數(shù)據(jù)中的模式和結(jié)構(gòu)。監(jiān)督學習:使用標記數(shù)據(jù)集來訓練算法,以便對數(shù)據(jù)進行分類或準確預測結(jié)果。強化學習:連續(xù)決策過程,通過過程模擬和觀察來不斷學習,提高決策能力。機器學習:人工智能的一個重要分支,是實現(xiàn)智能化的關(guān)鍵。51.1強化學習的定義強化學習(ReinforcementLearning,RL):是機器通過與環(huán)境交互來實現(xiàn)目標的一種計算方法。它通過與環(huán)境的交互,使智能體能夠?qū)W習到在給定狀態(tài)下的最優(yōu)行動策略,以最大化累積獎勵。機器和環(huán)境的交互:機器與其所處的外部世界或模擬場景之間進行信息交換的過程。什么是機器和環(huán)境的交互?61什么是強化學習1.1強化學習的定義一個打掃機器人在面臨進入一個新房間去尋找更多的垃圾和尋找一條回去充電的路兩個命令時,根據(jù)以前找到充電器的快慢和難易程度來作決定。一個進行石油提煉操作的攪拌控制器,通過提煉結(jié)果逐步優(yōu)化產(chǎn)量/成本/質(zhì)量之間的平衡而不是嚴格按照工程師的最初設(shè)置來攪拌。71什么是強化學習1.1強化學習的定義1.2強化學習的要素強化學習模型由五個關(guān)鍵元素構(gòu)成,在強化學習的框架中,智能體與環(huán)境發(fā)生交互,智能體環(huán)境狀態(tài)獎勵動作從環(huán)境中獲取狀態(tài),并決定要做出的動作,環(huán)境會根據(jù)自身的邏輯給智能體獎勵。91什么是強化學習1.2強化學習的要素智能體:具有感知、學習和決策能力的實體。它能感知來自環(huán)境的狀態(tài),并根據(jù)學到的策略做出不同的動作。什么是智能體呢?智能體具有以下特點:能主動對環(huán)境做出試探。環(huán)境對試探動作反饋是評價性的。通過反饋改進行動方案,達到預期目標。101什么是強化學習1.2強化學習的要素環(huán)境:智能體進行交互的外部世界。接收智能體的行動并返回下一個狀態(tài),同時提供相應(yīng)的獎勵或懲罰。狀態(tài):對環(huán)境在某一時刻的描述,可以是離散的或連續(xù)的,用來表示智能體所處的環(huán)境情境。環(huán)境的概念?狀態(tài)的定義?111什么是強化學習1.2強化學習的要素動作:對智能體行為的描述,智能體通過選擇動作來影響環(huán)境的下一個狀態(tài)。獎勵:一個標量函數(shù),表示智能體在某狀態(tài)執(zhí)行動作后,環(huán)境反饋給智能體的獎勵。動作的概念?什么是獎勵?121什么是強化學習1.2強化學習的要素小狗豆豆學跳圈:我們來學習跳圈吧!跳過去,給你肉干!繼續(xù)加油!成功了,獎勵你肉干!訓練師拿出圈放在豆豆面前時,豆豆對圈圈完全沒有興趣。訓練師拿出一塊肉干后,它立馬兩眼發(fā)光。訓練師給豆豆下達跳圈的指令。豆豆嘗試失敗后很沮喪,訓練師鼓勵豆豆。豆豆嘗試幾次終于跳過去后,訓練師立刻給它一整塊肉干。這個過程,包含了強化學習的全部要素。131什么是強化學習1.2強化學習的要素強化學習沒有標準答案,是一個不斷試錯、不斷更新的過程。智能體(小狗豆豆)環(huán)境(訓練場地)狀態(tài)(豆豆和圈圈的位置)獎勵(肉干)動作(小狗跳躍等行為)141什么是強化學習1.2強化學習的要素自動駕駛:智能體(汽車)通過與環(huán)境(道路、人、天氣)持續(xù)交互,基于當前狀態(tài)(位置、速度、車距)選擇動作(加、減速,轉(zhuǎn)向),依據(jù)多維度獎勵(安全、碰撞)持續(xù)優(yōu)化策略,最終實現(xiàn)長期目標(安全高效駕駛)。151什么是強化學習1.2強化學習的要素1.3強化學習的目標強化學習的核心目標是通過智能體與環(huán)境的交互,使智能體學會在特定任務(wù)中做出最優(yōu)決策,從而獲得最大長期收益。學習過程不依賴于明確的監(jiān)督信號,而是基于獎勵機制進行學習。123環(huán)境適應(yīng)與學習策略優(yōu)化獲取最大累積回報平衡探索與利用171什么是強化學習1.3強化學習的目標強化學習發(fā)展歷史02182強化學習發(fā)展歷史早期基礎(chǔ)圖靈
“獎懲”思想反饋優(yōu)化計算模型馬爾可夫決策理論奠基TDLearning關(guān)鍵技術(shù)突破Dyna架構(gòu)DNN與強化學習結(jié)合AlphaGo
戰(zhàn)勝李世石ChatGPT
大語言模型DeepSeek-R1
深度推理模型1950-1980初步發(fā)展1981-2000興起階段2001-2016近年進展2017-至今192.1
早期基礎(chǔ)2.1.1
理論溯源行為主義心理學的啟發(fā):1938年,伯爾赫斯·弗雷德里克·斯金納通過對老鼠施加電擊或給予食物獎勵,提出操作性條件反射理論,生物體的行為會因獎勵或懲罰而被強化或抑制。控制論的數(shù)學建模:1948年,諾伯特·維納在《控制論》一書中系統(tǒng)闡述了如何通過負反饋機制調(diào)節(jié)系統(tǒng)行為,為日后強化學習中價值更新與誤差回傳提供理論支撐。202.1
早期基礎(chǔ)2.1.2關(guān)鍵人物與早期成果艾倫·圖靈1950年提出了機器可以通過學習而變得智能的設(shè)想,奠定了強化學習的哲學框架。馬文·明斯基1951年設(shè)計了一個簡單的神經(jīng)網(wǎng)絡(luò)學習機
。最早將強化概念融入人工神經(jīng)網(wǎng)絡(luò)。阿瑟·薩繆爾1959年開發(fā)了具備自學習能力的跳棋程序,是機器“從經(jīng)驗中學習”的首次成功實踐。羅納德·霍華德理查德·貝爾曼1960年提出了馬爾可夫決策過程框架。標志著智能體行為建模從經(jīng)驗描述走向形式邏輯。1957年提出了強化學習的技術(shù)骨架,為后來的馬爾可夫決策過程與值函數(shù)方法奠定基礎(chǔ)。212.1
早期基礎(chǔ)2.1.3
理論雛形的確立術(shù)語與框架的正式化:1965年,一篇論文中首次使用ReinforcementLearning一詞,使強化學習開始被視為區(qū)別于其他學習機制的獨立的學習范式。值函數(shù)與策略梯度的萌芽:1970年代,研究者提出值函數(shù)來指導決策,策略梯度方法的早期探索為直接優(yōu)化策略提供了可能,這些理論為后續(xù)算法的出現(xiàn)奠定了基礎(chǔ)。222.2初步發(fā)展2.2初步發(fā)展2.2.1理論奠基.時序差分學習(TDlearning):1988年,理查德·薩頓與安德魯·巴托提出時序差分學習,實現(xiàn)了在線、高效的值函數(shù)更新。Actor-Critic框架:1994年,理查德·薩頓提出Actor-Critic框架,首次引入了策略-值函數(shù)協(xié)同優(yōu)化的思想,啟發(fā)了多智能體與元學習等研究方向。探索-利用策略雛形:研究者們提出探索-利用策略雛形,比如ε-貪婪、Softmax等啟發(fā)式方法,推動強化學習從理論走向?qū)嵱盟惴w系。242.2初步發(fā)展2.2.2關(guān)鍵技術(shù)突破.Dyna架構(gòu)與模型融合:Dyna架構(gòu)將真實交互與模型模擬相結(jié)合,實現(xiàn)了“學習-規(guī)劃”循環(huán),使強化學習從盲目試探邁向高效規(guī)劃。策略梯度初探:提出直接優(yōu)化策略的梯度方法,標志著強化學習從值函數(shù)間接優(yōu)化轉(zhuǎn)向策略的直接學習。資格跡機制:通過回顧式更新,讓價值誤差傳播至過去的狀態(tài)-動作對,提升了收斂速度與長序列任務(wù)的處理能力。252.3興起階段2.3興起階段20102000-2009201320152016函數(shù)逼近特征工程深度自編碼網(wǎng)絡(luò)應(yīng)用DQN算法出現(xiàn)AlphaGo擊敗樊麾AlphaGo擊敗李世石272.3興起階段標志性成果:2015年,第一代人工智能圍棋程序AlphaGo公開挑戰(zhàn)歐洲圍棋冠軍樊麾,憑借深度強化學習突破傳統(tǒng)算法局限,展現(xiàn)出對復雜棋局的“理解”與“決策”能力,最終以5:0勝利。2016年,AlphaGo與韓國圍棋世界冠軍李世石展開世紀對決,最終以4:1的懸殊戰(zhàn)績勝出,此次勝利不僅是圍棋領(lǐng)域的顛覆,更是AI從“工具”向“智能體”進化的標志性事件。
282.4近年進展2.4近年進展201820172020ChatGpt發(fā)布OpenAIFive擊敗職業(yè)隊伍DeepSeek發(fā)布2022MuZero推動世界模型PPO算法SAC與A3C并行探索2025AlphaGoZero302.4近年進展
標志性成果:2022年,OpenAI公司發(fā)布了ChatGPT,基于大規(guī)模預訓練的語言模型,用戶可通過日常語言指令,讓AI高效完成文本創(chuàng)作、代碼生成、數(shù)據(jù)分析、知識問答等復雜任務(wù),更以擬人化溝通體驗革新人機交互范式,開啟生成式AI時代。312.4近年進展
標志性成果:2025年,幻方量化旗下深度求索公司推出DeepSeek-R1模型,以6710億參數(shù)構(gòu)建多模態(tài)推理框架,在數(shù)學競賽、代碼生成等任務(wù)中對標OpenAIo3模型,并通過開源全棧技術(shù)打破算力壟斷,為通用人工智能訓練提供了新范式。32強化學習模型分類0333強化學習模型種類繁多,根據(jù)是否依賴環(huán)境模型、學習策略及更新方式分類?;谀P头椒ǎ夯贒yna-Q:Dyna-Q、MBPO、PILCO?;谝?guī)劃:規(guī)劃與模擬優(yōu)化?;谀P皖A測:模型預測控制(MPC)。無模型方法:基于值函數(shù):如Q-learning、Sarsa、DQN?;诓呗裕喝鏡EINFORCE、PPO。Actor-Critic:如、AC、A2C、A3C。3.1方法分類34基于模型方法智能體策略優(yōu)化前向模擬規(guī)劃基于模型方法是一類依賴于環(huán)境內(nèi)部模型的強化學習算法,它通過該模型進行前向模擬、規(guī)劃與策略優(yōu)化,從而更加高效地找到最優(yōu)策略。3.1方法分類3.1.1基于模型方法35智能體經(jīng)驗策略環(huán)境無模型方法無模型方法不依賴于環(huán)境模型,完全依賴于與環(huán)境的真實交互,通過經(jīng)驗直接學習最優(yōu)策略,避免了模型建模誤差的影響,因而在實際應(yīng)用中更加廣泛。3.1方法分類3.1.2無模型方法363.2Q-learning算法3.2Q-learning算法3.2.1Q-learning的基本思想Q-學習(Q-learning):讓智能體通過與環(huán)境的持續(xù)交互,逐步掌握在不同情境下選擇最優(yōu)動作的能力,從而實現(xiàn)長期收益的最大化。38幫助智能體形成一種策略,使其能夠在每種狀態(tài)下挑選一個動作,以在未來的交互中獲得最大的累積回報初始化Q表執(zhí)行動作并
觀察結(jié)果從Q表中選擇動作更新Q表1.初始化:建立Q表,記錄狀態(tài)-動作對的預期回報Q(s,a),s:狀態(tài),a:動作2.選擇動作:部分隨機選擇,平衡探索與利用3.執(zhí)行動作:獲取即時獎勵和新狀態(tài)4.更新Q表:結(jié)合當前獎勵和未來回報調(diào)整Q值5.迭代學習:重復上述過程,直至Q值穩(wěn)定Q-Tablea1a2s1Q(s1,a1)Q(s1,a2)s2Q(s2,a1)Q(s2,a2)s3Q(s3,a1)Q(s3,a2)3.2Q-learning算法3.2.2Q-learning的工作步驟39游戲策略優(yōu)化資源管理3.2Q-learning算法3.2.3Q-learning的適用場景Q-learning是一種適應(yīng)性很強的算法,能夠應(yīng)用于多種實際問題。機器人導航40Q-learning在智能物流中的應(yīng)用——以京東路徑優(yōu)化系統(tǒng)為例。貨物調(diào)配路徑規(guī)劃配送運輸訂單接收
訂單接收:系統(tǒng)通過智能設(shè)備接收用戶訂單,記錄初始狀態(tài)。
路徑規(guī)劃:自動導引車根據(jù)倉庫布局評估Q值,動態(tài)調(diào)整路徑避開擁堵。
貨物調(diào)配:自動導引車按優(yōu)先級挑選貨物,實時更新策略應(yīng)對故障。
配送運輸:優(yōu)化配送路徑,協(xié)調(diào)多車調(diào)度,確保高效送達。3.2Q-learning算法3.2.3Q-learning的適用場景413.3PPO算法3.3PPO算法3.3.1PPO的基本思想近端策略優(yōu)化算法(ProximalPolicyOptimization,PPO)屬于“策略優(yōu)化”類算法。43
策略是智能體在某種情況下選擇什么行動的“方法”或“規(guī)則”。PPO的核心目標是不斷改進這種策略,使智能體能在各種情境下做出越來越聰明的決策。策略網(wǎng)絡(luò)狀態(tài)狀態(tài)獎勵評估動作獎勵策略更新價值網(wǎng)絡(luò)智能體環(huán)境1.智能體觀察環(huán)境狀態(tài)階段
5.策略更新階段(溫和更新、剪切機制)2.策略網(wǎng)絡(luò)決策動作階段3.執(zhí)行動作獲得獎勵階段4.價值網(wǎng)絡(luò)評估階段6.持續(xù)循環(huán)階段3.3PPO算法3.3.2PPO的工作步驟44參數(shù)狀態(tài)模擬環(huán)境訓練機器人控制語言模型微調(diào)3.3PPO算法3.3.3PPO的適用場景PPO是一種穩(wěn)定性與效率兼顧的策略優(yōu)化算法,廣泛應(yīng)用于需要處理高維、連續(xù)動作空間的復雜任務(wù)中。45感知決策執(zhí)行PPO算法在電力巡檢中的應(yīng)用——以國家電網(wǎng)巡檢機器人為例感知:機器人收集環(huán)境信息,為決策提供基礎(chǔ)。
決策:PPO評估狀態(tài),選擇最優(yōu)路徑,避開障礙并優(yōu)化能耗。
執(zhí)行:機器人執(zhí)行動作,完成巡檢,動態(tài)調(diào)整策略應(yīng)對突發(fā)情況。3.3PPO算法3.3.3PPO的適用場景463.4A2C/A3C算法3.4A2C/A3C算法3.4.1AC的基本思想演員-評論家(Actor-Critic,AC)算法通過雙網(wǎng)絡(luò)協(xié)作機制平衡策略優(yōu)化與價值評估。策略網(wǎng)絡(luò)(Actor)生成動作,控制行為目標:最大化獎勵價值網(wǎng)絡(luò)(Critic)評估狀態(tài)價值提供反饋動作智能體狀態(tài)環(huán)境實時反饋信號學習指導48價值網(wǎng)絡(luò)(Critic)專注于評估當前狀態(tài)的長期價值,為Actor提供實時反饋信號。策略網(wǎng)絡(luò)(Actor)負責生成動作的概率分布,直接控制智能體行為,其核心目標是將累積獎勵最大化。優(yōu)勢演員評論家算法(AdvantageActor-Critic,A2C)/異步優(yōu)勢演員評論家算法(AsynchronousAdvantageActor-Critic,A3C)的核心思想是通過分離策略優(yōu)化與價值評估兩個模塊,實現(xiàn)更穩(wěn)定的學習過程。3.4A2C/A3C算法3.4.2A2C/A3C的基本思想491.狀態(tài)輸入與動作生成2.環(huán)境反饋與獎勵計算3.價值評估與誤差計算4.閉環(huán)迭代與策略收斂3.4A2C/A3C算法3.4.3A2C的工作步驟50策略網(wǎng)絡(luò)狀態(tài)狀態(tài)獎勵動作獎勵價值網(wǎng)絡(luò)智能體環(huán)境優(yōu)勢函數(shù)狀態(tài)局部網(wǎng)絡(luò)1全局網(wǎng)絡(luò)局部網(wǎng)絡(luò)2局部網(wǎng)絡(luò)3環(huán)境3環(huán)境2環(huán)境1參數(shù)共享交互更新1.全局網(wǎng)絡(luò)初始化2.創(chuàng)建局部網(wǎng)絡(luò)3.執(zhí)行動作并收集經(jīng)驗4.計算并上傳梯度5.更新與同步參數(shù)6.循環(huán)執(zhí)行3.4A2C/A3C算法3.4.4A3C的工作步驟51參數(shù)共享參數(shù)共享交互更新交互更新并行與更新機制A2C采用同步更新,多個環(huán)境并行采樣后統(tǒng)一更新參數(shù)。A3C使用異步更新,不同線程獨立采樣和更新,提升訓練效率。計算資源利用A2C受限于單機性能,適合資源受限場景。A3C可充分利用多核CPU或分布式計算資源,適用于高性能需求的任務(wù)。數(shù)據(jù)相關(guān)性處理A2C通過同步采樣增強樣本多樣性,降低數(shù)據(jù)相關(guān)性。A3C通過異步采樣打破時間依賴,進一步減少數(shù)據(jù)相關(guān)性。適用場景選擇A2C更適合小型環(huán)境或資源受限情況。A3C在大型環(huán)境或?qū)τ柧毿室筝^高的任務(wù)中表現(xiàn)更優(yōu)。3.4A2C/A3C算法3.4.5A2C和A3C的主要區(qū)別52高維狀態(tài)空間任務(wù)連續(xù)動作控制分布式學習需求3.4A2C/A3C算法3.4.6A2C和A3C的適用場景A2C和A3C模型廣泛應(yīng)用于需要有效處理高維狀態(tài)空間、實現(xiàn)平滑連續(xù)動作控制以及支持大規(guī)模分布式學習的復雜任務(wù)中。53數(shù)據(jù)收集啟動感知環(huán)境發(fā)現(xiàn)需求價值評估評估價值推薦策略執(zhí)行執(zhí)行策略A2C/A3C算法在廣告與推薦系統(tǒng)中的應(yīng)用——智能推薦的“策略大師”環(huán)境感知:系統(tǒng)收集用戶數(shù)據(jù),分析行為模式。價值評估:價值網(wǎng)絡(luò)評估推薦動作,優(yōu)化選擇。
策略執(zhí)行:生成最優(yōu)推薦,動態(tài)調(diào)整策略提升用戶體驗。3.4A2C/A3C算法3.4.6A2C和A3C的適用場景54強化學習實際應(yīng)用04554強化學習實際應(yīng)用AlphaGoDeepMind機械手解魔方倉儲機器人LOXM交易系統(tǒng)TwoSigma交易策略游戲博弈機器人控制金融交易564.1游戲博弈完全信息博弈:雙方玩家信息完全透明,依賴長期策略規(guī)劃。非完全信息博弈:存在隱藏信息,需處理不確定性。574.1游戲博弈4.1.1完全信息博弈2016年,DeepMind公司開發(fā)的AlphaGo以4:1戰(zhàn)勝圍棋世界冠軍李世石,利用深度強化學習展現(xiàn)出超凡棋藝。此戰(zhàn)揭示強化學習潛力,震撼棋壇,推動AI應(yīng)用研究。58圖片來源:/p/7089334214.1游戲博弈4.1.1
完全信息博弈感知棋局決策演化精準執(zhí)行594.1游戲博弈4.1.2非完全信息博弈DeepMind公司開發(fā)了用于《星際爭霸2》的系統(tǒng)AlphaStar,標志著AI在復雜實時戰(zhàn)略游戲中的一次重要突破。604.1游戲博弈4.1.2非完全信息博弈智能體與虛擬對手進行模擬對戰(zhàn)訓練,不斷學習和優(yōu)化策略。星際爭霸中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 10227-2025小模數(shù)圓柱蝸桿、蝸輪精度
- 企業(yè)培訓評估與反饋模板
- 員工培訓資源清單及模板庫
- 汽車維修與保養(yǎng)合作合同
- 2025廣西欽州市北部灣大學公開招聘高層次人才53人模擬試卷及參考答案詳解1套
- 借貸活動合規(guī)承諾書7篇
- 歷史保護建筑修復質(zhì)量承諾書3篇
- 山西省忻州市2024-2025學年高三上學期10月月考地理試題(解析版)
- 遼寧省凌源市2024-2025學年高一下學期期末考試地理試題(解析版)
- 使命徹底完成承諾書5篇
- 頁人音版三年級音樂上冊音樂教案(2025-2026學年)
- 員工應(yīng)急救護知識培訓課件
- 2025昆明中北交通旅游(集團)有限責任公司駕駛員招聘(60人)考試參考題庫及答案解析
- 2026中國航空工業(yè)集團金航數(shù)碼校園招聘備考考試題庫附答案解析
- 健康教育培訓師資隊伍建設(shè)方案
- 二類醫(yī)療器械零售經(jīng)營備案質(zhì)量管理制度
- 2025年醫(yī)技三基考試試題及答案
- 既有建筑幕墻安全培訓課件
- 2025年全國事業(yè)單位聯(lián)考C類《職業(yè)能力傾向測驗》試題及答案
- 英語A級常用詞匯
- 氣管切開非機械通氣患者氣道護理團體標準課件
評論
0/150
提交評論