【《分層強化學習四足機器人的運動控制方法設計》2900字】_第1頁
【《分層強化學習四足機器人的運動控制方法設計》2900字】_第2頁
【《分層強化學習四足機器人的運動控制方法設計》2900字】_第3頁
【《分層強化學習四足機器人的運動控制方法設計》2900字】_第4頁
【《分層強化學習四足機器人的運動控制方法設計》2900字】_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

分層強化學習四足機器人的運動控制方法設計目錄TOC\o"1-3"\h\u27522分層強化學習四足機器人的運動控制方法設計 [40]。但目前的逆運動學控制方法由于建模的精度不可能與實物完全一致,控制存在誤差,需要對其進行校正,否則可能導致系統(tǒng)發(fā)散。本文設計了一種對四足機器人單腿建模并使用逆運動學求解與分層強化學習相結合的方法,旨在改善建模精度導致的誤差問題,以及在模型參數不同的四足機器人控制方法上應用,最終能夠實現(xiàn)大場景下機器人與環(huán)境交互,進而完成較為復雜的任務目標。1.2四足機器人單腿運動學模型在理想的仿真環(huán)境中,本文的研究對象四足機器人仿真模型如圖3-1所示。該模型是基于Stanford大學實體四足機器人Pupper建立的,其結構簡單驅動形式單一,使用圓柱形的輕質連桿代替單腿。本文將對該四足機器人單腿胯關節(jié)、髖關節(jié)和膝關節(jié)三個關節(jié)建立運動學,并使用逆運動學求解,并將其作為強化學習方法的運動基元。圖3-1Stanford大學四足機器人pupper仿真模型示意圖四足機器人單腿模型空間視圖如圖3-2所示,每條腿以跨關節(jié)與機器人主體連接處為坐標系原點,向上為z正方向,以胯部連桿旋轉平面法線方向為x方向,由右手定則確定y方向。具體參數含義見表3-1。圖3-2四足機器人單腿模型空間視圖表3-1四足機器人運動學模型參數參數變量變量定義x足端x坐標y足端y坐標z足端z坐標l胯部連桿長度l大腿連桿長度l小腿連桿長度θ胯關節(jié)關節(jié)角θ髖關節(jié)關節(jié)角θ膝關節(jié)關節(jié)角byox平面跨關節(jié)到足端距離?腿部連桿平面髖關節(jié)到足端距離 四足機器人單腿模型y?z平面視圖如圖3-3所示,在該平面視圖內求解得到胯關節(jié)角度θ0圖3-3四足機器人單腿模型y?z平面視圖b?φαθ對于髖關節(jié)角度θ1、膝關節(jié)角度θ2則在大小腿連桿平面內求得,腿部連桿平面視圖如圖3-4,求解過程為式3?6至圖3-4四足機器人單腿模型腿部連桿平面視圖γtriθβθ 通過上述推導,可以將四足機器人足端坐標轉換為對應的單腿電機位置角變化。本文將四足機器人單腿足端坐標位移?x,?y,?z作為底層策略的動作空間,通過逆運動學求解得到機器人胯關節(jié)、髖關節(jié)、膝關節(jié)三個關節(jié)目標位置信息,使用PD控制器對機器人電機進行控制。1.3分層策略框架本文設計了一個分層強化學習框架,用來實現(xiàn)四足機器人在復雜路徑追蹤問題上的應用。此學習框架主要分為兩個策略層級,高層策略側重于四足機器人前行方向的學習,底層策略則主要負責學習四足機器人運動控制,使四足機器人朝向高層策略所選擇的目標方向,同時要求四足機器人在運動中過程中保持姿態(tài)平穩(wěn)。該分層強化學習框架如圖3-5所示。算法邏輯如表3-2所示。圖3-5基于分層強化學習的四足機器人控制框架結構圖表3-2分層策略算法邏輯算法1:分層策略執(zhí)行1:o?2:R=0、d=0初始化回合獎勵、底層策略持續(xù)時間3:whilenotdone:4:ifd=0:5:o?6:d,θ=high_policy(o7:action=low_policy(d,θ)底層策略輸出8:ol9:R+=r,d-=110:returnR該分層學習框架中高層策略接受的環(huán)境觀測值僅包含機器人在環(huán)境中的坐標信息x,y,z,底層策略則接受機器人姿態(tài)信息roll,pitc?,yaw為了實現(xiàn)四足機器人完成特定復雜路徑追蹤任務,達到強化學習策略分層控制的目標,將對層級策略進行分別訓練,使得該方法能夠快速收斂實現(xiàn)目標任務,其中底層策略優(yōu)先訓練。在底層策略完成對機器人平穩(wěn)運動的學習后,便可以將高層策略動作空間設置為簡單的機器人目標姿態(tài)pitc?,yaw以及底層策略執(zhí)行時間(duration,d),大大降低了訓練困難程度,從而提高學習收斂速度。1.4動作狀態(tài)空間與獎勵函數設計本文針對對底層控制策略的預訓練,并設計了三種底層策略訓練環(huán)境,分別是用于控制行進平衡的任務PupperBalance,控制朝向指定方向前進的任務PupperTowards以及斜坡行走任務PupperSteepBalance。在上述任務中,機器人需要在前進狀態(tài)中保持平衡并沿直線行走,環(huán)境觀測信息為機器人當前的位置坐標和姿態(tài)數據,兩者共同構成機器人當前狀態(tài);機器人實際動作為輸出策略給出的電機位置角度。在PupperBalance和PupperSteepBalance任務場景中,機器人只有在前進狀態(tài)下保持平衡,就能取得相應獎勵,如果只在靜態(tài)行為中保持平衡,那么底層策略學習的結果將只會對靜態(tài)姿態(tài)信息形成習慣,而無法很好地處理動態(tài)運動過程中的姿態(tài)信息變化。高層方向決策策略在完成底層策略訓練完成之后進行訓練,對此本文設計了二維平面方向決策的任務2DPathTracking。在上述任務中,四足機器人需要在指定路徑上行走并達到目標坐標點,離開指定路徑會提前終止當前回合。該任務要求機器人在不同的位置以不同的偏航角度前行,學習并找到一個最優(yōu)路徑。1.4.1底層策略任務設計(1)PupperBalance場景獎勵函數由于運動的連續(xù)性,期望機器人在單個回合內前行距離越遠越好,同時保持自身平衡。通過機載傳感器獲取機器人位置信息、俯仰和翻滾角度信息,根據機器人在x軸的位置給予正獎勵,在y軸的位置以及俯仰、翻滾角度給予負獎勵??傮w的獎勵函數由式3?11到3?14定義:rrrR式中rf每一實踐部代表機器人前進獎勵,posx和posy代表機器人當前x軸坐標和y軸坐標;rb代表機器人平衡姿態(tài)獎勵,roll和pitc?分別代表機器人的滾動角和俯仰角;(2)PupperTowards場景獎勵函數該場景是在上一場景的基礎上,將沿直線前進任務目標改為指定偏航方向前進目標,其觀測空間獲取信息不變;獎勵函數rf由前后時間步之間的位移向量在指定偏航方向上的投影決定其表示為式3?15r(3)PupperSteepBalance場景獎勵函數該場景是在上一場景的基礎上,將平面上沿直線前進任務目標改為斜坡面上前進目標,其觀測空間獲取信息不變,前行獎勵更改為沿斜坡行走的距離表示為式3?16,其余獎勵相同。r1.4.2高層策略任務設計2DPathTracking場景獎勵函數設計:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論