




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
重載機(jī)器人技術(shù)戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造8.1重載機(jī)器人機(jī)構(gòu)的基本組成8.2重載機(jī)器人交互控制策略8.3重載機(jī)器人碰撞檢測(cè)8.4
重載機(jī)器人在線軌跡規(guī)劃
本章目錄8.1.1強(qiáng)化學(xué)習(xí)基本原理1
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)讓智能體(Agent)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出最優(yōu)的行動(dòng)選擇以獲得最大的累積獎(jiǎng)勵(lì)。
這種方法的核心是獎(jiǎng)勵(lì)(Reward),智能體通過(guò)不斷嘗試和改進(jìn)來(lái)獲得更高的獎(jiǎng)勵(lì)分?jǐn)?shù),從而學(xué)習(xí)到在特定狀態(tài)下采取的最佳行動(dòng)策略。強(qiáng)化學(xué)習(xí)基本要素及流程圖8.1.1強(qiáng)化學(xué)習(xí)基本原理2智能體(Agent):智能體是參與強(qiáng)化學(xué)習(xí)的主體,它負(fù)責(zé)觀察環(huán)境、選擇動(dòng)作并獲得獎(jiǎng)勵(lì)。智能體的目標(biāo)是通過(guò)與環(huán)境的交互學(xué)習(xí)一個(gè)策略,以最大化長(zhǎng)期獎(jiǎng)勵(lì)。環(huán)境(Environment):環(huán)境是智能體所處的外部環(huán)境,它會(huì)對(duì)智能體的動(dòng)作做出響應(yīng),并根據(jù)智能體的行為提供獎(jiǎng)勵(lì)。環(huán)境的狀態(tài)會(huì)隨著智能體的動(dòng)作而改變。動(dòng)作(Actions):動(dòng)作是智能體可以執(zhí)行的操作,它會(huì)影響環(huán)境的狀態(tài)。在每個(gè)時(shí)間步,智能體需要選擇一個(gè)動(dòng)作來(lái)執(zhí)行,以影響環(huán)境并獲取獎(jiǎng)勵(lì)。狀態(tài)(State):狀態(tài)是描述環(huán)境當(dāng)前情況的信息。智能體的決策取決于當(dāng)前狀態(tài),同時(shí)環(huán)境的狀態(tài)也會(huì)隨著智能體的動(dòng)作而變化。8.1.1強(qiáng)化學(xué)習(xí)基本原理戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造3獎(jiǎng)勵(lì)(Reward):獎(jiǎng)勵(lì)是環(huán)境針對(duì)智能體的動(dòng)作提供的反饋信號(hào),表示動(dòng)作的好壞程度。智能體的目標(biāo)是通過(guò)最大化長(zhǎng)期獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)一個(gè)優(yōu)秀的策略。策略(Policy):策略定義了智能體在特定狀態(tài)下選擇動(dòng)作的方式。它可以是確定性的(直接映射狀態(tài)到動(dòng)作)或者是隨機(jī)性的(根據(jù)概率分布選擇動(dòng)作)。狀態(tài)轉(zhuǎn)移(StateTransition):狀態(tài)轉(zhuǎn)移描述了在智能體執(zhí)行動(dòng)作后,環(huán)境狀態(tài)如何發(fā)生變化。這是強(qiáng)化學(xué)習(xí)中一個(gè)重要的概念,智能體需要理解不同狀態(tài)之間的轉(zhuǎn)移關(guān)系來(lái)做出優(yōu)化的決策。4
除了智能體和環(huán)境之外,強(qiáng)化學(xué)習(xí)系統(tǒng)有八個(gè)主要元素:狀態(tài)
,動(dòng)作
,獎(jiǎng)勵(lì)
,策略
,值函數(shù)
,獎(jiǎng)勵(lì)折扣因子
、狀態(tài)轉(zhuǎn)移概率矩陣
,和探索率
。
智能體在時(shí)刻
的狀態(tài)
按照當(dāng)前策略執(zhí)行動(dòng)作
,然后到達(dá)時(shí)刻
的狀態(tài)
,并在時(shí)刻
獲得獎(jiǎng)勵(lì)
。通過(guò)采樣得到觀測(cè)序列H、狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)。通過(guò)價(jià)值函數(shù)得到最優(yōu)策略,可用于指導(dǎo)機(jī)器人操作。8.1.1強(qiáng)化學(xué)習(xí)基本原理基于強(qiáng)化學(xué)習(xí)的機(jī)器人學(xué)習(xí)過(guò)程8.1.2強(qiáng)化學(xué)習(xí)中的數(shù)學(xué)理論基礎(chǔ)5
在不確定和非結(jié)構(gòu)化環(huán)境下,馬爾科夫決策過(guò)程,可以表示為馬爾科夫決策過(guò)程的形式。遷移后的狀態(tài)由遷移前的狀態(tài)和行動(dòng)決定,獎(jiǎng)勵(lì)由遷移前和遷移后的狀態(tài)決定。這個(gè)性質(zhì)稱為馬爾可夫性,擁有馬爾可夫性的環(huán)境叫作馬爾科夫決策過(guò)程。馬爾可夫決策過(guò)程8.1.2強(qiáng)化學(xué)習(xí)中的數(shù)學(xué)理論基礎(chǔ)6
強(qiáng)化學(xué)習(xí)是通過(guò)一系列狀態(tài)-動(dòng)作對(duì)運(yùn)行智能體的過(guò)程。它通過(guò)采樣的方式從數(shù)據(jù)中提取信息,并將馬爾科夫決策過(guò)程與大量的狀態(tài)-動(dòng)作對(duì)相結(jié)合。獎(jiǎng)賞的復(fù)雜概率分布模型與之相關(guān)聯(lián)。馬爾科夫決策過(guò)程通常被定義為元組(,,,,):
是一個(gè)有限狀態(tài)集;
是一個(gè)有限的動(dòng)作集合;
為狀態(tài)轉(zhuǎn)移概率,即Agent在選擇執(zhí)行動(dòng)作到下一狀態(tài)時(shí)狀態(tài)轉(zhuǎn)移的概率矩陣。狀態(tài)轉(zhuǎn)移概率報(bào)酬函數(shù)折現(xiàn)因子
通過(guò)采集樣本,得到觀測(cè)、測(cè)站、動(dòng)作、獎(jiǎng)勵(lì)的序列H:(8-1)(8-2)(8-3)8.1.2強(qiáng)化學(xué)習(xí)中的數(shù)學(xué)理論基礎(chǔ)7
機(jī)器人通過(guò)搜索,以最大化未來(lái)獎(jiǎng)勵(lì)
的折現(xiàn)總和:
回報(bào)
是一個(gè)馬爾科夫決策過(guò)程從采樣開(kāi)始到結(jié)束所有回報(bào)的衰減之和,代表了一個(gè)好或壞的狀態(tài)。值越大,狀態(tài)越好,從而獲得更多的獎(jiǎng)勵(lì)?;谪悹柭匠?,狀態(tài)
執(zhí)行策略
后智能體的累積獎(jiǎng)勵(lì)值函數(shù):
同理,也可以得到動(dòng)作-價(jià)值函數(shù)的迭代關(guān)系(8-4)(8-5)(8-6)8.1.2強(qiáng)化學(xué)習(xí)中的數(shù)學(xué)理論基礎(chǔ)8
由于貝爾曼方程不是線性的,引入非線性max函數(shù)。該函數(shù)不能像貝爾曼期望方程那樣直接求解得到閉式解,可以通過(guò)值迭代、Q學(xué)習(xí)或策略迭代等求解。當(dāng)
,不斷迭代使動(dòng)作狀態(tài)值函數(shù)收斂,即
。智能體在狀態(tài)
中執(zhí)行的最佳動(dòng)作推導(dǎo)如下:
找到一個(gè)最優(yōu)策略可以更好的解決強(qiáng)化學(xué)習(xí)問(wèn)題,使機(jī)器人在與環(huán)境交互的過(guò)程中總能獲得比其他策略更多的收益。該問(wèn)題被轉(zhuǎn)化為求解最優(yōu)動(dòng)作值函數(shù):
因此,最優(yōu)策略可以定義為:(8-7)(8-8)(8-9)8.1.3經(jīng)典強(qiáng)化學(xué)習(xí)算法9
機(jī)器人的研究涉及許多強(qiáng)化學(xué)習(xí)算法。訓(xùn)練數(shù)據(jù)的產(chǎn)生決定了機(jī)器人學(xué)習(xí)所采用的具體方法。機(jī)器人學(xué)習(xí)所需要的數(shù)據(jù)可以通過(guò)機(jī)器人與環(huán)境的交互產(chǎn)生,也可以由專家提供。
目前,強(qiáng)化學(xué)習(xí)算法主要有基于值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)、基于模型的強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)(DRL)、元強(qiáng)化學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí)(IRL)。8.1.3經(jīng)典強(qiáng)化學(xué)習(xí)算法10類別主要特點(diǎn)優(yōu)勢(shì)弱點(diǎn)基于值的RL評(píng)估行動(dòng)并改進(jìn)策略,而不是直接采取行動(dòng)靈活且易于實(shí)施不適用于不連續(xù)和大狀態(tài)空間的情況,獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難,占用更多內(nèi)存基于策略的RL將狀態(tài)映射到操作或分發(fā)操作比基于值的RL更簡(jiǎn)單易收斂,直接優(yōu)化目標(biāo)函數(shù),獲得最優(yōu)策略易于收斂到局部最優(yōu)并遇到高方差基于模型的RL已知模型可以描述環(huán)境并預(yù)測(cè)下一個(gè)狀態(tài)和返回訓(xùn)練速度更快,易于收斂難以獲得模型和設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)DRL原始輸入圖像的端到端控制決策、感知、更快收斂和更低的數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)效率低下、樣本復(fù)雜度高、不穩(wěn)定、局部最優(yōu)、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)難IRL沒(méi)有指定的獎(jiǎng)勵(lì)功能易于量化獎(jiǎng)勵(lì)函數(shù)并獲得獎(jiǎng)勵(lì)函數(shù)通過(guò)不同的獎(jiǎng)勵(lì)功能,輕松導(dǎo)致相同的專家政策元RL學(xué)會(huì)學(xué)習(xí)靈活、小規(guī)模的樣本和更快的學(xué)習(xí)速度大尺度參數(shù)空間和二次梯度表8-1幾種強(qiáng)化學(xué)習(xí)的優(yōu)缺點(diǎn)8.2.1柔順控制算法分類11
重載機(jī)器人柔順控制通過(guò)傳感器反饋末端信息給控制系統(tǒng),使末端產(chǎn)生具有柔順特性的期望力,與環(huán)境交互時(shí)表現(xiàn)出良好的順應(yīng)性運(yùn)動(dòng)軌跡。
柔順控制分為被動(dòng)柔順和主動(dòng)柔順。
被動(dòng)柔順控制通過(guò)外加輔助裝置、利用機(jī)構(gòu)裝置本身的特性來(lái)減緩機(jī)器人與環(huán)境交互時(shí)產(chǎn)生額外的沖擊力。
主動(dòng)柔順通過(guò)傳感器采集末端信息反饋給控制策略,進(jìn)而利用算法來(lái)控制機(jī)器人表現(xiàn)出柔順運(yùn)動(dòng)。柔順控制分類圖8.2.1柔順控制算法分類121.主動(dòng)柔順控制
主動(dòng)柔順(activecompliance)是指機(jī)器人能夠利用力反饋信息采用一定的控制算法去控制作用力。
當(dāng)操作機(jī)器人將一個(gè)柱銷裝進(jìn)某個(gè)零件的圓孔中時(shí),由于柱銷軸與孔軸不對(duì)準(zhǔn),無(wú)法將柱銷插入孔內(nèi),然而此時(shí)若采用一個(gè)力反饋或組合反饋控制系統(tǒng),帶動(dòng)柱銷轉(zhuǎn)動(dòng)某個(gè)角度,直至柱銷軸與孔軸對(duì)準(zhǔn)那么柱銷裝入孔內(nèi)的阻力就消失了,裝配工作便可順利完成,這種技術(shù)稱為主動(dòng)柔順技術(shù)。
主動(dòng)柔順控制方法有四種包括阻抗控制(導(dǎo)納控制)、力/位混合控制、自適應(yīng)控制和其他智能控制策略。主動(dòng)柔順示意圖8.2.1柔順控制算法分類132.被動(dòng)柔順控制
被動(dòng)柔順(passivecompliance)是指機(jī)器人憑借輔助的柔順機(jī)構(gòu)與環(huán)境接觸時(shí)能夠?qū)ν獠孔饔昧Ξa(chǎn)生自然順從。
被動(dòng)柔順技術(shù)通過(guò)操作機(jī)器人終端機(jī)械結(jié)構(gòu)的變形來(lái)適應(yīng)操作過(guò)程中遇到的阻力。柱銷與機(jī)器人之間設(shè)有類似彈簧的機(jī)械結(jié)構(gòu),當(dāng)柱銷插入孔內(nèi)遇到阻力時(shí),彈簧系統(tǒng)就會(huì)產(chǎn)生變形,使阻力減小,以使柱銷軸與孔軸重合保證柱銷順利地插入孔內(nèi)。
被動(dòng)柔順控制有如下缺陷:
(1)在機(jī)械系統(tǒng)中永遠(yuǎn)存在機(jī)器高剛度和高柔順之間的矛盾。(2)被動(dòng)柔順控制器大多為標(biāo)準(zhǔn)件,專用性強(qiáng),適應(yīng)性較差。(3)被動(dòng)柔順控制器本身不具備控制性,只存在機(jī)械與外界力的交換。被動(dòng)柔順示意圖8.2.2重載機(jī)器人的柔順控制
14
阻抗控制、導(dǎo)納控制和力/位置混合控制是三種經(jīng)典柔順控制方法。1.阻抗控制
阻抗控制通過(guò)在機(jī)器人各關(guān)節(jié)端加入控制系統(tǒng)來(lái)達(dá)到柔順的目的,通過(guò)傳感器的反饋來(lái)調(diào)節(jié)機(jī)器人關(guān)節(jié)的力、位置、速度和加速度等參數(shù)。
阻抗控制將位置和接觸力置于同一框架當(dāng)中,可以同時(shí)對(duì)兩者進(jìn)行控制。在笛卡兒空間中,機(jī)械臂末端與環(huán)境之間的阻抗關(guān)系為如下二階微分方程的形式:式中,—機(jī)器人末端在笛卡兒空間中的參考位置、速度、加速度;—機(jī)器人末端的實(shí)際位置、速度、加速度;—阻抗關(guān)系慣性、阻尼、剛度的正定對(duì)角矩陣;—測(cè)量得到的接觸力;—給定的期望接觸力;—接觸力誤差。(8-10)8.2.2重載機(jī)器人的柔順控制
15阻抗控制8.2.2重載機(jī)器人的柔順控制
162.
導(dǎo)納控制
導(dǎo)納控制的控制系統(tǒng)與阻抗控制是對(duì)偶的,阻抗控制器輸入端為位置,輸出端為力,而導(dǎo)納控制器輸入端為力,輸出端為位置,同樣都有力和位置的反饋。
導(dǎo)納控制是指通過(guò)給定的阻抗關(guān)系,將接觸力誤差轉(zhuǎn)換成參考軌跡的修正量。然后控制機(jī)器人末端沿著修正后的路徑運(yùn)動(dòng),即可實(shí)現(xiàn)對(duì)于接觸力的控制。導(dǎo)納控制8.2.2重載機(jī)器人的柔順控制
17
根據(jù)工作原理,阻抗部分的輸入是接觸力誤差,輸出是給定參考軌跡的修正量,因此阻抗部分的傳遞函數(shù)可以表示為:
機(jī)器人末端與環(huán)境之間的接觸力是由環(huán)境形變產(chǎn)生的,一般情況下,將接觸力建模為彈簧模型,表示為:
式中,
—環(huán)境剛度;
—環(huán)境位置。(8-11)(8-12)8.2.2重載機(jī)器人的柔順控制
183.力/位混合控制
力/位混合控制是對(duì)機(jī)器人的所有關(guān)節(jié)分別獨(dú)立地進(jìn)行力控制和位置控制,主要通過(guò)雅可比矩陣將機(jī)器人工作空間的力和位置的部分完全解耦,就是將機(jī)器人關(guān)節(jié)獨(dú)立成兩個(gè)部分,一部分進(jìn)行力的控制,另一部分進(jìn)行位置或角度的控制。力/位置混合控制策略是同時(shí)對(duì)機(jī)器人的力空間和位置空間進(jìn)行控制的思想。在力空間是控制關(guān)節(jié)力或力矩,在位置空間中是控制關(guān)節(jié)位置,可實(shí)現(xiàn)期望力和期望位置的跟蹤。
對(duì)于多自由度或多關(guān)節(jié)機(jī)器人,可采用選擇矩陣
來(lái)對(duì)力空間或位置空間關(guān)節(jié)進(jìn)行相關(guān)控制,選擇矩陣
為正交矩陣,并與
相互正交,兩個(gè)矩陣的對(duì)角元素都只為0或1。8.2.2重載機(jī)器人的柔順控制
19力/位置混合控制原理圖對(duì)于位置控制回路中的選擇矩陣
,對(duì)角元素為1則選擇該關(guān)節(jié)進(jìn)行位置控制,反之為力控制。8.2.2重載機(jī)器人的柔順控制
20
位置控制回路是通過(guò)機(jī)器人反饋關(guān)節(jié)位置信息,與軌跡規(guī)劃中的期望關(guān)節(jié)位置作誤差,偽逆雅可比矩陣將選擇位置空間中的關(guān)節(jié)空間變量轉(zhuǎn)換成笛卡兒空間變量,通過(guò)位置控制律輸出位置空間中的關(guān)節(jié)力或力矩。
力控制回路通過(guò)機(jī)器人反饋實(shí)際力或力矩與關(guān)節(jié)動(dòng)力學(xué)所計(jì)算的期望關(guān)節(jié)力或力矩作誤差,力雅可比矩陣將力空間中的笛卡兒力轉(zhuǎn)換成關(guān)節(jié)力或力矩,給予力控制器進(jìn)行輸出。
關(guān)節(jié)輸入表達(dá)式為:
式中,
為單位矩陣;
為選擇位置控制空間的矩陣;
為選擇力控制空間的矩陣;
為關(guān)節(jié)輸入力或力矩;
為位置空間輸出的關(guān)節(jié)力或力矩;
為力空間輸出的關(guān)節(jié)力或力矩。(8-13)8.2.3基于強(qiáng)化學(xué)習(xí)的變阻抗位置/力控制21
根據(jù)是否在訓(xùn)練前基于預(yù)先設(shè)置的經(jīng)驗(yàn)?zāi)P蛯?duì)所交互環(huán)境進(jìn)行建模,強(qiáng)化學(xué)習(xí)分為有模型(Model-based)和無(wú)模型(Model-free)兩類算法。
有模型算法在訓(xùn)練前將針對(duì)目標(biāo)任務(wù)和交互環(huán)境構(gòu)造預(yù)測(cè)模型,智能體在訓(xùn)練時(shí)通過(guò)讀取該經(jīng)驗(yàn)預(yù)測(cè)模型,預(yù)測(cè)出后續(xù)訓(xùn)練過(guò)程中每一步交互的狀態(tài)和所能獲得的獎(jiǎng)勵(lì)。
無(wú)模型算法則不需要對(duì)環(huán)境進(jìn)行建模,智能體從交互中直接進(jìn)行學(xué)習(xí)和迭代,相對(duì)簡(jiǎn)單,應(yīng)用方便,但算法中智能體只能基于隨機(jī)采樣進(jìn)行學(xué)習(xí),需要大量的樣本數(shù)據(jù),樣本效率較低,學(xué)習(xí)時(shí)間長(zhǎng)。機(jī)器人交互任務(wù)的智能控制框圖8.2.3基于強(qiáng)化學(xué)習(xí)的變阻抗位置/力控制22
經(jīng)典力控制方法分為顯式或隱式控制。
顯式力控制直接控制重載機(jī)器人末端的作用力大小方向,但目前從技術(shù)上難以實(shí)現(xiàn)復(fù)雜交互任務(wù)的要求。
隱式力控制設(shè)置機(jī)器人交互作用力與其動(dòng)力學(xué)參數(shù)間的動(dòng)態(tài)關(guān)系,間接實(shí)現(xiàn)交互力控制,能使機(jī)器人具有對(duì)外力的順從機(jī)械特性,即機(jī)器人能在接觸交互的過(guò)程中根據(jù)外力表現(xiàn)出順應(yīng)外力大小方向變化的動(dòng)力學(xué)性能。隱式控制力實(shí)現(xiàn)機(jī)器人順從特性的代表是阻抗控制,其核心思想是為機(jī)器人的交互建立一種虛擬質(zhì)量—彈簧—阻尼動(dòng)力學(xué)模型:8.2.3基于強(qiáng)化學(xué)習(xí)的變阻抗位置/力控制23
式中
,,—交互方向上的慣性、阻尼、剛度矩陣;
—交互方向上的作用力矩陣;,—交互方向上的實(shí)際位置和預(yù)期位置。
通過(guò)將虛擬模型設(shè)置到重載機(jī)器人各種交互點(diǎn)(如機(jī)器人末端、機(jī)器人各關(guān)節(jié)),并設(shè)定相關(guān)的彈簧剛度、系統(tǒng)阻尼系數(shù)。當(dāng)交互狀態(tài)發(fā)生時(shí),機(jī)器人在空間中仍會(huì)按照設(shè)定軌跡運(yùn)動(dòng),但其會(huì)根據(jù)外力大小,與設(shè)定的增益成比例地偏離軌跡,基于模型參數(shù)表現(xiàn)出順從的機(jī)械狀態(tài),以實(shí)現(xiàn)機(jī)器人的柔性控制。(8-14)8.3.1基于傳感器的碰撞檢測(cè)方法和原理241.基于末端六維力傳感器的碰撞檢測(cè)
根據(jù)碰撞表面接觸點(diǎn)數(shù)量的不同,可以將碰撞分為3種:?jiǎn)斡|點(diǎn)碰撞、平面或表面均勻接觸碰撞、多觸點(diǎn)碰撞。
單接觸點(diǎn)碰撞又可以分為結(jié)構(gòu)化碰撞、非結(jié)構(gòu)化碰撞和形變碰撞。
表面均勻接觸的碰撞和多觸點(diǎn)碰撞都可以看作是單接觸點(diǎn)碰撞的特殊組合形式,因此本節(jié)重點(diǎn)對(duì)非結(jié)構(gòu)環(huán)境下的單觸點(diǎn)碰撞及形變進(jìn)行分析。碰撞分類示意圖8.3.1基于傳感器的碰撞檢測(cè)方法和原理25(1)碰撞定位模型
以如圖所示的機(jī)械臂系統(tǒng)為例,設(shè)最終檢測(cè)到的觸點(diǎn)位置為
,根據(jù)機(jī)械臂的運(yùn)動(dòng)學(xué)模型可以得到:
式中,
為觸點(diǎn)在力傳感器坐標(biāo)系中的位置。因此,首先應(yīng)該標(biāo)定傳感器在系統(tǒng)中的位置,之后觸點(diǎn)檢測(cè)問(wèn)題可簡(jiǎn)化為傳感器坐標(biāo)系中求解觸點(diǎn)位置。
(8-15)重載機(jī)械臂末端力傳感器8.3.1基于傳感器的碰撞檢測(cè)方法和原理26
根據(jù)六維力傳感器的數(shù)據(jù)格式,碰撞力和力矩均可以被分解為3個(gè)坐標(biāo)軸上的分量,因此,設(shè)碰撞力和力矩分別為
,則兩者與觸點(diǎn)位置的關(guān)系可表示為:
式中,
為坐標(biāo)原點(diǎn)到觸點(diǎn)的向量。(8-16)
基于力/力矩傳感器的觸點(diǎn)位置檢測(cè)算法即可通過(guò)求解上式獲取觸點(diǎn)位置
,由于存在多解,需要借助其他約束條件來(lái)求解唯一的觸點(diǎn)位置,傳統(tǒng)的方法依靠碰撞物體表面的形狀等先驗(yàn)信息提供幾何約束:假設(shè)碰撞表面的幾何模型為
,則觸點(diǎn)位置可以通過(guò)求解以下方程來(lái)獲得:(8-18)8.3.1基于傳感器的碰撞檢測(cè)方法和原理27
事實(shí)上,當(dāng)
與
為常數(shù)時(shí),上式的解集
分布在一條空間直線上,這條空間曲線被稱為外力矢量線,將其定義為
,參數(shù)形式可表達(dá)為:
顯然
為直線的方向向量,因此,不同的碰撞力決定了不同方向的外力矢量線,通常情況下,由于碰撞物體的運(yùn)動(dòng)方向和碰撞力方向不同,就會(huì)導(dǎo)致不同時(shí)刻的兩組外力矢量線不平行(相交),且交點(diǎn)即為碰撞接觸點(diǎn)。綜上所述,觸點(diǎn)位置可以通過(guò)求解兩組外力矢量線的交點(diǎn)來(lái)得到:(8-19)(8-20)8.3.1基于傳感器的碰撞檢測(cè)方法和原理28(2)碰撞測(cè)量數(shù)據(jù)預(yù)處理
碰撞過(guò)程中觸點(diǎn)所受的外力可分解為垂直于碰撞表面的壓力和碰撞表面相切的摩擦力。而在將碰撞過(guò)程看作一個(gè)動(dòng)態(tài)過(guò)程來(lái)求解觸點(diǎn)位置時(shí),碰撞外力可以不用分解。此外,力傳感器檢測(cè)到的力除了碰撞外力
,還包括一個(gè)內(nèi)力
和一個(gè)動(dòng)態(tài)力
,即:
式中,內(nèi)力主要來(lái)源于工具和力傳感器裝配過(guò)程中產(chǎn)生的擠壓力,通常在裝配完成后就可視為定值。動(dòng)態(tài)力則來(lái)自于末端工具的重力,會(huì)隨著重載機(jī)器人末端姿態(tài)變化而變化。則由碰撞產(chǎn)生的外力還可以通過(guò)以下公式來(lái)計(jì)算:
式中,
為末端工具在坐標(biāo)系中的重力;
為坐標(biāo)系到力傳感器坐標(biāo)系的轉(zhuǎn)換矩陣。(8-21)(8-22)8.3.1基于傳感器的碰撞檢測(cè)方法和原理29
此外,基于幾何約束的方法一般要通過(guò)重力補(bǔ)償和動(dòng)態(tài)補(bǔ)償將碰撞外力從傳感器采集到的數(shù)據(jù)中分離出來(lái)。將碰撞產(chǎn)生的外力視為外力,其他力均視為內(nèi)力。同時(shí),利用獲取到的多組傳感數(shù)據(jù)可建立時(shí)間函數(shù):
對(duì)上式求導(dǎo)可得:(3)基于投影法的外力矢量線交點(diǎn)求解
由于力傳感器數(shù)據(jù)誤差的存在,導(dǎo)致空間中兩條外力矢量線不一定相較于觸點(diǎn),此種情況下可借助三個(gè)坐標(biāo)平面投影線來(lái)分步求解觸點(diǎn)的坐標(biāo),設(shè)在XOY平面的投影為
,在XOZ平面的投影為
,在YOZ平面的投影為
:(8-24)(8-23)8.3.1基于傳感器的碰撞檢測(cè)方法和原理30兩條隨機(jī)外力矢量線的空間分布及其平面投影投影法求解觸點(diǎn)坐標(biāo)原理圖(8-25)8.3.1基于傳感器的碰撞檢測(cè)方法和原理31
設(shè)為
投影線
和
的交點(diǎn),
和
為投影點(diǎn)在外力空間曲線
和
上的對(duì)應(yīng)點(diǎn)。由于無(wú)法確定真實(shí)碰撞點(diǎn)更接近于
和
中的哪個(gè)點(diǎn),將觸點(diǎn)定義為
,即
和
的中點(diǎn)。其中,
和
可通過(guò)以下公式進(jìn)行求解:
式中,
為判定因子,用于三個(gè)坐標(biāo)平面選擇一個(gè)最優(yōu)的作為投影平面,其具體規(guī)則為:
式中,
;
表示
和
之間的夾角;
和
同理,即:(8-26)(8-27)8.3.1基于傳感器的碰撞檢測(cè)方法和原理32假設(shè)最終選定的投影平面為XOY,則
和
的解算公式為:(8-28)(8-29)(8-30)8.3.1基于傳感器的碰撞檢測(cè)方法和原理33
(4)最小誤差搜索策略
為進(jìn)一步縮小誤差以提高觸點(diǎn)位置檢測(cè)的魯棒性,對(duì)碰撞過(guò)程中的多組數(shù)據(jù)進(jìn)行最優(yōu)解搜索。假設(shè)碰撞過(guò)程中的多組力傳感器數(shù)據(jù)生成的外力矢量線如圖所示,利用兩組相鄰數(shù)據(jù)通過(guò)投影法求得的觸點(diǎn)集。注:×表示真實(shí)的觸點(diǎn)位置,★為通過(guò)最小誤差法搜索出最優(yōu)解。碰撞過(guò)程中產(chǎn)生的多組外力矢量線及投影法觸點(diǎn)位置檢測(cè)結(jié)果8.3.1基于傳感器的碰撞檢測(cè)方法和原理34
最小誤差搜索的原理為:設(shè)定最終的觸點(diǎn)位置檢測(cè)結(jié)果為
,則通過(guò)式(8-17)可得:
式中,
表示誤差,其定義為:(8-31)(8-32)8.3.1基于傳感器的碰撞檢測(cè)方法和原理35
設(shè)
,在投影法所計(jì)算出多組觸點(diǎn)位置基礎(chǔ)上,尋找誤差值
最小對(duì)應(yīng)的觸點(diǎn)即視為觸點(diǎn)位置檢測(cè)的最優(yōu)結(jié)果。
此外,由于外力矢量線交點(diǎn)數(shù)量有限,采用窮舉法實(shí)現(xiàn)對(duì)最小誤差結(jié)果的搜索。最終,基于末端六維力傳感器的碰撞檢測(cè)可歸納如圖所示。末端六維力傳感器的碰撞檢測(cè)流程圖8.3.1基于傳感器的碰撞檢測(cè)方法和原理362.基于電子皮膚的碰撞檢測(cè)
電子皮膚是一種以各類不同的觸覺(jué)傳感器為核心元器件的類似人體皮膚的觸覺(jué)傳感器陣列,覆蓋于復(fù)雜三維載體的表面,并準(zhǔn)確感知周圍環(huán)境的各種信息。
以一種半球形仿生細(xì)胞觸覺(jué)傳感器為例,球形彈性體兩端受到大小相同方向相反的均布載荷時(shí),相應(yīng)的變形沿著中性面相對(duì)稱,為了方便計(jì)算,在此處將它補(bǔ)全為整個(gè)球形彈性體。半球形仿生細(xì)胞觸覺(jué)傳感器8.3.2無(wú)外部傳感器的碰撞檢測(cè)37
相對(duì)于基于外部傳感器的碰撞檢測(cè)方法,無(wú)外部傳感器的碰撞檢測(cè)方法不僅能夠降低應(yīng)用成本,還能降低系統(tǒng)集成難度,因而得到了學(xué)術(shù)界與工業(yè)界的關(guān)注與重視。本節(jié)主要介紹幾種無(wú)外部傳感器的碰撞檢測(cè)方法。1.基于電動(dòng)機(jī)電流的碰撞檢測(cè)
設(shè)
(
),為機(jī)器人被測(cè)電流矢量,
(
),為機(jī)器人動(dòng)力學(xué)模型估計(jì)的電流矢量,
為關(guān)節(jié)個(gè)數(shù),
(
)為當(dāng)前的殘差向量,其中
式中,
由機(jī)器人的動(dòng)力學(xué)模型提供。(8-33)8.3.2無(wú)外部傳感器的碰撞檢測(cè)38
設(shè)某一剛性機(jī)械臂的動(dòng)力學(xué)模型為:
式中(8-34)(8-35)
上述模型中,
是位置關(guān)節(jié)矢量,
為慣性矩陣;
表示哥氏力和離心項(xiàng),
和
用于模擬摩擦力;
為重力矢量;
和
分別表示指令轉(zhuǎn)矩矢量和碰撞轉(zhuǎn)矩矢量。機(jī)器人控制方案8.3.2無(wú)外部傳感器的碰撞檢測(cè)39
則機(jī)器人的輸入電流是前饋模塊產(chǎn)生的電流
和PID型調(diào)節(jié)器產(chǎn)生的電流
的總和
式中
是從電流到轉(zhuǎn)矩的轉(zhuǎn)換系數(shù)
的對(duì)角矩陣;
是可能存在的線性前饋?lái)?xiàng);矩陣
和
分別表示慣性矩陣
和
。將式(8-38)帶入式(8-37),則
由于
,指令轉(zhuǎn)矩矢量如下(8-36)(8-37)(8-38)(8-39)8.3.2無(wú)外部傳感器的碰撞檢測(cè)40
將式(8-34)帶入式(8-39)可以得到
式中
式(8-37)中的第一項(xiàng)表示動(dòng)力學(xué)模型提供的
當(dāng)前估計(jì)值,將其帶入式(8-33)中
結(jié)合式(8-38)得(8-40)(8-41)(8-42)(8-43)8.3.2無(wú)外部傳感器的碰撞檢測(cè)41
將式(8-43)帶入式(8-40)
則可以得到碰撞檢測(cè)函數(shù)
式(8-45)中,
為動(dòng)態(tài)閾值向量函數(shù)?;跈C(jī)器人整個(gè)工作周期中獲得的所有
和
的值,可以確定僅由模型誤差(8-34)而導(dǎo)致的
的估計(jì)
,則閾值函數(shù)可定義為(8-44)(8-45)(8-46)8.3.2無(wú)外部傳感器的碰撞檢測(cè)422.基于動(dòng)量偏差觀測(cè)器的碰撞檢測(cè)
由于機(jī)械臂廣義動(dòng)量與外力矩之間具有解耦性的特點(diǎn),通過(guò)設(shè)計(jì)動(dòng)量偏差觀測(cè)器可以間接獲取碰撞力,并通過(guò)性能調(diào)整函數(shù)進(jìn)一步改進(jìn)觀測(cè)器動(dòng)態(tài)響應(yīng)特性,進(jìn)而判定碰撞是否發(fā)生。
設(shè)某一機(jī)器人與周圍環(huán)境發(fā)生碰撞時(shí),其動(dòng)力學(xué)方程為
式中,
為各個(gè)關(guān)節(jié)的角度矢量、角速度矢量和角加速度矢量;
為機(jī)器人的慣性矩陣;
為機(jī)器人的哥氏矩陣;
包含了哥氏力和離心力項(xiàng);
為作用在各關(guān)節(jié)的重力矩矢量;
為關(guān)節(jié)驅(qū)動(dòng)力矩;
為外部作用力等效到各關(guān)節(jié)的力矩,其中
,
為作用于機(jī)器人的外部力和力矩,
為力作用位置的雅可比矩陣。(8-47)8.3.2無(wú)外部傳感器的碰撞檢測(cè)43
機(jī)器人的廣義動(dòng)量為
由
為一反對(duì)稱矩陣,故有
對(duì)式(8-48)求導(dǎo)可得
由此可以看出方程中含有外力矩分量,并且動(dòng)量與外力矩間具有解耦性,因此,可以依賴動(dòng)量設(shè)計(jì)外力矩觀測(cè)器,通過(guò)觀測(cè)值判斷機(jī)器人是否發(fā)生碰撞,定義為(8-48)(8-49)(8-50)(8-51)8.3.2無(wú)外部傳感器的碰撞檢測(cè)44
式中,
為觀測(cè)的外力矩值
;
為增益矩陣;
為動(dòng)量估計(jì)值,有
將式(8-51)展開(kāi)
由于式(8-53)會(huì)產(chǎn)生較大延遲,并伴有較大振蕩,因此,構(gòu)造調(diào)整函數(shù)
將式(8-54)作為式(8-53)的前饋調(diào)節(jié),可得如下觀測(cè)器(8-52)(8-53)(8-54)(8-55)8.3.2無(wú)外部傳感器的碰撞檢測(cè)45
對(duì)式(8-55)求導(dǎo)并將式(8-50)、式(8-52)代入得
對(duì)其進(jìn)行拉氏變換可得傳遞函數(shù)
若忽略摩擦力的作用,在無(wú)碰撞時(shí),
;當(dāng)機(jī)器人發(fā)生碰撞時(shí),
將會(huì)迅速增大;當(dāng)碰撞消失后,
將會(huì)迅速趨于0。由于實(shí)際系統(tǒng)中存在摩擦,且對(duì)于給定系統(tǒng),各關(guān)節(jié)摩擦力將在一確定的區(qū)域內(nèi)變動(dòng),因此,可設(shè)定一碰撞力閾值
,當(dāng)
或者向量中的某一元素
時(shí),說(shuō)明機(jī)器人發(fā)生了碰撞。(8-56)(8-57)(8-58)8.3.3基于強(qiáng)化學(xué)習(xí)算法的碰撞檢測(cè)46Actor-Critic算法是一種基于策略梯度(PolicyGradient)和價(jià)值函數(shù)(ValueFunction)的強(qiáng)化學(xué)習(xí)方法。Actor-Critic算法的優(yōu)點(diǎn)是在處理大型狀態(tài)空間時(shí)具有較高的效率和可擴(kuò)展性。對(duì)于連續(xù)動(dòng)作和高維狀態(tài)空間下的強(qiáng)化學(xué)習(xí)問(wèn)題,直接使用策略梯度算法的效率較低。為了提高訓(xùn)練效率,可以將動(dòng)作值函數(shù)或狀態(tài)-動(dòng)作值函數(shù)引入到策略梯度算法中,這就是Actor-Critic算法的核心思想。Actor-Critic算法流程圖8.3.3基于強(qiáng)化學(xué)習(xí)算法的碰撞檢測(cè)47
Actor-Critic算法中的Actor網(wǎng)絡(luò)用于學(xué)習(xí)策略,用于生成動(dòng)作。Critic網(wǎng)絡(luò)則用于學(xué)習(xí)值函數(shù),用于評(píng)估狀態(tài)或狀態(tài)動(dòng)作對(duì)的價(jià)值。Actor和Critic網(wǎng)絡(luò)之間的交互便是Actor-Critic算法的核心機(jī)制。
在Actor-Critic算法中,有兩個(gè)更新任務(wù):Actor網(wǎng)絡(luò)的策略梯度更新和Critic網(wǎng)絡(luò)的值函數(shù)更新。
對(duì)于Actor網(wǎng)絡(luò)的策略梯度更新,我們需要使用Glearning策略梯度定理根據(jù)當(dāng)前的策略計(jì)算更新梯度,以更新Actor網(wǎng)絡(luò)的參數(shù)。
而對(duì)于Critic網(wǎng)絡(luò)的值函數(shù)更新,則需要先計(jì)算出每一次的Reward,然后使用TD誤差計(jì)算當(dāng)前狀態(tài)值和下一時(shí)刻狀態(tài)值之間的誤差,進(jìn)而更新Critic網(wǎng)絡(luò)的參數(shù)。8.3.3基于強(qiáng)化學(xué)習(xí)算法的碰撞檢測(cè)48
Actor-Critic算法用了兩個(gè)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)都是輸入狀態(tài)S,Actor網(wǎng)絡(luò)負(fù)責(zé)選擇動(dòng)作;Critic網(wǎng)絡(luò)負(fù)責(zé)計(jì)算每個(gè)動(dòng)作的分?jǐn)?shù)。那么估計(jì)動(dòng)作值函數(shù)如下:
式(8-59)中Actor-Critic算法有兩組參數(shù),分別是Critic網(wǎng)絡(luò)中用于更新動(dòng)作值函數(shù)參數(shù)??和Actor網(wǎng)絡(luò)中以Critic所指導(dǎo)的方向更新策略參數(shù)??。式中,
為狀態(tài);
為動(dòng)作;
為評(píng)估值;
為帶參數(shù)
的策略函數(shù)。所以Actor-Critic算法也是一種近似的策略梯度算法。Actor網(wǎng)絡(luò)更新采用策略梯度下降法REINFORCE算法,具體表示為:(8-59)(8-60)8.3.3基于強(qiáng)化學(xué)習(xí)算法的碰撞檢測(cè)49
式(8-60)中,
表示目標(biāo)策略的性能,
表示策略梯度,
表示在狀態(tài)
下選擇動(dòng)作
的概率,
是對(duì)狀態(tài)值函數(shù)(StateValueFunction)的估計(jì),作用是用來(lái)減少策略梯度估計(jì)的方差。
雖然REINFORCE算法在Actor-Critic算法中被廣泛使用,但它存在兩個(gè)問(wèn)題:高方差和計(jì)算效率低。為了解決這兩個(gè)問(wèn)題,我們可以引入一個(gè)基準(zhǔn)函數(shù)
,并將獎(jiǎng)勵(lì)
作為更新中的優(yōu)勢(shì)函數(shù)
,公式變?yōu)椋?/p>
式(8-61)中,表示相對(duì)基準(zhǔn)函數(shù)的優(yōu)勢(shì)函數(shù)。(8-61)8.3.3基于強(qiáng)化學(xué)習(xí)算法的碰撞檢測(cè)50
以下是Actor-Critic算法的主要步驟:(1)初始化Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù)。(2)接受初始狀態(tài)
作為輸入,使用Actor網(wǎng)絡(luò)生成初始動(dòng)作
。(3)獲取下一時(shí)刻的狀態(tài)
和對(duì)應(yīng)的Reward
。(4)使用Critic網(wǎng)絡(luò)估計(jì)當(dāng)前狀態(tài)值或狀態(tài)-動(dòng)作值,并計(jì)算TD誤差δ\deltaδ。(5)更新Critic網(wǎng)絡(luò)的參數(shù)以減小TD誤差。(6)使用TD誤差
計(jì)算優(yōu)勢(shì)函數(shù)
。(7)使用REINFORCE算法的策略梯度公式,計(jì)算Actor網(wǎng)絡(luò)的梯度,提高策略性能。(8)使用更新的梯度來(lái)更新Actor網(wǎng)絡(luò)的參數(shù)。(9)將狀態(tài)更新為下一狀態(tài),并返回步驟2。8.3.3基于強(qiáng)化學(xué)習(xí)算法的碰撞檢測(cè)51
深度確定性策略梯度(deepdeterministicpolicygradient,DDPG)算法是在深度Q網(wǎng)絡(luò)(DeepQNetwork,DQN)算法、策略梯度(PolicyGradient)算法、Actor-Critic算法、確定性策略梯度(Deterministicpolicygradient,DPG)算法上發(fā)展而來(lái)的,DDPG算法如圖所示。DDPG算法流程圖8.3.3基于強(qiáng)化學(xué)習(xí)算法的碰撞檢測(cè)52
深度確定性策略梯度算法將Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)復(fù)制為目標(biāo)網(wǎng)絡(luò),使Agent能夠穩(wěn)定地學(xué)習(xí)任務(wù)策略,其網(wǎng)絡(luò)權(quán)值參數(shù)分別表示為
和
。目標(biāo)網(wǎng)絡(luò)極大地提高了Agent在訓(xùn)練時(shí)學(xué)習(xí)過(guò)程的穩(wěn)定性。Actor目標(biāo)網(wǎng)絡(luò)的具體更新方法為:
式中,
用于控制Actor目標(biāo)網(wǎng)絡(luò)權(quán)值
的更新速度。使用相同的方法更新Critic的目標(biāo)網(wǎng)絡(luò)參數(shù)
:
通過(guò)設(shè)計(jì)可反映機(jī)器人與環(huán)境關(guān)系的狀態(tài)與動(dòng)作,針對(duì)目標(biāo)問(wèn)題設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),獲取碰撞信息,從而利用深度確定性策略梯度算法使機(jī)器人避開(kāi)障礙物,更快找到無(wú)碰撞構(gòu)型。(8-62)(8-63)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造53
環(huán)境感知技術(shù)及其分類機(jī)器人的環(huán)境感知過(guò)程中主要包括目標(biāo)障礙物檢測(cè)、距離測(cè)量、避障、建圖等方面的技術(shù),目前環(huán)境感知方法主要包括基于視覺(jué)及多傳感器融合技術(shù)等的感知方法。基于視覺(jué)的環(huán)境感知方法:
機(jī)器人的視覺(jué)系統(tǒng)包括獲取物體的立體圖像的成像裝置和對(duì)圖像進(jìn)行有效處理與分析的視覺(jué)處理器。機(jī)器視覺(jué)系統(tǒng)分為單目視覺(jué)系統(tǒng)、雙目視覺(jué)系統(tǒng)和全景視覺(jué)系統(tǒng)。表8-2為3種視覺(jué)系統(tǒng)的特征對(duì)比?;诙鄠鞲衅魅诤霞夹g(shù)的環(huán)境感知方法:在一定準(zhǔn)則下,利用計(jì)算機(jī)技術(shù)對(duì)按時(shí)序獲得的若干傳感器的觀測(cè)信息進(jìn)行自動(dòng)分析、綜合,并完成決策和任務(wù)估計(jì)的信息處理過(guò)程。8.4重載機(jī)器人在線軌跡規(guī)劃3種視覺(jué)系統(tǒng)的特征對(duì)比戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造54表8-2種視覺(jué)系統(tǒng)的特征對(duì)比視覺(jué)系統(tǒng)單目視覺(jué)系統(tǒng)雙目視覺(jué)系統(tǒng)全景視覺(jué)系統(tǒng)視覺(jué)原理單目攝像機(jī)通過(guò)在不同位置多次拍照,實(shí)現(xiàn)對(duì)目標(biāo)物體的定位利用三角測(cè)量原理獲得深度信息,可以重建周圍景物的位置和三維形狀通過(guò)圖像拼接的方式或者通過(guò)折反射光學(xué)原件實(shí)現(xiàn)優(yōu)點(diǎn)結(jié)構(gòu)簡(jiǎn)單、算法成熟、計(jì)算量小測(cè)量距離較遠(yuǎn),可以實(shí)現(xiàn)物體的三維建模視場(chǎng)360°、成像速度快缺點(diǎn)單張照片不能確定物體的真實(shí)尺寸配置與標(biāo)定復(fù)雜、計(jì)算量大缺乏場(chǎng)景的深度信息,圖像分辨率低8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造55信息融合功能模型主要包含5個(gè)不同級(jí)別的處理層:信息預(yù)處理、目標(biāo)估計(jì)、態(tài)勢(shì)評(píng)估、威脅估計(jì)和過(guò)程優(yōu)化。圖8-19信息融合系統(tǒng)功能模型第0級(jí)信息預(yù)處理:通過(guò)預(yù)先對(duì)輸入數(shù)據(jù)進(jìn)行格式化、標(biāo)準(zhǔn)化、批處理、壓縮等操作,來(lái)滿足后續(xù)的估計(jì)及處理器對(duì)計(jì)算量和計(jì)算順序的要求。第l級(jí)目標(biāo)估計(jì):通過(guò)對(duì)多個(gè)傳感器獲得的信息完成時(shí)間配準(zhǔn)、關(guān)聯(lián)、分組或聚類、狀態(tài)估計(jì)、屬性融合、圖像特征提取與融合等一系列處理過(guò)程,最終實(shí)現(xiàn)目標(biāo)分類與識(shí)別,以及目標(biāo)跟蹤。這兩級(jí)為低融合過(guò)程,適應(yīng)于任何的多傳感器信息融合系統(tǒng)。第2級(jí)為態(tài)勢(shì)評(píng)估,第3級(jí)為威脅估計(jì),第4級(jí)為過(guò)程優(yōu)化。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造56目標(biāo)估計(jì)級(jí)融合有三種基本結(jié)構(gòu)體系:數(shù)據(jù)級(jí)融合、特征級(jí)融合和判決級(jí)融合。a)數(shù)據(jù)級(jí)融合結(jié)構(gòu)
c)判決級(jí)融合結(jié)構(gòu)b)特征級(jí)融合結(jié)構(gòu)圖8-20目標(biāo)估計(jì)級(jí)融合的三種基本結(jié)構(gòu)體系8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造57數(shù)據(jù)級(jí)融合直接融合傳感器采集的原始數(shù)據(jù),然后對(duì)融合后的傳感器數(shù)據(jù)進(jìn)行特征提取和身份估計(jì)。需要注意的是,如果要實(shí)現(xiàn)數(shù)據(jù)級(jí)信息融合,必須要求所有傳感器是相同介質(zhì)的或是相同量級(jí)的,而對(duì)于不同介質(zhì)的多傳感器信息,則必須用特征級(jí)或判定級(jí)融合。典型的數(shù)據(jù)級(jí)融合技術(shù)包括如Kalman濾波、擴(kuò)展Kalman濾波等經(jīng)典的估計(jì)方法。特征級(jí)融合首先從傳感器數(shù)據(jù)中提取出觀測(cè)信息的有效特征組成特征向量,隨后輸入到模式識(shí)別處理模塊,最后利用神經(jīng)網(wǎng)絡(luò)、聚類算法、模式分析等方法進(jìn)行識(shí)別。在判決級(jí)融合方法中,每個(gè)傳感器都需完成一個(gè)變換以便獲得獨(dú)立的屬性判決,然后順序融合來(lái)自每個(gè)傳感器的屬性判決。融合屬性判決采用的主要方法有加權(quán)決策法、經(jīng)典推理法、Bayesian推理、Dempster-Shafer證據(jù)理論等。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造58對(duì)上述三個(gè)級(jí)別的融合方法進(jìn)行分析比較得出以下結(jié)論:其一,融合的數(shù)據(jù)越接近信息源獲得的精度越高,即數(shù)據(jù)級(jí)融合的精度一般是最高的,其次是特征級(jí)融合,判決級(jí)融合普遍精度較差。表8-3三種融合結(jié)構(gòu)的特點(diǎn)比較融合結(jié)構(gòu)信息損失實(shí)時(shí)性精度容錯(cuò)性抗干擾力計(jì)算量融合程度數(shù)據(jù)級(jí)小差高差差大低特征級(jí)中中中良良中中判決級(jí)大好低優(yōu)優(yōu)小高其二,隨著融合層次的提高,系統(tǒng)對(duì)各傳感器的同質(zhì)性要求會(huì)降低,容錯(cuò)性也會(huì)增強(qiáng)。但是融合時(shí)信息保存的細(xì)節(jié)會(huì)減少,精確度也會(huì)降低。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造58環(huán)境建模方法及不確定信息的處理方法(1)柵格表示法該方法是將機(jī)器人的工作環(huán)境劃分成一系列的柵格,其中每一個(gè)柵格都分配一個(gè)概率值來(lái)表示該柵格被障礙物占據(jù)的可能性大小。該環(huán)境建模方法的缺點(diǎn)就是當(dāng)柵格數(shù)量增大時(shí),如在大規(guī)模環(huán)境或?qū)Νh(huán)境劃分比較詳細(xì)時(shí),對(duì)于環(huán)境模型的維護(hù)行為所占用的內(nèi)存和時(shí)間迅速增加,使計(jì)算機(jī)的實(shí)時(shí)處理變得很困難。(2)幾何表示法幾何表示法是用一組環(huán)境路標(biāo)特征表示環(huán)境,每一個(gè)路標(biāo)特征都用一個(gè)幾何原型來(lái)近似。這種環(huán)境建模方法只局限于表示可參數(shù)化的環(huán)境路標(biāo)特征或者可建模的對(duì)象,如點(diǎn)、線、面。該模型易于用計(jì)算機(jī)描述和表示,但對(duì)傳感器噪聲比較敏感,適用于高度結(jié)構(gòu)化的環(huán)境。(3)拓?fù)浔硎痉ㄍ負(fù)浔硎痉ū苊饬藢?duì)幾何環(huán)境品質(zhì)的直接測(cè)量,而注重于與機(jī)器人定位最相關(guān)的環(huán)境特征。拓?fù)洵h(huán)境模型的分辨率決定于環(huán)境的復(fù)雜度。這種表示方法可以實(shí)現(xiàn)快速的路徑規(guī)劃,但當(dāng)環(huán)境中存在兩個(gè)很相似的地方時(shí),拓?fù)浔硎痉ǖ姆椒▽⒑茈y確定這是否為同一節(jié)點(diǎn),特別是機(jī)器人從不同的路徑到達(dá)這些節(jié)點(diǎn)時(shí)。8.4重載機(jī)器人在線軌跡規(guī)劃在環(huán)境建模的基礎(chǔ)上,想讓重載機(jī)器人系統(tǒng)按照規(guī)劃的軌跡在復(fù)雜環(huán)境中安全、高效的自主運(yùn)行,需要準(zhǔn)確獲取重載機(jī)器人的運(yùn)動(dòng)及力狀態(tài)等??柭鼮V波(Kalmanfilter,KF)方法:是在未知環(huán)境中進(jìn)行重載機(jī)器人狀態(tài)參數(shù)估計(jì)的常用方法,但由于卡爾曼濾波方法僅適用于線性系統(tǒng),限制了其在實(shí)際問(wèn)題中的應(yīng)用范圍。擴(kuò)展卡爾曼濾波(extendedKalmanfilter,EKF)方法:是一種非線性濾波估計(jì)方法,通過(guò)泰勒展開(kāi)式將實(shí)際問(wèn)題中的非線性系統(tǒng)近似線性化,然后對(duì)近似線性系統(tǒng)實(shí)施標(biāo)準(zhǔn)的卡爾曼濾波。但是,擴(kuò)展卡爾曼濾波方法存在計(jì)算量大、濾波不穩(wěn)定的問(wèn)題。無(wú)色卡爾曼濾波(unscentedKalmanfilter,UKF)方法:通過(guò)一定數(shù)量的采樣點(diǎn),對(duì)狀態(tài)的概率密度函數(shù)做近似,具有比擴(kuò)展卡爾曼濾波方法更好的估計(jì)精度和魯棒性。戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造608.4重載機(jī)器人在線軌跡規(guī)劃無(wú)色卡爾曼濾波算法的具體過(guò)程如下:
(1)初始化戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造61(8-64)(2)計(jì)算sigma點(diǎn),根據(jù)隨機(jī)向量
的均值
和方差
構(gòu)造一組位于均值附近且關(guān)于其對(duì)稱的離散sigma點(diǎn),記為(8-65)8.4重載機(jī)器人在線軌跡規(guī)劃
(3)時(shí)間更新戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造62(8-66)(4)測(cè)量更新(8-67)除上述算法外,還有高斯和容積卡爾曼濾波算法和誤差狀態(tài)卡爾曼濾波算法可用于機(jī)器人的狀態(tài)估計(jì)。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造63目前,常見(jiàn)的基于強(qiáng)化學(xué)習(xí)的軌跡生成算法包括基于值函數(shù)的軌跡生成算法、基于策略梯度的軌跡生成算法和基于深度強(qiáng)化學(xué)習(xí)的軌跡生成算法等?;谥岛瘮?shù)的軌跡生成算法價(jià)值函數(shù)是對(duì)預(yù)期、積累、折現(xiàn)和未來(lái)收益的預(yù)測(cè)。一般地,優(yōu)化最優(yōu)狀態(tài)和動(dòng)作值函數(shù)
代替狀態(tài)值函數(shù),
并通過(guò)
貪婪策略進(jìn)行更新。更新后的策略可以表示為(8-68)蒙特卡洛(MonteCarlo,MC)、時(shí)間差分(TemporalDifference,TD)學(xué)習(xí)、SARSA和Q-learning是學(xué)習(xí)狀態(tài)和動(dòng)作值函數(shù)的經(jīng)典無(wú)模型強(qiáng)化學(xué)習(xí)算法,通過(guò)價(jià)值函數(shù)求解機(jī)器人行動(dòng)的最優(yōu)策略。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造64基于Q-learning強(qiáng)化學(xué)習(xí)的機(jī)器人推動(dòng)和抓握軌跡生成案例。1)問(wèn)題的形成:將任務(wù)建模為一個(gè)馬爾科夫決策過(guò)程:在任意給定
刻的狀態(tài)下
,智能體(即機(jī)器人)根據(jù)策略
選擇并執(zhí)行一個(gè)動(dòng)作
,然后過(guò)渡到一個(gè)新的狀態(tài)
,并立即獲得相應(yīng)的獎(jiǎng)勵(lì)
。機(jī)器人強(qiáng)化學(xué)習(xí)問(wèn)題的目標(biāo)是找到一個(gè)最優(yōu)策略
,將從
時(shí)刻到
無(wú)限遠(yuǎn)時(shí)刻的未來(lái)回報(bào)的
折現(xiàn)總和:
最大化,即未來(lái)回報(bào)的期望總和達(dá)到最大化,其中
是折現(xiàn)因子。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造65為計(jì)算該高度圖,從固定安裝的相機(jī)中捕獲RGB-D圖像,將數(shù)據(jù)投影到3D點(diǎn)云,并在重力方向上垂直反向投影,以構(gòu)建同時(shí)具有顏色(RGB)和高度(D)通道,如圖高度圖圖像表示。根據(jù)抓握代理工作空間的邊界預(yù)先定義高度圖的邊緣區(qū)域。圖8-21系統(tǒng)的概述和Q-learning的提法2)方法①狀態(tài)表示:將每個(gè)狀態(tài)
建模為
時(shí)刻場(chǎng)景的RGB-D高度圖圖像表示。8.4重載機(jī)器人在線軌跡規(guī)劃化算法戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造66機(jī)器人在一個(gè)由靜態(tài)安裝的RGB-D相機(jī)觀察到的工作空間上操作。視覺(jué)3D數(shù)據(jù)被重新投影到正交RGB-D高度圖上,作為當(dāng)前狀態(tài)的表示。然后將高度圖輸入到兩個(gè)FCN中:一個(gè)
推斷像素級(jí)Q值(以熱圖顯示),用于向高度圖的正確位置推送,另一個(gè)
用于在高度圖上進(jìn)行水平抓取。每個(gè)像素代表執(zhí)行基元行為的不同位置,對(duì)高度圖的16種不同旋轉(zhuǎn)進(jìn)行重復(fù),以考慮不同的推動(dòng)和抓取角度。這些FCN共同定義了深度Q函數(shù),并同時(shí)進(jìn)行訓(xùn)練。8.4重載機(jī)器人在線軌跡規(guī)劃化算法戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造67運(yùn)動(dòng)基元行為定義如下:推動(dòng):q表示在
個(gè)方向中的一個(gè)方向上的起始位置。沿該方向直線推動(dòng)10cm。該動(dòng)作由閉合的兩指夾持器的尖端夾持實(shí)現(xiàn)。抓取:q表示自上而下的平行爪抓取在16
個(gè)方向之一的中間位置。在一次抓握嘗試中,兩個(gè)手爪嘗試在閉合手爪之前移動(dòng)q(在重力方向上)以下3cm。在這兩種基元行為下,機(jī)器人的運(yùn)動(dòng)規(guī)劃都是通過(guò)穩(wěn)定、無(wú)碰撞的IK求解器自動(dòng)執(zhí)行的。(8-69)②原始動(dòng)作:將每個(gè)動(dòng)作
參數(shù)化為在3D位置
執(zhí)行運(yùn)動(dòng)基元行為
(例如推動(dòng)或抓握),位置
是從表示狀態(tài)
的高度圖圖像的像素
投影而來(lái):8.4重載機(jī)器人在線軌跡規(guī)劃法戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造68③充分學(xué)習(xí)卷積的Action-value函數(shù)通過(guò)將Q函數(shù)(動(dòng)作-值函數(shù))建模為兩個(gè)前饋全卷積神經(jīng)網(wǎng)絡(luò)(FCNs)
和
,擴(kuò)展了vanilla深度Q神經(jīng)網(wǎng)絡(luò)(DQN);每個(gè)運(yùn)動(dòng)基元行為對(duì)應(yīng)一個(gè)前饋全卷積網(wǎng)絡(luò)(
對(duì)應(yīng)推動(dòng)和對(duì)應(yīng)抓取)。每個(gè)個(gè)體FCN都將狀態(tài)的高度圖圖像表示作為輸入,并輸出狀態(tài)下具有相同圖像大小和分辨率的Q值的密集像素級(jí)映射,其中每個(gè)個(gè)體在像素處的Q值預(yù)測(cè)表示在3D位置處執(zhí)行基元行為的未來(lái)預(yù)期獎(jiǎng)勵(lì),其中位置對(duì)應(yīng)的像素。前饋全卷積神經(jīng)網(wǎng)絡(luò)
和
具有相同的網(wǎng)絡(luò)架構(gòu):兩個(gè)并行的121層密集卷積網(wǎng)絡(luò)(DenseNet)在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練,然后將兩個(gè)并行模型的輸出在通道維度上進(jìn)行連接,這種方法通常用于合并不同模型或不同層級(jí)的特征圖,可以豐富特征表示能力。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造69④獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制設(shè)置比較簡(jiǎn)單:
用于成功抓取(通過(guò)對(duì)一次抓取嘗試后夾持器手爪之間的對(duì)極距離進(jìn)行閾值化計(jì)算),
用于對(duì)環(huán)境做出可檢測(cè)變化的推送(如果高度圖之間的差異之和超過(guò)某個(gè)閾值
,則檢測(cè)到變化,即
)。⑤訓(xùn)練細(xì)節(jié)Q-learning前饋全卷積神經(jīng)網(wǎng)絡(luò)在每次迭代時(shí)使用Huber損失函數(shù)進(jìn)行訓(xùn)練:(8-70)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造70(2)基于策略梯度的軌跡生成算法與基于值的強(qiáng)化學(xué)習(xí)不同,基于策略的強(qiáng)化學(xué)習(xí)是將一個(gè)狀態(tài)映射到一個(gè)動(dòng)作或?qū)?dòng)作進(jìn)行分配,然后通過(guò)策略優(yōu)化找到最佳的映射關(guān)系。策略搜索方法主要包括隨機(jī)政策搜索和確定性政策搜索。假設(shè)將初始狀態(tài)預(yù)期的累計(jì)獎(jiǎng)勵(lì)作為優(yōu)化目標(biāo)在沒(méi)有明確初始狀態(tài)的情況下,優(yōu)化目標(biāo)可以定義平均值(8-71)(8-72)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造71值函數(shù)由參數(shù)
描述,狀態(tài)
和動(dòng)作
作為輸入。經(jīng)過(guò)計(jì)算,得到近似作用量值。將
描述為含參數(shù)
的函數(shù),近似為
。無(wú)論采用哪種方法作為優(yōu)化目標(biāo),下式表示
求導(dǎo)的梯度;基于softmax策略的函數(shù):(8-73)(8-75)(8-74)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造72該任務(wù)可以描述為一個(gè)馬爾可夫決策過(guò)程。假設(shè)在時(shí)間步長(zhǎng)
時(shí),智能體從環(huán)境中獲得當(dāng)前狀態(tài)
,并根據(jù)策略
采取行動(dòng)
,從而狀態(tài)
轉(zhuǎn)化為
,智能體從環(huán)境中獲得一個(gè)獎(jiǎng)勵(lì)
作為反饋。在訓(xùn)練過(guò)程中,智能體通過(guò)最大化折扣的未來(lái)累積獎(jiǎng)勵(lì)
來(lái)優(yōu)化策略,定義為(8-76)下面是一種具有動(dòng)態(tài)準(zhǔn)則的嵌套雙記憶深度確定性策略梯度算法,將傳統(tǒng)預(yù)定義目標(biāo)點(diǎn)的軌跡規(guī)劃推廣為針對(duì)目標(biāo)區(qū)域的軌跡探索問(wèn)題,而無(wú)需求解逆運(yùn)動(dòng)學(xué)。對(duì)于深度強(qiáng)化學(xué)習(xí)在揀選裝配等多工序機(jī)器人任務(wù)中的應(yīng)用,首要目標(biāo)是使智能體能夠通過(guò)與環(huán)境的交互,通過(guò)自學(xué)習(xí)找到最優(yōu)的揀選策略
,其中需同時(shí)考慮位置和朝向。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造73如圖所示,拾取任務(wù)中的訓(xùn)練對(duì)象是7-DoF串聯(lián)機(jī)械臂KUKALBRiiwa7R800。目標(biāo)是生成機(jī)械臂抓取目標(biāo)區(qū)域2中隨機(jī)懸掛的圓柱主軸的最優(yōu)軌跡,然后將其放置在目標(biāo)區(qū)域3中,并回到初始狀態(tài)。圖8-22拾取和放置組件的物理場(chǎng)景8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造74圖中,A是刀具中心點(diǎn)(TCP)的初始位置。B、C和D分別是目標(biāo)區(qū)域1、2和3中的隨機(jī)點(diǎn)。直接建立從狀態(tài)空間到關(guān)節(jié)空間的映射,形成IK-free軌跡生成框架。因此,被定義為動(dòng)作從環(huán)境中觀察機(jī)械臂和末端執(zhí)行器的狀態(tài),以及TCP與目標(biāo)物體之間的關(guān)系,有(8-77)(8-78)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造75(3)基于深度強(qiáng)化學(xué)習(xí)的軌跡生成算法如圖所示為基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人抓取與裝配操作框架,該框架由抓握先驗(yàn)知識(shí)信息提取模塊、組裝先驗(yàn)知識(shí)信息提取模塊、機(jī)器人抓取深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模塊和機(jī)器人組裝深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模塊組成。在機(jī)器人抓取和裝配任務(wù)中,機(jī)器人首先獲得待抓取的釘形零件的姿態(tài),然后執(zhí)行抓取動(dòng)作;然后,獲取孔形零件的姿態(tài),控制機(jī)器人的釘形零件根據(jù)軌跡規(guī)劃與待組裝的孔形零件對(duì)接,從而完成裝配過(guò)程。圖8-23基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人抓取與裝配操作框架8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造76抓握先驗(yàn)知識(shí)信息提取模塊捕獲待抓取的釘形零件的中心點(diǎn)坐標(biāo)。該模塊由平滑處理單元、灰度變換單元、二值化處理單元、零件輪廓檢測(cè)單元和中心點(diǎn)提取單元組成裝配先驗(yàn)知識(shí)信息提取模塊用于提取待裝配的孔形零件的中心點(diǎn)坐標(biāo)和旋轉(zhuǎn)角度。該模塊由平滑處理單元、灰度變換單元、二值化處理單元、零件輪廓檢測(cè)單元和二進(jìn)制蒙版生成單元組成。該模塊的功能是提取孔形零件的輪廓,并用像素填充輪廓內(nèi)部,形成二進(jìn)制蒙版。訓(xùn)練時(shí)大量的交互數(shù)據(jù)和對(duì)象和環(huán)境之間的泛化有限問(wèn)題,可能會(huì)引起糟糕的控制策略。針對(duì)上述問(wèn)題,引入待裝配孔形零件的3D姿態(tài)等先驗(yàn)知識(shí)信息,基于PCA計(jì)算待裝配孔形零件姿態(tài)信息的方法和輸出的二進(jìn)制掩模估計(jì)3D物體姿態(tài)。PCA是一種無(wú)監(jiān)督方法,可以識(shí)別數(shù)據(jù)集中方差最大的數(shù)據(jù)。通過(guò)使用PCA算法,可以推斷出待組裝的孔形零件的中心點(diǎn)
和旋轉(zhuǎn)角度。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造77機(jī)器人抓取深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模塊預(yù)測(cè)待抓取的釘形零件的姿態(tài),并根據(jù)待抓取的釘形零件的中心點(diǎn)坐標(biāo)優(yōu)化動(dòng)作策略,從而提高被抓取零件的準(zhǔn)確率和成功率。同時(shí),引入了抓取判斷單元和裝配判斷單元,前者做出抓取決策,提高零件抓取的成功率,后者判斷機(jī)器人當(dāng)前的抓取情況,判斷是執(zhí)行下一個(gè)裝配任務(wù)還是重新執(zhí)行抓取任務(wù)。機(jī)器人裝配深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模塊將要裝配的孔形零件的中心點(diǎn)坐標(biāo)和旋轉(zhuǎn)角度作為先驗(yàn)知識(shí)信息,并輸入到PPO網(wǎng)絡(luò)中。PPO網(wǎng)絡(luò)模型輸出最優(yōu)動(dòng)作,驅(qū)動(dòng)機(jī)器人執(zhí)行裝配軌跡規(guī)劃動(dòng)作,從而完成釘在孔裝配任務(wù)。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造78具體流程如下:首先,將深度高度圖輸入裝配先驗(yàn)知識(shí)信息提取模塊,通過(guò)PCA算法推導(dǎo)待裝配孔形零件的中心點(diǎn)坐標(biāo)和旋轉(zhuǎn)角度;然后,將中心點(diǎn)坐標(biāo)和旋轉(zhuǎn)角度作為先驗(yàn)知識(shí)信息輸入到PPO網(wǎng)絡(luò)中,網(wǎng)絡(luò)輸出最優(yōu)動(dòng)作
。隨后,將待組裝孔形零件的二維中心點(diǎn)坐標(biāo)
和旋轉(zhuǎn)角
與當(dāng)前工業(yè)機(jī)器人的末端執(zhí)行器中心點(diǎn)坐標(biāo)
和旋轉(zhuǎn)角度
相結(jié)合,從而形成環(huán)境狀態(tài)
。(8-79)
輸入到PPO網(wǎng)絡(luò)中。通過(guò)多個(gè)全連接層,PPO最終輸出當(dāng)前狀態(tài)
上的動(dòng)作分布,即當(dāng)前狀態(tài)
在時(shí)間t處的最佳動(dòng)作
。(8-80)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造79最優(yōu)動(dòng)作
的更新控制機(jī)器人執(zhí)行裝配軌跡規(guī)劃動(dòng)作,在時(shí)間
生成新的環(huán)境狀態(tài)
,根據(jù)環(huán)境狀態(tài)
生成即時(shí)獎(jiǎng)勵(lì)
。抓取獎(jiǎng)勵(lì)功能的設(shè)置,針對(duì)抓取任務(wù),設(shè)計(jì)了一個(gè)抓取獎(jiǎng)勵(lì)函數(shù)
來(lái)評(píng)估抓取性能。(8-81)(8-82)(8-83)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造80分段裝配獎(jiǎng)勵(lì)的設(shè)置,由于裝配操作的成功取決于機(jī)器人的夾持器與待裝配的孔形零的相對(duì)位置和姿態(tài),因此獎(jiǎng)勵(lì)函數(shù)被設(shè)置為分段函數(shù)。針對(duì)裝配任務(wù),需要設(shè)計(jì)一個(gè)分段裝配獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估裝配效果。(8-84)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造81當(dāng)機(jī)器人夾持器中心點(diǎn)與待裝配孔形零件中心點(diǎn)之間的距離小于某一值A(chǔ)時(shí),機(jī)器人進(jìn)入裝配階段。機(jī)器人的夾持器控制要抓取的釘形零件,并沿Z軸的負(fù)方向緩慢向下移動(dòng),以執(zhí)行插入動(dòng)作。若發(fā)生碰撞,將分配負(fù)獎(jiǎng)勵(lì)q,在這種情況下,機(jī)器人的夾持器返回到裝配階段的初始位置,機(jī)器人重新執(zhí)行軌跡規(guī)劃動(dòng)作。若未發(fā)生碰撞,將分配正獎(jiǎng)勵(lì)u。若超出機(jī)器人最大工作空間,將分配負(fù)獎(jiǎng)勵(lì)v。如果機(jī)器人夾持器中心點(diǎn)與待組裝孔形零件中心點(diǎn)之間的距離繼續(xù)小于某一設(shè)定值B,則機(jī)器人的夾持器將繼續(xù)沿Z軸的負(fù)方向執(zhí)行插件動(dòng)作。如果機(jī)器人向下移動(dòng)的距離為要求距離,則表示此時(shí)機(jī)器人成功完成了插件任務(wù)。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造822.基于強(qiáng)化學(xué)習(xí)的軌跡優(yōu)化算法(1)基于模型的軌跡優(yōu)化算法基于值和策略的強(qiáng)化學(xué)習(xí)是無(wú)模型的,它直接從值函數(shù)和策略函數(shù)中學(xué)習(xí);而基于模型的強(qiáng)化學(xué)習(xí)是有模型的,旨在綜合過(guò)去的經(jīng)驗(yàn)學(xué)習(xí)一個(gè)模型來(lái)預(yù)測(cè)未來(lái)動(dòng)作。有模型強(qiáng)化學(xué)習(xí)是一類依賴于環(huán)境模型(狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù))的強(qiáng)化學(xué)習(xí)算法,通過(guò)學(xué)習(xí)環(huán)境的模型來(lái)進(jìn)行規(guī)劃(Planning)和決策。常見(jiàn)的有模型強(qiáng)化學(xué)習(xí)算法包括動(dòng)態(tài)規(guī)劃(DynamicProgramming)、蒙特卡洛樹(shù)搜索(MonteCarloTreeSearch,MCTS)等。1)動(dòng)態(tài)規(guī)劃算法
動(dòng)態(tài)規(guī)劃算法是一種基于貝爾曼方程的有模型強(qiáng)化學(xué)習(xí)算法,如圖8-24所示。動(dòng)態(tài)規(guī)劃包括策略評(píng)估(PolicyEvaluation)、策略改進(jìn)(PolicyImprovement)和策略迭代(PolicyIteration)等方法。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造831)動(dòng)態(tài)規(guī)劃算法
動(dòng)態(tài)規(guī)劃算法是一種基于貝爾曼方程的有模型強(qiáng)化學(xué)習(xí)算法,如圖8-24所示。動(dòng)態(tài)規(guī)劃包括策略評(píng)估(PolicyEvaluation)、策略改進(jìn)(PolicyImprovement)和策略迭代(PolicyIteration)等方法。圖8-24動(dòng)態(tài)規(guī)劃算法流程圖8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造84策略評(píng)估指的是給定一個(gè)馬爾可夫決策過(guò)程模型MDP和一個(gè)策略,利用貝爾曼方程,求解基于當(dāng)前策略的所有狀態(tài)的值函數(shù)。策略改進(jìn)指的是給定一個(gè)MDP和一個(gè)策略,求解確定的最優(yōu)值函數(shù)和最優(yōu)策略。策略改進(jìn)的具體過(guò)程為在當(dāng)前策略的基礎(chǔ)上,利用貪心算法選擇動(dòng)作,直接將所選擇的動(dòng)作改變?yōu)楫?dāng)前最優(yōu)的動(dòng)作。每次策略改進(jìn)時(shí),值函數(shù)都是單調(diào)遞增的。直到和一致且策略經(jīng)歷改進(jìn)后不再變化,表示此時(shí)收斂至最優(yōu)策略。(8-85)(8-86)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造85策略迭代指的是將初始策略通過(guò)不斷進(jìn)行策略評(píng)估和策略改進(jìn)來(lái)找到最優(yōu)策略的過(guò)程。給定初始策略,策略迭代算法首先評(píng)估該策略的價(jià)值(E),得到該策略的值函數(shù)。后續(xù)過(guò)程中,策略迭代算法會(huì)借助貪心算法對(duì)初始策略進(jìn)行改進(jìn)(I),得到改進(jìn)策略。對(duì)改進(jìn)策略進(jìn)行策略評(píng)估(E)和策略改進(jìn)(I),不斷循環(huán)直至策略收斂至最優(yōu)策略。(8-87)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造862)蒙特卡洛樹(shù)搜索算法
蒙特卡洛樹(shù)搜索是一種基于隨機(jī)模擬的有模型強(qiáng)化學(xué)習(xí)算法,常用于解決大狀態(tài)空間和大動(dòng)作空間的問(wèn)題,包括四個(gè)步驟:選擇(Selection)、擴(kuò)展(Expansion)、模擬(Simulation)和回傳(Backpropagation),如圖8-25所示。圖8-25蒙特卡洛樹(shù)搜索算法的基本步驟8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造87①選擇:從根節(jié)點(diǎn)開(kāi)始,遞歸選擇最優(yōu)的子節(jié)點(diǎn),最終到達(dá)一個(gè)子結(jié)點(diǎn)。根據(jù)UpperConfidenceBounds(UCB)判斷節(jié)點(diǎn)的優(yōu)劣:②擴(kuò)展:如果當(dāng)前結(jié)點(diǎn)不是終止節(jié)點(diǎn),則創(chuàng)建一個(gè)或多個(gè)子節(jié)點(diǎn),并選擇其中一個(gè)進(jìn)行擴(kuò)展。③模擬:從擴(kuò)展節(jié)點(diǎn)開(kāi)始,運(yùn)行一個(gè)模擬的輸出,直到搜索結(jié)束。④回溯:使用模擬得到的獎(jiǎng)勵(lì)或結(jié)果,回溯更新選擇路徑中的每個(gè)節(jié)點(diǎn)的獎(jiǎng)勵(lì)值和訪問(wèn)次數(shù)。(8-88)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造88(2)基于模型無(wú)關(guān)的軌跡優(yōu)化算法無(wú)模型強(qiáng)化學(xué)習(xí)是一類不依賴于環(huán)境模型(狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù))的強(qiáng)化學(xué)習(xí)算法。無(wú)模型算法直接通過(guò)與環(huán)境的交互獲取經(jīng)驗(yàn)數(shù)據(jù),并根據(jù)這些數(shù)據(jù)進(jìn)行學(xué)習(xí)和優(yōu)化。常見(jiàn)的無(wú)模型強(qiáng)化學(xué)習(xí)算法包括Q-learning、SARSA、DeepQ-Network(DQN)等。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造892)基于模型無(wú)關(guān)的軌跡優(yōu)化算法無(wú)模型強(qiáng)化學(xué)習(xí)是一類不依賴于環(huán)境模型(狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù))的強(qiáng)化學(xué)習(xí)算法。常見(jiàn)的無(wú)模型強(qiáng)化學(xué)習(xí)算法包括Q-learning、SARSA、DeepQ-Network(DQN)等。1)Q-learning算法Q-learning是一種典型的無(wú)模型強(qiáng)化學(xué)習(xí)算法,它通過(guò)學(xué)習(xí)一個(gè)Q值函數(shù)來(lái)估計(jì)在某個(gè)狀態(tài)下采取某個(gè)行動(dòng)的長(zhǎng)期回報(bào)。Q-learning算法的更新公式為:2)SARSA算法SARSA是另一種無(wú)模型強(qiáng)化學(xué)習(xí)算法,與Q-learning類似,但SARSA是一種同軌算法(On-Policy),即在更新Q值時(shí)使用的是實(shí)際執(zhí)行的行動(dòng)。SARSA算法的更新公式為:(8-89)(8-90)8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造90下面是一種路徑規(guī)劃優(yōu)化策略,該策略利用了由逆向運(yùn)動(dòng)學(xué)經(jīng)驗(yàn)指導(dǎo)的無(wú)模型深度強(qiáng)化學(xué)習(xí)框架。3)多信息熵軌跡優(yōu)化算法①多目標(biāo)代價(jià)函數(shù)機(jī)器人路徑規(guī)劃任務(wù)的主要目標(biāo)是確定可行的運(yùn)動(dòng)路徑,在給定的約束條件下滿足一組預(yù)定義的目標(biāo)。這些目標(biāo)通常包括最小化運(yùn)動(dòng)時(shí)間、減少能量消耗、增強(qiáng)安全性、優(yōu)化運(yùn)動(dòng)平滑性、提高精度、遵守特定約束、最大限度地提高工作效率和最小化機(jī)械應(yīng)力。8.4重載機(jī)器人在線軌跡規(guī)劃戰(zhàn)略性新興領(lǐng)域教材建設(shè)團(tuán)隊(duì)-重型高端裝備制造911)運(yùn)動(dòng)時(shí)間運(yùn)動(dòng)時(shí)間是指機(jī)械臂從初始狀態(tài)運(yùn)動(dòng)到目標(biāo)狀態(tài)所需的總時(shí)間。定義了一個(gè)時(shí)間代價(jià)函數(shù),為從初始狀態(tài)移動(dòng)到目標(biāo)狀態(tài)所需要的總時(shí)間。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基本知識(shí)培訓(xùn)教材課件
- 從《聯(lián)合國(guó)反腐敗公約》審視我國(guó)影響力交易刑法規(guī)制:現(xiàn)狀、問(wèn)題與完善
- 中蒙俄經(jīng)濟(jì)走廊下東部地區(qū)次區(qū)域合作:機(jī)遇、挑戰(zhàn)與路徑
- 七氟醚預(yù)處理:對(duì)大鼠肝臟缺血再灌注致肝竇內(nèi)皮細(xì)胞損傷的保護(hù)效應(yīng)與機(jī)制探究
- DNA啟動(dòng)子甲基化對(duì)肺癌中脾酪氨酸激酶Syk表達(dá)的影響研究
- 八年級(jí)數(shù)學(xué)平均數(shù)眾數(shù)單元試卷及答案
- 基層醫(yī)生基礎(chǔ)知識(shí)培訓(xùn)課件
- 新解讀《GB-T 39702-2020汽車輪胎力和力矩試驗(yàn)方法》
- 新解讀《GB-T 20975.9-2020鋁及鋁合金化學(xué)分析方法 第9部分:鋰含量的測(cè)定 火焰原子吸收光譜法》
- 宋詞原創(chuàng)考試題及答案
- 中醫(yī)艾灸養(yǎng)生護(hù)理
- 2025屆湖南省長(zhǎng)沙市一中物理高一上期中達(dá)標(biāo)檢測(cè)模擬試題含解析
- 工程施工重點(diǎn)、難點(diǎn)分析及保證措施
- 2024城市電纜線路巖土工程勘察規(guī)范
- 華為質(zhì)量回溯(根因分析與糾正預(yù)防措施)模板
- CATIA CAA 二次開(kāi)發(fā)詳細(xì)教程(11) 程序的發(fā)布
- 高空作業(yè)安全刷漆施工方案
- 保密檔案培訓(xùn)課件
- 混凝土冬季施工熱工計(jì)算表
- 公司股東出資證明書(標(biāo)準(zhǔn))
- 深圳大學(xué)附屬華南醫(yī)院信息化補(bǔ)充建設(shè)項(xiàng)目需求
評(píng)論
0/150
提交評(píng)論