




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于DDPG算法的無(wú)人機(jī)控制設(shè)計(jì)案例概述目錄TOC\o"1-3"\h\u12570基于DDPG算法的無(wú)人機(jī)控制設(shè)計(jì)案例概述 1173271.1框架設(shè)計(jì) 140451.2神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 3181241.3動(dòng)作探索策略設(shè)計(jì) 769001.4獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì) 844781.5強(qiáng)化學(xué)習(xí)控制算法整體 15雖然DQN算法在雅達(dá)利的游戲上取得了前所未有的成功,但是仍存在著一定的局限性,那就是這種算法在很大程度上只能適用于離散的動(dòng)作空間。然而在現(xiàn)實(shí)生活中,我們所遇到的問(wèn)題在很多時(shí)候都是連續(xù)動(dòng)作空間問(wèn)題。盡管連續(xù)動(dòng)作空間可以一步步的細(xì)分,最終使其轉(zhuǎn)化為離散動(dòng)作空間的問(wèn)題,但這樣會(huì)使得整個(gè)動(dòng)作空間過(guò)于龐大,造成數(shù)據(jù)難以收斂,對(duì)于數(shù)據(jù)的分析與處理造成了一定的困難[28~29]。本課題所研究的無(wú)人機(jī)的軌跡跟蹤正是連續(xù)動(dòng)作空間的問(wèn)題,因此在算法的選擇上就排除了DQN的相關(guān)算法,進(jìn)而選用了DDPG算法作為無(wú)人機(jī)控制器的控制算法。DDPG在DQN算法的基礎(chǔ)上進(jìn)行了一定的改進(jìn),使其能夠適應(yīng)連續(xù)動(dòng)作空間的相關(guān)問(wèn)題,而非僅僅局限于離散動(dòng)作空間。1.1框架設(shè)計(jì)在進(jìn)行DDPG控制器的設(shè)計(jì)之前,需要對(duì)于如何使用DDPG算法控制無(wú)人機(jī)的軌跡的整體框架進(jìn)行一定的設(shè)計(jì)。四旋翼無(wú)人機(jī)控制器示意圖如下圖所示[30、32]。圖1.1DDPG算法標(biāo)準(zhǔn)框架圖Fig1.1Ddpgalgorithmstandardframework由上圖可知,由控制器來(lái)接受無(wú)人機(jī)模型的仿真狀態(tài),其每個(gè)步驟可以表示如下:首先控制其接收到無(wú)人機(jī)的狀態(tài)信息,并將其傳送至actor網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)根據(jù)預(yù)先所設(shè)定的策略函數(shù)選取一個(gè)動(dòng)作將其重新輸出給無(wú)人機(jī)模型,在這個(gè)過(guò)程中會(huì)引入環(huán)境噪聲N。無(wú)人機(jī)執(zhí)行這一動(dòng)作,同時(shí)返回獎(jiǎng)勵(lì)r和執(zhí)行動(dòng)作后新的狀態(tài)信息s將1~3步所產(chǎn)生的信息,原狀態(tài),動(dòng)作,獎(jiǎng)勵(lì),新?tīng)顟B(tài)全部傳送進(jìn)作為經(jīng)驗(yàn)池的緩存器之中。從緩存采樣數(shù)據(jù)傳入目標(biāo)critic網(wǎng)絡(luò),作為當(dāng)前actor和critic網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集。通過(guò)最小化critic網(wǎng)絡(luò)的損失函數(shù)來(lái)不斷更新critic網(wǎng)絡(luò)。根據(jù)actor網(wǎng)絡(luò)的策略梯度不斷更新actor網(wǎng)絡(luò)更新目標(biāo)actor網(wǎng)絡(luò)和目標(biāo)critic網(wǎng)絡(luò)不斷重復(fù)上述步驟,直至達(dá)到訓(xùn)練體的最大步數(shù)1.2神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是本研究中強(qiáng)化學(xué)習(xí)算法的核心框架。所采用的actor-critic網(wǎng)絡(luò)設(shè)計(jì),由這兩部分所組成。Actor網(wǎng)絡(luò)為動(dòng)作策略網(wǎng)絡(luò),其輸入為無(wú)人機(jī)的狀態(tài)信息,而輸出則為無(wú)人機(jī)的動(dòng)作信息。無(wú)人機(jī)是根據(jù)當(dāng)前所處的位置狀態(tài)信息來(lái)自主選擇所采取的動(dòng)作,并自主執(zhí)行這一動(dòng)作。例如無(wú)人機(jī)會(huì)根據(jù)自己所處的位置狀態(tài),選擇是增加還是減少旋翼的轉(zhuǎn)速。而評(píng)價(jià)網(wǎng)絡(luò)的作用是對(duì)當(dāng)前無(wú)人機(jī)所處的狀態(tài)時(shí)所采取的動(dòng)作進(jìn)行評(píng)分。例如,無(wú)人機(jī)處于某一狀態(tài)S時(shí),無(wú)人機(jī)的策略網(wǎng)絡(luò)會(huì)根據(jù)當(dāng)前狀態(tài)決定其的輸出動(dòng)作a,而評(píng)價(jià)網(wǎng)絡(luò)就是依據(jù)評(píng)價(jià)指標(biāo)Q對(duì)無(wú)人機(jī)采取的動(dòng)作a進(jìn)行評(píng)分,能夠更好地將無(wú)人機(jī)的行為合理化與數(shù)值化,進(jìn)一步引導(dǎo)無(wú)人機(jī)的策略網(wǎng)絡(luò)在無(wú)人機(jī)的整體運(yùn)行中主動(dòng)選擇更為優(yōu)秀的動(dòng)作,使無(wú)人機(jī)的動(dòng)作更加合理。圖1.2(1)Actor網(wǎng)絡(luò)結(jié)構(gòu)圖1.2(2)critic網(wǎng)絡(luò)結(jié)構(gòu)Fig1.2(1)Actornetworkstructure圖1.2(2)Criticalnetworkstructure由圖1.2(1)可知,Actor網(wǎng)絡(luò)結(jié)構(gòu)選用了3個(gè)全連接層,其輸入為無(wú)人機(jī)的狀態(tài)信息St,輸出的動(dòng)作信息為μ(s)。由圖1.2(2)可知critic網(wǎng)絡(luò)也同樣選取了3個(gè)全連接層,不同的是,critic網(wǎng)絡(luò)同時(shí)輸入了動(dòng)作和狀態(tài),而輸出則為評(píng)價(jià)網(wǎng)絡(luò)對(duì)當(dāng)前的評(píng)分Q值。在上述的結(jié)構(gòu)之中都出現(xiàn)了ReLU函數(shù)和tanh函數(shù),在此,對(duì)于這兩種函數(shù)的原理和功能進(jìn)行一定的闡述:ReLU函數(shù)全稱為RectifiedLinearUnit。是一種線性修正單元,除了actor網(wǎng)絡(luò)的輸出動(dòng)作的最后一層外都有用到這個(gè)函數(shù)。這個(gè)函數(shù)的表達(dá)式和函數(shù)曲線表示為如下(1.2)圖1.2(3)ReLU函數(shù)值域圖Fig1.2(3)Relufunctionrangediagram這個(gè)函數(shù)是一個(gè)階梯函數(shù)。這個(gè)函數(shù)會(huì)將所有的負(fù)值信息置為0值,而正值則可以正常輸出,這種操作被稱為單向抑制。在兩種神經(jīng)網(wǎng)絡(luò)中則主要是為了是神經(jīng)網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)具有一定的激活性,能夠使模型更好地挖掘數(shù)據(jù)信息。Tanh函數(shù)雙正切函數(shù),其表達(dá)式和函數(shù)圖表示如下(1.3)圖1.2(4)Tanh函數(shù)值域圖Fig1.2(4)Tanhfunctionrangediagram其值域只會(huì)在(-1,1)之間,無(wú)論輸入結(jié)果如何都會(huì),將結(jié)果變得平滑。將這個(gè)函數(shù)作為actor網(wǎng)絡(luò)的最后一層的激活函數(shù),會(huì)使數(shù)據(jù)在相差明顯時(shí)能夠更好地輸出,同時(shí)子啊一次次地迭代中能夠不斷擴(kuò)大這種特征。作為actor網(wǎng)絡(luò)的的最后一層還有一個(gè)重要原因,無(wú)人機(jī)的四個(gè)旋翼是按照兩種不同的方式進(jìn)行旋轉(zhuǎn)的,因此使用這種函數(shù)可以更好地進(jìn)行旋翼方面的表述。舉個(gè)例子,該函數(shù)的值域?yàn)椋?1,1),無(wú)人機(jī)的電機(jī)轉(zhuǎn)速范圍為(-2000,2000)則就可以讓-1表示電機(jī)按順時(shí)針?lè)较蛐D(zhuǎn),轉(zhuǎn)速為2000n/min,而1則是電機(jī)按逆時(shí)針?lè)较蛐D(zhuǎn),轉(zhuǎn)速為2000n/min。按照相應(yīng)的比例進(jìn)行取值。以上兩種函數(shù)都是為了解決在強(qiáng)化學(xué)習(xí)中由于使用ddpg算法對(duì)軌跡所進(jìn)行預(yù)測(cè)時(shí),所產(chǎn)生的兩種擬合問(wèn)題。欠擬合,由于數(shù)據(jù)的特征集不足而導(dǎo)致無(wú)法準(zhǔn)確描述一組數(shù)據(jù)的相應(yīng)的特征的現(xiàn)象。為了能夠成功地?cái)M合四旋翼無(wú)人機(jī)的環(huán)境,只需增加網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)量就能解決欠擬合的問(wèn)題。過(guò)擬合,則是由于過(guò)度追求數(shù)據(jù)模型的預(yù)測(cè)能力,而使得模型變得過(guò)于繁瑣與復(fù)雜,遠(yuǎn)遠(yuǎn)超過(guò)了實(shí)際生活中的現(xiàn)實(shí)模型,這種現(xiàn)象稱為過(guò)擬合。之所以進(jìn)行兩種函數(shù)的設(shè)計(jì)正是為了解決這一現(xiàn)象,使得四旋翼無(wú)人機(jī)模型具有更好的泛化能力,能夠得到更多的應(yīng)用。1.3動(dòng)作探索策略設(shè)計(jì)DDPG(DeepDeterministicPolicyGradient)算法,是一種深度確定性策略算法,而不是一種隨機(jī)策略算法,因此,其所輸出的是一個(gè)確定性的動(dòng)作,而不是一個(gè)概率選取的動(dòng)作。這一系列的行為直接導(dǎo)致了該算法能夠在連續(xù)動(dòng)作空間輸出動(dòng)作,進(jìn)而實(shí)現(xiàn)無(wú)人機(jī)的連續(xù)控制,但是也有了一個(gè)致命的缺點(diǎn):難以尋找到更為優(yōu)秀、合理的動(dòng)作。為了能夠使無(wú)人機(jī)尋找到一個(gè)較為優(yōu)秀的動(dòng)作,同時(shí)由于無(wú)人機(jī)的動(dòng)作維度較高,不在適用于以往強(qiáng)化學(xué)習(xí)算法中的策略,因此本文所使用了另一個(gè)動(dòng)作策略,其表達(dá)式如下所示:μ為期望狀態(tài)與軌跡,K為噪聲系數(shù),在算法不斷學(xué)習(xí)的過(guò)程中,噪聲會(huì)不斷地乘以一個(gè)系數(shù),而由于系數(shù)的值小于1,因此噪聲會(huì)不斷地減小,這也就用意味著動(dòng)作探索就會(huì)慢慢趨向于收斂,直至探索結(jié)束。強(qiáng)化學(xué)習(xí)算法中為了模擬真實(shí)環(huán)境中所存在的干擾,更好地體現(xiàn)出強(qiáng)化學(xué)習(xí)算法的抗干擾能力的優(yōu)越性,將干擾項(xiàng)設(shè)計(jì)如下圖1.3所示:圖1.3干擾項(xiàng)結(jié)構(gòu)設(shè)計(jì)圖Fig1.3Interferenceitemstructuredesigndrawing干擾項(xiàng)的設(shè)計(jì)是一個(gè)不斷變化的時(shí)鐘信號(hào),經(jīng)過(guò)一定的的運(yùn)算變換后作為一個(gè)不斷波動(dòng)的正弦信號(hào)輸出。將這個(gè)信號(hào)作為不斷干擾無(wú)人機(jī)正常飛行的動(dòng)態(tài)干擾項(xiàng),以此來(lái)考驗(yàn)無(wú)人機(jī)在動(dòng)態(tài)環(huán)境下的飛行能力,能否按照既定軌跡完成到達(dá)目標(biāo)位置的飛行任務(wù)。1.4獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)作為DDPG算法的核心,起到了至關(guān)重要的作用,它在很大的程度上直接決定智能體訓(xùn)練的結(jié)果,決定了本次實(shí)驗(yàn)的成敗。一個(gè)優(yōu)秀、合理的獎(jiǎng)賞函數(shù)可以讓智能體在不斷訓(xùn)練的過(guò)程中得到有效的發(fā)揮,不斷優(yōu)化與調(diào)整,而與之相反,一個(gè)考慮不周的獎(jiǎng)勵(lì)函數(shù),會(huì)使智能體在“試錯(cuò)”的過(guò)程中一錯(cuò)再錯(cuò),得到一個(gè)宛如“智障”般的智能體。當(dāng)無(wú)人機(jī)處于一個(gè)狀態(tài)時(shí),變會(huì)得到一個(gè)指令,讓無(wú)人機(jī)采取一個(gè)新的動(dòng)作,而這一過(guò)程的變化會(huì)生成一個(gè)獎(jiǎng)勵(lì),這個(gè)獎(jiǎng)勵(lì)是來(lái)自于環(huán)境的反饋所給予的,有可能是一個(gè)正值,也有可能是一個(gè)負(fù)值。在通常意義上而言,把正值的獎(jiǎng)勵(lì)作為獎(jiǎng)賞,相反,我們把負(fù)值的獎(jiǎng)勵(lì)作為一種懲罰。四旋翼無(wú)人機(jī)的獎(jiǎng)勵(lì)函數(shù)主要涉及了3個(gè)位置和3個(gè)角度方面的信息,同時(shí)也主要是根據(jù)前一刻與后一刻的變化來(lái)進(jìn)行獎(jiǎng)勵(lì)。因此為了方便獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),在本次實(shí)驗(yàn)中加入了位置誤差和姿態(tài)誤差來(lái)使獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)更加簡(jiǎn)單化和合理化。在本次實(shí)驗(yàn)中主要是為了對(duì)與四旋翼無(wú)人機(jī)的軌跡進(jìn)行跟蹤仿真,考驗(yàn)的是無(wú)人機(jī)在空中平穩(wěn)飛行的能力,因此本次實(shí)驗(yàn)中,將無(wú)人機(jī)的初始環(huán)境與結(jié)束環(huán)境設(shè)定為同一水平面,同時(shí)預(yù)期軌跡則是在維持高度不變的情況下飛行一條直線或者曲線來(lái)進(jìn)行四旋翼的仿真。圖1.4(1)位置誤差與姿態(tài)誤差運(yùn)算模塊Fig1.4(1)Positionerrorandheadingerrorcalculationmodule圖1.4(1)所示為該模型所使用的誤差模塊的連接結(jié)構(gòu)。該模塊主要使用了5個(gè)輸入量來(lái)進(jìn)行運(yùn)算,最終得出2個(gè)誤差方面的數(shù)值進(jìn)行輸出,后續(xù)將與獎(jiǎng)勵(lì)模塊相連接,在下面會(huì)對(duì)如何進(jìn)行誤差方面的計(jì)算進(jìn)行分析:位置誤差:由于考慮到維持高度不變的前提,主要將水平平面內(nèi)的X與Y作為了主要的參考,以下為位置誤差的公式,(1.4)備注:1)pos_err(position_error,以下簡(jiǎn)稱為ep)為無(wú)人機(jī)的位置誤差,2)R_x,R_y:(Robot_x,Robot_y)為無(wú)人機(jī)的狀態(tài)位置。3)G_x,G_y:(Goal_x,Goal_Y)為無(wú)人機(jī)的的目標(biāo)位置。算法的核心是根據(jù)無(wú)人機(jī)的位置信息進(jìn)行加權(quán)求和再開(kāi)方的方式來(lái)得到位置誤差。姿態(tài)誤差:姿態(tài)誤差主要是為了方便進(jìn)行角度方面的獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),相同的姿態(tài)誤差的設(shè)計(jì)也較為繁瑣,以下是姿態(tài)誤差計(jì)算的相關(guān)各式:(1.5)通過(guò)上式的計(jì)算可以得出一個(gè)3x1的列矩陣,隨后將矩陣中的各個(gè)值進(jìn)行反正切,得eh=tan-1(head),即可得到角度上的角度值,不過(guò)此時(shí)的取值是一個(gè)弧度制,而非可以直接使用的角度制,因此需要進(jìn)行單位制的變換。最終輸出orr_err。計(jì)算完成了DDPG控制器所需的位置誤差和角度誤差。接下來(lái)需要對(duì)于DDPG控制器進(jìn)行設(shè)計(jì)。對(duì)于DDOG控制器的設(shè)計(jì)分為了3個(gè)部分,觀察位(obs),獎(jiǎng)勵(lì)位(reward)和停止位(isdone)。其中獎(jiǎng)勵(lì)位的設(shè)計(jì)是其中的重要部分,也是直接影響跟蹤效果的關(guān)鍵。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)總體模塊圖如下圖1.4(2)所示圖1.4(2)獎(jiǎng)勵(lì)函數(shù)整體框圖Fig1.4(2)Overallblockdiagramofrewardfunction獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)主要分為5個(gè)部分,,以下對(duì)每一個(gè)部分的設(shè)計(jì)與目的,進(jìn)行一步步的解釋與說(shuō)明。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的第一部分是通過(guò)引入先前所計(jì)算的位置誤差來(lái)進(jìn)行設(shè)計(jì)的,所使用的獎(jiǎng)勵(lì)函數(shù)公式設(shè)計(jì)如下:(1.6)圖1.4(3)位置誤差獎(jiǎng)勵(lì)模塊Fig1.4(3)Positionerrorrewardmodule這個(gè)公式的設(shè)計(jì),是依據(jù)其位置誤差,只要位置誤差的值小于一就可以給予一個(gè)正獎(jiǎng)勵(lì),而值大于1,則會(huì)給予系統(tǒng)一個(gè)負(fù)獎(jiǎng)勵(lì),通過(guò)這一步的設(shè)計(jì)可以是智能體的訓(xùn)練更傾向于選擇一種位置誤差較小的動(dòng)作。如果不選擇加入這一個(gè)限制而選擇讓智能體隨機(jī)選取,則很有可能使結(jié)果直接發(fā)生發(fā)散的現(xiàn)象,這在一定程度上保證了位置上的收斂結(jié)果,能夠增加系統(tǒng)的穩(wěn)定性。獎(jiǎng)勵(lì)函數(shù)的第二部分的設(shè)計(jì)同樣使用了位置誤差,不過(guò)首先對(duì)于位置誤差進(jìn)行了求導(dǎo),這一目的是為了能夠得到位置誤差的變化速度,以從來(lái)進(jìn)行獎(jiǎng)懲地判斷,以下給出了這一判斷的公式基礎(chǔ):(1.7)ep_d是通過(guò)求導(dǎo)模塊所求出的.這一設(shè)計(jì)的初衷是為了控制位置誤差的變化幅度不至于過(guò)大,同時(shí)進(jìn)行遠(yuǎn)離目標(biāo)位置的懲罰,因此公式本身并沒(méi)有設(shè)計(jì)的過(guò)于復(fù)雜。如上式所示,顯而易見(jiàn),當(dāng)變化幅度小于0.1時(shí),給予系統(tǒng)一個(gè)正獎(jiǎng)勵(lì),而大于0.1時(shí),則給予一個(gè)負(fù)獎(jiǎng)勵(lì)。這一設(shè)計(jì)在軌跡的跟蹤方面也有著相當(dāng)關(guān)鍵的作用。變化幅度的控制可以保證智能體在訓(xùn)練無(wú)人機(jī)軌跡仿真的過(guò)程中不會(huì)出現(xiàn)偏差過(guò)大的現(xiàn)象,以此來(lái)確保無(wú)人機(jī)系統(tǒng)運(yùn)行的準(zhǔn)確性。圖1.4(4)位置誤差獎(jiǎng)勵(lì)模塊2Fig1.4(4)Positionerrorrewardmodule2獎(jiǎng)勵(lì)函數(shù)的第三、第四部分則使用了姿態(tài)誤差來(lái)進(jìn)行設(shè)置,將姿態(tài)誤差作為輸入量,計(jì)算得出相應(yīng)的獎(jiǎng)勵(lì),設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)如下:(1.8)eh:headingerror,姿態(tài)誤差姿態(tài)誤差的設(shè)計(jì)是為了控制角度方面的誤差,同時(shí)進(jìn)行遠(yuǎn)離目標(biāo)位置的懲罰,使四旋翼無(wú)人機(jī)能夠以一種更為平穩(wěn)的方式進(jìn)行飛行。其思路為,當(dāng)姿態(tài)誤差的加權(quán)值小于10時(shí),給予系統(tǒng)一個(gè)正向的獎(jiǎng)勵(lì);相反,大于10時(shí),給予系統(tǒng)一個(gè)負(fù)獎(jiǎng)勵(lì)。同時(shí),可以很明顯地發(fā)現(xiàn),與位置誤差的獎(jiǎng)勵(lì)函數(shù)相比,姿態(tài)誤差有所不同,多了一個(gè)相減的過(guò)程,這個(gè)設(shè)計(jì)的目的主要是為了控制姿態(tài)誤差和位置誤差的權(quán)重關(guān)系。在權(quán)重的考量上,將位置誤差放的更重,使智能體在訓(xùn)練四旋翼無(wú)人機(jī)的過(guò)程中,會(huì)將位置的精確度作為主要的考慮標(biāo)準(zhǔn),在位置精確和姿態(tài)平穩(wěn)發(fā)生矛盾的情況下,智能體會(huì)優(yōu)先選擇位置的精確度,而一定程度上忽略姿態(tài)的平穩(wěn)性。圖1.4(5)姿態(tài)誤差獎(jiǎng)勵(lì)模塊Fig1.4(5)headingerrorrewardmodule第四部分則大體上和第二部分相同,將姿態(tài)誤差進(jìn)行了求導(dǎo)的運(yùn)算,得到了姿態(tài)誤差的變化速度,將其這一部分的獎(jiǎng)勵(lì)函數(shù)輸入,設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)如下所示:(1.9)這一設(shè)計(jì)的初衷是同樣是為了為了控制姿態(tài)誤差的變化幅度不至于過(guò)大,因此公式本身并沒(méi)有設(shè)計(jì)的過(guò)于復(fù)雜。如上式所示,顯而易見(jiàn),當(dāng)變化幅度小于-0.1時(shí),給予系統(tǒng)一個(gè)正獎(jiǎng)勵(lì),而大于-0.1時(shí),則給予一個(gè)負(fù)獎(jiǎng)勵(lì)。之所以設(shè)計(jì)的使負(fù)值,是因?yàn)樨?fù)值的設(shè)定可以保證姿態(tài)誤差可以優(yōu)先減小。這一設(shè)計(jì)在軌跡跟蹤的平穩(wěn)性方面有著關(guān)鍵的作用。變化幅度的控制可以保證智能體在訓(xùn)練無(wú)人機(jī)軌跡仿真的過(guò)程中不會(huì)出現(xiàn)由于姿態(tài)偏差過(guò)大,而導(dǎo)致無(wú)人機(jī)失穩(wěn)的現(xiàn)象,以此來(lái)確保無(wú)人機(jī)系統(tǒng)運(yùn)行的平穩(wěn)性。圖1.4(3)姿態(tài)誤差獎(jiǎng)勵(lì)模塊2Fig1.4(3)Attitudeerrorrewardmodule2第五部分的設(shè)計(jì)則主要使考慮無(wú)人機(jī)的狀態(tài)。當(dāng)無(wú)人機(jī)在訓(xùn)練中超出所設(shè)定的界限時(shí)將會(huì)給予一個(gè)極大的負(fù)獎(jiǎng)勵(lì);無(wú)人機(jī)的所處狀態(tài),角度,角速度都是一種負(fù)面的信息,因此將其設(shè)定為一種負(fù)獎(jiǎng)勵(lì),這也可以在一定程度上激勵(lì)著智能體向完全穩(wěn)定的方向進(jìn)行。最后則是將上述的所有獎(jiǎng)勵(lì)函數(shù)加權(quán)求和作為最終的獎(jiǎng)勵(lì)值Q,Q的計(jì)算公式表示如下:(1.10)以上便是獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)通過(guò)各方面的設(shè)計(jì)可以使得無(wú)人機(jī)的位置
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年增城音樂(lè)考編試題及答案
- 2025年學(xué)生新消法考試題及答案
- 2025年護(hù)師考試題目及答案中醫(yī)
- 2025年渤海鉆探安全競(jìng)賽題庫(kù)
- 2025年心理咨詢師之心理咨詢師基礎(chǔ)知識(shí)考試題庫(kù)(含答案)
- 2024年上海市成人高考專升本《教育理論》真題匯編(含答案)
- 2025年氧化工藝考試題庫(kù)及氧化工藝找解析
- 2025年uwc試題及答案
- 2025年寶安編外考試題目及答案
- 2025年秋招:會(huì)計(jì)崗題庫(kù)及答案
- 2025年廣州市海珠區(qū)華洲街道招聘雇員(4人)筆試備考試題含答案詳解(綜合題)
- 福建省光伏管理辦法
- 2024年南充職業(yè)技術(shù)學(xué)院招聘真題
- 教學(xué)副校長(zhǎng)在教師會(huì)上講話:主備不實(shí)集備失魂-把握“六無(wú)六不”讓課堂走實(shí)又走心
- 班組成本管理課件
- 印章管理辦法處罰規(guī)定
- 北京卷2025年高考語(yǔ)文真題
- 2025年小升初文學(xué)常識(shí)試題大全附答案
- 車隊(duì)業(yè)務(wù)承包協(xié)議書(shū)范本
- 顱內(nèi)占位護(hù)理課件
- 航運(yùn)和港口管理引入DeepSeek大模型應(yīng)用設(shè)計(jì)方案
評(píng)論
0/150
提交評(píng)論