人工智能通識 課件 第七章 智能之軀-具身智能_第1頁
人工智能通識 課件 第七章 智能之軀-具身智能_第2頁
人工智能通識 課件 第七章 智能之軀-具身智能_第3頁
人工智能通識 課件 第七章 智能之軀-具身智能_第4頁
人工智能通識 課件 第七章 智能之軀-具身智能_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第七章智能之軀——具身智能《人工智能通識》配套課件《人工智能通識》教研組本章目錄7.1具身智能概述7.2具身智能的核心技術(shù)7.3具身智能的典型案例

7.4具身智能的前沿與展望1本章目錄7.1具身智能概述7.2具身智能的核心技術(shù)7.3具身智能的典型案例

7.4具身智能的前沿與展望17.1具身智能概述具身智能的基本概念具身智能定義:以智能體作為本體支撐,不再局限于被動響應(yīng),而是能夠像生物體一樣,主動適應(yīng)環(huán)境變化,應(yīng)對噪聲干擾,并適時調(diào)整自身行為。輸入輸出離身智能具身智能物理交互環(huán)境復(fù)雜動態(tài)輸入聽說看交互理解單一的符號智能往往與真實世界相脫節(jié),認知與身體解耦智能是具身化和情景化的,具身智能可通過與真實世界的交互完成任務(wù)智能體7.1具身智能概述具身智能的基本概念具身(Embodiment):智能系統(tǒng)所依附的、能夠支持豐富感官體驗與靈活運動能力的物理實體,是智能體與環(huán)境互動的基礎(chǔ)。具身的(Embodied):具有身體的,可參與交互、感知的。具身智能(EmbodiedAI):特指那些擁有物理形態(tài),并能直接參與物理世界交互的智能系統(tǒng),如服務(wù)型機器人、智能無人駕駛車輛等。它們通過“身體力行”的方式,展現(xiàn)出高度的環(huán)境適應(yīng)性與任務(wù)執(zhí)行能力。具身任務(wù):像人類一樣通過觀察、移動、對話以及與世界互動從而完成的一系列任務(wù)。多模態(tài):一個模型或系統(tǒng)能夠處理多種不同類型的輸入數(shù)據(jù)并融合它們生成輸出,這些類型包括文本、圖像、音頻和視頻等。這種能力對于提升智能系統(tǒng)的環(huán)境感知與決策能力至關(guān)重要。主動交互:機器人或智能體與環(huán)境的實時交互過程,從而提高智能體的學(xué)習(xí)、交流與處理問題的能力,是具身智能實現(xiàn)高效任務(wù)執(zhí)行的關(guān)鍵。7.1具身智能概述具身智能的核心要素具身智能本體學(xué)習(xí)數(shù)據(jù)智能體本體在物理與虛擬空間中承擔環(huán)境感知和任務(wù)執(zhí)行,通過多種形式的機器人展現(xiàn)其關(guān)鍵作用,設(shè)計廣泛適應(yīng)性的本體是實現(xiàn)數(shù)字與物理世界融合的基礎(chǔ)。其感知能力、運動靈活性及操作精度共同決定了本體的多維性能。智能體作為本體的智能核心,具備敏銳的感知能力和動態(tài)決策機制,能夠解析復(fù)雜環(huán)境并高效執(zhí)行任務(wù);借助深度學(xué)習(xí)和多模態(tài)模型的發(fā)展,智能體實現(xiàn)了從單一任務(wù)向多功能通用應(yīng)用的躍升,具備自我進化和持續(xù)優(yōu)化的能力。數(shù)據(jù)在機器學(xué)習(xí)與具身智能系統(tǒng)中至關(guān)重要,通過整合大量多樣的具身數(shù)據(jù),提升了智能體的任務(wù)執(zhí)行成功率,但仍面臨數(shù)據(jù)采集與結(jié)構(gòu)復(fù)雜的挑戰(zhàn)。具身學(xué)習(xí)通過智能體與環(huán)境及人類的互動,構(gòu)建“感知-決策-行動”閉環(huán),利用人類-智能體交互數(shù)據(jù)強化多模態(tài)系統(tǒng),推動智能體進化與性能提升。在交互過程中,系統(tǒng)提供多樣化輸出選項供用戶反饋,以此優(yōu)化未來性能,并通過人機協(xié)作糾正錯誤,增強系統(tǒng)的安全性和可靠性。7.1具身智能概述具身智能的核心要素具身數(shù)據(jù)的獲取方案:RT-X項目互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練,學(xué)習(xí)通用知識具身數(shù)據(jù)微調(diào),學(xué)習(xí)動作控制“將蘋果移動至在罐子和橘子之間”基于OpenX-Embodiment數(shù)據(jù)集訓(xùn)練,RT-2-X模型在眾多具身任務(wù)上平均成功率提升近50%。RT-X項目構(gòu)建通用具身數(shù)據(jù)集,涵蓋多種機器人類型、任務(wù)和場景,整合了來自34家研究實驗室的60個數(shù)據(jù)集,數(shù)據(jù)集總量驚人地達到1,402,930條記錄。7.1具身智能概述具身智能的核心要素具身智能領(lǐng)域四種數(shù)據(jù)積累方法建立虛擬仿真環(huán)境,模擬現(xiàn)實環(huán)境在虛擬環(huán)境中訓(xùn)練智能體。虛擬環(huán)境中收集人類演示數(shù)據(jù)。虛擬式方法訓(xùn)練生成模型,生成具身數(shù)據(jù)。根據(jù)人類演示數(shù)據(jù),生成更多訓(xùn)練數(shù)據(jù)。生成式方法完成互聯(lián)網(wǎng)數(shù)據(jù)的預(yù)訓(xùn)練,學(xué)習(xí)通用知識,并實現(xiàn)具身數(shù)據(jù)微調(diào)和動作控制。網(wǎng)絡(luò)式方法機械臂抓取等實際場景。少量的人類演示。表演式方法機器人從收集的數(shù)據(jù)中學(xué)習(xí)。7.1具身智能概述具身智能的核心要素具身智能系統(tǒng)中四種常見的策略泛化方法1.多任務(wù)/多場景/多技能決策3.大模型技術(shù)2.仿真訓(xùn)練4.真實訓(xùn)練具身智能的進化學(xué)習(xí)示例7.1具身智能概述具身智能與人工智能

傳統(tǒng)人工智能具身智能概念定義強調(diào)通過計算機技術(shù)模擬和實現(xiàn)人類智能,一般以軟件形式存在。強調(diào)智能系統(tǒng)與物理實體之間的交互。例如機器人系統(tǒng)。實現(xiàn)路徑傳統(tǒng)的算法和模型,例如機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。不僅依賴于傳統(tǒng)AI算法,還依賴于傳感器、執(zhí)行器和物理動力學(xué)的結(jié)合。研究焦點聚焦于抽象問題解決、符號知識表示與邏輯推理過程,以及在已知或可建模環(huán)境中提供決策支持,較少涉及實際物理環(huán)境中的動態(tài)交互。強調(diào)智能體與物理環(huán)境之間的交互,關(guān)注感知與行動的結(jié)合、自適應(yīng)學(xué)習(xí),以及智能體如何基于自身物理特性在不同情境性作出反應(yīng)。應(yīng)用領(lǐng)域醫(yī)療數(shù)據(jù)分析、圖像識別、語音識別以及自然語言處理等領(lǐng)域。機器人、自動化制造、倉儲物流等需要與物理環(huán)境交互的場景。7.1具身智能概述具身智能的意義與價值核心理念智能體與環(huán)境動態(tài)互動,超越靜態(tài)數(shù)據(jù)處理方法。強調(diào)嵌入物理環(huán)境,通過感知、理解和行動適應(yīng)與改變環(huán)境。研究進展整合視覺、語言處理及決策制定。在虛擬仿真環(huán)境中展示應(yīng)對復(fù)雜挑戰(zhàn)的能力。AI模擬器作為理論與實踐的橋梁,如AI2-THOR,支持多任務(wù)廣泛訓(xùn)練。7.1具身智能概述具身智能的意義與價值應(yīng)用前景提升人機協(xié)同效率,實現(xiàn)情感交流與策略制定。在環(huán)境保護、資源管理、教育公平、醫(yī)療普惠等領(lǐng)域發(fā)揮作用。執(zhí)行危險任務(wù),減輕人類負擔,精準調(diào)控資源利用。未來展望代表人工智能的重大技術(shù)飛躍。推動社會智能化、和諧化發(fā)展的關(guān)鍵驅(qū)動力。本章目錄7.1具身智能概述7.2具身智能的核心技術(shù)7.3具身智能的典型案例

7.4具身智能的前沿與展望17.2具身智能的核心技術(shù)具身智能的系統(tǒng)框架核心技術(shù):具身感知:深度融入物理世界的智慧觸角行為模塊:復(fù)雜任務(wù)達成的執(zhí)行者具身交互:構(gòu)建人機協(xié)作的新生態(tài)強化學(xué)習(xí)與模仿學(xué)習(xí)仿真到真實的遷移7.2具身智能的核心技術(shù)具身智能的核心技術(shù):具身感知主動視覺感知智能體能夠自主控制感知設(shè)備,如選擇最佳視角和運用注意力機制。這種能力允許智能體主動探索環(huán)境,優(yōu)化信息獲取,從而提高任務(wù)執(zhí)行效率。例如,通過調(diào)整攝像頭的角度和焦距,智能體可以聚焦于最相關(guān)的視覺線索。三維視覺定位與物體感知智能體需具備在三維空間中定位自身及周圍物體的能力,這對導(dǎo)航和物體操作至關(guān)重要。現(xiàn)代視覺編碼器預(yù)訓(xùn)練技術(shù)增強了對物體類別、姿態(tài)和幾何形狀的精確估計,使智能體能在復(fù)雜動態(tài)環(huán)境中全面感知。這使得智能體能夠準確理解其所在環(huán)境的三維布局,并據(jù)此作出決策。多模態(tài)感知整合除了視覺之外,觸覺和聽覺等感知模態(tài)同樣重要,它們?yōu)橹悄荏w提供額外的環(huán)境信息。觸覺傳感幫助智能體感知物體的質(zhì)地、重量和形狀,支持精確的物體操作。整合多模態(tài)感知數(shù)據(jù),能夠顯著提升智能體對環(huán)境的整體理解能力,使其在執(zhí)行任務(wù)時更加靈活和高效。7.2具身智能的核心技術(shù)具身智能的核心技術(shù):具身感知具身感知模式的發(fā)展被動感知被動感知感知大模型主動感知具身交互感知具身主動感知SAM:視覺分割大模型DINO:視覺分割大模型靜態(tài)環(huán)境識別精度與人類相當通過主動獲取圖像,相比現(xiàn)有大模型的目標檢測性能有顯著提升。被門擋住了視線?交互后,推開門看看是什么,能干什么第三人稱第一人稱第一人稱行為交互+感知具身感知模式從被動到主動交互感知方向發(fā)展7.2具身智能的核心技術(shù)具身智能的核心技術(shù):行為模塊行為模塊是連接感知與行動的紐帶,它基于豐富的感知數(shù)據(jù)或人類指令,操縱智能體執(zhí)行復(fù)雜的物體操作任務(wù)。這一過程融合了語義理解、場景感知、決策制定與穩(wěn)健的控制規(guī)劃。規(guī)劃優(yōu)化反饋提示交互基于物理反饋的規(guī)劃數(shù)值函數(shù)狀態(tài)獎勵數(shù)值迭代…規(guī)劃優(yōu)化評估基于強化學(xué)習(xí)的規(guī)劃7.2具身智能的核心技術(shù)具身智能的核心技術(shù):具身交互人類監(jiān)督與反饋的重要性人類在監(jiān)督智能體行為軌跡的同時,確保其行動符合需求,并保障交互的安全、合法及道德邊界。尤其在醫(yī)學(xué)診斷等敏感領(lǐng)域,人類監(jiān)督能有效彌補數(shù)據(jù)局限性與算法能力的不足。從被動感知到主動交互的轉(zhuǎn)變智能體通過在線互動實現(xiàn)模型發(fā)展與進化,從第三人稱的被動感知轉(zhuǎn)向第一人稱的主動交互感知。如智能體能夠通過行為交互主動適應(yīng)實際場景,如“被門擋住視線”的情況。人類與智能體交互的兩種范式具身交互分為“不平等互動”模式,即“指導(dǎo)者-執(zhí)行者”范式,人類發(fā)布指令,智能體輔助完成任務(wù);以及“平等互動”模式,智能體與人類共同決策,預(yù)示更加協(xié)同的未來。7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:強化學(xué)習(xí)強化學(xué)習(xí)是一種通過智能體與環(huán)境交互來學(xué)習(xí)最優(yōu)策略的方法。在具身智能中,智能體通過執(zhí)行動作并接收環(huán)境反饋(獎勵或懲罰)來優(yōu)化行為,從而不斷嘗試新的動作組合以最大化累積獎勵。獎勵觀測動作

(7-1)7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:強化學(xué)習(xí)不同于有監(jiān)督學(xué)習(xí)最小化預(yù)測誤差思路,強化學(xué)習(xí)的最終優(yōu)化目標是最大化智能體策略在動態(tài)環(huán)境交互過程中的價值。策略的價值可以等價轉(zhuǎn)換為獎勵函數(shù)在策略占用度量上的期望,即:

在具身智能的應(yīng)用中,強化學(xué)習(xí)不僅能夠幫助智能體學(xué)會執(zhí)行基本任務(wù)(如行走、抓取等),還能夠通過不斷試錯和自我優(yōu)化,提高智能體在復(fù)雜環(huán)境中的適應(yīng)性和魯棒性。(7-2)7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:模仿學(xué)習(xí)假設(shè)存在一個專家智能體,其策略可以看成一個理想的最優(yōu)策略,那么具身智能體就可以通過模仿這個專家在環(huán)境中交互的狀態(tài)動作數(shù)據(jù)來訓(xùn)練一個策略,并且不需要用到環(huán)境提供的獎勵信號。這類方法我們稱之為模仿學(xué)習(xí)。與強化學(xué)習(xí)不同,它是一種通過觀察專家演示來學(xué)習(xí)行為的方法。專家數(shù)據(jù)狀態(tài)動作有監(jiān)督學(xué)習(xí)7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:模仿學(xué)習(xí)

典型的模仿學(xué)習(xí)方法包括:行為克?。˙ehaviorCloning,BC)逆強化學(xué)習(xí)(inverseRL)生成對抗模仿學(xué)習(xí)(GenerativeAdversarialImitationLearning,GAIL)7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:行為克隆

(7-3)

7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:行為克隆行為克隆中的復(fù)合誤差問題:行為克隆算法僅僅基于一小部分專家數(shù)據(jù)進行訓(xùn)練,因此其策略僅能在這些專家數(shù)據(jù)的狀態(tài)分布范圍內(nèi)做出準確預(yù)測。然而,強化學(xué)習(xí)涉及的是序貫決策問題,這意味著通過行為克隆學(xué)習(xí)到的策略在與環(huán)境進行交互時無法完全達到最優(yōu)。一旦策略出現(xiàn)偏差,所遇到的下一個狀態(tài)可能從未在專家數(shù)據(jù)中出現(xiàn)過。

分布偏移問題智能體軌跡專家軌跡7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:生成對抗模仿學(xué)習(xí)

對比:行為克隆算法則無需此類環(huán)境交互即可直接從專家數(shù)據(jù)中學(xué)習(xí)策略。7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:生成對抗模仿學(xué)習(xí)

(7-4)

7.2具身智能的核心技術(shù)具身智能的學(xué)習(xí)框架:總結(jié)模仿學(xué)習(xí)的優(yōu)點:通過不斷與環(huán)境交互,采樣最新的狀態(tài)-動作對,具備快速學(xué)習(xí)能力。由于直接利用專家的先驗知識,這種方法可以顯著減少智能體在試錯過程中所需的時間和資源。此外,模仿學(xué)習(xí)還能避免強化學(xué)習(xí)中常見的獎勵稀疏或獎勵欺騙問題,提供更穩(wěn)定的引導(dǎo)。模仿學(xué)習(xí)的缺點:仍面臨專家演示數(shù)據(jù)局限性和偏見的問題,可能導(dǎo)致學(xué)習(xí)到的策略泛化能力不足。此外,模仿學(xué)習(xí)通常難以直接處理環(huán)境或任務(wù)變化帶來的不確定性,需要與其他方法結(jié)合以提高適應(yīng)性。模仿學(xué)習(xí)與強化學(xué)習(xí)相融合:首先通過模仿學(xué)習(xí)快速構(gòu)建基本行為模型,再利用強化學(xué)習(xí)進行微調(diào)和優(yōu)化,提高模型的泛化能力和魯棒性。例如,在機器人抓取任務(wù)中,先通過模仿學(xué)習(xí)掌握基本動作,再通過強化學(xué)習(xí)優(yōu)化以提高成功率。7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移仿真到真實的遷移(Simulation-to-Real,Sim2Real)關(guān)注于將在仿真環(huán)境(如虛擬世界、模擬器等)中訓(xùn)練得到的模型、算法或策略成功地遷移到現(xiàn)實世界中的物理實體(如機器人、自動駕駛汽車等)上,并確保其在實際應(yīng)用中表現(xiàn)出良好的性能和穩(wěn)定性。虛擬智能體實體智能體Sim2RealReal2Sim虛實循環(huán)7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移Sim2Real的實現(xiàn)方法:(1)構(gòu)建高精度、高逼真度的仿真環(huán)境概述:構(gòu)建高精度仿真環(huán)境是實現(xiàn)Sim2Real的關(guān)鍵步驟,通過理解現(xiàn)實世界、選擇合適工具、精細建模與校準等方法,可以創(chuàng)建接近現(xiàn)實的仿真環(huán)境。引入不確定性因素并進行驗證與優(yōu)化,有助于提高模型在現(xiàn)實世界中的性能和穩(wěn)定性。方法:世界模型通過模擬環(huán)境狀態(tài)變化和預(yù)測策略效果,為Sim2Real提供準確可靠的仿真環(huán)境。它處理感知信息和數(shù)據(jù)建模,實現(xiàn)對物體、場景、動作等要素的準確抽象和模擬。7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移Sim2Real的實現(xiàn)方法:(1)構(gòu)建高精度、高逼真度的仿真環(huán)境(a)基于生成的方法Lαxy編碼器解碼器轉(zhuǎn)換(b)基于預(yù)測的方法Lαxy編碼器轉(zhuǎn)換解碼器編碼器(c)知識驅(qū)動的方法Lαxy編碼器轉(zhuǎn)換解碼器編碼器k可選具身世界模型的設(shè)計方法7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移Sim2Real的實現(xiàn)方法:(2)數(shù)據(jù)驅(qū)動的方法生成多樣化模擬數(shù)據(jù):數(shù)據(jù)驅(qū)動方法首先強調(diào)從仿真環(huán)境中生成大量、多樣化的數(shù)據(jù),覆蓋各種物理條件、環(huán)境變化和任務(wù)場景。這些數(shù)據(jù)為模型提供豐富的訓(xùn)練素材,確保其在模擬環(huán)境中表現(xiàn)出色并具備泛化能力。收集與整合現(xiàn)實數(shù)據(jù):現(xiàn)實數(shù)據(jù)的收集與整合是數(shù)據(jù)驅(qū)動方法的關(guān)鍵,通過部署傳感器和記錄設(shè)備獲取高質(zhì)量現(xiàn)實數(shù)據(jù),校準模擬環(huán)境并驗證模型表現(xiàn)。這些數(shù)據(jù)幫助發(fā)現(xiàn)潛在偏差,提升模型在現(xiàn)實世界中的適用性。7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移Sim2Real的實現(xiàn)方法:(2)數(shù)據(jù)驅(qū)動的方法結(jié)合模擬與現(xiàn)實數(shù)據(jù)優(yōu)化模型:在模型訓(xùn)練階段,結(jié)合模擬數(shù)據(jù)與現(xiàn)實數(shù)據(jù)來優(yōu)化模型參數(shù),通過預(yù)訓(xùn)練和微調(diào)策略,使模型在模擬環(huán)境中學(xué)習(xí)基本技能,并通過現(xiàn)實數(shù)據(jù)反饋進行優(yōu)化。這種方式增強了模型適應(yīng)現(xiàn)實環(huán)境的能力。持續(xù)學(xué)習(xí)與迭代優(yōu)化:數(shù)據(jù)驅(qū)動方法強調(diào)模型的持續(xù)學(xué)習(xí)與優(yōu)化,通過不斷收集新的現(xiàn)實數(shù)據(jù)并將其用于模型再訓(xùn)練與更新,確保模型緊跟環(huán)境變遷與任務(wù)需求變化。這一過程提高了模型在現(xiàn)實世界中的穩(wěn)定性和可靠性。7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移Sim2Real的實現(xiàn)方法:(2)數(shù)據(jù)驅(qū)動的方法機器人演示數(shù)據(jù)人體演示數(shù)據(jù)打開機柜切割甜椒將胡蘿卜放在盤中清洗玻璃專家演示數(shù)據(jù)用微波爐加熱湯將藍色塊放到綠色碗中打開門標注數(shù)據(jù)只用兩根手指握住刀柄視頻點云RGB+深度圖文本聲音觸覺模擬數(shù)據(jù)格式7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移Sim2Real的實現(xiàn)方法:(3)域適應(yīng)與域隨機化域適應(yīng):域適應(yīng)使模型能夠在不同但相關(guān)的數(shù)據(jù)分布上保持高性能,即從仿真環(huán)境遷移到現(xiàn)實環(huán)境中。通過識別仿真與現(xiàn)實環(huán)境的主要差異,并利用特征對齊等技術(shù)來縮小這些差異,幫助模型忽略特定噪聲,關(guān)注有用特征。特征對齊與生成對抗網(wǎng)絡(luò):特征對齊通過學(xué)習(xí)共享特征空間使仿真與現(xiàn)實數(shù)據(jù)表示接近,而生成對抗網(wǎng)絡(luò)生成具有現(xiàn)實特性的仿真數(shù)據(jù),作為補充訓(xùn)練集幫助模型適應(yīng)現(xiàn)實環(huán)境。無監(jiān)督或自監(jiān)督方法利用未標記的現(xiàn)實數(shù)據(jù)微調(diào)模型,設(shè)計自監(jiān)督算法捕捉現(xiàn)實世界的本質(zhì)特征。7.2具身智能的核心技術(shù)具身智能的核心技術(shù):仿真到真實的遷移Sim2Real的實現(xiàn)方法:(3)域適應(yīng)與域隨機化。域隨機化:域隨機化通過增加仿真環(huán)境的復(fù)雜性和多樣性來提高模型訓(xùn)練的魯棒性,通常在仿真訓(xùn)練階段隨機化環(huán)境參數(shù)。這種方法不需要現(xiàn)實數(shù)據(jù),依賴模擬器和廣泛的隨機化策略,鼓勵模型學(xué)習(xí)不依賴特定環(huán)境參數(shù)的特征,從而提高泛化能力,并可作為域適應(yīng)的預(yù)處理步驟以加速適應(yīng)過程。本章目錄7.1具身智能概述7.2具身智能的核心技術(shù)7.3具身智能的典型案例

7.4具身智能的前沿與展望17.3具身智能的典型案例具身智能任務(wù)的樹狀結(jié)構(gòu)從人工智能的發(fā)展范式出發(fā),具身系統(tǒng)的研究焦點在于如何更有效地適應(yīng)未知環(huán)境,特別是在機器人規(guī)劃與導(dǎo)航等復(fù)雜任務(wù)中。具身于本體之上的智能核心,負責感知、理解、決策、控制等核心工作。智能體服務(wù)機器人導(dǎo)航機器人通過與環(huán)境進行多模態(tài)交互,移動到指定地點。具身智能通過與環(huán)境交互得到的反饋進行學(xué)習(xí):反饋-動作-反饋-動作……智能體環(huán)境

機械臂通過與環(huán)境進行多模態(tài)交互,將物體移動到指定地點。智能機器人操作7.3具身智能的典型案例智能機器人操作任務(wù)智能機器人操作是一個綜合性的領(lǐng)域,它集成了視覺、語言等多模態(tài)輸入處理能力,旨在輸出精準的機器人動作以執(zhí)行多樣化的具身智能任務(wù),如物體抓取任務(wù)。(a)剛性物體操作-ManiSkill(b)柔性物體操作-SoftGym(c)視覺語言操作

提示:給定<img>我需要釘釘子,場景中有什么物件可能有用?預(yù)測:石頭。行動:11291381221321351061277.3具身智能的典型案例智能機器人操作任務(wù)視覺-語言-動作(VLAs)的基本概念與操作策略定義:VLAs是一種結(jié)合了視覺、語言與動作執(zhí)行的更高級別任務(wù)處理框架,旨在結(jié)合視覺與語言信息,指導(dǎo)機器人或智能系統(tǒng)完成復(fù)雜任務(wù)(如清理桌面、拿取物品)。其核心在于其強大的多模態(tài)處理能力。VLA模型組成:視覺模塊負責解析圖像數(shù)據(jù),語言模塊則理解自然語言指令,動作模塊據(jù)此生成動作指令并控制機器人執(zhí)行相應(yīng)的動作。三者之間通過深度協(xié)作與交互,使得模型不僅能理解復(fù)雜的場景與指令,還能靈活地執(zhí)行任務(wù),促進機器人綜合能力的全面優(yōu)化與提升。7.3具身智能的典型案例智能機器人操作任務(wù)視覺-語言-動作(VLAs)的基本概念與操作策略指令:打掃房間高級任務(wù)規(guī)劃器

低級控制策略

分層機器人操作策略7.3具身智能的典型案例智能機器人操作任務(wù)視覺-語言-動作(VLAs)的具體實現(xiàn)——RoboticsTransformer系列模型2022年12月,谷歌推出了名為RoboticsTransformer1(RT-1)的具身智能模型,這是一種多任務(wù)處理模型,能夠?qū)C器人的輸入和輸出動作轉(zhuǎn)換為Token形式,從而提升實時控制。從最上面的抽屜里取出薯片放到柜臺上指令圖像··1+γβFiLMEfficientNet…TokenLearnerTransformer模式手臂底部動作RT-13Hz7.3具身智能的典型案例智能機器人操作任務(wù)視覺-語言-動作(VLAs)的具體實現(xiàn)——RoboticsTransformer系列模型RT-2在模型設(shè)計上進行了重大創(chuàng)新,它將機器人的動作編碼成一種獨特的文本標記語言,這種創(chuàng)新性的表示方式使得RT-2能夠利用互聯(lián)網(wǎng)級別的龐大視覺-語言數(shù)據(jù)集進行訓(xùn)練。問:這張照片的內(nèi)容是什么?答:31142317055244一只灰色的驢在街上行走問:Quepuis-jefaireaveccesobjets?(法語)答:31142317055244Fairecuireungateau.問:對于<任務(wù)>機器人應(yīng)該如何操作?答:132114128525156

互聯(lián)網(wǎng)級別的視覺問答+機器人動作數(shù)據(jù)問:對于<任務(wù)>機器人應(yīng)該如何操作?答:…ViT大語言模型LLM答:132114128525156

逆標記化機器人動作描述用于機器人控制的視覺-語言-動作模型把草莓放到正確位置撿起快要掉下的袋子撿起不一樣的東西閉環(huán)機器人控制協(xié)同微調(diào)部署RT27.3具身智能的典型案例智能機器人操作任務(wù)其他VLA的典型技術(shù)預(yù)訓(xùn)練視覺編碼器:通過大規(guī)模數(shù)據(jù)集的訓(xùn)練,獲得能夠捕捉復(fù)雜視覺特征并生成高質(zhì)量視覺表示的模型。環(huán)境動力學(xué)建模:包括利用前向動力學(xué)方程來預(yù)測物體在給定力作用下的運動軌跡,以及利用逆向動力學(xué)方程來推斷產(chǎn)生特定運動所需的力或力矩。世界模型視覺-語言融合機制:動作解碼器語言編碼器視覺編碼器指令狀態(tài)鍵,值動作(a)交叉注意力動作解碼器語言編碼器視覺編碼器指令狀態(tài)動作哈達瑪積(b)FilM(c)拼接動作解碼器語言編碼器視覺編碼器指令狀態(tài)動作7.3具身智能的典型案例服務(wù)機器人導(dǎo)航任務(wù)服務(wù)機器人導(dǎo)航要求機器人在未知且復(fù)雜的環(huán)境中,僅憑目標位置和多個視角的觀測(主要是視覺信息),通過集成的感知硬件與先進算法進行深度分析,并在與環(huán)境的持續(xù)交互與反饋中,高效且準確地在限定步數(shù)內(nèi)抵達指定位置。視覺目標導(dǎo)航任務(wù)示例RGB視圖第三視角俯視圖7.3具身智能的典型案例服務(wù)機器人導(dǎo)航任務(wù)服務(wù)機器人導(dǎo)航的整體流程多模態(tài)信息智能體行為環(huán)境反饋交互輸入輸出感知硬件感知算法RGB-D攝像頭激光雷達臂端攝像頭目標檢測、視覺分割、視覺預(yù)訓(xùn)練感知硬件平臺不同類型的服務(wù)機器人導(dǎo)航規(guī)劃算法語義地圖、邊界跟蹤、強化導(dǎo)航算法執(zhí)行硬件輪式足式復(fù)合式行為預(yù)測算法軌跡預(yù)測、長短期目標預(yù)測、智能決策虛擬環(huán)境現(xiàn)實環(huán)境現(xiàn)實復(fù)雜環(huán)境7.3具身智能的典型案例智能導(dǎo)航任務(wù)的金字塔結(jié)構(gòu)視覺語言導(dǎo)航視覺目標導(dǎo)航點導(dǎo)航復(fù)雜度上升Agent導(dǎo)航至距離某個特定點有一定距離的位置。在有限部分觀測輸入條件下,即缺少導(dǎo)航所需全局信息,輸出動作對目標位置的推測。Agent遵循自然語言指令并結(jié)合視覺觀察以及歷史軌跡學(xué)會在環(huán)境中逐步導(dǎo)航。7.3具身智能的典型案例智能導(dǎo)航任務(wù)——點導(dǎo)航初始化與目標定位:Agent通常在環(huán)境的原點(0,0,0)初始化,目標點通過相對原點的三維坐標指定。為了完成任務(wù),Agent需要具備視覺感知、情景記憶構(gòu)建、邏輯推理、路徑規(guī)劃及導(dǎo)航等能力。導(dǎo)航硬件與位置感知:Agent集成GPS和指南針等硬件來確定自身相對于目標的方向位置,目標坐標可以是靜態(tài)的或動態(tài)的。然而,由于室內(nèi)環(huán)境中定位的不準確性,目前視覺導(dǎo)航工作轉(zhuǎn)向基于RGB-D的在線定位,不再依賴傳統(tǒng)的GPS和指南針。學(xué)習(xí)型導(dǎo)航方法:基于學(xué)習(xí)的點導(dǎo)航方法探索端到端解決方案來處理未知環(huán)境中的導(dǎo)航,利用多種感官輸入(如彩色圖像、深度圖及最近的觀測動作),無需真實地圖或精確姿態(tài)信息。7.3具身智能的典型案例智能導(dǎo)航任務(wù)——視覺目標導(dǎo)航任務(wù)定義與數(shù)學(xué)描述:

7.3具身智能的典型案例智能導(dǎo)航任務(wù)——視覺目標導(dǎo)航示例:(a)目標導(dǎo)航路徑(b)智能體觀測視角與環(huán)境左圖為成功示例,其中綠色軌跡表示成功的導(dǎo)航路徑;白色三角形表示智能體的視角,藍色方框標記的是目標物體。7.3具身智能的典型案例智能導(dǎo)航任務(wù)——視覺語言導(dǎo)航(VLN)沿著大廳走,進入房間,在沙發(fā)旁邊停下。視覺觀察語言指令歷史軌跡環(huán)境反饋交互動作感知VLN智能體VLN的一般框架:視覺-語言-導(dǎo)航(VisualLanguageNavigation,VLN)任務(wù)旨在使得Agent遵循自然語言指令并結(jié)合視覺觀察以及歷史軌跡學(xué)會在環(huán)境中逐步導(dǎo)航。7.3具身智能的典型案例智能導(dǎo)航任務(wù)——視覺語言導(dǎo)航(VLN)基于VLN的室內(nèi)導(dǎo)航方案:朝著欄桿行走,然后從樓梯右經(jīng)過,走進客廳向右轉(zhuǎn),然后停在邊桌旁邊。環(huán)境語言觀察動作觀察動作AgentOracle走向圍欄,隨后向右經(jīng)過樓梯。走進起居室后右轉(zhuǎn),在桌子前停下。(1)理解語言(2)關(guān)聯(lián)視覺語言(3)動作預(yù)測借助于視覺觀察、環(huán)境交互以及獎勵機制,構(gòu)建強化學(xué)習(xí)框架;利用語言指令指導(dǎo)Agent完成語言理解、視覺與語言關(guān)聯(lián)以及動作預(yù)測,使得智能體移動到指定位置。7.3具身智能的典型案例智能導(dǎo)航任務(wù)——視覺語言導(dǎo)航(VLN)基于VLN的室內(nèi)導(dǎo)航方案:VLN框架的核心組成:自然語言理解與處理

視覺感知與識別

導(dǎo)航規(guī)劃與控制

跨模態(tài)融合與協(xié)同

朝著欄桿行走,然后從樓梯右經(jīng)過,走進客廳向右轉(zhuǎn),然后停在邊桌旁邊。環(huán)境語言觀察動作觀察動作AgentOracle走向圍欄,隨后向右經(jīng)過樓梯。走進起居室后右轉(zhuǎn),在桌子前停下。(1)理解語言(2)關(guān)聯(lián)視覺語言(3)動作預(yù)測7.3具身智能的典型案例智能導(dǎo)航任務(wù)——視覺語言導(dǎo)航(VLN)VLN的具體實現(xiàn)——Robo-VLN模型Robo-VLN(機器人視覺和語言導(dǎo)航)利用分層跨模態(tài)Agent,通過模塊化訓(xùn)練與分層決策,將VLN定位為逼真模擬中的連續(xù)控制問題,從而完成長期跨模態(tài)任務(wù)。智能體由一個高級策略和一個相應(yīng)的低級策略組成。高級策略是由編碼器-解碼器架構(gòu)組成,其任務(wù)是將相關(guān)指令與觀察到的視覺信息通過交叉注意力機制進行特征對齊,同時利用多模態(tài)注意力解碼器獲取跨時間信息。低級策略利用模仿學(xué)習(xí)策略將子目標信息和觀察到的視覺狀態(tài)轉(zhuǎn)換為線速度和角速度,然后計算低級動作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論