AI+Agent與Agentic+AI的原理和應(yīng)用洞察與未來展望_第1頁
AI+Agent與Agentic+AI的原理和應(yīng)用洞察與未來展望_第2頁
AI+Agent與Agentic+AI的原理和應(yīng)用洞察與未來展望_第3頁
AI+Agent與Agentic+AI的原理和應(yīng)用洞察與未來展望_第4頁
AI+Agent與Agentic+AI的原理和應(yīng)用洞察與未來展望_第5頁
已閱讀5頁,還剩218頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

AI肖睿團(tuán)隊(韓露、顧躍、王春輝、吳寒、李娜)20250520@北京?北大青鳥人工智能研究院?北大計算機(jī)學(xué)院?北大教育學(xué)院學(xué)習(xí)科學(xué)實驗室AI

Agent與Agentic

AI

原理與應(yīng)用Deepseek內(nèi)部研討系列一、本次講座專為科研人員、工程師及AI技術(shù)愛好者設(shè)計,旨在深度剖析AIAgent與AgenticAI的核心技術(shù)、前沿進(jìn)展與未來挑戰(zhàn)。我們聚焦

技術(shù)底層機(jī)制、關(guān)鍵算法與工程實踐痛點,力求超越概念普及,提供硬核洞察。通過本次分享,您將全面理解Agent的技術(shù)內(nèi)涵與趨勢,獲得

技術(shù)選型參考,并激發(fā)對潛在研究方向與創(chuàng)新應(yīng)用的深度思考。二、本次講座的內(nèi)容主要涵蓋以下四個核心模塊:1.探源與定義-探源Agent智能的“是什么”與“為什么”:探析Agent爆發(fā)的技術(shù)契機(jī)與演進(jìn)脈絡(luò);清晰Agent及AgenticAI的核心定義、關(guān)鍵特征及其與傳統(tǒng)AI的界限。2.核心技術(shù)深度剖析-揭秘Agent智能的“如何構(gòu)建”:系統(tǒng)拆解Agent技術(shù)棧:感知、認(rèn)知與決策(LLM引擎、規(guī)劃、記憶、學(xué)習(xí))、行動模塊;深入探討主流的Agent架構(gòu)模式(如單Agent、多Agent系統(tǒng)、反思性Agent)及其設(shè)計原則與考量,以及針對當(dāng)下主流的關(guān)

鍵交互協(xié)議如:MCP、A2A、AG-UI的深入探討。3.前沿實踐與技術(shù)分析:洞察Agent智能的“技術(shù)落地”:深度拆解COZE、

Manus、

Deep

ResearchAgents、Genspark、

Lovart等代表性Agent平臺與項目的技術(shù)特點、架構(gòu)創(chuàng)新及優(yōu)劣勢。4.現(xiàn)狀、挑戰(zhàn)與未來展望:展望Agent智能的“路在何方”:評估當(dāng)前技術(shù)成熟度,剖析核心挑戰(zhàn)(行動、規(guī)劃、記憶、幻覺等)與開放

問題;展望AIAgent的發(fā)展趨勢、顛覆潛力與倫理考量,并提供行動建議.三、大家可以參考《人工智能通識教程(微課版)》這本系統(tǒng)全面的入門教材,結(jié)合B站“思睿觀通”欄目的配套視頻進(jìn)行學(xué)習(xí)。歡迎關(guān)注“AI

肖睿團(tuán)隊”的視頻號和微信號(ABZ2829),加入社區(qū),共同探討AIAgent的前沿動態(tài)與未來發(fā)展。講座內(nèi)容介紹

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)2

一、

AI

Agent和Agentic

AI的興起……………………………

P41.

AIAgent的爆發(fā)……………………...…

P62.

Agent的發(fā)展歷程……………….…

P83.

AIAgent的核心特質(zhì)及概念解析..………………….…………

P104.Agentsvs

AIAgents

vs

Agentic

AI

……..………………..…

P155.AIAgent的適用場景及判斷標(biāo)準(zhǔn)……..…………..…

P166.AIAgent應(yīng)用案例分享……..……….…..…

P177.

總結(jié):新范式已至,未來可期……..…………..……………..……..…

P18二、

AI

Agent的核心技術(shù)棧解密…..…………

P201.

AIAgent的核心組成部分…………

P222.

感知模塊……………………

P233.

認(rèn)知與決策模塊………………………

P294.

行動模塊………………………

P395.

Agent架構(gòu)模式……………

P536.

構(gòu)建基礎(chǔ)AIAgent:核心步驟概覽……………..

P767.

總結(jié):Agent核心技術(shù)

-從能力邊界到智能涌現(xiàn)…..

P77三、

主流Agent平臺、框架與項目技術(shù)拆解………….………….…

P791.

Agent平臺/框架/應(yīng)用分類總覽……………………

P812.Agent構(gòu)建平臺(Low-code/No-code)………………….

P823.

Agent開發(fā)框架(Code-centric)………………….…

P1044.Agentic應(yīng)用/產(chǎn)品(End-userfocused)……….…………

P1295.

通用智能Agent……...………………………

P1506.

專用領(lǐng)域Agent/系統(tǒng)……………..……

P1707.

總結(jié):Agent生態(tài)的多元探索與實踐前沿…………….……………….……

P194四、AI

Agent的技術(shù)現(xiàn)狀、核心挑戰(zhàn)與未來展望..……………

P1961.

當(dāng)前Agent發(fā)展現(xiàn)狀…………….……

P1982.

核心技術(shù)挑戰(zhàn)…………………………..………

P2043.

開放性問題探討……………….……...…

P2114.AIAgent的未來趨勢與展望

………..…….……...…

P2165.

總結(jié)與思考…...…………………..……….……...…

P220內(nèi)容目錄

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)3

n

我們將深入探討

AI

Agent

Agentic

AI

迅速發(fā)展的領(lǐng)域

。

隨著大型語言模型

LLM)等技術(shù)的飛躍式進(jìn)步,AI

Agent正從昔日的理論構(gòu)想大步邁向現(xiàn)實應(yīng)用,迎

來了前所未有的爆發(fā)契機(jī),標(biāo)志著人工智能發(fā)展已步入一個更強(qiáng)調(diào)自主性與行動能力

的新階段。n

為構(gòu)建清晰的認(rèn)知框架,我們將核心聚焦于Agent的本質(zhì)定義—即一個具備環(huán)境感知

(Perception)

、智能決策

(Decision-making/Reasoning)

乃至

自主行動

(Action)能力的智能實體

。

通過對這些核心概念的厘清,您將深刻理解AI

Agent的

技術(shù)底蘊及其與現(xiàn)有AI范式的聯(lián)系與區(qū)別,為把握這一AI前沿趨勢奠定堅實基礎(chǔ)。一、AIAgent和AgenticAI的興起

AI肖睿團(tuán)隊

4

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829

)4

1.

AI

Agent的爆發(fā)2.

Agent的發(fā)展歷程3.

AI

Agent的核心特質(zhì)及概念解析4.

AgentsvsAIAgentsvsAgenticAI5.

AI

Agent的適用場景及判斷標(biāo)準(zhǔn)6.

AI

Agent應(yīng)用案例分享7.

總結(jié):

新范式已至,未來可期一、

AI

Agent和Agentic

AI的興起1.1天時地利:AIAgent爆發(fā)的技術(shù)與生態(tài)契機(jī)1.2風(fēng)口浪尖:為何AIAgent成為當(dāng)前新焦點?2.1AIAgent的源起:思想的火花與早期探索2.2從理論到實踐:Agent發(fā)展的關(guān)鍵轉(zhuǎn)折點3.1超越簡單交互:AIAgent的獨特價值主張3.2核心概念解析

(一):什么是AIAgent?3.3核心概念解析

(一):Agent的核心特征3.4核心概念解析

(一):AIAgent的五個發(fā)展階段3.5核心概念解析

(二):AgenticAI

-追求更高階的智能

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)5

相關(guān)基礎(chǔ)設(shè)施與生態(tài)的成熟(地利)1.向量數(shù)據(jù)庫

(Vector

Databases)高效存儲和檢索海量非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像等轉(zhuǎn)換的Embedding),為Agent構(gòu)建長期記憶和知識庫提供了關(guān)鍵支撐2.模型API與服務(wù)化各大廠商開放LLM及其他AI能力API(如OpenAIAPI,GoogleGeminiAPI,DeepSeekAPI等),降低了開發(fā)者構(gòu)建Agent的技術(shù)門檻和成本3.開源框架與社區(qū)LangChain,crewAI,AutoGen等開源框架的涌現(xiàn),提供了模塊化的Agent構(gòu)建工具和豐富的實踐案例,加速了Agent應(yīng)用的開發(fā)和迭代大語言模型(LLM)的能力躍升(天時)1.自然語言理解

(NLU)與生成

(NLG)LLM具備前所未有的復(fù)雜指令理解、上下文推理、復(fù)雜文本生成能力,為Agent提供了強(qiáng)大的“大腦”和“嘴巴”2.

常識推理與邏輯演繹LLM在一定程度上掌握了世界知識和基本推理能力,使得Agent能夠進(jìn)行更復(fù)雜的規(guī)劃和決策。(雖然仍有局限,但已達(dá)到可用門檻)3.

代碼生成與理解LLM可以生成和理解代碼,為Agent賦予了直接操作軟件、調(diào)用API的“雙手”1.1天時地利:AIAgent爆發(fā)的技術(shù)與生態(tài)契機(jī)

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)6

LLM的突破性進(jìn)展與日益完善的基礎(chǔ)設(shè)施,共同催生了AIAgent的爆發(fā)點。LLM的賦能、早期探索的啟迪以及當(dāng)前多樣化Agent產(chǎn)品與平臺的實踐浪潮,共同將AIAgent推向了技術(shù)革命和產(chǎn)業(yè)變革的前沿。1.

LLM賦予Agent“超級大腦”

質(zhì)的飛躍:

LLM根本性地解決了以往Agent在理解復(fù)雜指令、進(jìn)行多輪對話、掌握廣博知識、執(zhí)行靈活推理等方面的核心瓶頸。

Agent不再是預(yù)設(shè)規(guī)則的簡單執(zhí)行者,而是具備了更強(qiáng)的通用性和適應(yīng)性。2.GPTs與多樣化Agent形態(tài)的啟示與實踐

GPTs、AutoGPT等早期探索的點燃效應(yīng),推動了對Agent架構(gòu)和能力思考。

當(dāng)前Agent實踐的多樣化浪潮,從概念驗證到應(yīng)用落地,形態(tài)與平臺不斷

涌現(xiàn),推動Agent走向?qū)嵱没?、產(chǎn)品化。3.對“行動能力”與“自主智能”的普遍渴望

用戶和開發(fā)者不再滿足于AI的“說”和“寫”(內(nèi)容生成),更期望AI能夠“做”(任務(wù)執(zhí)行),能夠自主理解目標(biāo)、規(guī)劃路徑、調(diào)用工具、與環(huán)境交互并最終完

成任務(wù),真正成為智能實體或自主系統(tǒng)。PEKINGUNIVERSITYN

I

V9

81.2風(fēng)口浪尖:為何AIAgent成為當(dāng)前新焦點?

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)7

Agent的思想源遠(yuǎn)流長,是人工智能領(lǐng)域的經(jīng)典概念之一。早期概念回顧:符號主義AI中的Agent:(1956–1990)

理念:智能源于符號的表示和操作。

Agent被視為能夠通過邏輯推

理和規(guī)則匹配來感知環(huán)境、

制定計劃并執(zhí)行動作的實體。

代表:Allen

Newell和

Herbert

A.Simon的

“邏輯理論家”(LogicTheorist)和

“通用問題求解器”(General

Problem

Solver,GPS)

可視為早期Agent思想的雛形。

特點:強(qiáng)調(diào)明確的知識表示和演繹推理。分布式人工智能

(DAI)與多智能體系統(tǒng)

(MAS):

理念:復(fù)雜問題可通過多個協(xié)同工作的Agent解決。

關(guān)注點:Agent間的通信、

協(xié)調(diào)、

協(xié)商和合作。2.1AIAgent的源起:思想的火花與早期探索

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)8

Agent:概念起源于哲學(xué),描述了一種擁有

欲望、信念、意圖以及采取行動能力的實體。HerbertA.SimonAllen

Newell?

GPT-3

(2020):展示了LLM強(qiáng)大的零樣本/少樣本學(xué)習(xí)能力。?

InstructGPT/ChatGPT

(2022):通過指令微調(diào)和RLHF,顯著提

升了LLM的指令遵循和對話能力,使其成為理想的Agent“大腦”。?

AutoGPT,

BabyAGI

(2023):作為實驗性項目,展示了基于LLM的自主任務(wù)規(guī)劃與執(zhí)行能力,極大地激發(fā)了社區(qū)與公眾對自主AI完

成復(fù)雜任務(wù)的想象,推動了對Agent架構(gòu)和能力的廣泛思考。?

Genspark、Coze、

Manus、

Lovart(2024~2025):Agent實踐的多樣化,從概念驗證到應(yīng)用落地,形態(tài)與平臺不斷涌現(xiàn),推動Agent走向?qū)嵱没?、產(chǎn)品化推動Agent走向?qū)嵱没a(chǎn)品化。2.2從理論到實踐:Agent發(fā)展的關(guān)鍵轉(zhuǎn)折點

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)9

關(guān)鍵里程碑:技術(shù)進(jìn)步不斷推動Agent從理論構(gòu)想向?qū)嵱孟到y(tǒng)演進(jìn)?

雖然不是嚴(yán)格意義上的Agent,但

其“知識庫

+推理機(jī)”的模式為Agent的決策模塊提供了早期思路。?

搜索引擎爬蟲、早期聊天機(jī)器人、

推薦系統(tǒng)等,展現(xiàn)了Agent在特定任務(wù)上的應(yīng)用潛力。?

為Agent賦予了從與環(huán)境交互中學(xué)習(xí)

決策策略的能力

(例如,AlphaGo)。?

提升了Agent在感知

(如CV,

NLP)

和模式識別方面的能力。Step

05大型語言模型(LLM)

的爆發(fā)(2020s)Step

04機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的融合(2010s)Step

02強(qiáng)化學(xué)習(xí)(RL)

的興起(1990s-至今)Step

03互聯(lián)網(wǎng)與WebAgent(1990s-2000s)Step

01基于規(guī)則的專家系統(tǒng)(1970s-1980s)對比傳統(tǒng)AI/機(jī)器學(xué)習(xí)(AI/ML)

及生成式AI

(GenerativeAI)

傳統(tǒng)AI/ML?模式:通常是被動式、數(shù)據(jù)驅(qū)動的模式匹配或預(yù)

測(如圖像分類、推薦系統(tǒng))。?交互:

交互性弱,主要處理特定、封閉的任務(wù)。

生成式AI

(GenAI):?模式:強(qiáng)大的內(nèi)容生成能力

(文本、圖像、代碼)。?交互:通常是“一問一答”或“一次性生成”,缺乏持續(xù)的任務(wù)執(zhí)行和環(huán)境適應(yīng)。

自主性

(Autonomy)?核心差異:能夠基于目標(biāo)自主決策、規(guī)劃步驟、執(zhí)行動作,并

在過程中根據(jù)環(huán)境反饋進(jìn)行調(diào)整,減少人工干預(yù)。

持續(xù)環(huán)境交互與適應(yīng)

(Continuous

Interaction&Adaptation)?核心差異:Agent被設(shè)計為在一個(可能是動態(tài)的)環(huán)境中持續(xù)運

作,感知變化并作出反應(yīng)或主動調(diào)整策略。

復(fù)雜、多步驟任務(wù)處理

(Complex,

Multi-step

Task

Completion)?核心差異:能夠?qū)⒑甏?、模糊的目?biāo)分解為一系列可執(zhí)行的子任務(wù),

并行地完成它們。3.1超越簡單交互:AIAgent的獨特價值主張

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)10

AIAgent的核心獨特價值3.2核心概念解析

(一):什么是AIAgent?作用:Agent的“大腦”,基于感知到的信

息、內(nèi)部知識和目標(biāo),進(jìn)行思考、規(guī)劃、選

擇下一步行動。核心:推理、任務(wù)規(guī)劃、問題求解、知識運

用、策略生成。

LLM通常在此扮演關(guān)鍵角色。作用:從環(huán)境中收集信息,理解當(dāng)前狀態(tài)。方式:通過文本輸入、圖像識別、語音指令、

傳感器數(shù)據(jù)、API返回結(jié)果等方式,理解環(huán)

境狀態(tài),識別相關(guān)實體和事件。作用:Agent對環(huán)境施加影響,執(zhí)行決策結(jié)

果。方式:生成文本/語音、調(diào)用API、代碼執(zhí)行、

控制物理設(shè)備(機(jī)器人)、與其他Agent通

信等。“任何能夠通過傳感器

(Sensors)感知其環(huán)境

(Environment),并通過

執(zhí)行器

(Actuators)對其環(huán)境產(chǎn)生行動

(Action)的事物?!薄_素和諾維格《人工智能:一種現(xiàn)代方法》

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)11

總結(jié):AIAgent是一個具備感知環(huán)境、自主決策、并采取行動以達(dá)成特定目標(biāo)的智能實體。決策/推理Decision-making/Reasoning行動ActionAgent關(guān)鍵組成部分Agent經(jīng)典定義感知Perception

反應(yīng)性(Reactivity)n定義:Agent能夠感知其所處的環(huán)境,并對環(huán)境中發(fā)生的變化

及時做出響應(yīng)。n體現(xiàn)

:對外部刺激的快速反饋。Q

學(xué)習(xí)/適應(yīng)性

(Learning/Adaptability)n定義:Agent能夠從經(jīng)驗中學(xué)習(xí),不斷改進(jìn)其行為和性能,適應(yīng)環(huán)境的變化或任務(wù)需求的變化。n體現(xiàn):經(jīng)驗積累、策略優(yōu)化、知識更新。

目標(biāo)導(dǎo)向性

(Goal-orientedness)n定義:Agent的行為是圍繞一個或多個預(yù)設(shè)的或動態(tài)生成的目

標(biāo)展開的。n體現(xiàn)

:任務(wù)驅(qū)動、效用最大化。

自主性

(Autonomy)n定義:Agent能夠在沒有人類或其他Agent直接干預(yù)的情況

下,獨立控制其內(nèi)部狀態(tài)和自身行為。n體現(xiàn):自我啟動、

自我決策、

自我調(diào)整。

交互性

(Social

Ability)n定義:Agent能夠通過某種Agent通信語言

(ACL)或其他機(jī)制與其他Agent(包括人類)進(jìn)行交互、協(xié)作、協(xié)商。n

體現(xiàn):溝通、協(xié)作、談判。

主動性

(Initiative)n定義:Agent不僅僅對環(huán)境做出反應(yīng),還能表現(xiàn)出目標(biāo)驅(qū)動

的行為,主動發(fā)起行動以達(dá)成目標(biāo)。n體現(xiàn)

:機(jī)會發(fā)現(xiàn)、主動規(guī)劃。3.3核心概念解析

(一):Agent的核心特征一個成熟的AI

Agent具備以下核心特征這些特征共同構(gòu)成了智能體的核心能力,使其能夠有效地在復(fù)雜環(huán)境中執(zhí)行任務(wù)。

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)12

3.4核心概念解析

(一):AIAgent的五個發(fā)展階段記憶與推理階段

03Agent具備記憶(記住用戶信息)和推理能力(更聰明地解

決問題)記憶:跨會話記住用戶細(xì)節(jié),

實現(xiàn)個性化(如記住用戶偏

好)。推理:通過推理工具(如PythonTools)提高多步驟任

務(wù)的成功率(從60%提升到更

高)。例子:Agent在多次對話后記住用戶需求,提供更貼切的

回答。要點:推理提升復(fù)雜任務(wù)表現(xiàn),

但會增加成本和延遲。Agent系統(tǒng)

05構(gòu)建完整的Agent

系統(tǒng),通

過API異步處理任務(wù)并返回

結(jié)果。實現(xiàn):需要數(shù)據(jù)庫保存狀態(tài)

、異步任務(wù)處理(如FastAPI后臺

任務(wù))和結(jié)果流式傳輸。挑戰(zhàn):技術(shù)復(fù)雜(如使用WebSocket),但這是未來趨

,也是商業(yè)化的重點。例子:一個帶有AgentAPl和

Ul框架的,具有用戶交互能

力的Agent系統(tǒng)。要點:最難但最有潛力,適

合大規(guī)模應(yīng)用。多Agent團(tuán)隊階段多個Agent組成團(tuán)隊,分工

合作解決復(fù)雜問題。挑戰(zhàn):每個Agent需專注單一領(lǐng)域(工具少于

10個),團(tuán)

隊協(xié)作需推理支持,否則成

功率低(目前成功率

<50%)。例子:一個團(tuán)隊Agent分析股票數(shù)據(jù),另一個提供建議。要點:2025年多Agent

系統(tǒng)

仍不成熟,適合研究而非生

產(chǎn)?;A(chǔ)工具與指令階段最簡單的AIAgent;使用

LLM結(jié)合工具和指令完成

任務(wù)。特點:最簡單的AlAgent,使用

LLM結(jié)合工具和指令

完成任務(wù)。功能:通過指令

“教"Agent

如何完成任務(wù),使用工具

(如搜索工具)與外部環(huán)境交

互。例子:一個指導(dǎo)開發(fā)者構(gòu)建Agent

的Agent。要點:適合初級任務(wù),但能

力有限。知識庫與存儲階段加入知識庫和存儲功能,讓

Agent能搜索外部信息并保存狀態(tài)。知識庫:使用混合搜索(全文

+語義搜索)+重排序(reranking),提升信息檢索

精準(zhǔn)度。存儲:保存會話狀態(tài)(如ChatGPT的聊天記錄),讓Agent在不同會話間保持

“記憶”。例子:Agent能從

SQLite

數(shù)

據(jù)庫中讀取知識,回答更復(fù)

雜的問題。要點:解決

LLM無狀態(tài)問題,

提升任務(wù)連續(xù)性。

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)13

AIAgent的發(fā)展呈現(xiàn)“從簡單開始,逐步增加復(fù)雜性”的特性。020104n定義:AgenticAI強(qiáng)調(diào)AI系統(tǒng)所具備的自主性(Autonomy)、

目標(biāo)驅(qū)動

(Goal-driven)、環(huán)境交互

(EnvironmentInteraction)和學(xué)習(xí)能力

(Learning

Capability)n定位:它是AIAgent追求的高級形態(tài)和核心設(shè)計理念/

哲學(xué),而不僅僅是實現(xiàn)了Agent基本功能的系統(tǒng)。一個

系統(tǒng)可以是一個Agent

,但不一定足夠“Agentic”n目標(biāo):構(gòu)建能夠像智能生物一樣,在復(fù)雜動態(tài)環(huán)境中主

動感知、理解、規(guī)劃、行動并持續(xù)學(xué)習(xí)和適應(yīng)的AI系統(tǒng)n

自主性

(Autonomy):無需人類持續(xù)干預(yù),能獨立感

知、決策和行動。n

目標(biāo)驅(qū)動

(Goal-driven):始終以達(dá)成預(yù)設(shè)或動態(tài)生

成的目標(biāo)為導(dǎo)向。n

環(huán)境交互(Environment

Interaction):能夠主動感

知環(huán)境變化,

并通過行動影響環(huán)境,

形成閉環(huán)。n

學(xué)習(xí)與適應(yīng)性(Learning/Adaptability):能夠從經(jīng)

驗中學(xué)習(xí),改進(jìn)自身行為,適應(yīng)變化的環(huán)境和任務(wù)3.5核心概念解析

(二):AgenticAI

-追求更高階的智能

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)14

Agentic

AI的內(nèi)涵

Agentic

AI的關(guān)鍵特征3AgenticAIAgenticAI把AIagents更加自主、適應(yīng)性強(qiáng)且主動,能自主規(guī)劃、決策,無需人類指示就能行動。關(guān)鍵:自主性,學(xué)習(xí)能力最強(qiáng)。舉例:一個管理智能家居的AgenticAI系統(tǒng)不僅能調(diào)節(jié)溫度,還能在食物快用完時自動下單,安排家電維護(hù),優(yōu)化能源使用——全程無需你動手。4.AgentsvsAIAgentsvsAgenticAI2AIAgents(AI智能體/代理)升級版的agents,AI驅(qū)動,不只是遵

循簡單規(guī)則,而是能利用機(jī)器學(xué)習(xí)、

自然語言處理等AI技術(shù)做決策。關(guān)鍵:能從數(shù)據(jù)中學(xué)習(xí),適應(yīng)新情況,隨時間變得更聰明。舉例:Siri、小愛同學(xué)這類虛擬助手就是AIAgents。它們能理解你的語音指令,學(xué)習(xí)改進(jìn)回答質(zhì)量,執(zhí)行設(shè)置鬧鐘、播放音樂等任務(wù)。Agents(智能體/代理)最基礎(chǔ)的概念,指任何能感知環(huán)境

并為達(dá)成目標(biāo)而行動的實體,可以

是軟件、硬件,甚至是人。關(guān)鍵:不需要AI也能工作。舉例:冰箱的恒溫器是典型Agent。它感知溫度(環(huán)境感知),開關(guān)制冷系統(tǒng)(采取行動),保持設(shè)定溫度(實現(xiàn)目標(biāo))。它只是按照預(yù)設(shè)規(guī)則工作,不需要任何AI能力。

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)15

1AIAgents的適用場景

高復(fù)雜度的任務(wù):任務(wù)流程復(fù)雜,涉及多個子任務(wù)

和決策點。

需要自主規(guī)劃與執(zhí)行:任務(wù)目標(biāo)明確,但達(dá)成路徑不固定,需要Agent根據(jù)實時情況動態(tài)調(diào)整。

需要與環(huán)境交互:Agent需要從外部系統(tǒng)獲取信息,并向其發(fā)送指令以影響環(huán)境。

需要長期記憶與學(xué)習(xí):Agent需要積累經(jīng)驗,并通

過學(xué)習(xí)優(yōu)化未來的決策和行為。

需要多模態(tài)感知與理解:任務(wù)涉及文本、圖像、語音等多種數(shù)據(jù)形式的輸入和輸出。何時選擇AIAgent?

任務(wù)可拆解性:任務(wù)是否可以被分解為一系列可由

Agent獨立完成的子任務(wù)?

環(huán)境可觀察性與可控性:Agent能否獲取足夠的環(huán)

境信息進(jìn)行決策?能否對環(huán)境施加有效影響?

目標(biāo)明確性:任務(wù)的最終目標(biāo)是否清晰可衡量?

知識可表達(dá)性:完成任務(wù)所需的知識是否可以被

Agent理解和利用?

魯棒性要求:任務(wù)對錯誤容忍度如何?Agent能否

在不確定性下穩(wěn)定運行?

長期價值考量:Agent的持續(xù)學(xué)習(xí)能力能否為業(yè)務(wù)

帶來長期增益?

898PEKING

UNIVERSITY

N

I

V

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)16

5.AIAgent的適用場景及判斷標(biāo)準(zhǔn)醫(yī)療健康某在線問診app:單日最高處理12萬次問診,分診準(zhǔn)確

率達(dá)95%。實際價值:大幅提升問診效率并縮短患者平均候診時間

40分鐘。軟件開發(fā) Devin

(Cognition

AI):首個AI軟件工程師,能自主完成

復(fù)雜編程任務(wù),從需求理解、

代碼生成、調(diào)試到部署。實際價值:

大幅提升開發(fā)效率,降低人力成本,

加速產(chǎn)

品上市。智能客服某電商客服機(jī)器人:

不僅僅是簡單的問答機(jī)器人,能理

解用戶意圖,自主查詢知識庫,執(zhí)行多步操作(如辦理

業(yè)務(wù)、修改訂單)。實際價值:

24*7不間斷服務(wù),提高客戶滿意度,降低人

工客服壓力。廣告營銷某公司內(nèi)容創(chuàng)作Agent:根據(jù)營銷目標(biāo)和受眾畫像,自

主生成文案、

圖片、視頻腳本,

甚至能進(jìn)行多輪迭代優(yōu)

化。實際價值:

規(guī)?;a(chǎn)高質(zhì)量內(nèi)容,提高營銷效率。

N

I

V

898PEKING

UNIVERSITY

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)17

AIAgent在智能客服、醫(yī)療健康、廣告營銷、軟件開發(fā)領(lǐng)域已取得了顯著成效。6.AIAgent應(yīng)用案例分享AIAgent的崛起,得益于LLM的飛躍與基礎(chǔ)設(shè)施的成熟,標(biāo)志著AI正從被動式工具向主動型智能體深刻轉(zhuǎn)型。這不僅僅是技術(shù)的浪潮,更是一種追求自主感知、智能決策、高效行動與持續(xù)進(jìn)化的AI新范式。AgenticAI的設(shè)計哲學(xué),驅(qū)動我們探索更高級的智能形態(tài),其重塑復(fù)雜任務(wù)執(zhí)行、賦能創(chuàng)新發(fā)現(xiàn)、以及變革人機(jī)協(xié)作模式的巨大潛力,正徐徐展開,未來可期。

898PEKING

UNIVERSITY

N

I

V

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)18

7.總結(jié):新范式已至,未來可期一、AI

Agent和Agentic

AI的興起………………

P41.

AIAgent的爆發(fā)……………………...…

P62.

Agent的發(fā)展歷程……………….…

P83.

AIAgent的核心特質(zhì)及概念解析..………………….…………

P104.Agentsvs

AIAgents

vs

Agentic

AI

……..………………..…

P155.AIAgent的適用場景及判斷標(biāo)準(zhǔn)……..…………..…

P166.AIAgent應(yīng)用案例分享……..……….…..…

P177.

總結(jié):新范式已至,未來可期……..…………..……………..……..…

P18二、

AI

Agent的核心技術(shù)棧解密……………

P201.

AIAgent的核心組成部分…………

P222.

感知模塊……………………

P233.

認(rèn)知與決策模塊………………………

P294.

行動模塊………………………

P395.

Agent架構(gòu)模式……………

P536.

構(gòu)建基礎(chǔ)AIAgent:核心步驟概覽……………..

P767.

總結(jié):Agent核心技術(shù)

-從能力邊界到智能涌現(xiàn)…..

P77三、

主流Agent平臺、框架與項目技術(shù)拆解………….………….…

P791.

Agent平臺/框架/應(yīng)用分類總覽……………………

P812.Agent構(gòu)建平臺(Low-code/No-code)………………….

P823.

Agent開發(fā)框架(Code-centric)………………….…

P1044.Agentic應(yīng)用/產(chǎn)品(End-userfocused)……….…………

P1295.

通用智能Agent………………

P1506.

專用領(lǐng)域Agent/系統(tǒng)……………..……

P1707.

總結(jié):Agent生態(tài)的多元探索與實踐前沿…………….……………….……

P194四、AI

Agent的技術(shù)現(xiàn)狀、核心挑戰(zhàn)與未來展望..……………

P1961.

當(dāng)前Agent發(fā)展現(xiàn)狀…………….……

P1982.

核心技術(shù)挑戰(zhàn)…………………………..………

P2043.

開放性問題探討……………….……...…

P2114.AIAgent的未來趨勢與展望

………..…….……...…

P2165.

總結(jié)與思考……...………………..……….……...…

P220內(nèi)容目錄

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)19

n

本部分將深入剖析AI

Agent賴以運作的核心技術(shù)體系

首先從感知模塊入手,探討Agent如何接收和理解文本

、

圖像

語音

、

視頻及傳感器等多模態(tài)信息,并轉(zhuǎn)化為內(nèi)

部環(huán)境狀態(tài)表征。n

接下來,重點闡述認(rèn)知與決策模塊,揭示大型語言模型(

LLM)作為核心引擎在指令

理解

、

意圖識別

、

上下文處理及長程記憶方面的角色與挑戰(zhàn)。n

隨后解析行動模塊,包括Agent利用工具

、

執(zhí)行代碼,詳細(xì)介紹MCP協(xié)議,以及通過

自然語言或GUI模擬進(jìn)行人機(jī)交互。n

最后,本部分將探討Agent的架構(gòu)模式,對比分析單Agent與多Agent系統(tǒng),詳細(xì)介

A2A

協(xié)

,并

延伸

智能

Agent

的特

架構(gòu)

,拓

展了

AgenticRAG

AG-UI的內(nèi)容。AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)二、AIAgent的核心技術(shù)棧解密二、AIAgent的核心技術(shù)棧解密1.

AI

Agent的核心組成部分

{

2.2

感知模塊—關(guān)鍵技術(shù)4.

行動模塊5.

Agent架構(gòu)模式6.

構(gòu)建基礎(chǔ)AIAgent:核心步驟概覽7.

總結(jié):Agent核心技術(shù)

-從能力邊界到智能涌現(xiàn)4.1行動模塊概述4.2工具使用—原理介紹4.3工具使用—MCP詳解4.4代碼執(zhí)行4.5物理世界交互與人機(jī)交互界面4.6小結(jié):行動模塊5.1單Agent架構(gòu)vs多Agent系統(tǒng)5.2多Agent系統(tǒng)—A2A協(xié)議5.3主流Agent框架分析5.4Agent架構(gòu)的高級與前沿模式5.5Agentic

RAG5.6智能體交互最后一塊拼圖—AG-UI協(xié)議

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)21

3.1認(rèn)知與決策模塊概述3.2核心引擎:大型語言模型

(LLM)3.3規(guī)劃能力詳解3.4記憶能力詳解3.5學(xué)習(xí)與適應(yīng)能力詳解3.6小結(jié):認(rèn)知與決策模塊2.

感知模塊3.

認(rèn)知與決策模塊2.1感知模塊概述2.3感知模塊—挑戰(zhàn)前沿AIAgent由多個關(guān)鍵部分組成:n

感知模塊:從環(huán)境中讀取多模態(tài)信息,包括文本、

圖像、語音、

視頻、其它傳感器數(shù)據(jù)等。n

認(rèn)知與決策模塊:Agent的”大腦

“,基于感知到的信息和自身知識,進(jìn)行思考、推理、規(guī)劃,并最終做出決策。n

行動模塊:接收認(rèn)知與決策模塊的規(guī)劃指令,調(diào)用相應(yīng)工具執(zhí)行環(huán)境交互操作,并返回結(jié)果。

N

I

V

898PEKING

UNIVERSITY

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)22

1.AIAgent的核心組成部分

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)23

感知模塊(

Pe

rce

pt

io

n

)感知模塊是連接數(shù)字與物理世界的橋梁。感知模塊

(Perception)

-AIAgent的“五官”

感知模塊是Agent與環(huán)境交互的入口,負(fù)責(zé)從外部世界收集信息,并

將其轉(zhuǎn)化為內(nèi)部可理解和處理的表征。

目標(biāo):準(zhǔn)確、

高效捕捉環(huán)境狀態(tài)、用戶指令、

外部事件等重要性

理解環(huán)境:

識別對象、

事件、狀態(tài)。

理解指令:解析用戶意圖。

驅(qū)動決策:提供決策所需的數(shù)據(jù)。挑戰(zhàn)

信息噪音、

數(shù)據(jù)冗余、多模態(tài)融合、實時性要求PEKINGUNIVERSITYN

I

V9

8

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)24

2.1感知模塊1.文本

(Text):用戶指令、

文檔、

網(wǎng)頁內(nèi)容、

代碼、API響應(yīng)等2.

圖像

(Image):場景理解、

圖表分析、對象識別、

GUI元素等。3.語音

(Speech):用戶語音指令、對話錄音等。4.視頻

(Video):監(jiān)控錄像、

操作演示、動態(tài)場景分析、行為識別等。5.傳感器數(shù)據(jù)

(Sensor

Data):

(尤其對于具身智能Agent)溫度、

濕度、

位置(GPS)、

設(shè)備狀態(tài)、機(jī)器人傳感器

(激光雷達(dá)、

攝像頭)等。6.結(jié)構(gòu)化數(shù)據(jù)

(Structured

Data):數(shù)據(jù)庫記錄、

API返回的JSON/XML。

N

I

V

898PEKING

UNIVERSITY

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)25

信息輸入的多樣性AIAgent能夠處理和理解來自多種不同類型數(shù)據(jù)源的信息。2.1感知模塊

-多模態(tài)信息輸入核心目標(biāo)

:將語音信號準(zhǔn)確轉(zhuǎn)換為文本,作為后續(xù)NLP處理的輸入關(guān)鍵技術(shù):?

聲學(xué)模型

(Acoustic

Model):將音頻

特征映射到音素單元。?

語言模型

(Language

Model

inASR):確保轉(zhuǎn)錄文本的流暢性和合理性。?

端到端模型

(End-to-EndModels):直接從音頻到文本挑戰(zhàn)

:?

口音、噪聲、遠(yuǎn)場識別、多人對話(說話人分離)、實時性2.2感知模塊

-關(guān)鍵技術(shù)(從原始信號中提取核心信息)核心目標(biāo):從文本中提取意義、意圖和關(guān)鍵實體關(guān)鍵技術(shù):?自然語言理解

(NLU):解析用戶指令、提取關(guān)鍵信息(實體、意圖、槽位填充)、理解上下文。?

命名實體識別

(NER):提取文本中的關(guān)鍵實體(人名、地名、組織、時間等)。?

情感分析

(SentimentAnalysis):判斷文本的情感傾向(積極、消極、

中性)。?

關(guān)系抽取

(Relation

Extraction):從文

本中抽取實體間的關(guān)系核心目標(biāo)

:從圖像或視頻中識別對象、理解場景內(nèi)容關(guān)鍵技術(shù):?目標(biāo)檢測

(Object

Detection):定位并識

別圖像中的物體。?

場景理解

(Scene

Understanding):分析圖像或視頻的整體場景、物體間關(guān)系及上下文。?

光學(xué)字符識別

(OCR):從圖像中提取文字。?

視覺問答

(VQA):根據(jù)圖像內(nèi)容回答問題。

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)26

自動語音識別(ASR)-理解語音信息自然語言處理(NLP)-理解文本信息計算機(jī)視覺(CV)–理解視覺信息12327AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)核心環(huán)節(jié):環(huán)境狀態(tài)表征(Environment

State

Representation)–塑造Agent的“世界觀”n定義:將來自一個或多個感知通道(如文本、視覺、

聽覺、傳感器數(shù)據(jù)等)的、經(jīng)過初步處理的信息,融合、提煉并組織成一個與任務(wù)相關(guān)的、Agent內(nèi)部可用的對當(dāng)前環(huán)境的統(tǒng)一描述。n

重要性:

它是連接多樣化原始感知與統(tǒng)一認(rèn)知決策的關(guān)鍵樞紐。

優(yōu)質(zhì)的狀態(tài)表征能顯著提升Agent的決策效率、準(zhǔn)確性和泛化能力。n

關(guān)鍵任務(wù)與技術(shù)思路:

多模態(tài)信息融合(Multimodal

Fusion):如何有效結(jié)合來自不同感官(如文本描述與對應(yīng)圖像)的信息,形成更全面的理解。?技術(shù)方向:早期融合、晚期融合、基于Transformer的跨模態(tài)注意力機(jī)制。

相關(guān)性與顯著性判斷

(Relevance&Salience

Detection):從海量感知信息中篩選出對當(dāng)前任務(wù)和Agent目標(biāo)最重要的部分,忽略無關(guān)噪聲。?技術(shù)方向:注意力機(jī)制、基于學(xué)習(xí)的重要性加權(quán)。

結(jié)構(gòu)化與符號化(Structuring&Symbolization):將信息組織成便于推理和規(guī)劃的格式。?示例:對象列表及其屬性、場景圖、符號化的事實斷言、向量嵌入。

State

Representation

Learning(SRL)

:利用(自)監(jiān)督學(xué)習(xí)方法,從原始觀測數(shù)據(jù)中自動學(xué)習(xí)到緊湊、信息豐富且對下游任務(wù)有益的狀態(tài)表示。?

目標(biāo):解耦變化因素、捕捉動態(tài)特性、提高泛化性。

898PEKING

UNIVERSITY

N

I

V在通過NLP、

CV、

ASR等技術(shù)從不同模態(tài)獲取初步信息后,感知模塊的核心任務(wù)是將這些多源、異構(gòu)的信息進(jìn)行整合、抽象與結(jié)構(gòu)化,最終形成一個Agent內(nèi)部用于后續(xù)認(rèn)知、規(guī)劃和決策的統(tǒng)一、連貫的“環(huán)境狀態(tài)表征”。?技術(shù)方向:變分自編碼器

(VAEs)、對比學(xué)習(xí)、預(yù)測編碼n產(chǎn)出:一個內(nèi)部一致的、可操作的、反映了Agent對當(dāng)前環(huán)境理解的“狀態(tài)”,為認(rèn)知模塊的規(guī)劃、推理和決策提供直接輸入。2.2感知模塊

-關(guān)鍵技術(shù)(整合多源信息,構(gòu)建環(huán)境狀態(tài)表征)2.3感知模塊

-挑戰(zhàn)與前沿:動態(tài)與不確定環(huán)境下的狀態(tài)感知前沿方向

世界模型

(World

Models)

:學(xué)習(xí)一個環(huán)境的動態(tài)模型,使其能夠預(yù)測未來狀態(tài)和行動后果,這種預(yù)測本身就是一種深層次的狀態(tài)理解。

神經(jīng)符號方法

(Neuro-SymbolicApproachesforState

Representation)

:結(jié)合深度學(xué)習(xí)的模式識別能力與符號邏輯的推理能力,構(gòu)建更魯棒和可解釋的狀態(tài)表征。挑戰(zhàn)1

:部分可觀測環(huán)境

(POMDP)

在現(xiàn)實世界中,Agent往往無法完全觀測到真實的環(huán)

境狀態(tài)

,只能依賴

噪聲

、

(Observations)

。(

現(xiàn)

實世界

大多數(shù)

Agent任務(wù)都屬于POMDP)

核心問題:如何從歷史觀測序列中推斷當(dāng)前最可能

實狀態(tài)

,即構(gòu)建

維護(hù)信

念狀態(tài)(BeliefState)——對真實狀態(tài)的概率分布。感知模塊不僅是簡單的數(shù)據(jù)采集,更是一個復(fù)雜的、

動態(tài)的、

基于推理的理解過程。有效的環(huán)境狀態(tài)表征是Agent智能行為的基石,尤其在面對真實世界的不確定性和動態(tài)性時,其挑戰(zhàn)與重要性愈發(fā)凸顯。挑戰(zhàn)2

:動態(tài)環(huán)境與持續(xù)學(xué)習(xí)

環(huán)境狀態(tài)是持續(xù)變化的,Agent需要有能力實時更新

其狀態(tài)表征。

新信息的融入可能需要調(diào)整已有的狀態(tài)理解,這與Agent的持續(xù)學(xué)習(xí)和適應(yīng)能力緊密相關(guān)。挑戰(zhàn)3

:可解釋性與可信賴性

Agent如何表征其狀態(tài),以及為何形成這樣的表征,對于理解其后續(xù)決策至關(guān)重要。

需要探索更具可解釋性的狀態(tài)表征方法。

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)28

認(rèn)知與決策模塊(Cog

n

ition

&

Decision

Making

/

Reasoning

)

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)29

n

定義與核心功能:

Agent的

“中央處理器”,負(fù)責(zé)基于感知模塊提供的環(huán)境狀態(tài)和內(nèi)

部目標(biāo),進(jìn)行思考、推理、規(guī)劃,并最終做出行動決策。

Agent智能水平的集中體現(xiàn)。n

四大核心組成部分:1.核心引擎:大型語言模型

(LLM)-提供基礎(chǔ)理解、推理和生成能力。2.

規(guī)劃(Planning)-如何達(dá)成目標(biāo)?制定行動序列。3.

記憶(Memory)-如何存儲和利用經(jīng)驗與知識?4.

學(xué)習(xí)與適應(yīng)(Learning&Adaptation)-如何從經(jīng)驗中進(jìn)化?3.1認(rèn)知與決策模塊

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)30

認(rèn)知與決策模塊–Agent的“大腦”與智能核心核心引擎-LLM:認(rèn)知核心的驅(qū)動力n

指令理解與意圖識別:

LLM強(qiáng)大的NLU能力使其能準(zhǔn)確理解復(fù)雜、模糊的用戶指令或內(nèi)部目標(biāo)。

例如:將

“幫我規(guī)劃一次去北京的三天旅游,預(yù)算5000元,喜歡歷史古跡”轉(zhuǎn)化為明確的任務(wù)需求。n

上下文理解與長程依賴:

LLM通過Attention機(jī)制能捕捉和利用上下文信息。

挑戰(zhàn):

有限的上下文窗口

(Context

Window)限制了處理真正長程依賴的能力。

Agent框架的方案:?滑動窗口

(SlidingWindow):保留最近的交互歷史。?摘要機(jī)制

(Summarization):定期將早期對話或信息壓縮成摘要,注入上下文。?與外部記憶模塊結(jié)合

(RAG等):將相關(guān)歷史信息動態(tài)檢索并加入提示。n

常識推理與知識運用:LLM預(yù)訓(xùn)練中學(xué)習(xí)了海量世界知識和常識,能進(jìn)行一定程度的推理。3.2核心引擎:LLM的角色與能力LLM在Agent中:通常作為中央控制器或推理引擎,協(xié)調(diào)其他組件工作。

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)31

2.LLM的局限性及其彌補策略n

幻覺

(Hallucination):編造不實信息。

彌補:

工具調(diào)用

(Tool

Use)進(jìn)行事實核查

(e.g.,搜索引擎、

計算器)、引用外部知識庫

(RAG)、

自我反思與修正機(jī)制。n

知識截止

(Knowledge

Cutoff):缺乏最新信息。

彌補

:實時工具調(diào)用

(e.g.,聯(lián)網(wǎng)搜索)、定期更新/微調(diào)模

型、

RAG訪問最新文檔。n

邏輯推理脆弱性:在嚴(yán)格邏輯或數(shù)學(xué)問題上可能出錯。

彌補

:調(diào)用代碼執(zhí)行器、符號計算工具

(e.g.,Wolfram

Alpha)、專用邏輯推理模塊。1.關(guān)鍵技術(shù)

-推理增強(qiáng)技術(shù)n

思維鏈

(Chain-of-Thought,CoT):

引導(dǎo)LLM逐步思考,輸出中間推理步驟,而非直接給出答

案“

Let's

think

step

by

step.”

示例:問題

-

>思考步驟1

-

>思考步驟2

-

>

...

-

>答案n

思維樹

(Tree-of-Thought,ToT):

將問題求解過程建模為樹搜索,LLM在每個節(jié)點生成多個

想法(thoughts),并評估這些想法,進(jìn)行前瞻和回溯。

示例:樹狀結(jié)構(gòu),從問題節(jié)點分叉出不同思考路徑n

思維圖

(Graph-of-Thought,GoT):

將LLM生成的thoughts組織成圖結(jié)構(gòu),允許更靈活的聚合

和轉(zhuǎn)換,提升推理的全局性和迭代性。

示例:網(wǎng)絡(luò)圖結(jié)構(gòu),節(jié)點代表思考單元,邊代表關(guān)系3.2核心引擎:LLM的角色與能力

-推理增強(qiáng)與局限彌補

AI肖睿團(tuán)隊

學(xué)習(xí)交流可加AI肖睿團(tuán)隊助理微信號(ABZ2829)32

目標(biāo):提升LLM在復(fù)雜問題上的推理能力和結(jié)果的可靠性,讓LLM“想得更明白”。規(guī)劃(Planning):為達(dá)成特定目標(biāo)而制定一系列行動步驟的過程。n任務(wù)分解

(Task

Decomposition)的核心價值:1.明確化與可操作化

:將抽象目標(biāo)轉(zhuǎn)化為具體步驟。2.

降低復(fù)雜度:簡化問題,實現(xiàn)“分而治之”。3.增強(qiáng)執(zhí)行靈活性:便于并行處理、錯誤恢復(fù)和動態(tài)調(diào)整。n

實現(xiàn)任務(wù)分解的主要技術(shù)路徑:1.

分層規(guī)劃

(Hierarchical

Planning):

核心思想:從高層抽象任務(wù)開始,通過多層級逐步細(xì)化到具體的子任務(wù)序列,直至可執(zhí)行的原子操作。

優(yōu)勢

:提高規(guī)劃效率,生成更具可解釋性的計劃,適用于復(fù)雜領(lǐng)域。2.

分層任務(wù)網(wǎng)絡(luò)

(HierarchicalTask

Networks,

HTN):

一種經(jīng)典AI規(guī)劃方法,使用“方法”來描述如何將一個任務(wù)分解為一個或多個子任務(wù)序列。

核心組件:?任務(wù)

(Tasks):待完成的目標(biāo)或活動。?方法

(Methods):描述如何將一個非基本任務(wù)分解為一個或多個(有序或部分有序的)子任務(wù)序列。提供了預(yù)定義的任務(wù)分解模式。?操作符

(Operators/

PrimitiveTasks):對應(yīng)Agent可直接執(zhí)行的基本動作,具有明確的前置條件和效果。

工作方式:通過遞歸應(yīng)用方法來分解任務(wù),直到所有任務(wù)都變成操作符

898PEKING

UNIVERSITY

N

I

V3.LLM驅(qū)動的任務(wù)分解:

利用LLM的理解和生成能力,直接將用戶的高層指令分解為子任務(wù)列表。

例如,用戶說“幫我組織一個團(tuán)隊下周的線上技術(shù)分享會?!?/p>

,LLM分解為“1.確定分享會主題和主講人。

享材料和演示。4.預(yù)訂線上會議室并測試設(shè)備。

5.會后收集反饋。”等。

優(yōu)勢:對模糊指令的適應(yīng)性強(qiáng),能利用常識進(jìn)行分解,交互更自然。

挑戰(zhàn):分解結(jié)果的邏輯性、完備性、可執(zhí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論