成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這篇 AI Agent 漫游指南,帶你建立全面的科技史觀

人工智能
歡迎乘坐Agent漫游列車,作為AI Agent的躬身入局者,我將為你講解AI Agent的前世今生并推演一下未來(lái)。

作者 | kong

以O(shè)penAI o1與DeepSeek R1為代表的"類Agent"模型、OpenAI DeepResearch為代表的“真Agent”模型,正在重構(gòu)AI Agent的技術(shù)范式。Agentic Workflow的王座還沒(méi)坐熱,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的端到端Agent模型訓(xùn)練已呼嘯而來(lái)。未來(lái)趨勢(shì)已指明:模型即產(chǎn)品,工程化Agent的命運(yùn)將如何?一起來(lái)洞察全新的Agent技術(shù)范式底下的技術(shù)及演進(jìn)過(guò)程,提前看到未來(lái)的模樣。

歡迎乘坐Agent漫游列車,作為AI Agent的躬身入局者,我將為你講解AI Agent的前世今生并推演一下未來(lái)。

一、時(shí)間線

我們先來(lái)回顧一下基于LLM的Agent發(fā)展時(shí)間線,LLM的實(shí)質(zhì)性的起源時(shí)間只回溯到2017年的注意力機(jī)制的提出時(shí)間。

在2017年前,AI的世界一片混沌,NLP領(lǐng)域更是停滯在RNN和LSTM止步不前。

《人類群星閃耀時(shí)》如果有續(xù)集,我認(rèn)為2017年《Attention Is All You Need》的作者應(yīng)當(dāng)在列,論文描述的注意力機(jī)制——Transformer架構(gòu)劃破了AI世界的第二個(gè)長(zhǎng)夜,一個(gè)嶄新的時(shí)代光速開(kāi)啟。

接下來(lái)的標(biāo)識(shí)性事件是GPT-3的誕生,代碼生成場(chǎng)景,GitHub Copilot重新定義了代碼補(bǔ)全。

基于GPT 3.5的ChatGPT把通過(guò)自然語(yǔ)言聊天的形態(tài)把大模型帶到了普羅大眾面前,超越tiktok成為增長(zhǎng)最快的app。

GPT-4是首個(gè)參數(shù)突破萬(wàn)億的大模型,在2023年,GPT-4的性能無(wú)敵,OpenAI也放慢了繼續(xù)擴(kuò)大模型參數(shù)的路子,推出插件系統(tǒng)、GPTs等,當(dāng)年業(yè)界大井噴出大量的LLM應(yīng)用開(kāi)發(fā)框架,CoT思維鏈,Agent理念的祖師爺ReAct都在那時(shí)候推出,OpenAI也把工具使用的能力訓(xùn)練進(jìn)了模型里,推出FunctionCall,這一年,可謂AI agent的白銀時(shí)代。

2024年,Agent在水底下快速發(fā)展,模型的預(yù)訓(xùn)練Scaling Law好像失效了,GPT-4停滯不前,GPT-5難產(chǎn),O1的出現(xiàn)宣告著訓(xùn)練的路徑要轉(zhuǎn)向了。

2025年是后預(yù)訓(xùn)Scaling Law開(kāi)始生效的時(shí)間,蟄伏了兩年多的Agent得以浮出水面,而模型側(cè)也因?yàn)閺?qiáng)化學(xué)習(xí)迎來(lái)了第二春:后訓(xùn)練的Scaling Law。

二、AI Agent是怎樣煉成的

AI Agent是大模型應(yīng)用的一種特定形態(tài),在深入理解什么是AI Agent之前,我們先直觀理解一下大模型的工作方式:文本補(bǔ)全。

1. LLM工作的核心形態(tài):文本補(bǔ)全

如下圖所示,我們給LLM發(fā)一段文本:“下面我將要講一個(gè)故事。在很久很久以前,有一個(gè)”,大模型會(huì)收到輸入后,它會(huì)返回一段文本:“小村莊坐落在群山環(huán)換之中。村子里住著。。。(省略數(shù)百字)”,然后,結(jié)束了。

這就是大模型一次工作的典型表現(xiàn),對(duì)輸入的文本進(jìn)行補(bǔ)全(Text Completion,這是為什么LLM們的接口都是completion、chat/completion的原因)。用戶輸入的部份內(nèi)容,稱之為提示詞——Prompt,大模型生成的輸出的文本是生成內(nèi)容——Generated Text。

整個(gè)核心形態(tài)看似簡(jiǎn)單,一次輸入輸出。實(shí)際上提示詞與生成內(nèi)容兩端分別是兩個(gè)巨大的領(lǐng)域:提示詞工程與模型預(yù)訓(xùn)練。

通過(guò)提示詞,用戶可以讓大模型實(shí)現(xiàn)各種場(chǎng)景的文本生成任務(wù),例如詩(shī)歌創(chuàng)作、語(yǔ)言翻譯、代碼生成、廣告文案生成等,而提示詞本身的編寫方法和質(zhì)量也會(huì)影響大模型生成內(nèi)容的效果,因此,如何寫好提示詞是一門綜合性的學(xué)問(wèn)。另一方面,提示詞是通過(guò)自然語(yǔ)言來(lái)表達(dá)的,所以這也造成了大量的非AI科班出身的且非專業(yè)開(kāi)發(fā)人員投入到了大模型應(yīng)用的開(kāi)發(fā)浪潮當(dāng)中,這個(gè)群體形成了提示詞工程的陣營(yíng),我們看到的大部份LLM應(yīng)用側(cè)的工作都屬于該陣營(yíng)。

基于以上對(duì)LLM應(yīng)用的了解,我們繼續(xù)往下一站,了解什么是AI Agent。

2. 什么是AI Agent

在業(yè)界一度有一個(gè)亂象,就是把所有基于大模型的聊天機(jī)器人都統(tǒng)稱為智能體即AI Agent。不管你是一個(gè)角色扮演的應(yīng)用,或者通過(guò)流程編排出來(lái)的一個(gè)大模型工作流,還是可以自主決策來(lái)去使用工具做任務(wù)的真Agent,這些都統(tǒng)稱為AI agent,但這其實(shí)是一個(gè)誤區(qū)和懶惰。現(xiàn)在都說(shuō)2025年是AI Agent的元年,我們很有必要去澄清一下AI Agent它到底是什么。

AI agent是基于大模型,具備記憶能力、能夠有自主推理和規(guī)劃工具的使用,從而來(lái)解決問(wèn)題的智能程序。即AI Agent = 大模型 + 記憶 + 使用工具 + 自主規(guī)劃。

基于大模型意味著可以通過(guò)自然語(yǔ)言去交互,所以聊天是我們使用AI Agent最直觀感受到的交互方式。

三、多輪對(duì)話與記憶

有記憶能力就意味著他能記得跟你過(guò)往跟你聊天和互動(dòng)的歷史,正因?yàn)槿绱耍阕蛲砗湍愕腁I伴侶聊得火熱,第二天起來(lái)TA也不會(huì)問(wèn)你,你是誰(shuí),你想干什么?

AI agent要實(shí)現(xiàn)記憶能力,簡(jiǎn)單的做法就是把前序的聊天記錄附在提示詞里,但很快迎來(lái)新的問(wèn)題,聊天記錄多了,很容易就導(dǎo)致模型上下文爆token無(wú)法繼續(xù)生成,隨后又發(fā)展出只取最近N次聊天記錄、只取與當(dāng)前問(wèn)題相關(guān)的聊天記錄等等手段。

單有記憶能支持人機(jī)之間進(jìn)行連續(xù)的多輪對(duì)話還不夠,因?yàn)楣庹f(shuō)不練的也不能叫做Agent。

四、使用工具

所以TA必須得懂得用工具。所謂的使用工具,就是去訪問(wèn)各種資源,調(diào)度數(shù)據(jù)接口等。例如,我們常見(jiàn)到的一種AI聊天的形態(tài)——聯(lián)網(wǎng)搜索,你可以把它看成一種使用工具的能力,AI把你的問(wèn)題和該問(wèn)題在網(wǎng)絡(luò)上相關(guān)的一些內(nèi)容加到一起去,讓大模型給你生成答案。

話又說(shuō)回來(lái),能使用工具的就是Agent了嗎?我們來(lái)比較一下元寶聯(lián)網(wǎng)搜索的自動(dòng)擋和手動(dòng)擋。

在元寶里面,你只要勾選了聯(lián)網(wǎng)的手動(dòng)擋,每次你提問(wèn)他都會(huì)先聯(lián)網(wǎng)查詢?cè)俳o你回答,而聯(lián)網(wǎng)的自動(dòng)擋會(huì)先判斷你這個(gè)問(wèn)題需不需要更多輔助它解決的信息,需要了再去聯(lián)網(wǎng)搜索,不需要他就直接回答。同樣是使用工具,但手動(dòng)擋表現(xiàn)出來(lái)的是固定的工作模式,而自動(dòng)擋做法是AI agent的模式,它有自己的自主的規(guī)劃和反思過(guò)程,這是AI Agent的另一個(gè)重要的特征。這個(gè)容后詳述。

五、Function Call

回到工具,大模型是怎樣使用工具的呢?我們都知道,大模型是一個(gè)文本模型,它只能輸出文本,所以,實(shí)際上所謂的使用工具,只是大模型在文本里說(shuō)明要使用什么工具,LLM的應(yīng)用程序解釋這段文本找到使用工具的信息,按照大模型的吩附來(lái)執(zhí)行工具的調(diào)用,如下圖所示:

上圖中,我們?cè)诮o大模型的輸入的提示詞內(nèi)容包括:

  • 可用的工具說(shuō)明,包括工具的功能、接受的參數(shù)明細(xì)等。
  • 工具的調(diào)用規(guī)范及示例,通過(guò)對(duì)工具調(diào)用的規(guī)范進(jìn)行詳細(xì)說(shuō)明,并使用fewshot的技術(shù)來(lái)給大模型學(xué)習(xí)一些例子。
  • 用戶問(wèn)題,最后是附上用戶的提問(wèn)。

大模型在回復(fù)的時(shí)候,會(huì)按照提示詞中的工具調(diào)用規(guī)范返回實(shí)際的工具使用例子,在上圖中是一串json格式的配置數(shù)據(jù),表達(dá)了要調(diào)用search_web這個(gè)工具,參數(shù)有query和limit兩個(gè)。

后來(lái),這種教大模型如何返回工具使用命令的工作,被OpenAI率先預(yù)訓(xùn)練到模型里面去了,并把這個(gè)功能叫Function Call,訓(xùn)練到模型去即意味著不需要再通過(guò)提示詞指導(dǎo)大模型使用工具了,而只需要告知大模型你有什么工具可用即可,在OpenAI的接口中,通過(guò)tools指定可用的工具集。

再后來(lái)的事大家都知道了,主流的大模型都先后效仿openAI支持了function call。

六、MCP

MCP(Model Context Protocol)是由Anthropic(Claude母公司)在2024年底提出的一種大模型上下文模議,目的是讓Agent能夠更方便地發(fā)現(xiàn)和使用來(lái)自各處的工具,讓Agent能做的事情更多。最早的落地場(chǎng)景是在Cluade的桌面端中使用,Claude通過(guò)MCP協(xié)議對(duì)用戶計(jì)算機(jī)的文件進(jìn)行讀寫和對(duì)用戶的電腦進(jìn)行操作。

MCP隨著AI Agent的出圈也飛速流行起來(lái),當(dāng)前已然是一片不MCP無(wú)Agent的態(tài)勢(shì),國(guó)內(nèi)外大模型廠紛紛下場(chǎng)支持MCP,MCP成了事實(shí)上的Agent工具使用標(biāo)準(zhǔn)。

關(guān)于MCP與大模型Function Call的關(guān)系, 經(jīng)常會(huì)被誤讀,說(shuō)MCP是替代Function Call的。但實(shí)際上,F(xiàn)unction Call和MCP兩者是不同層面的東西,甚至反過(guò)來(lái)說(shuō),是緊密配合的。如果 一個(gè)模型不具備Function Call或等價(jià)的能力,那它就用不了MCP。

Function Call是大模型返回調(diào)用工具指令的能力,MCP是Agent在工程側(cè)的程序具體執(zhí)行調(diào)用工具的手段,一個(gè)是說(shuō),一個(gè)是做。

在有MCP之前,Agent收到大模型的Function Call指令后通過(guò)各種方法去調(diào)用外部的各種資源和服務(wù)的,如要自己實(shí)現(xiàn)讀寫文件,查數(shù)據(jù)庫(kù),調(diào)搜索接口等等,這些方法可以千差萬(wàn)別,開(kāi)發(fā)過(guò)程長(zhǎng),成本高。

而MCP的出現(xiàn),統(tǒng)一了工程側(cè)調(diào)用工具的規(guī)范,它服務(wù)的廠商按照MCP Server的標(biāo)準(zhǔn)提供服務(wù),Agent的程序只需要統(tǒng)一使用call_tool這個(gè)MCP Client的功能來(lái)執(zhí)行調(diào)用即可,一下子節(jié)省了大量的工具適配的工作。

所以,MCP不是來(lái)代替Function Call的,而是幫工程側(cè)調(diào)用外部工具提效的。Function Call是使用工具的基石能力,MCP打開(kāi)了AI Agent連接世界的大門,兩者強(qiáng)強(qiáng)聯(lián)合,才是提效的真相。

七、自主規(guī)劃與反思

上面說(shuō)過(guò),只會(huì)無(wú)差別的使用工具,是不經(jīng)過(guò)事先思考的行為,這種LLM應(yīng)用不能被稱之為AI Agent。 自主規(guī)劃和反思甚至自我批評(píng),是AI Agent模擬人類工作方式的體現(xiàn),也是AI Agent的核心要素。

1. 規(guī)劃:思維鏈(CoT)

思維鏈(Chain of Thought,簡(jiǎn)稱CoT;Wei等人2022年提出)已成為提升大模型處理復(fù)雜任務(wù)性能的事實(shí)上的標(biāo)準(zhǔn)提示詞技術(shù)。人們通過(guò)引導(dǎo)模型"逐步思考",將任務(wù)拆解為多個(gè)更小、更簡(jiǎn)單的子步驟,從而提供模型的輸出性能。CoT不僅將龐大任務(wù)轉(zhuǎn)化為可管理的分步流程,在DeepSeek R1這類推理模型中,還為理解模型的推理過(guò)程提供了透明化的解讀路徑。

除了思維鏈,類似的思路還有思維樹(shù)(Tree of Thoughts, ToT)和思維圖(Graph of Thoughts,GoT)。它們都對(duì)CoT進(jìn)行了擴(kuò)展,在特定的應(yīng)用場(chǎng)景均有顯著的提升。但是實(shí)際應(yīng)用中,CoT是絕對(duì)的主流。

2. 反思:ReAct

反思能力能讓Agent具備迭代出可用答案的可能性。Agent通常不止一次調(diào)用LLM和工具,每一次采取行動(dòng)調(diào)用工具后,都需要經(jīng)過(guò)反思來(lái)確定是否做好了,不夠好接下來(lái)該怎么做。

ReAct(Reasoing Acting, 由Yao在2023年提出)思考框架,它指導(dǎo)AI Agent通過(guò)思考、行動(dòng)、觀察的循環(huán)來(lái)實(shí)成任務(wù)。Agent接到任務(wù)后的工作流程大致如下:

  • 思考(thought),要解決該問(wèn)題,下一步需要采取什么行動(dòng)。
  • 行動(dòng)(action),大模型輸出行動(dòng)指令,讓Agent調(diào)用外部工具。
  • 觀察(observation),把工具執(zhí)行的結(jié)果給大模型進(jìn)行觀察。
  • 回答(answer),如果工具執(zhí)行的結(jié)果已能得到答案,組織語(yǔ)言回答。
  • 如果目前得到的信息仍無(wú)法作答,進(jìn)入下一次循環(huán),繼續(xù)思考使用工具。

看起來(lái)是不是很像咱們?nèi)祟惖腜DCA(Plan Do Check Act)的翻版?

ReAct模式是當(dāng)下AI Agent領(lǐng)域事實(shí)上的工作模式,包括基于OpenAI Function Call實(shí)現(xiàn)的Agent在內(nèi)的背后也是同樣的工作模式。只不過(guò),使用內(nèi)置的Function Call的方式,不需要額外提供提示詞來(lái)指導(dǎo)模型行動(dòng)罷了。

八、為什么Agent不Work

AI Agent在大眾看到之前已經(jīng)發(fā)展了兩年多,直到最近Manus的爆火才被出現(xiàn)在大家面前,根本原因是,Agent的可靠性不足,上限較低。所以一直還擺不上臺(tái)面,僅在有限的場(chǎng)景迭代和落地。

實(shí)現(xiàn)一個(gè)Agent不難,有開(kāi)發(fā)經(jīng)驗(yàn)的同學(xué),通過(guò)學(xué)習(xí)在一兩天內(nèi)可以開(kāi)發(fā)出一個(gè)可以運(yùn)行的Agent,但要做一個(gè)可用的Agent,則還需要大量的工作。

判斷一個(gè)Agent是否可用,主要取決于具體場(chǎng)景的錯(cuò)誤容忍度和受眾的介入程度。以AI編程為例,開(kāi)發(fā)者對(duì)Agent生成代碼的預(yù)期是“規(guī)模不大的需求,代碼生成還不錯(cuò),會(huì)有問(wèn)題,但可以通過(guò)反復(fù)溝通去修正,最終達(dá)到相對(duì)可接受的結(jié)果”。所以,Vibe coding這個(gè)場(chǎng)景火了,大量不懂代碼的開(kāi)發(fā)者誕生了。Deep Research所關(guān)注的研報(bào)場(chǎng)景同理。

所以,當(dāng)下大家能看到的生產(chǎn)級(jí)別的Agent,基本上都有這兩個(gè)特征:復(fù)雜度與規(guī)模較低、容錯(cuò)水平高。

影響Agent在大規(guī)模復(fù)雜問(wèn)題上的性能因素是幻覺(jué)和記憶管理的挑戰(zhàn)。

1. 一定是幻覺(jué)

大模型是一個(gè)概率模型,它生成的內(nèi)容一定的概率是錯(cuò)誤的,即我們常說(shuō)的幻覺(jué)。

Agent執(zhí)行一次任務(wù),通常需要組合多次大模型的調(diào)用來(lái)完成工作,在總體的結(jié)果成功率上比單次的大模型調(diào)用會(huì)更加低。例如:假設(shè)平均單次調(diào)成大模型生成內(nèi)容的正確率在90%,那4次組合調(diào)用后,正確率直接下降到60-70% 。

2. 記憶管理的難

當(dāng)前基于大語(yǔ)言模型的Agent普遍面臨"記憶困境",這種困境源于大模型自身的無(wú)狀態(tài)特性與人類認(rèn)知過(guò)程中持續(xù)演進(jìn)的記憶機(jī)制之間的本質(zhì)差異。傳統(tǒng)采用簡(jiǎn)單對(duì)話歷史堆砌的"偽記憶"實(shí)現(xiàn)方式,在應(yīng)對(duì)需要長(zhǎng)期記憶保持、復(fù)雜知識(shí)關(guān)聯(lián)和動(dòng)態(tài)經(jīng)驗(yàn)積累的場(chǎng)景時(shí),暴露出一系列結(jié)構(gòu)性矛盾。

3. 上下文窗口的限制

當(dāng)前主流大模型的上下文處理能力受限于固定長(zhǎng)度的窗口機(jī)制(如GPT-4的32k tokens)。這種物理限制導(dǎo)致對(duì)話輪次或任務(wù)復(fù)雜度超過(guò)窗口容量時(shí),必然發(fā)生歷史信息截?cái)啵斐申P(guān)鍵記憶丟失;其次,隨著上下文長(zhǎng)度增加,模型處理效率呈指數(shù)級(jí)下降。這種矛盾在需要長(zhǎng)期任務(wù)追蹤的場(chǎng)景(如連續(xù)多日項(xiàng)目管理)中尤為突出。

大模型廠商不斷推出支持更大size上下文的模型,截止發(fā)稿為止,最大的上下文是Meta的Llama scout 1000萬(wàn)token。

4. 超長(zhǎng)上下文的注意力有效性衰減

盡管上下的尺寸越來(lái)越大,甚至能塞下全集的哈里波特了,但是超長(zhǎng)上下文注意力的準(zhǔn)確性又成了另一個(gè)問(wèn)題。

Transformer架構(gòu)的自注意力機(jī)制雖然賦予了模型強(qiáng)大的上下文關(guān)聯(lián)能力,但其計(jì)算復(fù)雜度O(n2)的特性導(dǎo)致隨著上下文長(zhǎng)度擴(kuò)展,有效注意力的分布呈現(xiàn)顯著稀釋效應(yīng)。根據(jù)ICLR 2023的研究成果,在16k tokens的上下文長(zhǎng)度下,模型對(duì)前20%輸入內(nèi)容的注意力權(quán)重占比超過(guò)65%,而對(duì)后20%內(nèi)容的注意力權(quán)重不足8%。這種"近因偏好"現(xiàn)象使得早期關(guān)鍵信息容易被后續(xù)內(nèi)容覆蓋,導(dǎo)致記憶保持的時(shí)序穩(wěn)定性問(wèn)題。更嚴(yán)重的是,當(dāng)處理超長(zhǎng)文檔(如百頁(yè)技術(shù)手冊(cè))時(shí),模型可能陷入"注意力渙散"狀態(tài),出現(xiàn)關(guān)鍵信息漏讀或誤讀。

Google的BigBird和DeepSeek的NSA(Native Sparse Attention)都在致力于解決這個(gè)問(wèn)題。

5. 相關(guān)記憶的準(zhǔn)召問(wèn)題

既然暴力的強(qiáng)塞所有的聊天記錄不行,那就換一種思路吧,只取跟當(dāng)前問(wèn)題有關(guān)聯(lián)的聊天記錄總可以了吧?我們把聊天記錄存在向量數(shù)據(jù)庫(kù)中,通過(guò)向量檢查召回關(guān)聯(lián)的內(nèi)容,實(shí)現(xiàn)按需注入歷史。

然而,向量數(shù)據(jù)庫(kù)的召回也是一個(gè)龐大復(fù)雜的工程(RAG中的R),召回?cái)?shù)據(jù)的準(zhǔn)確與否,直接決定了大模型回答的質(zhì)量。為了提升準(zhǔn)召率,RAG一路發(fā)展到基于知識(shí)圖譜的RAG,又到了今天的Agentic RAG,仍然沒(méi)有到頭。

有辦法!

方法總比問(wèn)題多嘛,既然知道agent面臨著怎樣的挑戰(zhàn),就給出針對(duì)性的解決方案吧。為了提升agent的性能,業(yè)界提出了各種解決方案,總結(jié)起來(lái)有3大類。

  • 引入workflow,使用固化的工作流程來(lái)提升確定性,但同時(shí)犧牲掉靈活性。
  • 在ReAct框架的基礎(chǔ)上做工程側(cè)的極致優(yōu)化
  • 引入多agent,效仿人類團(tuán)隊(duì)協(xié)作,突破單agent的極限,發(fā)揮群集智慧。

九、workflow的第二春

AI Agent不穩(wěn)定?那我們來(lái)固化工作流程,讓AI在必要的時(shí)候工作就好?這個(gè)解題思路引出了AI workflow的技術(shù)形態(tài)。

從技術(shù)演進(jìn)視角來(lái)看,Workflow本質(zhì)上是將低代碼開(kāi)發(fā)框架與LLM相結(jié)合的產(chǎn)物,舊瓶裝新酒。其在大模型時(shí)代的流行主要源于兩個(gè)關(guān)鍵因素:首先,當(dāng)前開(kāi)發(fā)范式已從傳統(tǒng)編碼轉(zhuǎn)向提示詞工程,開(kāi)發(fā)者需要高頻迭代提示詞而非底層代碼;其次,可視化流程編排顯著降低了調(diào)試門檻,使非技術(shù)背景人員也能通過(guò)直觀界面完成AI能力集成。

現(xiàn)有Workflow更多是業(yè)務(wù)邏輯的標(biāo)準(zhǔn)化封裝,AI僅作為模塊化組件服務(wù)于特定環(huán)節(jié)。這種架構(gòu)雖提升了開(kāi)發(fā)效率,但也存在本質(zhì)局限——既無(wú)法實(shí)現(xiàn)智能體(Agent)的自主推理能力,也難以支撐復(fù)雜場(chǎng)景的端到端智能化。

簡(jiǎn)單來(lái)說(shuō),workflow本身不是AI Agent,但基于workflow實(shí)現(xiàn)的功能可又作為Agent的工具,作為Agent的有機(jī)組成部份。

十、Beyond ReActAgent

之前說(shuō)過(guò)ReAct Agent是當(dāng)下主流Agent的思考與行動(dòng)框架,但ReAct本身也有著很多的缺點(diǎn):

走一步看一步,缺乏全盤規(guī)劃。每次的思考與決策需要依賴上一次工具的輸出結(jié)果。

串行調(diào)度工具,每次工具調(diào)用都跟隨著一次LLM的調(diào)用,沒(méi)能靈活高效的對(duì)工具的調(diào)度進(jìn)行優(yōu)化。

所有工具的執(zhí)行結(jié)果,都會(huì)追加到大模型的上下文中供觀察使用,經(jīng)過(guò)多次的工具調(diào)用來(lái)回后,很容易就觸發(fā)上下文限制,任務(wù)以失敗告終。

針對(duì)這些缺點(diǎn),業(yè)界的優(yōu)化方式也是五花八門,以下舉一些代表性的例子:

1. plan and execute

該思路主要受到Plan-and-Solve論文和Baby-AGI項(xiàng)目的啟發(fā),其核心工作流程包含三個(gè)階段:

  • 規(guī)劃階段 :首先生成一個(gè)全盤的多步驟的詳細(xì)行動(dòng)計(jì)劃
  • 執(zhí)行階段 :按順序執(zhí)行每個(gè)計(jì)劃步驟,返回結(jié)果
  • 重規(guī)劃階段:根據(jù)執(zhí)行結(jié)果動(dòng)態(tài)調(diào)整計(jì)劃或返回

這種模式引入了全盤規(guī)劃,且子任務(wù)的執(zhí)行分拆到Single-Task Agent上執(zhí)行,避免了Token在同一個(gè)LLM會(huì)話上下文中堆積,降低爆Token的可能性。

manus的Agent顯然是借鑒了這種Agent,先生成任務(wù)的清單,再對(duì)著清單逐個(gè)執(zhí)行,但似乎并沒(méi)有看到manus有重新規(guī)劃這個(gè)步驟。

2. ReWoo

ReWOO( Reasoning WithOut Observation )是一種創(chuàng)新的增強(qiáng)語(yǔ)言模型(ALM)框架,旨在通過(guò) 模塊化設(shè)計(jì) 顯著提升多步推理任務(wù)的效率與性能。傳統(tǒng)ALM(如ReAct)依賴交替的“推理-工具調(diào)用-觀察”流程,導(dǎo)致大量上下文重復(fù)輸入和計(jì)算資源浪費(fèi)。ReWOO突破性地將任務(wù)分解為三個(gè)獨(dú)立模塊:

  • Planner(規(guī)劃器) :基于大型語(yǔ)言模型(LLM)的推理能力,預(yù)先生成任務(wù)藍(lán)圖,規(guī)劃多步推理路徑(如調(diào)用工具的順序與邏輯),無(wú)需等待工具實(shí)時(shí)反饋。
  • Worker(執(zhí)行器) :根據(jù)藍(lán)圖并行調(diào)用外部工具(如搜索引擎、計(jì)算器、數(shù)據(jù)庫(kù)),高效收集證據(jù)。
  • Solver(求解器) :綜合規(guī)劃與證據(jù)生成最終答案,具備糾錯(cuò)與總結(jié)能力。

ReWOO最顯著的特點(diǎn)是擁有一個(gè)獨(dú)立的Solver(求解器)模塊,專門負(fù)責(zé)綜合規(guī)劃結(jié)果和工具執(zhí)行證據(jù),生成最終答案。在worker的執(zhí)行過(guò)程中, ReWOO不去觀察(Observation)工具返回的結(jié)果,可以減少token的使用及調(diào)用LLM的次數(shù)。

ReWOO與Plan and Execute相比有兩個(gè)差異:

  • worker的任務(wù)執(zhí)行更多是工具執(zhí)行,不需要額外的LLM來(lái)驅(qū)動(dòng)。
  • 沒(méi)有重新規(guī)劃的過(guò)程。

3. LLm Compiler

LLMCompiler專為優(yōu)化大語(yǔ)言模型(LLM)的多工具協(xié)作效率而設(shè)計(jì)的框架。針對(duì)傳統(tǒng)方法(如ReAct)因順序執(zhí)行函數(shù)調(diào)用導(dǎo)致的延遲高、成本大、準(zhǔn)確率受限等問(wèn)題,LLMCompiler 創(chuàng)新性地引入編譯器式任務(wù)編排,通過(guò)并行化與動(dòng)態(tài)規(guī)劃顯著提升LLM在復(fù)雜任務(wù)中的表現(xiàn)。

其核心架構(gòu):

  • 智能規(guī)劃器(Planner):將用戶查詢解析為帶依賴關(guān)系的任務(wù)DAG,識(shí)別可并行執(zhí)行的函數(shù)調(diào)用(如并行的網(wǎng)絡(luò)搜索與數(shù)學(xué)計(jì)算)。
  • 動(dòng)態(tài)調(diào)度器(Task Fetching Unit):實(shí)時(shí)替換占位變量、分發(fā)獨(dú)立任務(wù),最大化并行資源利用率。
  • 異步執(zhí)行器(Executor):通過(guò)工具API并發(fā)執(zhí)行任務(wù),支持自定義工具(如搜索引擎、計(jì)算器、API代理)。

LLMCompiler同樣是提前做DAG規(guī)劃,它通過(guò)任務(wù)依賴關(guān)系來(lái)對(duì)任務(wù)進(jìn)行并行調(diào)度,還可以根據(jù)結(jié)果進(jìn)行重新規(guī)則。

十一、多Agent

人類社會(huì)有一句話“獨(dú)行快,眾行遠(yuǎn)”,指的是如果要走得更遠(yuǎn),需要團(tuán)隊(duì)合作。在Agent的世界,單個(gè)Agent在簡(jiǎn)單任務(wù)方面的表達(dá)已經(jīng)不錯(cuò),但復(fù)雜的以及上規(guī)模的任務(wù)中的表現(xiàn)卻乏善可陳。于是我們不由得去向人類的協(xié)同方式學(xué)習(xí),讓Agent組成團(tuán)隊(duì),復(fù)刻人類的協(xié)同方式,看是否能夠提升性能。

1. 多Agent的形態(tài)

根據(jù)多Agent的應(yīng)用場(chǎng)景,我把多Agent的產(chǎn)品形態(tài)分為社會(huì)協(xié)同模擬型與任務(wù)導(dǎo)向型 。

(1) 社會(huì)協(xié)同模擬型

類如“斯坦福小鎮(zhèn)”這一種agent社會(huì)化實(shí)驗(yàn)性的形態(tài),稱為社會(huì)協(xié)同模型型,這類產(chǎn)品不設(shè)定具體的任務(wù)讓Agent來(lái)實(shí)現(xiàn),而是提供了一個(gè)開(kāi)放性的運(yùn)行環(huán)境,讓Agent自發(fā)地去協(xié)同和產(chǎn)生可能的“化學(xué)反應(yīng)”,用于對(duì)Agent社會(huì)化協(xié)同的學(xué)習(xí)與研究。

(2) 任務(wù)導(dǎo)向型

另一種多agent的形態(tài)是目的性很明確的,有清晰的目標(biāo)和標(biāo)準(zhǔn)的操作流程(SOP),典型的代表如軟件開(kāi)發(fā)過(guò)程、較大篇幅的內(nèi)容(如論文、小說(shuō))等的創(chuàng)作。

MetaGPT是此類型多Agent的代表框架,它通過(guò)拆解軟件開(kāi)發(fā)的標(biāo)準(zhǔn)流程,為每個(gè)過(guò)程設(shè)定不同的角色來(lái)完成對(duì)應(yīng)的任務(wù),最終實(shí)現(xiàn)一個(gè)軟件的開(kāi)完任務(wù)。

十二、開(kāi)發(fā)框架

  • MetaGPT:基于多智能體協(xié)作的軟件開(kāi)發(fā)框架,通過(guò)模擬軟件公司角色分工(產(chǎn)品經(jīng)理/工程師等),將標(biāo)準(zhǔn)操作程序(SOP)編碼為智能體協(xié)作流程,支持從需求分析到代碼生成的全生命周期自動(dòng)化開(kāi)發(fā),尤其擅長(zhǎng)結(jié)構(gòu)化輸出文檔與代碼。
  • AutoGen:微軟推出的多智能體對(duì)話框架,支持定制化代理角色與自然語(yǔ)言交互,通過(guò)模塊化設(shè)計(jì)簡(jiǎn)化復(fù)雜任務(wù)編排,可無(wú)縫集成LLM和工具鏈,其核心優(yōu)勢(shì)在于實(shí)現(xiàn)人機(jī)混合協(xié)作與自動(dòng)化工作流,特別適合需動(dòng)態(tài)決策的場(chǎng)景。
  • CrewAI:開(kāi)源協(xié)作型智能體框架,強(qiáng)調(diào)角色扮演與團(tuán)隊(duì)化任務(wù)管理,支持自定義代理角色、任務(wù)委派及流程控制(順序/層級(jí)模式),提供工具集成與知識(shí)沉淀機(jī)制,適合構(gòu)建需要明確分工的多代理協(xié)作系統(tǒng)(如市場(chǎng)分析/項(xiàng)目管理)。
  • Swarm:OpenAI實(shí)驗(yàn)性輕量級(jí)框架,聚焦智能體間的動(dòng)態(tài)任務(wù)交接(Handoffs),通過(guò)函數(shù)調(diào)用實(shí)現(xiàn)執(zhí)行權(quán)轉(zhuǎn)移,保持高度可控性與透明性,與Chat Completions API深度整合,適合需細(xì)粒度控制的小規(guī)模多代理交互場(chǎng)景。

當(dāng)然,langchain和langgraph這類框架同樣是可以用于搭建多agent的,沒(méi)把它們列在上面僅僅是因?yàn)檫@兩個(gè)框架它的普適性更廣,不是專為多agent而專門提供的。

1. 協(xié)同架構(gòu)

langgraph把多Agent的協(xié)同架構(gòu)做了一下匯總,除了自定義架構(gòu),大致有以下幾種類型:

  • Network(網(wǎng)狀),網(wǎng)狀架構(gòu)允許每個(gè)Agent間互相通訊,該架構(gòu)的自由度高,但可控性差,適用于社會(huì)協(xié)同模擬型的Agent形態(tài)。
  • supervisor(監(jiān)督者),該架構(gòu)有一個(gè)管理者Agent,其他所有Agent之間不能直接溝通,只能與管理者Agent進(jìn)行溝通。這種架構(gòu)適用于對(duì)任務(wù)導(dǎo)向型的多Agent形態(tài),可控性較高,但管理者Agent的智能程度會(huì)成為整個(gè)多Agent網(wǎng)絡(luò)的瓶頸。

a. supervisor的結(jié)構(gòu)看起來(lái)還跟單Agent的結(jié)構(gòu)很相似,實(shí)際上,把非管理者Agent看成一個(gè)個(gè)工具的話,它就等同于一個(gè)單Agent,即圖中的supervisor(as tools)的結(jié)構(gòu)。

b. 所以,多Agent并不神秘,你在以前做單Agent的時(shí)候極有可能就已經(jīng)實(shí)現(xiàn)過(guò)as tools這種supervisor架構(gòu)的多Agent應(yīng)用了。上面"plan and execute"中描述的形態(tài)也可以視為一種多Agent。

Hierarchial(層級(jí)監(jiān)督者),層級(jí)監(jiān)督者是由多個(gè)監(jiān)督者網(wǎng)絡(luò)進(jìn)行堆疊而成的,如果把監(jiān)督者網(wǎng)絡(luò)看成一個(gè)小組由一個(gè)組長(zhǎng)帶領(lǐng)多個(gè)組員,那層級(jí)監(jiān)督者網(wǎng)絡(luò)則更大的的組織,例如是一個(gè)中心,甚至是部門,業(yè)務(wù)線等。

十三、Agentic Workflow

agentic workflow最早由吳恩達(dá)提出。簡(jiǎn)而言之,它的目標(biāo)是解決復(fù)雜任務(wù),通過(guò)分解任務(wù)、多角色Agent協(xié)同、迭代改進(jìn)的手段來(lái)實(shí)現(xiàn)。它有以下四大機(jī)制:

  • 工具調(diào)用(Tool Use)
  • 多 Agent 協(xié)作(Multi-agent)
  • 規(guī)劃能力(Planning)
  • 反思機(jī)制(Reflection)

光看上面的描述,定義是相當(dāng)?shù)哪:模覀兡蒙衔闹谐霈F(xiàn)過(guò)的LLM應(yīng)用和Agent來(lái)對(duì)比一下,以便進(jìn)一步理解agentic workflow。

1. 與“plan and execute“ agent的區(qū)別

上面講的Plan and Execute形態(tài)的Agent看起來(lái)就具備”分解任務(wù)”、 “子任務(wù)執(zhí)行Agent”、“迭代改進(jìn)”等等環(huán)節(jié),其中子任務(wù)執(zhí)行Agent是一個(gè)通用的執(zhí)行者,負(fù)責(zé)遍歷任務(wù)并執(zhí)行。

而Agentic workflow對(duì)任務(wù)執(zhí)行的要求是由不同角色的Agent來(lái)執(zhí)行不同性質(zhì)的任務(wù),哪個(gè)角色應(yīng)該執(zhí)行什么任務(wù)。

所以,如果把plan and execute模式升級(jí)一下,定義多個(gè)特定職能的Agent作為子任務(wù)的執(zhí)行者,有針對(duì)性的選擇任務(wù)來(lái)執(zhí)行,可以得到近似agentic workflow的效果。

2. 與workflow + LLM的區(qū)別

它和“workflow的第二春”中說(shuō)的workflow + LLM又有什么區(qū)別呢?從幾個(gè)維度來(lái)對(duì)比:

(1) 動(dòng)態(tài)規(guī)劃能力

Agentic Workflow:通過(guò) AI Agent 的推理能力動(dòng)態(tài)分解復(fù)雜任務(wù)(任務(wù)分解模式),并根據(jù)環(huán)境反饋調(diào)整執(zhí)行路徑。

Workflow + LLM:LLM 僅作為靜態(tài)模塊嵌入預(yù)定義流程。

(2) 自我迭代優(yōu)化

Agentic Workflow:引入反思模式(Reflection),通過(guò)執(zhí)行結(jié)果評(píng)估和策略校準(zhǔn)形成閉環(huán)。

Workflow + LLM:缺乏反饋循環(huán),輸出質(zhì)量依賴單次提示效果,無(wú)法自我優(yōu)化。

(3) 執(zhí)行主體性質(zhì)

Agentic Workflow:以 AI Agent 為核心,具備長(zhǎng)期記憶(如向量數(shù)據(jù)庫(kù)存儲(chǔ)用戶畫像)和工具調(diào)用權(quán)限(如 API、搜索引擎),形成類人認(rèn)知架構(gòu)。

Workflow + LLM:LLM 作為流程中的“工具人”,僅處理特定環(huán)節(jié)(如文本生成),無(wú)自主決策權(quán)。

(4) 任務(wù)協(xié)作模式

Agentic Workflow:支持多 Agent 協(xié)同(如數(shù)據(jù)分析 Agent 與優(yōu)惠優(yōu)化 Agent 聯(lián)動(dòng)),通過(guò)信息傳遞形成集體智能。

Workflow + LLM:流程由人工預(yù)先編排,各模塊獨(dú)立運(yùn)行,缺乏動(dòng)態(tài)協(xié)作。

(5) 小結(jié)

Agentic Workflow是由AI Agent集體動(dòng)態(tài)生成并可隨機(jī)變動(dòng)的協(xié)作流程,而workflow + LLM中的workflow是一種由開(kāi)發(fā)者定義的靜態(tài)工作流。

3. 示例分析

下圖所描述的是一個(gè)通過(guò)CrewAI實(shí)現(xiàn)的多agent智能化的客戶優(yōu)惠推薦系統(tǒng)。

藍(lán)色部份是定義了一種工作流程及每個(gè)節(jié)點(diǎn)的任務(wù):

  • 提取購(gòu)買記錄:基于用戶ID和時(shí)間范圍查詢數(shù)據(jù)。
  • 匹配最優(yōu)優(yōu)惠:通過(guò)SQL連接(JOIN)購(gòu)買記錄與優(yōu)惠表,按折扣排序。
  • 生成通知文案:整合優(yōu)惠信息,添加表情符號(hào),生成吸引人的消息。

綠色部份是定義了三種不同職能的Agent:

  • 購(gòu)買歷史分析Agent:編寫SQL查詢客戶購(gòu)買記錄。
  • 優(yōu)惠管理Agent:結(jié)合購(gòu)買歷史與優(yōu)惠表,篩選最優(yōu)折扣。
  • 創(chuàng)意文案Agent:生成個(gè)性化優(yōu)惠通知。
  • 工作流程:CrewAI框架協(xié)調(diào)Agent們執(zhí)行任務(wù),輸出最終優(yōu)惠通知。

CrewAI在任務(wù)的調(diào)度模式上有兩種,一種順序執(zhí)行(sequential),一種是層級(jí)模式(hierarchical),后者由一個(gè)管理者LLM來(lái)動(dòng)態(tài)調(diào)度執(zhí)行。

竊以為hierarchical模式才是真正意義上的agentic workflow,因?yàn)楣ぷ髁魇莿?dòng)態(tài)的,可通過(guò)反思機(jī)制進(jìn)行實(shí)時(shí)調(diào)整的,是由管理者LLM來(lái)自主決定的。而順序執(zhí)行的模式,和workflow + LLM的模型沒(méi)有本質(zhì)的區(qū)別。

4. Why Do Multi-Agent LLM Systems Fail?

多Agent看起來(lái)很美,但在實(shí)際的落地過(guò)程卻也有一地雞毛的時(shí)候,加州大學(xué)伯克利分校等機(jī)構(gòu)經(jīng)過(guò)研究發(fā)表的《Why Do Multi-agent LLM Systems Fail》的論文指出了多Agent架構(gòu)失敗的原因:

(1) 系統(tǒng)設(shè)計(jì)與規(guī)范問(wèn)題(占37.2%)

  • 核心問(wèn)題:架構(gòu)設(shè)計(jì)缺陷、角色定義模糊、對(duì)話流程管理不當(dāng)。
  • 違反任務(wù)規(guī)范:智能體未遵循任務(wù)約束
  • 角色越權(quán):智能體超出職責(zé)范圍(如CPO擅自定義產(chǎn)品愿景)。
  • 步驟重復(fù):冗余步驟導(dǎo)致效率低下。
  • 對(duì)話歷史丟失:上下文截?cái)嘁l(fā)邏輯斷裂。
  • 終止條件不明確:無(wú)法判斷任務(wù)何時(shí)完成。

(2) 智能體間協(xié)作錯(cuò)位(占31.4%)

核心問(wèn)題:溝通機(jī)制低效、信息共享不足、協(xié)作流程失控。

  • 對(duì)話重置:意外重啟對(duì)話導(dǎo)致進(jìn)展丟失。
  • 信息隱瞞:關(guān)鍵數(shù)據(jù)未共享(如手機(jī)代理未告知API格式要求)。
  • 任務(wù)偏離:討論偏離核心目標(biāo)(如32%的任務(wù)因跑題失敗)。
  • 推理-行動(dòng)不匹配:邏輯推理與執(zhí)行行為矛盾。

(3) 任務(wù)驗(yàn)證與終止問(wèn)題(占31.4%)

核心問(wèn)題:驗(yàn)證機(jī)制缺失或低效、過(guò)早終止任務(wù)。

  • 過(guò)早終止:未完成必要步驟即結(jié)束(如棋類游戲未驗(yàn)證規(guī)則)。
  • 驗(yàn)證不完整:僅檢查表面問(wèn)題(如代碼編譯通過(guò)但功能錯(cuò)誤)。
  • 錯(cuò)誤驗(yàn)證:驗(yàn)證邏輯存在缺陷(如接受非法棋步輸入)。

從智能體間協(xié)作錯(cuò)位中可以看到,多agent不僅復(fù)刻了人類協(xié)同的形態(tài),還把人與人溝通的壞毛病也學(xué)習(xí)了,會(huì)隱瞞,跑題和知行不一。

十四、中場(chǎng)戰(zhàn)事,推理“類Agent“的崛起

上面工程側(cè)為了Agent輸出更好的性能,想盡了辦法極致壓榨。模型側(cè)也沒(méi)閑著,也一直在探尋著新的Scaling Law。

OpenAI推出了推理模型O1,它的工作方式是在輸出內(nèi)容前先進(jìn)行一次內(nèi)部思考(推理),然后再基于思考的結(jié)論來(lái)組織回答。這種分段式的生成像極了agent的工作方式,所以,我對(duì)O1的第一反應(yīng)是openAI搞了個(gè)推理的agent?大模型Scaling Law到頭了,改搞工程agent了?后來(lái)看到技術(shù)實(shí)現(xiàn)才得知O1是強(qiáng)化學(xué)習(xí)的產(chǎn)物,O1仍然是一個(gè)模型,但它像agent一樣工作的模式以致我在后來(lái)把它們稱為"類agent"模型。

1. 猶抱琵琶半遮臉的O1

O1剛出來(lái)的時(shí)候,推理的過(guò)程是完全不可見(jiàn)的,一個(gè)Loading轉(zhuǎn)了幾分鐘看不到里面發(fā)生了什么。OpenAI是這樣解釋原因的:

  • 技術(shù)權(quán)衡:思維鏈的忠實(shí)性和可讀性是監(jiān)控模型推理過(guò)程的前提,但若在思維鏈上加入政策合規(guī)性或用戶偏好的訓(xùn)練,會(huì)破壞其有效性。因此,OpenAI選擇不向用戶展示原始思維鏈,以避免潛在的干擾。
  • 競(jìng)爭(zhēng)優(yōu)勢(shì):隱藏推理細(xì)節(jié)可保護(hù)核心技術(shù)不被競(jìng)爭(zhēng)對(duì)手模仿,尤其是在模型邏輯推理能力顯著超越同行的背景下。
  • 用戶體驗(yàn)優(yōu)化:原始思維鏈可能包含冗長(zhǎng)且復(fù)雜的中間步驟,直接展示會(huì)影響交互效率。OpenAI轉(zhuǎn)而提供模型生成的思維鏈摘要,以更簡(jiǎn)潔的方式呈現(xiàn)推理結(jié)果。

2. 掀桌子的DeepSeek R1

DeepSeek是配得上偉大這樣的贊譽(yù)的。

DeepSeek R1以更高的性能、低一個(gè)數(shù)量級(jí)的成本、開(kāi)源的方式打臉了O1,掀翻了桌子。R1發(fā)布即公開(kāi)了推理過(guò)程思維鏈的全部?jī)?nèi)容。DeepSeek成了真正的“OpenAI”。

(1) DeepSeek公開(kāi)了R1的訓(xùn)練技術(shù)細(xì)節(jié):

R1-Zero版本完全摒棄監(jiān)督微調(diào),通過(guò)多目標(biāo)強(qiáng)化學(xué)習(xí)(創(chuàng)新的GRPO算法)整合準(zhǔn)確性、推理速度與資源消耗指標(biāo)。其中GRPO算法可以降低對(duì)標(biāo)注數(shù)據(jù)的依賴,大大降低了訓(xùn)練成本。

(2) 但由于R1-Zero存在思維鏈的可讀性問(wèn)題,在R1的正式版的訓(xùn)練時(shí),分拆成了兩次的SFT+RL的步驟:

  • 加入了一些冷啟動(dòng)數(shù)據(jù)(思維鏈內(nèi)容)對(duì)V3進(jìn)行有監(jiān)督微調(diào),再?gòu)?qiáng)化學(xué)習(xí)得到較好的思維鏈可讀效果;
  • 基于上一個(gè)Checkpoint模型生成60萬(wàn)條思維鏈內(nèi)容再加上20萬(wàn)條生成的的示例數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),最后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行對(duì)齊得到R1。

過(guò)程如下圖所示:

3. 強(qiáng)化學(xué)習(xí)是后訓(xùn)練的Scaling Law

如果拋開(kāi)思維鏈的可讀性不談,R1-Zero已經(jīng)是一個(gè)高性能的推理模型,在Zero的訓(xùn)練細(xì)節(jié)上我們看到只需要強(qiáng)化學(xué)習(xí)就夠了。R1-Zero向我們傳遞了一個(gè)最重要的信息:有針對(duì)性的強(qiáng)化學(xué)習(xí)訓(xùn)練的效果可能優(yōu)于單純?cè)黾哟竽P蛥?shù)量做預(yù)訓(xùn)練的效果,這也是OpenAI O1背后的秘密。OpenAI看起來(lái)已經(jīng)放棄了更大規(guī)模參數(shù)預(yù)訓(xùn)練模型的路子,而全面轉(zhuǎn)向了后訓(xùn)練+強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)是新的Scaling Law。

強(qiáng)化學(xué)習(xí),它不算是一種新技術(shù)了,它原理是通過(guò)生成結(jié)果對(duì)模型進(jìn)行的獎(jiǎng)勵(lì)和懲罰反饋,讓模型在無(wú)數(shù)次的生成和反饋中調(diào)整和優(yōu)化并找到最有效的工作方式,而不需要教模型怎么做。

O1首先驗(yàn)證了新的訓(xùn)練路徑,R1把全部的細(xì)節(jié)公諸于眾,一時(shí)間,強(qiáng)化學(xué)習(xí)訓(xùn)練成了大模型廠商們的Next。Claude sonnet 3.7跟上了節(jié)奏推出推理版,并針對(duì)復(fù)雜的代碼問(wèn)題進(jìn)行了強(qiáng)化學(xué)習(xí),在生成代碼方面性能較sonnet 3.5有顯著提升;openAI 推出的DeepResearch就是基于O3端到端訓(xùn)練的Agent模型。

4. 產(chǎn)品的R1“后遺癥“

DeepSeek R1在2025年的春節(jié)期間爆火出圈,成了國(guó)民級(jí)的AI應(yīng)用。R1的交互簡(jiǎn)單樸素,先是輸出一大段思考過(guò)程,再生成最終的答案,輸出推理的過(guò)程讓用戶避免了漫長(zhǎng)的等待,在正式答案出來(lái)之前,閱讀一下推理過(guò)程也是一件有意思的事。

R1的產(chǎn)品交互也瞬間成為了教科書級(jí)別的范例。它的兩階段輸出的形態(tài)正快速統(tǒng)一Agent們的輸出行為。

(1) R1前Agent輸出招式

Agent不像LLM,能快速地開(kāi)始輸出答案,Agent通常有一系列的中間工作步驟,到最后一步才會(huì)輸出給用戶的答案,而這中間會(huì)有頗長(zhǎng)的一段等待時(shí)間,為了緩解用戶在等待過(guò)程的焦慮和優(yōu)化等待體現(xiàn),Agent們都很努力在嘗試把中間過(guò)程也通過(guò)各種方式輸出給用戶:

例如ChatGPT是這樣的:

dify是這樣的:

我們的FoT Agent是這樣的:

然而,這些努力并沒(méi)有什么作用,Agent的用戶們對(duì)這些輸出的中間過(guò)程并不買單,抱怨看不懂,出結(jié)果又慢。

(2) R1后的統(tǒng)一“深度思考”

R1出來(lái)后,Agent產(chǎn)品們除了在模型層面光速接入DeepSeek之外,在產(chǎn)品交互也是象素級(jí)的致敬著R1。例如,我們的媒資助手Agent是一個(gè)基于DeepSeek V3的ReAct Agent,它把ReAct每一步思考(Thought)的過(guò)程組裝起來(lái),偽裝成深度思考的過(guò)程,看起來(lái)毫無(wú)違和感:

還有微信讀書的AI問(wèn)書、微信輸入法的問(wèn)AI,底層的架構(gòu)是基于小size的QWen模型做了SFT的Agent + Deepseek R1做最終解讀,而在交互層,也是把Agent的工作過(guò)程和R1的思考融合呈現(xiàn)到深度思考的內(nèi)容里了:

不再有花哨的loading和中間步驟的結(jié)構(gòu)化呈現(xiàn)過(guò)程,只剩下樸實(shí)無(wú)華的“深度思考”樣式的過(guò)程文本,也貌似讓原來(lái)挑剔無(wú)比的用戶滿意了,感謝偉大的DeepSeek!端的是一個(gè)大道至簡(jiǎn),大巧不工啊哈哈。

十五、下半場(chǎng):模型即產(chǎn)品與Agent社會(huì)化協(xié)同

我把OpenAI的Deep Research問(wèn)世看作AI Agent下半場(chǎng)開(kāi)始的標(biāo)記性事件。Agent正式進(jìn)入模型內(nèi)化的新階段。沿著中場(chǎng)戰(zhàn)事的推理“類Agent”模型同樣的進(jìn)化路子,Deep Research基于O3通過(guò)端到端的強(qiáng)化學(xué)習(xí)得到了一個(gè)"真.Agent"模型。

1. 模型即產(chǎn)品

Deep Research這個(gè)"真.Agent"有兩個(gè)特點(diǎn):

  • 端到端訓(xùn)練,就是它的訓(xùn)練是全鏈路的,對(duì)于做研報(bào)這個(gè)場(chǎng)景,從拿到問(wèn)題、使用網(wǎng)絡(luò)搜索工具、多輪驗(yàn)證重做到最終輸出完整的研報(bào)的整個(gè)鏈路都在訓(xùn)練范圍內(nèi)。它不再像過(guò)去只讓模型針對(duì)問(wèn)題只做一次的文本輸出。
  • Agent模型,對(duì),Deep Research的工作形式是一個(gè)Agent,但技術(shù)上它是以一個(gè)模型出現(xiàn)的。在此之前,我們基于常規(guī)的LLM也可以做Deep Research這類型的工作,那就是寫代碼開(kāi)發(fā)一個(gè)Agent(大家可以看到現(xiàn)在有很多開(kāi)源版的Deep Research),這需要在工程側(cè)來(lái)發(fā)力。但現(xiàn)在,OpenAI的Deep Research告訴大家,原來(lái)工程上要做的事情現(xiàn)在不需要了,我們只需要通過(guò)強(qiáng)化學(xué)習(xí)就可以讓模型本身掌握原來(lái)要用工程來(lái)控制的工作方式,同時(shí)還能達(dá)到更高的質(zhì)量。即,工程復(fù)雜度沒(méi)了,效果還更好了。

對(duì)比一下O1和Deep Research:

  • O1推理模通過(guò)強(qiáng)化訓(xùn)練“推理”能力,推理能力得到了質(zhì)的飛躍
  • Deep Research通過(guò)強(qiáng)化訓(xùn)練“做研報(bào)”的過(guò)程(包括使用搜索工具)和質(zhì)量得到了一個(gè)做高質(zhì)量研報(bào)的Agent。

嗯,AI Agent下半場(chǎng)的玩法變了:你想要什么樣的Agent,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)Agent模型,而不一定要通過(guò)編寫工程代碼來(lái)實(shí)現(xiàn)它,而這個(gè)Agent模型就是一個(gè)產(chǎn)品。這就是最近流行起來(lái)的一個(gè)說(shuō)法:模型即產(chǎn)品。說(shuō)的是,未來(lái)針對(duì)場(chǎng)景化的產(chǎn)品需求,可以基于大模型通過(guò)強(qiáng)化學(xué)習(xí)對(duì)場(chǎng)景進(jìn)行訓(xùn)練,最終交付一個(gè)Agent模型作為產(chǎn)品,不再區(qū)分什么模型層,應(yīng)用層,而是模應(yīng)一體了。就在前兩周,OpenAI的O3也正式發(fā)布,O3表現(xiàn)出來(lái)的則是一個(gè)比Deep Research更通用的Agent模型。這進(jìn)一步指明了Agent模型化、模應(yīng)一體化的道路。

2. 工程化Agent的生存空間

如果AI Agent的下半場(chǎng)是面向場(chǎng)景的端到端Agent模型的戰(zhàn)場(chǎng),那原來(lái)通過(guò)工程化手段做的Agent是否還有生存空間呢?答案是確定的,在接下來(lái)的一段時(shí)間內(nèi)(至少兩年),三種形態(tài)的Agent會(huì)持續(xù)共存:

  • 純工程Agent,即由提示詞工程加代碼實(shí)現(xiàn)Agent,在產(chǎn)品的MVP階段用于快速驗(yàn)證產(chǎn)品,或產(chǎn)品流量不大,對(duì)Token成本不敏感的場(chǎng)景,適合用這種方式落地。它的實(shí)現(xiàn)門檻低,包括技術(shù)實(shí)現(xiàn)和成本都一樣,甚至通過(guò)當(dāng)下流行的可視化Agent搭建平臺(tái),不用寫代碼就可以快速搭建起來(lái)。
  • SFT Agent,指針對(duì)Agent的行為(包括但不限規(guī)劃和反思能力等)進(jìn)行了有監(jiān)督微調(diào)——目的是讓指令跟隨相對(duì)更穩(wěn)定、節(jié)省提示詞成本。實(shí)際上,節(jié)省提示詞成本是做SFT Agent的最大的動(dòng)機(jī),相比起提示詞token成本的下降,微調(diào)帶來(lái)的指令跟隨穩(wěn)定性的提升可能沒(méi)那么顯著,這也是吳恩達(dá)一直說(shuō)絕大多數(shù)Agent應(yīng)用都能通過(guò)提示詞來(lái)解決的原因。所以,SFT Agent較為適用于大流量但工具需要支持動(dòng)態(tài)添加的場(chǎng)景。
  • 端到端Agent模型,即針對(duì)垂直場(chǎng)景,通過(guò)端到端強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練的模型。它適用于大流量且需求明確垂直的場(chǎng)景。

Agent才剛剛進(jìn)入大眾的視野,在技術(shù)和生態(tài)側(cè),隨著MCP和A2A等協(xié)議的成熟及智能體生態(tài)的發(fā)展,Agent的進(jìn)化會(huì)進(jìn)一步加速,有更多的可能性在等待著我們。

3. Agent的社會(huì)化協(xié)同

以及A2A為代表的Agent間協(xié)同協(xié)議拉開(kāi)了Agent社會(huì)化協(xié)同的大幕。

之前我們提的多agent和agentic workflo中的agent們的通訊,就如果我們?cè)谝粋€(gè)小團(tuán)隊(duì)里面緊密協(xié)同那樣。而Google提出的A2A協(xié)議,把Agent之間的協(xié)同范圍一下子提升到了全球的范圍,它為每個(gè)Agent派發(fā)了身份證(AgentCard),在經(jīng)過(guò)認(rèn)識(shí)、握手后(鑒權(quán)),Agent們可以進(jìn)行溝通和協(xié)作。

展開(kāi)想象一下:

  • 每個(gè)人都配套一個(gè)人個(gè)的Agent,用于代表你跟Agent的世界來(lái)交互,這個(gè)場(chǎng)景就很好玩了,跟朋友們約出去玩?讓咱們的Agent們先商量一下,給我們一個(gè)方案;
  • 買機(jī)票?我也不需要直接用某程的平臺(tái),只需要交代我的專屬Agent,它自動(dòng)發(fā)現(xiàn)和跟服務(wù)商的Agent(機(jī)構(gòu)Agent)來(lái)溝通并支付就OK了。
  • 你看,一個(gè)賽博數(shù)字世界就這么展開(kāi)了。

我愿把這種場(chǎng)面稱之為Agent的社會(huì)化協(xié)同,它將最大程度上復(fù)刻人類社會(huì)的形同范式,Agent間需要有驗(yàn)證機(jī)制,能互相加好友,具備支付能力,能主動(dòng)發(fā)起任務(wù)等等。技術(shù)上,這將有模型技術(shù)之外的海量的agent社會(huì)基礎(chǔ)平臺(tái)等著被搭建。包括Agent通訊的安全、信用、支付體系等等。

十六、致親愛(ài)的乘客

1. 做AI的領(lǐng)導(dǎo)者

AI正在對(duì)全行業(yè)進(jìn)行無(wú)差別的顛覆,所有人都面臨著工作方式的升級(jí)。不是說(shuō)有全新職業(yè)的出現(xiàn),而是大部份職業(yè)都會(huì)被要求原地升級(jí) + AI。

我們每個(gè)人都會(huì)從個(gè)人勞動(dòng)者轉(zhuǎn)變成AI領(lǐng)導(dǎo)者,我們要提升自己的AI領(lǐng)導(dǎo)力。

過(guò)去,我們通過(guò)個(gè)人的專業(yè)能力來(lái)交付工作成果,個(gè)人要親自去執(zhí)行具體的任務(wù)。

現(xiàn)在到不遠(yuǎn)的未來(lái),是我們帶著AI一起工作并完成目標(biāo),我們作為AI的領(lǐng)導(dǎo)者,需要對(duì)AI團(tuán)隊(duì)進(jìn)行目標(biāo)設(shè)定,對(duì)AI協(xié)作過(guò)程進(jìn)行管理和干預(yù),對(duì)AI最終產(chǎn)出進(jìn)行驗(yàn)收。

雖然執(zhí)行性的工具會(huì)逐漸交給AI,但這并不意味著對(duì)個(gè)人的專業(yè)能力不作要求了。相反,它對(duì)我們的專業(yè)能力要求更高了,因?yàn)槲覀冃枰詢?nèi)行人的角度來(lái)驗(yàn)收AI給我們產(chǎn)出的東西,減少的只是我們做具體任務(wù)的時(shí)間。

因?yàn)锳I,未來(lái)可能每個(gè)行業(yè)都可能呈現(xiàn)出兩頭重,中間輕的形成。以軟件開(kāi)發(fā)這個(gè)崗位來(lái)做一下推演。

Vibe Coding這個(gè)詞相信大家已有所耳聞,現(xiàn)在越來(lái)越多完全沒(méi)有編程經(jīng)驗(yàn)的人(暫稱為小白)通過(guò)Cursor這類AI編程工具搖身變成了開(kāi)發(fā)者,這類開(kāi)發(fā)者自己動(dòng)手解決長(zhǎng)尾的、相對(duì)簡(jiǎn)單的個(gè)性化的需求,中低端的開(kāi)發(fā)者的工作將會(huì)由小白們+AI來(lái)接管。但是大規(guī)模,嚴(yán)肅的生產(chǎn)型應(yīng)用,小白 + AI也是無(wú)法掌控的,這個(gè)場(chǎng)景需要更專業(yè)的工程師,甚至是架構(gòu)師+AI來(lái)支撐,AI一定是必備的了。可見(jiàn),小白和架構(gòu)師就是兩頭,初中級(jí)的工程師如果想要繼續(xù)留在這個(gè)行業(yè),是需要進(jìn)一步提升自己的專業(yè)能力和AI領(lǐng)導(dǎo)力的。

所以:全面擁抱AI吧,以最快的速度。

2. 我們的征程是星辰大海

當(dāng)瓦特改良的蒸汽機(jī)轟鳴著撕裂中世紀(jì)余暉,當(dāng)珍妮紡織機(jī)的梭子編織出工業(yè)文明的經(jīng)緯,舊時(shí)代的質(zhì)疑聲總?cè)绯彼阌縼?lái)——1830年馬車上揮舞的皮鞭在對(duì)抗鐵路鋼軌,1910年馬車夫的咒罵聲淹沒(méi)在福特T型車的鳴笛中。歷史總在證明:人類對(duì)變革的恐懼,終將被創(chuàng)新者的勇氣鍛造成進(jìn)步的階梯。

站在AI浪潮席卷全球的臨界點(diǎn),我們目睹著更宏大的技術(shù)躍遷。AlphaGo落子的清脆聲響徹人類智慧圣殿,ChatGPT的字符洪流重塑知識(shí)生產(chǎn)邊界,波士頓動(dòng)力的機(jī)械骨骼正在突破生物運(yùn)動(dòng)的極限。如同十九世紀(jì)紡織女工面對(duì)蒸汽機(jī)時(shí)的惶恐,今日的焦慮不過(guò)是文明躍遷時(shí)的引力震蕩。

但請(qǐng)記住:馬車消亡時(shí),人類獲得了駕馭鋼鐵的速度;紡車停轉(zhuǎn)時(shí),世界收獲了機(jī)械紡織的精度;而當(dāng)AI接管程式化勞動(dòng),我們終將解鎖更珍貴的創(chuàng)造力密碼。凱恩斯曾在汽車取代馬車的年代預(yù)言:"我們終將學(xué)會(huì)游泳,在技術(shù)的海洋里。" 數(shù)據(jù)顯示,自動(dòng)駕駛技術(shù)每年將挽救全球130萬(wàn)條生命;AI醫(yī)療系統(tǒng)已能診斷出人類醫(yī)生難以察覺(jué)的早期病癥。

那些被技術(shù)重塑的行業(yè),正在誕生更璀璨的新職業(yè)星辰:提示詞工程師構(gòu)筑人機(jī)對(duì)話的巴別塔,AI倫理師守護(hù)智能時(shí)代的道德羅盤,元宇宙建筑師在數(shù)字空間重構(gòu)文明形態(tài)。正如馬車夫轉(zhuǎn)型為汽車司機(jī),紡織女工成為流水線技師,每一次技術(shù)革命都在創(chuàng)造更高階的人類價(jià)值。

不必困在技術(shù)性失業(yè)的敘事繭房,人類真正的對(duì)手從來(lái)不是機(jī)器,而是固守成規(guī)的思維慣性。當(dāng)NASA用AI分析億萬(wàn)光年外的星云數(shù)據(jù),當(dāng)腦機(jī)接口幫助漸凍癥患者重獲交流能力,我們分明看見(jiàn):智能革命正在拓展人類探索的邊疆。

心存焦慮時(shí),請(qǐng)回望文明長(zhǎng)河中的燈塔——蒸汽機(jī)沒(méi)有埋葬人類,電力沒(méi)有禁錮光明,互聯(lián)網(wǎng)更未終結(jié)真實(shí)。我們的征途注定是星辰大海,在算法與神經(jīng)元共舞的新紀(jì)元,唯有保持認(rèn)知的流動(dòng)性,在持續(xù)迭代中鑄造不可替代性,方能在技術(shù)洪流中錨定航向。正如航海者從不詛咒潮汐,真正的勇者會(huì)將AI化作駛向星海的方舟。(by Deepseek)

責(zé)任編輯:趙寧寧 來(lái)源: 騰訊技術(shù)工程
相關(guān)推薦

2022-04-14 10:10:59

Nginx開(kāi)源Linux

2015-12-16 10:30:18

前端開(kāi)發(fā)指南

2024-07-25 16:14:02

2011-08-09 09:48:20

JavaScript

2019-12-02 09:24:10

Python數(shù)據(jù)字符串

2022-08-17 11:33:35

前端配置

2021-06-18 12:33:19

樹(shù)形選擇樹(shù)狀結(jié)構(gòu)節(jié)點(diǎn)

2019-11-06 16:33:29

Ignite微軟技術(shù)

2021-09-23 14:22:58

B端字體設(shè)計(jì)師

2022-02-18 08:00:00

動(dòng)態(tài)規(guī)劃技術(shù)開(kāi)發(fā)

2021-07-26 10:41:16

數(shù)據(jù)可視化設(shè)備大屏

2024-10-17 16:09:25

2011-02-14 18:12:14

微軟云計(jì)算

2009-12-17 13:59:11

Linux缺點(diǎn)

2009-09-10 11:24:16

NFS服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美婷婷| 国产精品久久久久久久久免费软件 | 97精品久久 | 欧美极品在线 | 国产一区二区在线免费观看 | 中文字幕在线观看视频一区 | 天堂精品| 精品国产青草久久久久96 | 免费观看黄色一级片 | 九九福利 | 久久com| 欧美一区二区三区免费电影 | 91精品国产91久久久久游泳池 | 国产激情视频网站 | www.精品国产| 免费视频一区二区 | 亚洲精品电影网在线观看 | 免费一区 | 欧美黑人体内she精在线观看 | 亚洲91视频 | 亚洲高清免费视频 | 偷拍自拍在线观看 | 97精品国产97久久久久久免费 | 免费亚洲视频 | 蜜桃一区二区三区 | 免费一区二区 | 91精品亚洲| 日本午夜免费福利视频 | 日本欧美在线 | 久久久精品国产 | 国产欧美日韩精品一区 | 日韩和的一区二区 | 欧美久久久久久 | 在线观看国产精品视频 | 午夜视频一区 | 日韩三极 | 久久久久久中文字幕 | 中文字幕亚洲欧美日韩在线不卡 | 亚洲精品国产成人 | 欧美日韩在线观看一区二区三区 | 成人av一区 |