性能提升90%,Anthropic 首次公開多智能體架構(gòu)構(gòu)建全流程 原創(chuàng) 精華
Anthropic 6月13日分享了關(guān)于構(gòu)建多智能體系統(tǒng)的架構(gòu)設(shè)計,幾乎是毫無保留地展示了如何從零開始打造一個強(qiáng)大的多智能體(Multi-Agent)DeepResearch 系統(tǒng),也就是 Claude 目前內(nèi)置的 Research 功能。
整個內(nèi)容干貨滿滿,涵蓋了架構(gòu)設(shè)計、Prompt 提示詞工程、效果評估,以及在生產(chǎn)環(huán)境中可能遇到的各種問題,可以說毫無保留。
下文對要點詳細(xì)剖析。
1、多智能體系統(tǒng)的優(yōu)勢
為什么不用單個強(qiáng)大的 AI 智能體,而是要搞復(fù)雜的“多智能體”架構(gòu)呢?
Anthropic 用數(shù)據(jù)給出了答案:在內(nèi)部研究評估中,一個由 Claude Opus 4 擔(dān)任“領(lǐng)導(dǎo)”,多個 Claude Sonnet 4 作為“員工”的多智能體系統(tǒng),性能比單獨(dú)使用的 Opus 4 高出 90.2%!
背后的邏輯其實很簡單:通過投入更多的 Token 來解決問題。Token 的使用量本身就解釋了80%的性能差異。多智能體架構(gòu)通過并行處理,讓多個 AI 智能體同時在各自的上下文中思考和搜索,本質(zhì)上是擴(kuò)展了解決問題的“算力”和“思考容量”,尤其適合處理那些需要“廣度優(yōu)先”探索的復(fù)雜問題。
不過,缺點也很明顯:成本高昂。多智能體系統(tǒng)消耗的 Token 大約是普通聊天的15倍。因此,這種架構(gòu)更適合那些價值足夠高、能夠承受高成本的復(fù)雜任務(wù)。
2、多智能體架構(gòu)設(shè)計
Anthropic的 Research 多智能體系統(tǒng)采用了經(jīng)典的“協(xié)調(diào)者-工作者”(Orchestrator-Worker)架構(gòu)。一個“主導(dǎo)智能體”(Lead Agent)負(fù)責(zé)協(xié)調(diào)整個流程,并將任務(wù)分解后分配給多個并行的專業(yè)子智能體(Subagents)。
以下是整個架構(gòu)設(shè)計工作流程的清晰描述:
引用與生成:當(dāng)信息足夠時,系統(tǒng)將所有發(fā)現(xiàn)交給一個專門的“引用智能體”(Citation Agent),確保所有結(jié)論都有可靠的依據(jù),并最終生成帶有引用的完整報告。
傳統(tǒng)的檢索增強(qiáng)生成(Retrieval Augmented Generation,RAG)方法采用的是靜態(tài)檢索:即根據(jù)輸入查詢檢索出最相似的信息片段,并用這些片段生成回復(fù)。相比之下,我們的架構(gòu)采用多步搜索,能夠動態(tài)發(fā)現(xiàn)相關(guān)信息,及時調(diào)整策略,并對結(jié)果進(jìn)行分析,從而給出高質(zhì)量答案。
這種架構(gòu)通過分工協(xié)作,極大地提高了復(fù)雜任務(wù)的處理效率和準(zhǔn)確性。
3、多智能體系統(tǒng)的 Prompt 提示詞工程設(shè)計
多智能體系統(tǒng)的復(fù)雜度呈指數(shù)級上升,很容易出現(xiàn)“為了解決一個簡單問題而調(diào)用50個 AI 智能體”的失控局面。
而 Prompt 提示詞工程是規(guī)范和引導(dǎo) AI 智能體行為的關(guān)鍵。Anthropic 總結(jié)了以下8條核心法則:
- 像 AI 智能體一樣思考:在控制臺(Console)中模擬 AI Agent 的工作流程,逐個步驟觀察其行為,這樣才能直觀地發(fā)現(xiàn)問題。
- 教會 Lead 智能體如何描述子任務(wù):給子智能體的任務(wù)描述必須清晰明確,包括目標(biāo)、輸出格式、使用工具和任務(wù)邊界。模糊的指令如“去研究一下XX”是遠(yuǎn)遠(yuǎn)不夠的。
- 根據(jù)任務(wù)復(fù)雜度調(diào)整資源投入:在 Prompt 中明確指定不同難度任務(wù)的資源配比。簡單任務(wù)用1個 AI 智能體,復(fù)雜任務(wù)則動用10個以上 AI 智能體,避免小題大做。
- 工具設(shè)計和選擇至關(guān)重要:工具的描述必須清晰且有區(qū)分度。同時,要給 AI 智能體一些啟發(fā)式規(guī)則,比如“先瀏覽一遍所有可用工具再做決策”。
- 讓 AI 智能體自我改進(jìn):Anthropic 創(chuàng)建了一個“工具測試 Agent”。它會反復(fù)試用新工具,并自動重寫工具的描述文檔,以便后續(xù) AI 智能體使用起來更加順手。結(jié)果是任務(wù)完成時間減少了40%。
- 先廣后窄:引導(dǎo) AI 智能體像人類專家一樣進(jìn)行研究,先用寬泛的查詢了解全貌,再逐步縮小范圍,而不是一開始就使用一個又長又窄的查詢,否則可能什么也搜不到。
- 引導(dǎo)思考過程:使用“思考模式”(extended thinking),讓 AI 智能體把思考過程寫下來。Lead 智能體用它來規(guī)劃,子智能體用它來評估每一步的工具調(diào)用結(jié)果。
- 并行工具調(diào)用改變游戲規(guī)則:讓 Lead Agent 并行分派子 Agent,再讓每個子 Agent 并行調(diào)用工具。這兩層并行直接將復(fù)雜查詢的耗時減少了90%。
4、多智能體系統(tǒng)的有效評估
評估多智能體系統(tǒng)不能像傳統(tǒng)軟件測試那樣,只檢查它是否遵循了預(yù)設(shè)的“正確”路徑,因為通往正確答案的路徑不止一條。Anthropic 的經(jīng)驗是:
- 立即開始小樣本評估:在開發(fā)的早期階段,一個小小的 Prompt 調(diào)整可能讓成功率從30%飆升到80%。這種巨大的變化通過20個測試用例就能明顯看出。不要等到構(gòu)建幾百個測試用例的完美評估系統(tǒng)才開始動手。
- 用 LLM 當(dāng)裁判:對于研究這類開放式輸出,讓 LLM 根據(jù)一個標(biāo)準(zhǔn)化的評分表(比如:事實準(zhǔn)確性、引用準(zhǔn)確性、完整度、信源質(zhì)量等)來打分,是一種既可擴(kuò)展又具一致性的方法。
- 真人測試必不可少:自動化評估總有盲點。比如:真人測試員發(fā)現(xiàn)早期 AI 智能體總是傾向于選擇 SEO 過度的內(nèi)容農(nóng)場,而不是權(quán)威的學(xué)術(shù) PDF。這些細(xì)微的偏好只有通過人工測試才能發(fā)現(xiàn)。
5、多智能體系統(tǒng)生產(chǎn)環(huán)境下的可靠性與工程挑戰(zhàn)
從能夠運(yùn)行的 AI 智能體原型到穩(wěn)定可靠的生產(chǎn)系統(tǒng),中間隔著巨大的鴻溝。以下是四大工程難題:
第一、錯誤恢復(fù)
AI 智能體是長時間運(yùn)行的,一旦出錯,不能簡單地從頭開始(成本過高)。必須建立一種機(jī)制,能夠在錯誤發(fā)生的地方恢復(fù),并讓 AI 智能體學(xué)會優(yōu)雅地處理工具失效等問題。
第二、非確定性下的監(jiān)控
AI 智能體的行為是動態(tài)的,且不完全可復(fù)現(xiàn),這使得調(diào)試變得極其困難。唯一的解決辦法是建立完善的生產(chǎn)環(huán)境追蹤系統(tǒng),監(jiān)控 AI 智能體的決策模式和交互結(jié)構(gòu)。
第三、部署協(xié)調(diào)
線上隨時有大量 AI 智能體在運(yùn)行,不能直接暴力更新。他們采用“rainbow deployments”(彩虹部署)的方式,平滑地將流量從舊版本遷移到新版本,確保服務(wù)不中斷。
第四、同步的瓶頸
目前系統(tǒng)是同步的,Lead Agent 必須等待一批子 Agent 全部完成后才能進(jìn)行下一步,這效率很低。未來向異步執(zhí)行演進(jìn)是必然趨勢,盡管這會帶來狀態(tài)一致性、錯誤傳遞等新的挑戰(zhàn)。
6、總結(jié)
在構(gòu)建 AI 智能體的過程中,最后一公里往往成為最為艱難的階段。開發(fā)者本地能夠運(yùn)行的代碼,距離成為可靠的生產(chǎn)系統(tǒng)還需要大量工程化努力。在 AI 智能體系統(tǒng)中,錯誤具有復(fù)合特性,這意味著對于傳統(tǒng)軟件而言的輕微問題,可能會導(dǎo)致 AI 智能體完全崩潰。只要某一步失敗,AI 智能體就可能走向完全不同的路徑,進(jìn)而產(chǎn)生不可預(yù)測的結(jié)果。正如本文所述,從原型到生產(chǎn)環(huán)境之間的鴻溝,往往比人們預(yù)期的更為寬廣。
盡管存在這些挑戰(zhàn),多智能體系統(tǒng)在開放性研究任務(wù)中依然展現(xiàn)出巨大價值。用戶反饋稱,Claude 幫助他們發(fā)現(xiàn)了未曾考慮過的商業(yè)機(jī)會,理清了復(fù)雜的醫(yī)療方案,解決了棘手的技術(shù)難題,還能通過揭示原本難以獨(dú)立發(fā)現(xiàn)的研究關(guān)聯(lián),節(jié)省數(shù)天工作時間。只要注重工程細(xì)節(jié)、全面測試、精心設(shè)計提示詞和工具、完善運(yùn)維實踐,并確保研究、產(chǎn)品與工程團(tuán)隊之間緊密協(xié)作,對當(dāng)前 AI 智能體能力有深刻理解,多智能體研究系統(tǒng)完全可以在規(guī)?;瘧?yīng)用中保持可靠運(yùn)行。我們已經(jīng)看到,這些系統(tǒng)正在改變?nèi)藗兘鉀Q復(fù)雜問題的方式。
本文轉(zhuǎn)載自??玄姐聊AGI?? 作者:玄姐
