Anthropic 工程實(shí)踐《如何構(gòu)建多智能體研究系統(tǒng)》
一、多智能體系統(tǒng)的優(yōu)點(diǎn)
- 應(yīng)對研究工作的不可預(yù)測性:研究工作通常面臨開放性問題,難以提前預(yù)知所需步驟。多智能體系統(tǒng)能夠根據(jù)調(diào)查過程中出現(xiàn)的新線索動(dòng)態(tài)調(diào)整研究方向,與人類研究者類似,自主決策探索路徑,適應(yīng)復(fù)雜多變的研究主題,避免了線性、一次性流程的局限性。
- 促進(jìn)信息壓縮與專注:子智能體通過并行處理不同問題方面,利用各自獨(dú)立的上下文窗口,同時(shí)探索問題的多個(gè)維度,之后提煉出重要信息傳遞給主研究智能體,實(shí)現(xiàn)對海量信息的高效壓縮,同時(shí)各子智能體獨(dú)立運(yùn)行,減少路徑依賴,保障研究的全面性與獨(dú)立性。
- 性能擴(kuò)展優(yōu)勢:當(dāng)個(gè)體智能達(dá)到一定水平后,多智能體系統(tǒng)通過協(xié)同合作可實(shí)現(xiàn)性能的指數(shù)級增長,如同人類社會(huì)在信息時(shí)代因集體智慧和協(xié)作能力而取得的飛速發(fā)展。內(nèi)部評估顯示,以 Claude Opus 4 為主智能體、Claude Sonnet 4 為子智能體的多智能體系統(tǒng),在處理需要同時(shí)探索多個(gè)獨(dú)立方向的廣度優(yōu)先查詢?nèi)蝿?wù)時(shí),性能超出單智能體 Claude Opus 4 達(dá) 90.2%。
- 充分利用令牌資源:分析發(fā)現(xiàn),在 BrowseComp 評估中,令牌使用量可解釋 80% 的性能差異,多智能體架構(gòu)通過將任務(wù)分配給具有獨(dú)立上下文窗口的多個(gè)智能體,增加并行推理能力,有效擴(kuò)展令牌使用,最新 Claude 模型在提升令牌使用效率方面也發(fā)揮了顯著的乘數(shù)效應(yīng)。
二、架構(gòu)概述
- 編排 - 工作者模式:采用主智能體協(xié)調(diào)、子智能體并行工作的架構(gòu)。用戶提交查詢后,主智能體分析查詢、制定策略并創(chuàng)建子智能體,子智能體同時(shí)探索問題的不同方面,充當(dāng)智能過濾器,通過迭代使用搜索工具收集信息并返回給主智能體,最終由主智能體整合結(jié)果并生成最終回答,區(qū)別于傳統(tǒng)靜態(tài)檢索的檢索增強(qiáng)生成(RAG)方法,該架構(gòu)通過多步搜索動(dòng)態(tài)發(fā)現(xiàn)相關(guān)信息。
- 詳細(xì)工作流程:以 LeadResearcher 為主智能體,先在內(nèi)存中保存計(jì)劃,避免上下文窗口超限時(shí)丟失計(jì)劃,然后創(chuàng)建多個(gè)子智能體,子智能體獨(dú)立進(jìn)行網(wǎng)絡(luò)搜索、評估工具結(jié)果并返回發(fā)現(xiàn),LeadResearcher 根據(jù)返回結(jié)果決定是否需要進(jìn)一步研究,可創(chuàng)建更多子智能體或優(yōu)化策略,最終將所有發(fā)現(xiàn)傳遞給 CitationAgent 處理引用,確保回答準(zhǔn)確引用來源。
三、提示工程與智能體評估
- 像智能體一樣思考:通過模擬工具觀察智能體基于提示和工具的每一步操作,及時(shí)發(fā)現(xiàn)智能體的錯(cuò)誤模式,如過度搜索、查詢過于冗長等,以準(zhǔn)確的心理模型為基礎(chǔ),針對性地優(yōu)化提示。
- 教會(huì)協(xié)調(diào)者如何分配任務(wù):主智能體需將查詢分解為子任務(wù)并清晰描述給子智能體,包括目標(biāo)、輸出格式、工具和來源使用指南及任務(wù)邊界等,避免子智能體重復(fù)工作或遺漏信息,早期因任務(wù)描述簡單模糊導(dǎo)致子智能體誤解任務(wù)或執(zhí)行相同搜索,后來通過詳細(xì)描述提升了任務(wù)分配的有效性。
- 根據(jù)查詢復(fù)雜度調(diào)整努力程度:在提示中嵌入努力程度的調(diào)整規(guī)則,明確不同類型任務(wù)所需的智能體數(shù)量和工具調(diào)用次數(shù),使主智能體能高效分配資源,防止在簡單查詢上過度投入。
- 工具設(shè)計(jì)與選擇至關(guān)重要:智能體與工具的接口如同人機(jī)接口般關(guān)鍵,為智能體提供明確的工具使用啟發(fā)式規(guī)則,如優(yōu)先檢查所有可用工具、匹配工具使用與用戶意圖等,同時(shí)確保工具描述清晰準(zhǔn)確,以避免智能體因工具描述不佳而誤用工具。
- 讓智能體自我改進(jìn):Claude 4 模型具備優(yōu)秀的提示工程能力,可診斷智能體失敗原因并提出改進(jìn)建議,通過創(chuàng)建工具測試智能體,發(fā)現(xiàn)工具關(guān)鍵細(xì)節(jié)和問題,優(yōu)化工具描述,顯著縮短后續(xù)智能體完成任務(wù)的時(shí)間。
- 先廣泛搜索再逐步縮小范圍:引導(dǎo)智能體采取與專家人類研究員類似的搜索策略,先進(jìn)行簡短、廣泛的查詢,評估可用信息后再逐步聚焦,避免智能體直接使用過長、過于具體的查詢導(dǎo)致結(jié)果過少。
- 引導(dǎo)思考過程:利用擴(kuò)展思考模式作為可控的草稿紙,主智能體借助思考規(guī)劃方法,子智能體在工具結(jié)果后進(jìn)行交錯(cuò)思考,評估質(zhì)量、識別差距并優(yōu)化下次查詢,提升智能體在適應(yīng)任務(wù)方面的效果。
- 并行工具調(diào)用的優(yōu)勢:復(fù)雜研究任務(wù)涉及多信息源探索,早期智能體的串行搜索效率低下,引入主智能體并行創(chuàng)建多個(gè)子智能體以及子智能體并行使用多個(gè)工具的方式,大幅縮短了復(fù)雜查詢的研究時(shí)間,提高了信息覆蓋范圍。
四、對智能體的有效評估
- 立即開始小樣本評估:在智能體開發(fā)早期,小規(guī)模測試案例就能顯著展現(xiàn)提示調(diào)整等變更的影響,及時(shí)發(fā)現(xiàn)低垂果實(shí)般的顯著提升效果,避免因等待大規(guī)模評估而延誤優(yōu)化時(shí)機(jī)。
- 大規(guī)模有效利用大型語言模型(LLM)作為評判者:研究輸出通常為自由形式文本且答案不唯一,LLM 適合用于評判輸出,可依據(jù)評分標(biāo)準(zhǔn)評估輸出的準(zhǔn)確性、引用準(zhǔn)確性、完整性、來源質(zhì)量和工具效率等多方面,通過單次 LLM 調(diào)用輸出分?jǐn)?shù)和通過 / 失敗等級,實(shí)現(xiàn)與人類判斷高度一致且可擴(kuò)展的評估方式。
- 人工評估彌補(bǔ)自動(dòng)化不足:人工測試能發(fā)現(xiàn)自動(dòng)化評估遺漏的邊緣情況,如智能體在特殊查詢上產(chǎn)生幻覺答案、系統(tǒng)故障或存在細(xì)微的來源選擇偏差等,有助于針對性地優(yōu)化智能體的提示等,完善智能體的行為表現(xiàn)。
五、生產(chǎn)可靠性與工程挑戰(zhàn)
- 智能體的狀態(tài)保持與錯(cuò)誤處理:智能體在長時(shí)間運(yùn)行中需保持狀態(tài),為此要可靠地執(zhí)行代碼并處理錯(cuò)誤,構(gòu)建可在錯(cuò)誤發(fā)生后從中斷處恢復(fù)的系統(tǒng),并借助模型的智能讓智能體在工具失敗等情況下靈活適應(yīng),結(jié)合重試邏輯和定期檢查點(diǎn)等確定性保障措施。
- 調(diào)試新方法的需求:智能體的動(dòng)態(tài)決策和非確定性增加了調(diào)試難度,添加全面的生產(chǎn)追蹤功能,監(jiān)測智能體的決策模式和交互結(jié)構(gòu)等,幫助診斷智能體失敗原因,系統(tǒng)性地解決問題。
- 部署的協(xié)調(diào)問題:智能體系統(tǒng)是高度狀態(tài)化的持續(xù)運(yùn)行系統(tǒng),部署更新時(shí)需防止新代碼破壞正在運(yùn)行的智能體,采用彩虹部署策略,逐步將流量從舊版本轉(zhuǎn)移到新版本,確保更新過程的平穩(wěn)過渡。
- 同步執(zhí)行的瓶頸與異步執(zhí)行的挑戰(zhàn):目前主智能體的同步執(zhí)行方式造成信息流瓶頸,而異步執(zhí)行雖能增加并行性,卻也帶來了結(jié)果協(xié)調(diào)、狀態(tài)一致性和錯(cuò)誤傳播等新的挑戰(zhàn),未來隨著模型能力提升,異步執(zhí)行的性能優(yōu)勢將更受重視。
六、總結(jié)
構(gòu)建多智能體系統(tǒng)從原型到生產(chǎn)面臨諸多挑戰(zhàn),如:代碼的生產(chǎn)化改造、錯(cuò)誤的級聯(lián)效應(yīng)、狀態(tài)管理等,但這些系統(tǒng)在開放式研究任務(wù)中展現(xiàn)出巨大價(jià)值。
通過精心的工程設(shè)計(jì)、全面的測試、細(xì)致的提示與工具設(shè)計(jì)、穩(wěn)健的運(yùn)營實(shí)踐以及跨部門協(xié)作,能夠可靠地大規(guī)模運(yùn)行,為用戶解決復(fù)雜問題帶來變革,如發(fā)現(xiàn)商業(yè)機(jī)會(huì)、輔助醫(yī)療決策、解決技術(shù)難題等。
七、額外建議
- 具有狀態(tài)變化的智能體的最終狀態(tài)評估:評估多輪對話中修改持久狀態(tài)的智能體時(shí),聚焦于最終狀態(tài)而非每輪交互,對于復(fù)雜工作流,可設(shè)置離散檢查點(diǎn),確保各階段狀態(tài)變化符合預(yù)期。
- 長期對話管理:生產(chǎn)智能體在超長對話中需智能壓縮和存儲記憶,采用總結(jié)已完成工作階段、外部存儲關(guān)鍵信息等策略,必要時(shí)創(chuàng)建新子智能體并保持對話連貫性。
- 子智能體輸出至文件系統(tǒng)以減少信息失真:通過文件系統(tǒng)獨(dú)立存儲子智能體輸出,僅向協(xié)調(diào)智能體傳遞輕量級引用,避免信息在多階段處理中丟失,同時(shí)降低對話歷史中的令牌開銷,特別適用于結(jié)構(gòu)化輸出的生成。
本文轉(zhuǎn)載自????CourseAI????,作者:CourseAI
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)

回復(fù)
相關(guān)推薦