成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

性能提升90%,Anthropic 首次公開多智能體架構(gòu)構(gòu)建全流程 原創(chuàng) 精華

發(fā)布于 2025-6-20 06:33
瀏覽
0收藏

Anthropic 6月13日分享了關(guān)于構(gòu)建多智能體系統(tǒng)的架構(gòu)設(shè)計,幾乎是毫無保留地展示了如何從零開始打造一個強(qiáng)大的多智能體(Multi-Agent)DeepResearch 系統(tǒng),也就是 Claude 目前內(nèi)置的 Research 功能。  

整個內(nèi)容干貨滿滿,涵蓋了架構(gòu)設(shè)計、Prompt 提示詞工程、效果評估,以及在生產(chǎn)環(huán)境中可能遇到的各種問題,可以說毫無保留。

下文對要點詳細(xì)剖析。

1、多智能體系統(tǒng)的優(yōu)勢

為什么不用單個強(qiáng)大的 AI 智能體,而是要搞復(fù)雜的“多智能體”架構(gòu)呢?

性能提升90%,Anthropic 首次公開多智能體架構(gòu)構(gòu)建全流程-AI.x社區(qū)

Anthropic 用數(shù)據(jù)給出了答案:在內(nèi)部研究評估中,一個由 Claude Opus 4 擔(dān)任“領(lǐng)導(dǎo)”,多個 Claude Sonnet 4 作為“員工”的多智能體系統(tǒng),性能比單獨(dú)使用的 Opus 4 高出 90.2%

背后的邏輯其實很簡單:通過投入更多的 Token 來解決問題。Token 的使用量本身就解釋了80%的性能差異。多智能體架構(gòu)通過并行處理,讓多個 AI 智能體同時在各自的上下文中思考和搜索,本質(zhì)上是擴(kuò)展了解決問題的“算力”和“思考容量”,尤其適合處理那些需要“廣度優(yōu)先”探索的復(fù)雜問題。

不過,缺點也很明顯:成本高昂。多智能體系統(tǒng)消耗的 Token 大約是普通聊天的15倍。因此,這種架構(gòu)更適合那些價值足夠高、能夠承受高成本的復(fù)雜任務(wù)。

2、多智能體架構(gòu)設(shè)計

Anthropic的 Research 多智能體系統(tǒng)采用了經(jīng)典的“協(xié)調(diào)者-工作者”(Orchestrator-Worker)架構(gòu)。一個“主導(dǎo)智能體”(Lead Agent)負(fù)責(zé)協(xié)調(diào)整個流程,并將任務(wù)分解后分配給多個并行的專業(yè)子智能體(Subagents)。

以下是整個架構(gòu)設(shè)計工作流程的清晰描述:

性能提升90%,Anthropic 首次公開多智能體架構(gòu)構(gòu)建全流程-AI.x社區(qū)

  • 用戶提問:系統(tǒng)創(chuàng)建一個主導(dǎo)智能體(Lead Agent)。
  • 規(guī)劃:主導(dǎo)智能體思考并制定研究計劃,將計劃存儲在外部“記憶”中,以避免因上下文過長而被截斷。
  • 分派:創(chuàng)建多個專業(yè)的子智能體(Subagents),并為它們分配具體的研究任務(wù)。
  • 執(zhí)行:每個子智能體獨(dú)立進(jìn)行網(wǎng)絡(luò)搜索、調(diào)用工具,并通過“交錯思考”(interleaved thinking)來評估結(jié)果、調(diào)整下一步行動。
  • 匯總:子智能體將發(fā)現(xiàn)的結(jié)果返回給主導(dǎo)智能體。
  • 綜合與迭代:主導(dǎo)智能體綜合所有信息,判斷是否需要進(jìn)一步研究。如果需要,則啟動新一輪的子智能體任務(wù)。
  • 引用與生成:當(dāng)信息足夠時,系統(tǒng)將所有發(fā)現(xiàn)交給一個專門的“引用智能體”(Citation Agent),確保所有結(jié)論都有可靠的依據(jù),并最終生成帶有引用的完整報告。

    性能提升90%,Anthropic 首次公開多智能體架構(gòu)構(gòu)建全流程-AI.x社區(qū)

    傳統(tǒng)的檢索增強(qiáng)生成(Retrieval Augmented Generation,RAG)方法采用的是靜態(tài)檢索:即根據(jù)輸入查詢檢索出最相似的信息片段,并用這些片段生成回復(fù)。相比之下,我們的架構(gòu)采用多步搜索,能夠動態(tài)發(fā)現(xiàn)相關(guān)信息,及時調(diào)整策略,并對結(jié)果進(jìn)行分析,從而給出高質(zhì)量答案。

    這種架構(gòu)通過分工協(xié)作,極大地提高了復(fù)雜任務(wù)的處理效率和準(zhǔn)確性。

    3、多智能體系統(tǒng)的 Prompt 提示詞工程設(shè)計

    多智能體系統(tǒng)的復(fù)雜度呈指數(shù)級上升,很容易出現(xiàn)“為了解決一個簡單問題而調(diào)用50個 AI 智能體”的失控局面。

    而 Prompt 提示詞工程是規(guī)范和引導(dǎo) AI 智能體行為的關(guān)鍵。Anthropic 總結(jié)了以下8條核心法則:

    1. 像 AI 智能體一樣思考:在控制臺(Console)中模擬 AI Agent 的工作流程,逐個步驟觀察其行為,這樣才能直觀地發(fā)現(xiàn)問題。
    2. 教會 Lead 智能體如何描述子任務(wù):給子智能體的任務(wù)描述必須清晰明確,包括目標(biāo)、輸出格式、使用工具和任務(wù)邊界。模糊的指令如“去研究一下XX”是遠(yuǎn)遠(yuǎn)不夠的。
    3. 根據(jù)任務(wù)復(fù)雜度調(diào)整資源投入:在 Prompt 中明確指定不同難度任務(wù)的資源配比。簡單任務(wù)用1個 AI 智能體,復(fù)雜任務(wù)則動用10個以上 AI 智能體,避免小題大做。
    4. 工具設(shè)計和選擇至關(guān)重要:工具的描述必須清晰且有區(qū)分度。同時,要給 AI 智能體一些啟發(fā)式規(guī)則,比如“先瀏覽一遍所有可用工具再做決策”。
    5. 讓 AI 智能體自我改進(jìn):Anthropic 創(chuàng)建了一個“工具測試 Agent”。它會反復(fù)試用新工具,并自動重寫工具的描述文檔,以便后續(xù) AI 智能體使用起來更加順手。結(jié)果是任務(wù)完成時間減少了40%。
    6. 先廣后窄:引導(dǎo) AI 智能體像人類專家一樣進(jìn)行研究,先用寬泛的查詢了解全貌,再逐步縮小范圍,而不是一開始就使用一個又長又窄的查詢,否則可能什么也搜不到。
    7. 引導(dǎo)思考過程:使用“思考模式”(extended thinking),讓 AI 智能體把思考過程寫下來。Lead 智能體用它來規(guī)劃,子智能體用它來評估每一步的工具調(diào)用結(jié)果。
    8. 并行工具調(diào)用改變游戲規(guī)則:讓 Lead Agent 并行分派子 Agent,再讓每個子 Agent 并行調(diào)用工具。這兩層并行直接將復(fù)雜查詢的耗時減少了90%。

    4、多智能體系統(tǒng)的有效評估

    評估多智能體系統(tǒng)不能像傳統(tǒng)軟件測試那樣,只檢查它是否遵循了預(yù)設(shè)的“正確”路徑,因為通往正確答案的路徑不止一條。Anthropic 的經(jīng)驗是:

    • 立即開始小樣本評估:在開發(fā)的早期階段,一個小小的 Prompt 調(diào)整可能讓成功率從30%飆升到80%。這種巨大的變化通過20個測試用例就能明顯看出。不要等到構(gòu)建幾百個測試用例的完美評估系統(tǒng)才開始動手。
    • 用 LLM 當(dāng)裁判:對于研究這類開放式輸出,讓 LLM 根據(jù)一個標(biāo)準(zhǔn)化的評分表(比如:事實準(zhǔn)確性、引用準(zhǔn)確性、完整度、信源質(zhì)量等)來打分,是一種既可擴(kuò)展又具一致性的方法。
    • 真人測試必不可少:自動化評估總有盲點。比如:真人測試員發(fā)現(xiàn)早期 AI 智能體總是傾向于選擇 SEO 過度的內(nèi)容農(nóng)場,而不是權(quán)威的學(xué)術(shù) PDF。這些細(xì)微的偏好只有通過人工測試才能發(fā)現(xiàn)。

    5、多智能體系統(tǒng)生產(chǎn)環(huán)境下的可靠性與工程挑戰(zhàn)

    從能夠運(yùn)行的 AI 智能體原型到穩(wěn)定可靠的生產(chǎn)系統(tǒng),中間隔著巨大的鴻溝。以下是四大工程難題:

    第一、錯誤恢復(fù)

    AI 智能體是長時間運(yùn)行的,一旦出錯,不能簡單地從頭開始(成本過高)。必須建立一種機(jī)制,能夠在錯誤發(fā)生的地方恢復(fù),并讓 AI 智能體學(xué)會優(yōu)雅地處理工具失效等問題。

    第二、非確定性下的監(jiān)控

    AI 智能體的行為是動態(tài)的,且不完全可復(fù)現(xiàn),這使得調(diào)試變得極其困難。唯一的解決辦法是建立完善的生產(chǎn)環(huán)境追蹤系統(tǒng),監(jiān)控 AI 智能體的決策模式和交互結(jié)構(gòu)。

    第三、部署協(xié)調(diào)

    線上隨時有大量 AI 智能體在運(yùn)行,不能直接暴力更新。他們采用“rainbow deployments”(彩虹部署)的方式,平滑地將流量從舊版本遷移到新版本,確保服務(wù)不中斷。

    第四、同步的瓶頸

    目前系統(tǒng)是同步的,Lead Agent 必須等待一批子 Agent 全部完成后才能進(jìn)行下一步,這效率很低。未來向異步執(zhí)行演進(jìn)是必然趨勢,盡管這會帶來狀態(tài)一致性、錯誤傳遞等新的挑戰(zhàn)。

    6、總結(jié)

    在構(gòu)建 AI 智能體的過程中,最后一公里往往成為最為艱難的階段。開發(fā)者本地能夠運(yùn)行的代碼,距離成為可靠的生產(chǎn)系統(tǒng)還需要大量工程化努力。在 AI 智能體系統(tǒng)中,錯誤具有復(fù)合特性,這意味著對于傳統(tǒng)軟件而言的輕微問題,可能會導(dǎo)致 AI 智能體完全崩潰。只要某一步失敗,AI 智能體就可能走向完全不同的路徑,進(jìn)而產(chǎn)生不可預(yù)測的結(jié)果。正如本文所述,從原型到生產(chǎn)環(huán)境之間的鴻溝,往往比人們預(yù)期的更為寬廣。

    盡管存在這些挑戰(zhàn),多智能體系統(tǒng)在開放性研究任務(wù)中依然展現(xiàn)出巨大價值。用戶反饋稱,Claude 幫助他們發(fā)現(xiàn)了未曾考慮過的商業(yè)機(jī)會,理清了復(fù)雜的醫(yī)療方案,解決了棘手的技術(shù)難題,還能通過揭示原本難以獨(dú)立發(fā)現(xiàn)的研究關(guān)聯(lián),節(jié)省數(shù)天工作時間。只要注重工程細(xì)節(jié)、全面測試、精心設(shè)計提示詞和工具、完善運(yùn)維實踐,并確保研究、產(chǎn)品與工程團(tuán)隊之間緊密協(xié)作,對當(dāng)前 AI 智能體能力有深刻理解,多智能體研究系統(tǒng)完全可以在規(guī)?;瘧?yīng)用中保持可靠運(yùn)行。我們已經(jīng)看到,這些系統(tǒng)正在改變?nèi)藗兘鉀Q復(fù)雜問題的方式。


    本文轉(zhuǎn)載自??玄姐聊AGI??  作者:玄姐

    ?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
    已于2025-6-20 06:33:19修改
    收藏
    回復(fù)
    舉報
    回復(fù)
    相關(guān)推薦
    主站蜘蛛池模板: 国产传媒在线观看 | 久久综合影院 | 国产成人av一区二区三区 | 成人在线电影网站 | 夜夜爽99久久国产综合精品女不卡 | 久草综合在线视频 | 午夜影视免费片在线观看 | 涩涩鲁亚洲精品一区二区 | 欧美日韩国产三级 | 超碰在线97国产 | 成人影院在线观看 | 麻豆久久久久 | 国产成人精品一区 | 久久久999精品 | 日本特黄特色aaa大片免费 | 日韩精品一区二区三区在线观看 | 正在播放国产精品 | 91欧美| 国产精品一区二区av | 在线观看三级av | 国产亚洲精品精品国产亚洲综合 | 成人特级毛片 | 久久久久久艹 | 国产婷婷在线视频 | 91佛爷在线观看 | 国产性网 | 色综合九九| 久久久久久国产精品免费免费狐狸 | 久久er99热精品一区二区 | 久热国产精品视频 | 国产亚洲欧美日韩精品一区二区三区 | 久久国产精品网站 | 精品欧美激情精品一区 | 亚洲精品成人av久久 | 国产精品2 | 中文字幕久久久 | 欧美一级在线观看 | 性色视频| 国产一区二区三区久久久久久久久 | 草久网 | 视频一区二区在线观看 |