智能體協作的力量：Anthropic 的「Research」多智能體實踐

作者：肆零柒 2025-06-17 06:28:08

Anthropic 的 Research 功能利用多個 Claude 智能體來更有效地探索復雜主題。他們分享了在構建這一系統過程中遇到的工程挑戰以及從中汲取的經驗教訓。

大家好，我是肆〇柒。在 AI 領域，多智能體系統正逐漸成為解決復雜任務的關鍵技術之一。昨天，我看到一篇出自 Anthropic 官網 Engineering 板塊的博文，主要分享了Anthropic 在 Research 這個功能對于多智能體的工程實踐。現在，我們就一起來了解一下它是如何憑借創新性的架構和設計，在處理復雜 Research 任務時展現出卓越的性能，以及其背后的技術邏輯。

多智能體系統的緣起與發展

在科研與探索的廣闊領域中，我們常常面臨開放性問題，這類問題的解決路徑錯綜復雜，根本無法提前預設好每一步的行動方案。傳統的單一流程在面對這種復雜性時，往往顯得捉襟見肘，難以靈活應對動態變化的探索需求。無法為探索復雜主題硬編碼固定的路徑，因為該過程本質上具有動態性和路徑依賴性。當人們進行研究時，他們傾向于根據發現來不斷更新他們的想法或方法，并跟隨調查過程中出現的線索來調整方向。多智能體系統之所以能夠脫穎而出，正是因為它具備了高度的靈活性和動態性，能夠在Research過程中實時調整策略，重塑研究方向，從而完美契合研究過程的不確定性特點。

為了讓大家更直觀地理解多智能體系統的潛力，我們可以將目光投向人類社會智力發展的歷程。過去 10 萬年間，個體人類的智力水平并沒有顯著提升，但人類社會在信息時代卻迎來了指數級的進步。這一切的背后，是集體智能和協調能力的飛躍式發展。類比之下，多智能體系統在提升 AI 能力方面也展現出了巨大的潛力。它能夠彌補單個智能體的局限，通過多個智能體的協同合作，實現更高效的任務解決，讓 AI 在復雜任務面前也能游刃有余。

多智能體系統的架構與優勢

Anthropic 的多智能體 Research 系統采用了主智能體與子智能體的分工協作架構。主智能體負責統籌全局，分析用戶查詢，制定策略，然后根據任務需求創建多個子智能體。這些子智能體各司其職，獨立處理不同任務，通過并行處理實現信息的高效壓縮與探索。在這種架構下，每個子智能體都有自己的工具、提示和探索路徑，它們相互獨立又相互補充，極大地減少了路徑依賴性，提升了調查的全面性和準確性。

在內部評估中，多智能體系統的性能表現令人興奮。以 Claude Opus 4 作為主智能體，Claude Sonnet 4 作為子智能體的組合，在內部研究評估中，相較于單智能體 Claude Opus 4，性能提升了整整 90.2%。這一數據直觀地展現了多智能體系統的卓越性能。尤其是在涉及多個獨立方向同時探索的任務中，多智能體系統展現出了無可比擬的優勢。

例如，當需要識別信息技術領域標準普爾 500 強公司所有董事會成員時，多智能體系統通過將任務分解為多個子任務，分配給不同的子智能體并行處理，成功找到了正確答案，而單智能體系統則因緩慢的順序搜索而失敗。這種性能上的巨大差異，主要源于多智能體系統在信息處理和工具調用方面的顯著優勢。

相比之下，多智能體系統與單智能體系統和傳統 RAG 方法在查詢準確度、信息覆蓋度、處理速度等方面存在明顯差異。多智能體系統能夠在處理復雜查詢時，動態調整搜索策略，根據新發現的信息不斷優化方向，而單智能體系統和傳統 RAG 方法則往往受限于線性、靜態的流程，難以在復雜任務中實現高效的信息挖掘和整合。

多智能體系統的成本與適用場景

多智能體系統在 token 使用量上的顯著增加不容忽視。在實際運行中，智能體通常使用的 token 量是聊天交互的 4 倍，而多智能體系統更是高達聊天的 15 倍。這使得多智能體系統的經濟可行性高度依賴于任務的價值。

高價值任務，如需要大量并行化處理、信息超出單個上下文窗口、需要與多個復雜工具交互的任務場景，是 Research 多智能體系統的理想用武之地。例如，在進行廣泛的信息收集和整合時，多智能體系統能夠通過并行處理多個任務，快速獲取和分析大量信息，從而為用戶提供了一個高效的解決方案。然而，像編碼任務這類涉及較少真正并行化任務的場景，目前還并非多智能體系統的最佳適用領域。

進一步來說，多智能體系統在當前的技術背景下，不太適用于所有智能體需要共享同一情境或智能體間存在眾多依賴關系的領域（注意：這一觀點應是特指 Anthropic 的 Research 這款產品的多智能體架構，并非統指所有”多智能體“）。例如，大多數編碼任務相較于 Research 任務，其并行化需求較少，而且 LLM 智能體在實時協調和委托其他智能體方面的能力還有待提升。這意味著在這些領域，多智能體系統可能無法充分發揮其優勢。

架構細節

多智能體架構的運作流程始于用戶提交查詢。主智能體首先對查詢進行分析，制定出一套詳細的策略，然后根據任務需求創建多個子智能體。每個子智能體獨立執行搜索任務，搜索的本質是壓縮，從龐大的語料庫中提煉見解。智能體使用搜索工具收集信息，并對工具結果進行評估篩選，最終將收集到的信息返回給主智能體。

主智能體在整合這些信息后，會判斷是否需要進一步深入研究（Deep Research）。如果需要，它會繼續創建新的子智能體或調整現有策略。一旦收集到足夠充分的信息，系統就會退出 Research 循環，將所有研究成果傳遞給引用代理，處理文檔和研究報告，確保每一個結論都有據可循，都有明確的出處。最終，完整的帶有引用的研究結果將呈現給用戶。

主智能體在制定策略和創建子智能體時，采用了基于關鍵詞和語義信息的綜合分析方法。它會提取用戶查詢中的關鍵詞，結合語義分析技術，理解用戶的真實需求和意圖。然后，根據預先定義的規則和啟發式算法，確定需要創建的子智能體數量和類型。例如，如果查詢涉及多個不同領域的信息，主智能體可能會創建多個專注于不同領域的子智能體，以實現更精準的信息收集。

子智能體在執行任務時，會根據主智能體分配的任務描述，選擇合適的搜索工具和參數。它們會參考任務類型和目標，確定合適的搜索關鍵詞和過濾條件。例如，在進行公司董事會成員信息收集時，子智能體可能會選擇使用專門的公司信息數據庫搜索工具，設置合適的關鍵詞和過濾條件，快速定位到目標信息。同時，子智能體會對搜索結果進行質量評估和相關性判斷，篩選出最符合任務需求的信息。

值得一提的是，主智能體在思考制定策略時，會先將其計劃保存到內存中，以保持上下文的連貫性。如果上下文窗口超過 200,000 tokens，它將被截斷，而保存的計劃可以防止信息丟失，確保任務能夠按計劃推進。

為了幫助大家更好地理解這一復雜流程，我們可以參考多智能體架構示意圖：

多智能體架構在實際運行中的示意圖

這張圖清晰地展示了用戶查詢從主智能體到子智能體的流轉過程，以及信息收集、評估和整合的路徑。通過這張圖，我們可以直觀地看到系統的關鍵環節和相互關系，從而對多智能體架構的運作機制有更深入的把握。

接下來，我們再看看多智能體 Research 系統完整工作流程圖：

多智能體研究系統完整工作流程圖

多智能體 Research 系統完整工作流程圖

從圖中可以看到，整個流程從用戶提交查詢開始，主智能體先進行思考規劃，保存計劃到內存，然后創建多個子智能體。每個子智能體獨立進行網絡搜索，使用工具評估結果，再將結果返回給主智能體。主智能體整合這些信息后，決定是否需要進一步研究，最后由引用代理處理引用，生成最終結果。

子智能體在評估工具結果時，采用了交錯思考的方式。這種思考模式使子智能體能夠更深入地分析結果的質量，判斷其與任務的相關性，并在必要時調整下一步的行動方向。

提示工程與智能體評估

多智能體系統與單智能體系統在提示工程上存在顯著差異，主要體現在協調復雜度的增加上。早期的智能體在實際運行中出現了不少錯誤，比如在簡單查詢時生成過多的子智能體，進行無休止的網絡搜索卻找不到不存在的資源，或者子智能體之間因過多的更新而相互干擾。為了解決這些問題，Anthropic 在提示工程中總結出了一系列關鍵原則。

1?? 換位思考至關重要。只有深入理解智能體的行為邏輯，才能精準地優化提示。我們可以通過模擬智能體的行為，觀察它們在不同情況下的表現，從而發現問題所在。比如，智能體可能在已經獲得足夠結果時繼續搜索，或者使用過于冗長的搜索查詢。通過換位思考，我們能夠更準確地把握智能體的行為模式，進而做出有效的調整。

2?? 教導主智能體如何合理委托任務也是關鍵一環。主智能體需要將查詢分解成多個子任務，并向子智能體提供清晰的任務描述。每個子智能體需要明確自己的目標、輸出格式、可使用的工具和數據源，以及任務的邊界。如果任務描述模糊不清，子智能體就可能誤解任務，重復工作，甚至遺漏關鍵信息。例如，早期的主智能體在分配任務時，僅給出簡單的指令，如 “研究半導體短缺”，導致子智能體的工作出現偏差，有的研究 2021 年汽車芯片危機，有的則調查 2025 年供應鏈現狀，缺乏有效的分工協作。

3?? 根據查詢的復雜性調整投入也是提升系統效率的重要手段。簡單事實查詢可能只需要 1 個子智能體進行 3 - 10 次工具調用，直接比較可能需要 2 - 4 個子智能體進行 10 - 15 次調用，而復雜 Research 可能需要超過 10 個子智能體，且職責分工明確。通過在提示中嵌入這些明確的指導原則，主智能體能夠更高效地分配資源，避免在簡單查詢上投入過多，這也是早期版本中常見的失敗模式。

4?? 工具設計與選擇同樣是提示工程中的關鍵環節。智能體與工具的接口設計至關重要，就像人機交互界面一樣。選擇合適的工具可以顯著提高效率，因為有時它甚至是完成任務的必要條件。例如，如果智能體在尋找特定于 Slack 的背景信息時只進行網絡搜索，那它從一開始就會陷入困境。在擁有 MCP 服務器為模型提供外部工具訪問權限的情況下，這個問題會更加復雜，因為智能體會遇到各種描述質量參差不齊的工具。Anthropic 為智能體提供了明確的啟發式規則，比如先檢查所有可用工具，將工具的使用與用戶意圖相匹配，在需要廣泛外部探索時進行網絡搜索，或者優先選擇專用工具而非通用工具。糟糕的工具描述可能導致智能體完全誤入歧途，因此每個工具都需要有明確的目的和清晰的描述。

5?? 智能體的自我改進能力也值得關注。Anthropic 發現 Claude 4 模型在提示工程方面表現出色。當給定一個提示和失敗模式時，它們能夠診斷出智能體失敗的原因并提出改進建議。Anthropic甚至創建了一個工具測試智能體，當給定一個有缺陷的 MCP 工具時，它會嘗試使用該工具，然后重寫工具描述以避免失敗。通過反復測試工具（幾十次），這個智能體發現了關鍵的細節和漏洞。這種改進工具人體工程學的過程，使得后續使用新描述的智能體在任務完成時間上減少了 40%，因為它們能夠避免大多數錯誤。

6?? 在搜索策略方面，Anthropic提倡先寬泛后具體。專家型人類研究者通常會先對研究領域進行廣泛探索，然后再深入到具體細節。Anthropic通過提示引導智能體采取這種策略，以避免它們一開始就使用過于冗長、具體的查詢，導致返回的結果過少。相反，可以讓智能體從簡短、寬泛的查詢開始，評估可用信息，然后逐步縮小搜索范圍。

7?? 引導智能體的思考過程也是提示工程的重要內容。擴展思考模式可以作為可控的草稿紙，讓 Claude 在思考過程中輸出更多的 token。主智能體利用這種思考模式來規劃其方法，評估哪些工具適合任務，確定查詢的復雜性和子智能體數量，并定義每個子智能體的角色。測試表明，擴展思考可以提高指令遵循、推理和效率。子智能體同樣會進行規劃，然后在工具結果后使用交錯的思考來評估質量，識別差距，并完善下一次查詢。這使得子智能體能夠更有效地適應各種任務。

8?? 并行工具調用是提升速度和性能的關鍵。復雜的任務通常需要探索多個來源。早期的智能體執行順序搜索，速度之慢令人難以忍受。為了加速，Anthropic 引入了兩種并行化方式：（1）主智能體同時啟動 3 - 5 個子智能體，而非順序啟動；（2）子智能體并行使用 3 個以上的工具。這些改進使得復雜查詢的研究時間最多縮短了 90%，讓研究系統能夠在幾分鐘內完成更多的工作，同時覆蓋比其他系統更多的信息。

在智能體評估方面，多智能體系統具有獨特性。與傳統評估方法不同，多智能體系統在相同的起點下，智能體可能會采取完全不同但同樣有效的路徑來達成目標。因此，我們需要靈活的評估方法，既要確保智能體取得了正確的結果，又要驗證它們遵循了合理的流程。

建議從即時小樣本評估開始。在智能體開發的早期階段，少量的測試用例往往能顯著體現改進效果。例如，一個簡單的提示調整可能將成功率從 30% 提升到 80%。在這些情況下，僅需少量測試用例就能觀察到變化。通常會使用大約 20 個代表實際使用模式的查詢進行測試，這經常能清晰地顯示出更改的影響。許多團隊因為認為只有包含數百個測試用例的大規模評估才有用而推遲創建評估，但實際上，從小規模測試開始更為高效。

LLM 作為評判者在評估中發揮著重要作用。研究輸出通常是自由形式的文本，很少有單一的正確答案，因此很難通過程序進行評估。LLM 天然適合對輸出進行評分。Anthropic 使用了一個 LLM 評判者，根據評分標準對每個輸出進行評估，包括

事實準確性（聲明是否與來源一致？）
引用準確性（引用的來源是否與聲明一致？）
完整性（是否涵蓋了所有請求的方面？）
來源質量（是否優先使用原始來源而非低質量的次要來源？）
工具效率（是否合理使用了正確的工具次數？）

Anthropic 嘗試了多個評判者來評估每個組件，但發現使用單個 LLM 調用，通過單個提示輸出 0.0 - 1.0 分和通過 / 失敗等級的方法更為一致，也更符合人類判斷。當評估用例確實有明確答案時，這種方法特別有效，可以使用 LLM 評判者來簡單檢查答案是否正確（例如，它是否準確列出了研發預算排名前三的制藥公司？）。使用 LLM 作為評判者使我們能夠可擴展地評估數百個輸出。

同時，人類評估在發現自動化評估遺漏的問題方面發揮著不可替代的作用。在測試智能體時，人類測試者能夠發現自動化評估所忽略的邊緣情況，例如在不尋常的查詢上編造答案、系統故障或微妙的來源選擇偏差。在Anthropic的案例中，人類測試者注意到早期的智能體傾向于選擇 SEO 優化的內容農場，而非像學術 PDF 或個人博客這樣權威但排名較低的來源。在提示中添加來源質量啟發式規則幫助解決了這個問題。即使在自動化評估盛行的時代，手動測試仍然是不可或缺的。

多智能體系統具有涌現行為，這些行為并非通過特定編程產生。例如，對主智能體的微小更改可能會不可預測地改變子智能體的行為。成功的關鍵在于理解交互模式，而不僅是單個智能體的行為。因此，為這些智能體編寫最佳提示并非僅是嚴格的指令，而是定義協作框架，明確分工、問題解決方法和努力預算。實現這一目標依賴于精心的提示設計、工具設計、扎實的啟發式方法、可觀測性和緊密的反饋循環。

生產可靠性與工程挑戰

在傳統的軟件開發中，一個小小的錯誤可能會破壞一個功能、降低性能或導致停機。而智能體系統則不同，即使是很小的改動也可能引發巨大的行為變化，這使得為必須在長流程中保持狀態的復雜智能體編寫代碼變得異常困難。

智能體是有狀態的，錯誤會累積起來。智能體可能會運行很長時間，在多次工具調用中保持狀態。這意味著我們需要持久地執行代碼，并在此過程中處理錯誤。如果沒有有效的緩解措施，即使是小的系統故障也可能對智能體造成災難性的后果。當錯誤發生時，我們不能簡單地從頭開始重啟：重啟成本高昂，對用戶來說也令人沮喪。相反，Anthropic構建了能夠在錯誤發生時從中斷處恢復的系統。并且還利用模型的智能來優雅地處理問題：例如，當某個工具出現故障時，讓智能體知道并允許它適應這一情況，這出奇地有效。Anthropic 將基于 Claude 構建的 AI 智能體的適應性與諸如重試邏輯和定期檢查點之類的確定性保障措施相結合。

調試智能體需要新的方法。智能體會做出動態決策，在相同的提示下每次運行都是非確定性的。這使得調試變得更加困難。例如，用戶會報告智能體 “找不到顯而易見的信息”，但我們卻無法知道原因。智能體是在使用糟糕的搜索查詢嗎？選擇了不好的來源嗎？遇到了工具故障嗎？為了診斷這些問題并系統地修復它們，Anthropic增加了完整的生產追蹤功能。除了標準的可觀測性，還要監控智能體的決策模式和交互結構，所有這些都不會監控單個對話的內容，以維護用戶隱私。這種高級別的可觀測性幫助我們診斷根本原因，發現意外行為，并修復常見故障。

在部署時，智能體系統的協調至關重要。智能體系統是一張由提示、工具和幾乎持續運行的執行邏輯組成的高度狀態化的網絡。這意味著，當我們部署更新時，智能體可能處于其流程的任何階段。因此，我們需要防止我們善意的代碼更改破壞現有的智能體。我們不能同時將所有智能體更新到新版本。相反，通過逐漸將流量從舊版本轉移到新版本（rainbow deployments），同時保持兩個版本同時運行，這樣可以避免打擾正在運行的智能體，實現版本的平滑過渡，在版本升級的同時，給在線用戶最好的體驗。

同步執行會造成瓶頸。目前，Anthropic 的主智能體是同步執行子智能體的，等待每組子智能體完成后再繼續。這簡化了協調，但在智能體之間的信息流動中創造了瓶頸。例如，主智能體無法引導子智能體，子智能體之間無法協作，整個系統可能會因為等待單個子智能體完成搜索而被阻塞。異步執行（async）將允許更多的并行性，使智能體能夠同時工作，并在需要時創建新的子智能體。但異步性也增加了結果協調、狀態一致性和錯誤傳播的挑戰。隨著模型能夠處理更長、更復雜的任務，可以預計性能提升將證明這些復雜性是值得的。

異步執行可能帶來的挑戰包括：

結果協調 ：在異步環境下，多個子智能體可能同時產生結果，如何確保這些結果能夠被正確地匯集和整合，是一個復雜的問題。需要設計有效的機制來管理結果的收集和處理順序，以防止結果沖突和數據不一致。
狀態一致性 ：當多個子智能體異步執行時，它們共享的狀態可能會不斷變化。確保所有智能體在訪問和更新狀態時保持一致性，避免出現狀態的不連貫或錯誤，需要采用諸如分布式鎖、版本控制等技術手段。
錯誤傳播 ：在異步系統中，一個子智能體的錯誤可能不會立即被發現，從而影響整個系統的穩定性。需要建立完善的錯誤檢測和恢復機制，確保錯誤能夠及時被捕獲和處理，防止錯誤在系統中傳播和擴大。

智能體系統的優化技巧

在智能體最終狀態評估方面，對于在多輪對話或復雜任務中會修改持久狀態的智能體，Anthropic 采用聚焦于最終狀態的評估方法，而不是僅僅關注每一步驟的細節。這樣可以確保智能體能夠以不同的合理路徑達成既定目標，同時保障結果的準確性。例如，在涉及信息收集與整合的任務中，可以評估智能體是否成功獲取并整合了所有關鍵信息，形成完整且準確的輸出。

在長期對話管理中，智能體會通過總結已完成的工作階段，將關鍵信息存儲于外部記憶中。當上下文窗口接近限制時，智能體會創建新的子智能體，這些子智能體會帶著干凈的上下文開始工作，同時通過精心的交接保持對話的連貫性。此外，智能體可以從記憶中檢索存儲的上下文，例如研究計劃，而不會因達到上下文限制而丟失先前的工作成果。這種分布式方法既防止了上下文溢出，又保持了對話的連貫性。

子智能體的輸出優化機制也值得注意。為了避免信息在多級傳遞中的損耗，子智能體會直接將結構化的結果（如代碼、報告、數據可視化等）存儲于外部系統，并向主智能體傳遞輕量級的引用。例如，在代碼生成任務中，子智能體會將完整的代碼保存到外部存儲中，并向主智能體提供一個引用，這樣主智能體就能便捷地獲取完整的代碼，而無需在對話歷史中傳遞大量的代碼文本，從而提升了信息傳遞的準確性和效率，同時減少了 token 開銷。

總結

多智能體系統在解決復雜任務方面展現出了巨大的潛力。從 Anthropic 的實踐來看，從原型到生產系統的轉變充滿了挑戰。智能體系統的動態性和復雜性要求我們在可靠性、性能等方面進行綜合考量，確保系統能夠穩定運行并提供高質量的服務。

許多用戶已經從多智能體研究系統中受益。例如，有用戶表示 Claude 幫助他們發現了未曾考慮過的商業機會，順利地導航復雜的醫療選項，快速解決了棘手的技術故障，并通過挖掘他們自己無法找到的研究聯系，節省了數天的工作時間。這些實際反饋充分證明了多智能體研究系統在不同領域的價值。

這是一張 Clio 嵌入式圖表，展示了當下人們使用研究功能最普遍的幾種方式。其中，排名前幾位的使用案例類別分別是：跨專業領域開發軟件系統（占比 10%）、開發及優化專業和技術內容（占比 8%）、制定業務增長及創收策略（占比 8%）、協助開展學術研究以及開發教育資源（占比 7%），以及對人物、地點或組織的相關信息進行調研和核實（占比 5%）

今年4月份的時候，我在覺察流社群聊到過，目前Deep Research類應用，是LLM比較成熟的落地場景，并且很適合在企業內應用。這篇來自 Anthropic 在 Research 的多智能體實踐探索，為我們提供了一個生動的案例，展示了如何通過精心設計的架構和優化策略，讓多個智能體協同合作，攻克復雜任務。從主智能體與子智能體的分工協作，到提示工程的精細打磨，再到生產可靠性保障的全方位考量，這篇分享不可謂不細致。

責任編輯：龐桂玉來源：覺察流

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看