智能體自己出現問題自己找!首次提出“自動化失敗歸因”課題 | ICML2025 Spotlight
近年來,LLM Multi-Agent系統引起廣泛關注。它們各顯神通,協同作戰解決復雜難題。然而,一頓操作猛如虎,最終結果卻“慘不忍睹”,一整個任務失敗。
這時候,你是不是頭都大了:究竟是哪個環節的哪個Agent出了岔子?
在日益復雜的Multi-Agent系統中,由于Agent之間自主協作、信息鏈條長,失敗不僅常見,而且診斷起來極其困難。如果我們不能快速定位失敗的根源,系統的迭代和優化就無從談起。
針對這個問題,賓夕法尼亞州立大學與杜克大學聯合Google DeepMind等機構的研究者們首次提出了“自動化失敗歸因”這一全新研究課題,并為此構建了首個專用基準數據集Who&When,開發和評估了多種自動化歸因方法。
這項工作不僅深刻揭示了該任務的復雜性,也為未來提升LLM Multi-Agent 系統的可靠性開辟了新的道路。
該論文獲ICML 2025 Spotlight,代碼與數據集已全部開源。
首次提出“自動化失敗歸因”課題
LLM驅動的Multi-Agent系統在很多領域展現出巨大潛力。然而,這些系統也存在著脆弱性:單個Agent的失誤,Agent之間的誤解,以及信息傳遞錯誤,都可能導致整體任務失敗。
目前,一旦系統“翻車”,開發者往往只能:手動“考古”,逐條翻閱冗長的交互日志,試圖找出問題所在;又或者依賴經驗,這種調試過程高度依賴開發者對系統和任務的深入理解。
這種“大海撈針”式的排錯方式,不僅效率低下,更嚴重阻礙了系統的快速迭代和可信賴度的提升。目前迫切需要一種自動化、系統化的方法來定位失敗原因,將“評估結果”與“系統改進”有效連接起來。
針對上述挑戰,這篇論文做出了開創性的貢獻:
首先,提出并定義新問題,首次將“自動化失敗歸因”形式化為一個具體的研究任務,明確了要找出導致失敗的責任Agent(failure-responsible agent)和決定性錯誤步驟(decisive error step)。
其次,他們構建首個數據集Who&When,該數據集包含了從127個LLMMulti-Agent系統中收集的廣泛失敗日志。這些系統既有算法自動生成的,也有人類專家精心打造的,確保了場景的真實性和多樣性。
每條失敗日志都配有細粒度的人工標注:
- “誰”(Who):哪個Agent是“罪魁禍首”。
- “何時”(When):決定性錯誤發生在交互的哪一步。
- “為何”(Why):對失敗原因的自然語言解釋。
最后,他們初步探索了“自動化歸因”方法?;赪ho&When數據集,論文設計并評估了三種不同的自動化失敗歸因方法:全局審視法(All-at-Once),逐步偵查法(Step-by-Step),二分定位法(Binary Search)。
實驗結果表明:這三種方法在準確性、成本和分析粒度上各有千秋,沒有一種能在所有指標上完勝。它們共同構成了自動化失敗歸因任務的初步“解法庫”。
All-at-Once:向LLM提供用戶查詢和完整的故障日志,要求其一次性識別出故障責任Agent以及發生決定性錯誤的具體步驟。它的優點是一步到位,成本較低,可能擅長宏觀判斷責任。但可能面臨“大海撈針”問題,難以從長上下文中精確定位具體錯誤步驟。
Step-by-Step:模擬人工調試,讓LLM從頭開始,一步步檢查交互日志,在每個環節判斷當前是否出現錯誤,直到揪出“真兇”。它如同剝洋蔥般細致,在定位具體錯誤環節上更具優勢;不過需要多次詢問模型,調用成本較高,且局部判斷的累積誤差可能導致“誤判”。
Binary Search:這是一種折中策略。將日志對半切分,利用LLM判斷錯誤發生在前半段還是后半段,然后不斷在確定的半段中遞歸“二分”,最終鎖定問題步驟和相關Agent。該方法總成本和效果介于前兩者之間。
實驗結果與主要發現
實驗在兩種設定下進行:LLM知道Multi-Agent系統需要解決的問題的真實答案(With Ground Truth)和不知道真實答案(Without Ground Truth)。主要使用GPT-4o,但也測試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)
通過在Who&When數據集上對上述方法進行了系統評估,得到了許多重要的發現:
首先,目前的方法離完美還差得很遠。即便是表現最好的單一方法,在識別“背鍋Agent”上的準確率也僅有約53.5%,而在準確定位“錯誤步驟”上,準確率更是低至14.2%。這意味著,最牛的策略也只能勉強過半猜對誰是“內鬼”,至于錯在哪一步,基本靠“蒙”。有些方法的表現甚至不如隨機猜測,足見任務之艱巨。
其次,不同方法在不同子任務上表現各異,沒有萬能冠軍。例如,All-at-Once方法對“Who”的判斷相對最好,能夠更準確地找出哪個Agent應該負責;而Step-by-Step方法在鎖定具體錯誤步驟(“When”)上效果更勝一籌,細粒度檢查帶來了優勢;Binary Search方法則各方面居中,表現中規中矩。由此體現出每種方案的權衡取舍:要么整體掃描擅長找“人”,要么逐步追查利于找“步驟”。
還有“組合拳”效果更優,但代價高昂:研究者嘗試了組合不同方法的策略(例如,先使用“全局法”初步判斷責任Agent,再運用“逐步法”精確定位錯誤步驟)。結果表明,這種混合方法確實能夠提升整體的歸因性能,但同時也帶來了顯著的計算成本增加。
最令人驚訝的是,即便是當前最先進的推理模型(如OpenAI o1和DeepSeek R1),在處理這一任務時也顯得力不從心。這進一步凸顯了“自動化失敗歸因”任務本身的固有難度,其對AI推理能力的要求超越了當前SOTA模型在常規任務上的表現。
此外,明確的推理提示至關重要:在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由,能起到提升性能的作用。
而上下文長度對性能構成制約,實驗還發現,隨著失敗日志上下文長度的增加,所有歸因方法的性能均呈現下降趨勢,尤其是在錯誤步驟定位的準確性方面更為敏感。
總結
“自動化失敗歸因”是Multi-Agent系統開發流程中不可或缺的一環。它將幫助我們更深入地洞察Multi-Agent的失敗模式,將“哪里出錯、誰之過”從令人頭疼的謎題,轉變為可量化分析的問題。通過架起“評估”與“改進”之間的橋梁,我們終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協作系統。
論文機構:賓夕法尼亞州立大學,杜克大學,Google DeepMind,華盛頓大學,Meta,南洋理工大學,俄勒岡州立大學
論文的共同第一作者是賓夕法尼亞州立大學的Shaokun Zhang和杜克大學的Ming Yin。
論文傳送門:https://arxiv.org/pdf/2505.00212
代碼傳送門:https://github.com/mingyin1/Agents_Failure_Attribution
數據集傳送門:https://huggingface.co/datasets/Kevin355/Who_and_When