ICML 2025 Spotlight | 誰(shuí)導(dǎo)致了多智能體系統(tǒng)的失敗？首個(gè)「自動(dòng)化失敗歸因」研究出爐

2025-06-03 08:26:00

這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了?LLM 多智能體系統(tǒng)的自動(dòng)化失敗歸因這一新任務(wù)。

想象這樣一個(gè)場(chǎng)景：你開(kāi)發(fā)了一個(gè)由多個(gè)大型語(yǔ)言模型 Agent 組成的智能團(tuán)隊(duì)，它們協(xié)作完成復(fù)雜任務(wù)，比如一個(gè) Agent 負(fù)責(zé)檢索，一個(gè)負(fù)責(zé)決策。然而任務(wù)失敗了，結(jié)果不對(duì)。

問(wèn)題來(lái)了：到底是哪個(gè) Agent 出了錯(cuò)？又是在對(duì)話(huà)流程的哪一環(huán)節(jié)？調(diào)試這樣的多智能體系統(tǒng)如同大海撈針，需要翻閱大量復(fù)雜日志，極其耗時(shí)。

這并非虛構(gòu)。在多智能體 LLM 系統(tǒng)中，失敗常見(jiàn)但難以診斷。隨著這類(lèi)系統(tǒng)愈加普及，我們急需新方法快速定位錯(cuò)誤。正因如此，ICML 2025 的一篇 Spotlight 論文提出了「自動(dòng)化失敗歸因（Automated Failure Attribution）」的新研究方向，目標(biāo)是讓 AI 自動(dòng)回答：是誰(shuí)、在哪一步導(dǎo)致了失敗。

該工作由 Penn State、Duke、UW、Goolge DeepMind 等機(jī)構(gòu)的多位研究人員合作完成。

論文標(biāo)題：Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
arXiv 地址：https://arxiv.org/pdf/2505.00212
代碼地址：https://github.com/mingyin1/Agents_Failure_Attribution

背景挑戰(zhàn)

LLM 驅(qū)動(dòng)的多智能體系統(tǒng)在諸多領(lǐng)域展現(xiàn)出巨大潛力，從自動(dòng)化助手協(xié)同辦公到多 Agent 合作完成 Web 復(fù)雜操作等。然而，這些系統(tǒng)脆弱性也逐漸顯現(xiàn)：多個(gè) Agent 之間的誤解、信息傳遞錯(cuò)誤或決策不當(dāng)，都可能導(dǎo)致整體任務(wù)失敗。

對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，一個(gè)失敗案例往往意味著必須手動(dòng)審閱長(zhǎng)長(zhǎng)的對(duì)話(huà)日志，試圖找出哪個(gè) Agent 在哪一步出了差錯(cuò)。這種調(diào)試過(guò)程既費(fèi)時(shí)費(fèi)力，也需要調(diào)試者對(duì)整個(gè)任務(wù)邏輯非常熟悉。更大的挑戰(zhàn)在于，缺乏系統(tǒng)化的方法來(lái)定位失敗原因 —— 傳統(tǒng)評(píng)估只關(guān)注任務(wù)成功與否，但很少深入到「失敗責(zé)任」這一層面上。

結(jié)果就是，多智能體系統(tǒng)一旦出錯(cuò)，我們往往只能知道「出了問(wèn)題」卻無(wú)法快速知道「問(wèn)題出在哪、因何而起」。這種局面嚴(yán)重限制了多智能體系統(tǒng)的改進(jìn)和可信度。如果無(wú)法自動(dòng)歸因失敗，我們就難以針對(duì)性地加強(qiáng)某個(gè) Agent 的能力或優(yōu)化協(xié)作策略。換言之，失敗歸因是連接評(píng)估與改進(jìn)的缺失環(huán)節(jié)。

研究?jī)?nèi)容

針對(duì)上述挑戰(zhàn)，這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了 LLM 多智能體系統(tǒng)的自動(dòng)化失敗歸因這一新任務(wù)。

研究的核心目標(biāo)：給定一個(gè)多 Agent 協(xié)作任務(wù)的失敗日志，自動(dòng)確定導(dǎo)致失敗的罪魁禍?zhǔn)资悄膫€(gè) Agent（「Who」），以及決定性錯(cuò)誤發(fā)生在交互的哪一步（「When」）。

為推動(dòng)這一方向，作者構(gòu)建了首個(gè)用于失敗歸因研究的基準(zhǔn)數(shù)據(jù)集 ——「Who&When」。該數(shù)據(jù)集精心收集了 127 個(gè)多智能體系統(tǒng)的失敗日志，涵蓋了多個(gè)公開(kāi)基準(zhǔn)（如 GAIA、AssistantBench 等）中的復(fù)雜任務(wù)，具有相當(dāng)?shù)亩鄻有浴８匾氖牵髡邽槊織l失敗日志都提供了細(xì)粒度的人工標(biāo)注：

標(biāo)記出導(dǎo)致任務(wù)失敗的責(zé)任 Agent（即「Who」，哪個(gè)智能體犯了錯(cuò)）
標(biāo)記出導(dǎo)致失敗的關(guān)鍵錯(cuò)誤步驟（即「When」，在整個(gè)對(duì)話(huà) / 操作序列中的第幾步出了錯(cuò)）
以及相應(yīng)的自然語(yǔ)言解釋（即「Why」，為什么這個(gè)錯(cuò)誤會(huì)導(dǎo)致失敗）

基準(zhǔn)數(shù)據(jù)集地址：https://huggingface.co/datasets/Kevin355/Who_and_When

這種標(biāo)注使得數(shù)據(jù)集既可用于訓(xùn)練模型自動(dòng)定位「誰(shuí)」和「何時(shí)」出錯(cuò)，也方便人類(lèi)分析失敗的原因。數(shù)據(jù)集中「Who」和「When」標(biāo)注的引入填補(bǔ)了以往多智能體評(píng)測(cè)中對(duì)失敗原因關(guān)注的空白。可以說(shuō)，Who&When 數(shù)據(jù)集為自動(dòng)失敗歸因任務(wù)提供了首個(gè)標(biāo)準(zhǔn)測(cè)試床，讓研究者能夠在統(tǒng)一語(yǔ)境下探索讓 AI 自動(dòng)當(dāng)「故障偵探」的可能性。

技術(shù)細(xì)節(jié)

有了數(shù)據(jù)集，接下來(lái)作者設(shè)計(jì)了三種用于自動(dòng)失敗歸因的初步方法，并對(duì)它們進(jìn)行了系統(tǒng)比較：

All-at-Once 方法：將完整的多 Agent 日志一次性交給 LLM，讓其整體判斷「哪個(gè) Agent 在哪一步出錯(cuò)」。優(yōu)點(diǎn)是調(diào)用少、成本低，擅長(zhǎng)宏觀歸因；缺點(diǎn)是信息量大，易錯(cuò)過(guò)細(xì)節(jié)。
Step-by-Step 方法：模擬人工調(diào)試，讓 LLM 逐輪分析每一步交互，逐步定位錯(cuò)誤。優(yōu)點(diǎn)是粒度細(xì)、定位準(zhǔn)；缺點(diǎn)是調(diào)用頻繁、成本高，且誤判可能累積。
Binary Search 方法：對(duì)日志進(jìn)行二分，逐步縮小范圍，最終鎖定出錯(cuò)步驟。在調(diào)用次數(shù)和定位精度之間取得平衡，適合長(zhǎng)日志。缺點(diǎn)是需要多輪交互，復(fù)雜度居中。值得注意的是，每種方法在準(zhǔn)確性、成本和粒度上各有權(quán)衡，沒(méi)有一種方法能在所有指標(biāo)上全面勝出。這三種方案共同構(gòu)成了自動(dòng)失敗歸因任務(wù)的初步解法庫(kù)，探索了從「一步到位」到「循序漸進(jìn)」再到「折中求解」的不同思路。作者在論文中詳細(xì)討論了它們各自的優(yōu)劣。

實(shí)驗(yàn)結(jié)果

作者在 Who&When 數(shù)據(jù)集上對(duì)上述方法進(jìn)行了系統(tǒng)評(píng)估，帶來(lái)了許多發(fā)人深省的發(fā)現(xiàn)：

整體表現(xiàn)有限：當(dāng)前方法效果仍較差。最佳模型在識(shí)別出錯(cuò) Agent 上準(zhǔn)確率僅約 53.5%，而準(zhǔn)確定位錯(cuò)誤步驟的準(zhǔn)確率更低，僅 14.2%，幾乎接近瞎猜。一些方法甚至表現(xiàn)不如隨機(jī)，顯示任務(wù)本身極具挑戰(zhàn)性。
各有所長(zhǎng)：不同方法擅長(zhǎng)不同子任務(wù)。All-at-Once 更擅長(zhǎng)識(shí)別「誰(shuí)」出錯(cuò)，Step-by-Step 更適合找出「何時(shí)」出錯(cuò)，而 Binary Search 表現(xiàn)居中，平衡調(diào)用成本和定位精度。

混合策略更優(yōu)但代價(jià)高：將多種方法結(jié)合（如先用 All-at-Once 找嫌疑 Agent，再用 Step-by-Step 精查）確實(shí)提升了準(zhǔn)確率，驗(yàn)證了方法間的互補(bǔ)性。但計(jì)算成本顯著增加，需在效果與資源之間權(quán)衡。

現(xiàn)有 SOTA 模型乏力： OpenAI o1 或者 DeepSeek R1，表現(xiàn)仍不理想，遠(yuǎn)未達(dá)到實(shí)用水平。可見(jiàn)，失敗歸因任務(wù)對(duì) AI 推理與理解能力的要求，遠(yuǎn)超當(dāng)前模型在常規(guī)任務(wù)中的表現(xiàn)，凸顯了其挑戰(zhàn)性和研究?jī)r(jià)值。

結(jié)論

自動(dòng)化失敗歸因有望成為多智能體 AI 系統(tǒng)開(kāi)發(fā)中的重要一環(huán)，它將幫助我們更深入地理解 AI 代理的失敗模式，將「哪里出錯(cuò)、誰(shuí)之過(guò)」從令人頭疼的謎題變成可量化分析的問(wèn)題。因此，我們可以在評(píng)估與改進(jìn)之間架起橋梁，打造更可靠、更智能的多 Agent 協(xié)作系統(tǒng)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心