成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智能體自己出現問題自己找!首次提出“自動化失敗歸因”課題 | ICML2025 Spotlight

人工智能 新聞
賓夕法尼亞州立大學與杜克大學聯合Google DeepMind等機構的研究者們首次提出了“自動化失敗歸因”這一全新研究課題,并為此構建了首個專用基準數據集Who&When,開發和評估了多種自動化歸因方法。

近年來,LLM Multi-Agent系統引起廣泛關注。它們各顯神通,協同作戰解決復雜難題。然而,一頓操作猛如虎,最終結果卻“慘不忍睹”,一整個任務失敗。

這時候,你是不是頭都大了:究竟是哪個環節的哪個Agent出了岔子?

在日益復雜的Multi-Agent系統中,由于Agent之間自主協作、信息鏈條長,失敗不僅常見,而且診斷起來極其困難。如果我們不能快速定位失敗的根源,系統的迭代和優化就無從談起。

針對這個問題,賓夕法尼亞州立大學與杜克大學聯合Google DeepMind等機構的研究者們首次提出了“自動化失敗歸因”這一全新研究課題,并為此構建了首個專用基準數據集Who&When,開發和評估了多種自動化歸因方法。

圖片

這項工作不僅深刻揭示了該任務的復雜性,也為未來提升LLM Multi-Agent 系統的可靠性開辟了新的道路。

該論文獲ICML 2025 Spotlight,代碼與數據集已全部開源。

首次提出“自動化失敗歸因”課題

LLM驅動的Multi-Agent系統在很多領域展現出巨大潛力。然而,這些系統也存在著脆弱性:單個Agent的失誤,Agent之間的誤解,以及信息傳遞錯誤,都可能導致整體任務失敗。

目前,一旦系統“翻車”,開發者往往只能:手動“考古”,逐條翻閱冗長的交互日志,試圖找出問題所在;又或者依賴經驗,這種調試過程高度依賴開發者對系統和任務的深入理解。

圖片

這種“大海撈針”式的排錯方式,不僅效率低下,更嚴重阻礙了系統的快速迭代和可信賴度的提升。目前迫切需要一種自動化、系統化的方法來定位失敗原因,將“評估結果”與“系統改進”有效連接起來。

圖片

針對上述挑戰,這篇論文做出了開創性的貢獻:

首先,提出并定義新問題,首次將“自動化失敗歸因”形式化為一個具體的研究任務,明確了要找出導致失敗的責任Agent(failure-responsible agent)和決定性錯誤步驟(decisive error step)。

其次,他們構建首個數據集Who&When,該數據集包含了從127個LLMMulti-Agent系統中收集的廣泛失敗日志。這些系統既有算法自動生成的,也有人類專家精心打造的,確保了場景的真實性和多樣性。

每條失敗日志都配有細粒度的人工標注:

  • “誰”(Who):哪個Agent是“罪魁禍首”。
  • “何時”(When):決定性錯誤發生在交互的哪一步。
  • “為何”(Why):對失敗原因的自然語言解釋。

最后,他們初步探索了“自動化歸因”方法?;赪ho&When數據集,論文設計并評估了三種不同的自動化失敗歸因方法:全局審視法(All-at-Once),逐步偵查法(Step-by-Step),二分定位法(Binary Search)。

實驗結果表明:這三種方法在準確性、成本和分析粒度上各有千秋,沒有一種能在所有指標上完勝。它們共同構成了自動化失敗歸因任務的初步“解法庫”。

All-at-Once:向LLM提供用戶查詢和完整的故障日志,要求其一次性識別出故障責任Agent以及發生決定性錯誤的具體步驟。它的優點是一步到位,成本較低,可能擅長宏觀判斷責任。但可能面臨“大海撈針”問題,難以從長上下文中精確定位具體錯誤步驟。

Step-by-Step:模擬人工調試,讓LLM從頭開始,一步步檢查交互日志,在每個環節判斷當前是否出現錯誤,直到揪出“真兇”。它如同剝洋蔥般細致,在定位具體錯誤環節上更具優勢;不過需要多次詢問模型,調用成本較高,且局部判斷的累積誤差可能導致“誤判”。

Binary Search:這是一種折中策略。將日志對半切分,利用LLM判斷錯誤發生在前半段還是后半段,然后不斷在確定的半段中遞歸“二分”,最終鎖定問題步驟和相關Agent。該方法總成本和效果介于前兩者之間。

實驗結果與主要發現

實驗在兩種設定下進行:LLM知道Multi-Agent系統需要解決的問題的真實答案(With Ground Truth)和不知道真實答案(Without Ground Truth)。主要使用GPT-4o,但也測試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)

通過在Who&When數據集上對上述方法進行了系統評估,得到了許多重要的發現:

首先,目前的方法離完美還差得很遠。即便是表現最好的單一方法,在識別“背鍋Agent”上的準確率也僅有約53.5%,而在準確定位“錯誤步驟”上,準確率更是低至14.2%。這意味著,最牛的策略也只能勉強過半猜對誰是“內鬼”,至于錯在哪一步,基本靠“蒙”。有些方法的表現甚至不如隨機猜測,足見任務之艱巨。

其次,不同方法在不同子任務上表現各異,沒有萬能冠軍。例如,All-at-Once方法對“Who”的判斷相對最好,能夠更準確地找出哪個Agent應該負責;而Step-by-Step方法在鎖定具體錯誤步驟(“When”)上效果更勝一籌,細粒度檢查帶來了優勢;Binary Search方法則各方面居中,表現中規中矩。由此體現出每種方案的權衡取舍:要么整體掃描擅長找“人”,要么逐步追查利于找“步驟”。

圖片

還有“組合拳”效果更優,但代價高昂:研究者嘗試了組合不同方法的策略(例如,先使用“全局法”初步判斷責任Agent,再運用“逐步法”精確定位錯誤步驟)。結果表明,這種混合方法確實能夠提升整體的歸因性能,但同時也帶來了顯著的計算成本增加。

圖片

最令人驚訝的是,即便是當前最先進的推理模型(如OpenAI o1和DeepSeek R1),在處理這一任務時也顯得力不從心。這進一步凸顯了“自動化失敗歸因”任務本身的固有難度,其對AI推理能力的要求超越了當前SOTA模型在常規任務上的表現。

圖片

此外,明確的推理提示至關重要:在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由,能起到提升性能的作用。

圖片

而上下文長度對性能構成制約,實驗還發現,隨著失敗日志上下文長度的增加,所有歸因方法的性能均呈現下降趨勢,尤其是在錯誤步驟定位的準確性方面更為敏感。

圖片

總結

“自動化失敗歸因”是Multi-Agent系統開發流程中不可或缺的一環。它將幫助我們更深入地洞察Multi-Agent的失敗模式,將“哪里出錯、誰之過”從令人頭疼的謎題,轉變為可量化分析的問題。通過架起“評估”與“改進”之間的橋梁,我們終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協作系統。

論文機構:賓夕法尼亞州立大學,杜克大學,Google DeepMind,華盛頓大學,Meta,南洋理工大學,俄勒岡州立大學

論文的共同第一作者是賓夕法尼亞州立大學的Shaokun Zhang和杜克大學的Ming Yin。

論文傳送門:https://arxiv.org/pdf/2505.00212

代碼傳送門:https://github.com/mingyin1/Agents_Failure_Attribution

數據集傳送門:https://huggingface.co/datasets/Kevin355/Who_and_When

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-03 08:26:00

智能體LLM開發

2025-06-03 09:08:00

2025-05-15 13:40:13

數據訓練模型

2025-06-06 09:02:00

2025-06-23 08:57:00

2025-05-19 08:35:00

2025-05-07 13:48:48

AIGC生成機器人

2025-05-19 08:30:00

2025-05-07 13:49:19

模型AI架構

2025-05-23 00:01:00

AIDify智能體Java

2025-05-28 11:42:14

模型框架AI

2025-05-14 13:23:19

數據模型AI

2025-06-03 14:17:18

WebDancerAgenticAI

2025-05-29 07:02:00

2025-06-30 08:36:00

AI模型強化學習

2021-11-12 10:19:00

CIOIT自動化戰略

2025-07-02 09:21:30

2010-08-24 10:11:02

虛擬化部署

2021-04-19 11:37:20

智能自動化物聯網IOT

2024-12-17 11:56:17

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人一区二区三区 | 精品国产精品国产偷麻豆 | 成人国产精品视频 | 国产精品揄拍一区二区 | 日韩电影免费在线观看中文字幕 | 国产精品久久久久久久久久久久 | 久久久久久久综合 | 国产精品久久久久久久久久免费 | www.色午夜.com | 亚洲三级在线观看 | www国产精| 男女羞羞视频大全 | www网站在线观看 | 国产精品亚洲综合 | 51ⅴ精品国产91久久久久久 | 欧美精品日韩 | 日韩中文在线观看 | 精品1区| 亚洲福利av| 日本精品久久 | 免费看一级毛片 | 久久人人网 | 一区二区三区视频播放 | 国产午夜精品一区二区三区 | 亚洲精品成人在线 | 欧美国产精品久久久 | 国产wwwcom | 日韩免费一区二区 | 久久久精品一区二区三区 | 91看片在线观看 | 一区二区不卡视频 | 日韩不卡视频在线 | 国产成人高清 | 久久男人 | 久久精品国产一区二区电影 | 91精品在线看 | 精品一区二区久久久久久久网精 | 国产精品日女人 | 在线观看精品视频网站 | 亚洲成人三级 | 蜜月va乱码一区二区三区 |