成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

智能體自己出現問題自己找！首次提出“自動化失敗歸因”課題 | ICML2025 Spotlight

2025-06-11 13:44:44

人工智能新聞

賓夕法尼亞州立大學與杜克大學聯合Google DeepMind等機構的研究者們首次提出了“自動化失敗歸因”這一全新研究課題，并為此構建了首個專用基準數據集Who&When，開發和評估了多種自動化歸因方法。

近年來，LLM Multi-Agent系統引起廣泛關注。它們各顯神通，協同作戰解決復雜難題。然而，一頓操作猛如虎，最終結果卻“慘不忍睹”，一整個任務失敗。

這時候，你是不是頭都大了：究竟是哪個環節的哪個Agent出了岔子？

在日益復雜的Multi-Agent系統中，由于Agent之間自主協作、信息鏈條長，失敗不僅常見，而且診斷起來極其困難。如果我們不能快速定位失敗的根源，系統的迭代和優化就無從談起。

針對這個問題，賓夕法尼亞州立大學與杜克大學聯合Google DeepMind等機構的研究者們首次提出了“自動化失敗歸因”這一全新研究課題，并為此構建了首個專用基準數據集Who&When，開發和評估了多種自動化歸因方法。

這項工作不僅深刻揭示了該任務的復雜性，也為未來提升LLM Multi-Agent 系統的可靠性開辟了新的道路。

該論文獲ICML 2025 Spotlight，代碼與數據集已全部開源。

首次提出“自動化失敗歸因”課題

LLM驅動的Multi-Agent系統在很多領域展現出巨大潛力。然而，這些系統也存在著脆弱性：單個Agent的失誤，Agent之間的誤解，以及信息傳遞錯誤，都可能導致整體任務失敗。

目前，一旦系統“翻車”，開發者往往只能：手動“考古”，逐條翻閱冗長的交互日志，試圖找出問題所在；又或者依賴經驗，這種調試過程高度依賴開發者對系統和任務的深入理解。

這種“大海撈針”式的排錯方式，不僅效率低下，更嚴重阻礙了系統的快速迭代和可信賴度的提升。目前迫切需要一種自動化、系統化的方法來定位失敗原因，將“評估結果”與“系統改進”有效連接起來。

針對上述挑戰，這篇論文做出了開創性的貢獻：

首先，提出并定義新問題，首次將“自動化失敗歸因”形式化為一個具體的研究任務，明確了要找出導致失敗的責任Agent(failure-responsible agent)和決定性錯誤步驟(decisive error step)。

其次，他們構建首個數據集Who&When，該數據集包含了從127個LLMMulti-Agent系統中收集的廣泛失敗日志。這些系統既有算法自動生成的，也有人類專家精心打造的，確保了場景的真實性和多樣性。

每條失敗日志都配有細粒度的人工標注：

“誰”(Who)：哪個Agent是“罪魁禍首”。
“何時”(When)：決定性錯誤發生在交互的哪一步。
“為何”(Why)：對失敗原因的自然語言解釋。

最后，他們初步探索了“自動化歸因”方法?；赪ho&When數據集，論文設計并評估了三種不同的自動化失敗歸因方法：全局審視法(All-at-Once)，逐步偵查法(Step-by-Step)，二分定位法(Binary Search)。

實驗結果表明：這三種方法在準確性、成本和分析粒度上各有千秋，沒有一種能在所有指標上完勝。它們共同構成了自動化失敗歸因任務的初步“解法庫”。

All-at-Once：向LLM提供用戶查詢和完整的故障日志，要求其一次性識別出故障責任Agent以及發生決定性錯誤的具體步驟。它的優點是一步到位，成本較低，可能擅長宏觀判斷責任。但可能面臨“大海撈針”問題，難以從長上下文中精確定位具體錯誤步驟。

Step-by-Step：模擬人工調試，讓LLM從頭開始，一步步檢查交互日志，在每個環節判斷當前是否出現錯誤，直到揪出“真兇”。它如同剝洋蔥般細致，在定位具體錯誤環節上更具優勢；不過需要多次詢問模型，調用成本較高，且局部判斷的累積誤差可能導致“誤判”。

Binary Search：這是一種折中策略。將日志對半切分，利用LLM判斷錯誤發生在前半段還是后半段，然后不斷在確定的半段中遞歸“二分”，最終鎖定問題步驟和相關Agent。該方法總成本和效果介于前兩者之間。

實驗結果與主要發現

實驗在兩種設定下進行：LLM知道Multi-Agent系統需要解決的問題的真實答案（With Ground Truth）和不知道真實答案（Without Ground Truth）。主要使用GPT-4o，但也測試了其他模型（如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1）

通過在Who&When數據集上對上述方法進行了系統評估，得到了許多重要的發現：

首先，目前的方法離完美還差得很遠。即便是表現最好的單一方法，在識別“背鍋Agent”上的準確率也僅有約53.5%，而在準確定位“錯誤步驟”上，準確率更是低至14.2%。這意味著，最牛的策略也只能勉強過半猜對誰是“內鬼”，至于錯在哪一步，基本靠“蒙”。有些方法的表現甚至不如隨機猜測，足見任務之艱巨。

其次，不同方法在不同子任務上表現各異，沒有萬能冠軍。例如，All-at-Once方法對“Who”的判斷相對最好，能夠更準確地找出哪個Agent應該負責；而Step-by-Step方法在鎖定具體錯誤步驟（“When”）上效果更勝一籌，細粒度檢查帶來了優勢；Binary Search方法則各方面居中，表現中規中矩。由此體現出每種方案的權衡取舍：要么整體掃描擅長找“人”，要么逐步追查利于找“步驟”。

還有“組合拳”效果更優，但代價高昂：研究者嘗試了組合不同方法的策略（例如，先使用“全局法”初步判斷責任Agent，再運用“逐步法”精確定位錯誤步驟）。結果表明，這種混合方法確實能夠提升整體的歸因性能，但同時也帶來了顯著的計算成本增加。

最令人驚訝的是，即便是當前最先進的推理模型（如OpenAI o1和DeepSeek R1），在處理這一任務時也顯得力不從心。這進一步凸顯了“自動化失敗歸因”任務本身的固有難度，其對AI推理能力的要求超越了當前SOTA模型在常規任務上的表現。

此外，明確的推理提示至關重要：在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由，能起到提升性能的作用。

而上下文長度對性能構成制約，實驗還發現，隨著失敗日志上下文長度的增加，所有歸因方法的性能均呈現下降趨勢，尤其是在錯誤步驟定位的準確性方面更為敏感。

總結

“自動化失敗歸因”是Multi-Agent系統開發流程中不可或缺的一環。它將幫助我們更深入地洞察Multi-Agent的失敗模式，將“哪里出錯、誰之過”從令人頭疼的謎題，轉變為可量化分析的問題。通過架起“評估”與“改進”之間的橋梁，我們終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協作系統。

論文機構：賓夕法尼亞州立大學，杜克大學，Google DeepMind，華盛頓大學，Meta，南洋理工大學，俄勒岡州立大學

論文的共同第一作者是賓夕法尼亞州立大學的Shaokun Zhang和杜克大學的Ming Yin。

論文傳送門：https://arxiv.org/pdf/2505.00212

代碼傳送門：https://github.com/mingyin1/Agents_Failure_Attribution

數據集傳送門：https://huggingface.co/datasets/Kevin355/Who_and_When

責任編輯：張燕妮來源：量子位

自動化模型智能體

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：亚洲成人一区二区三区 | 精品国产精品国产偷麻豆 | 成人国产精品视频 | 国产精品揄拍一区二区 | 日韩电影免费在线观看中文字幕 | 国产精品久久久久久久久久久久 | 久久久久久久综合 | 国产精品久久久久久久久久免费 | www.色午夜.com | 亚洲三级在线观看 | www国产精| 男女羞羞视频大全 | www网站在线观看 | 国产精品亚洲综合 | 51ⅴ精品国产91久久久久久 | 欧美精品日韩 | 日韩中文在线观看 | 精品1区| 亚洲福利av| 日本精品久久 | 免费看一级毛片 | 久久人人网 | 一区二区三区视频播放 | 国产午夜精品一区二区三区 | 亚洲精品成人在线 | 欧美国产精品久久久 | 国产wwwcom | 日韩免费一区二区 | 久久久精品一区二区三区 | 91看片在线观看 | 一区二区不卡视频 | 日韩不卡视频在线 | 国产成人高清 | 久久男人 | 久久精品国产一区二区电影 | 91精品在线看 | 精品一区二区久久久久久久网精 | 国产精品日女人 | 在线观看精品视频网站 | 亚洲成人三级 | 蜜月va乱码一区二区三区 |