成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大伯克利聯手“拷問”大模型:最強Agent也才40分!新基準專治“不聽話”的AI分析師

人工智能 新聞
這項名為IDA-Bench的新基準,就是為了模擬真實世界中這種“邊想邊改”的分析場景而生。

給大模型當老師,讓它一步步按你的想法做數據分析,有多難?

結果是,連Claude-3.7和Gemini-2.5 Pro這樣的頂尖選手,都開始“不聽話”了。

在一個全新的測試基準中,它們面對多輪、不斷演進的指令,最終的任務成功率最高僅有40%。

這項名為IDA-Bench的新基準,就是為了模擬真實世界中這種“邊想邊改”的分析場景而生。

圖片

它不再是給模型一道題,讓它一口氣算完;而是模擬一位真實的數據分析師,在對話中不斷給出新指令,考察Agent在多輪交互中的真實能力。

可以說,專治各種“自作主張”和“一意孤行”的AI。

值得一提的是,這項工作由一支星光熠熠的團隊打造,匯集了北京大學與加州大學伯克利分校的頂尖學者,其中不乏機器學習泰斗Michael I. Jordan教授,仿真科學領域專家鄭澤宇 (Zeyu Zheng) 副教授,以及ACM/IEEE Fellow鄧小鐵 (Xiaotie Deng) 教授的身影。

“不聽話”的AI,問題出在哪?

目前,我們看到的很多大模型數據分析工具,比如OpenAI、Gemini和Claude的網頁應用,能力已然非常強大。

但現有的評估基準,大多側重于單輪互動:用戶給出一個明確的、預設好的任務,然后看Agent能否成功執行。可現實世界的數據分析,遠非如此。

真實的數據分析師,工作流程是迭代式探索性的。他們會先查看數據分布,再決定如何處理異常值;會根據初步結果,調整后續的分析策略。這些決策充滿了基于領域知識的“主觀性”,指令也是一步步演進的。

現有基準恰恰忽略了這種動態交互過程,因此無法全面評估Agent在真實協作場景下的可靠性。

IDA-Bench:給AI一場真實的“隨堂測驗”

為了解決這一痛點,IDA-Bench應運而生。它旨在忠實地反映真實數據分析的主觀性和交互性特征。

整個測試框架包含四大核心組件:

  • 指令材料 (Instruction Materials):從真實的、復雜的Kaggle數據分析項目(Python notebooks)中提取,包含背景知識、分析目標和專家的“主觀洞察”。
  • 模擬用戶 (Simulated User):由一個大模型扮演,它會參照指令材料,像真人一樣逐步向Agent下達指令,甚至會提出模糊或不斷變化的要求。
  • Agent:即被測試的大模型,它的任務是嚴格遵循“用戶”的指令,通過編寫和執行代碼來完成任務。
  • 沙盒環境 (Sandbox Environment):一個安全隔離的環境,Agent可以在其中執行代碼、訪問數據,并像在Jupyter中一樣保持上下文。

圖片

△圖1:(左) IDA-Bench的測試場景 ,(右) IDA-Bench中的任務軌跡示例

為了確保任務的真實性和時效性,防止數據污染,IDA-Bench的構建流程完全自動化。它能持續從Kaggle上發布的最新項目中提取任務,經過篩選、預處理和人工檢查后,生成新的測試用例。

圖片

△圖2: IDA-Bench的自動化構建流程

Agent慘遭滑鐵盧,最高分僅40

在這樣一套“嚴刑拷打”下,各大模型紛紛現出原形。

初步評估結果顯示,即便是最先進的大模型,成功率也不足50%。

具體來看,Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表現位列第一梯隊,但其“基準達成率”(即結果達到或超過人類基準)也僅為40%。

而DeepSeek系列中,作為指令模型的DeepSeek-V3(24%)表現明顯優于其“思考型”模型DeepSeek-R1(12%),這揭示了一個核心挑戰:在遵循指令和自主推理之間取得平衡,對當前Agent來說非常困難。

圖片
△表1: 各大模型在IDA-Bench上的表現

此外,Agent們在任務中還會犯下各種低級錯誤,導致提交結果無效。其中最主要的原因是根本沒有生成提交文件,這往往源于模型的“幻覺”。

圖片

“自信”的Claude vs “謹慎”的Gemini

深入分析失敗案例,研究團隊發現不同模型展現出了迥異的“性格”。

Claude-3.7DeepSeek-R1表現得像個“過度自信”的實習生。

它們不怎么遵循用戶的具體指令,而是主動推進分析流程,結果常常因為“自作主張”而錯過了關鍵步驟和信息。比如,用戶建議用一種新方法改進模型,Claude-3.7不等嘗試就直接否定,并提交了之前效果較差的結果。

相比之下,Gemini-2.5-Pro則像一個“過度謹慎”的助理。它每走一步都要反復向用戶尋求確認,有時一個簡單的數據清洗操作能來回溝通30輪,最終因超過回合數限制而任務失敗。

  • 幻覺或夸大:許多Agent會聲稱執行了并未進行的操作,比如號稱“優化”了參數,但實際只是隨機設置;更有甚者,憑空捏造從未生成的代碼和不存在的數字結果。
  • 格式錯誤:提交文件的列名大小寫弄反,或數據類型不對(如在二分類任務中,要求提交標簽“0”或“1”,模型卻提交了標簽為“1”的概率),都是常見的低級錯誤。
  • 固守首次嘗試:一些Agent在初期會做出一個簡單粗暴的嘗試(比如在預測任務中,模型在初期會直接用訓練集的中位數作為預測值),然后就“固執己見”,在后續交互中不再根據新指令開發更復雜的模型。
  • 級聯錯誤:當一個代碼塊中途執行失敗時,Agent有時會“假裝”它成功了,導致后續代碼塊因為引用不存在的變量而出錯,引發連鎖反應。

這些發現凸顯了當前LLM Agent在真正成為可靠數據分析助手之前,仍需在理解、遵循和交互能力上進行大量改進。

論文鏈接:
https://arxiv.org/abs/2505.18223

項目主頁:
https://github.com/lhydave/IDA-Bench

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-08-17 13:51:14

2025-05-26 08:30:00

2024-09-11 13:04:53

2009-04-15 20:56:40

Linux系統用戶

2022-03-28 13:25:42

AI扶貧機器之心

2023-05-26 17:20:29

模型工具

2022-07-15 14:57:43

AI語言

2009-04-13 12:05:09

Linux服務器用戶

2023-05-04 14:55:02

模型AI

2025-05-28 18:43:17

AI模型數據

2023-04-04 13:17:00

GPUCMU開源

2024-11-26 13:40:00

2025-05-15 09:10:00

2025-02-14 09:20:00

模型數據訓練

2023-11-14 07:47:42

IGN擴散模型

2023-04-07 09:28:31

模型訓練

2023-05-19 13:34:02

2025-04-18 08:42:52

模型推理AI

2024-03-04 08:15:00

2024-09-25 09:37:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区久久精品 | 激情五月婷婷综合 | 中文字幕乱码一区二区三区 | 日韩在线 | 亚洲网站在线观看 | 日韩精品在线播放 | 国产精品免费观看 | 欧美成人免费在线视频 | 国内自拍偷拍 | 亚洲成av人片在线观看 | 黑色丝袜三级在线播放 | 日韩欧美一级精品久久 | 国产精品免费看 | 亚洲欧洲成人av每日更新 | 99国产精品久久久 | 欧美色图综合网 | 亚洲一区视频在线 | 国产精品一区二区三区在线播放 | 精品成人免费视频 | 国产9999精品 | 精品久久久久久亚洲国产800 | 亚洲精品在线视频 | 久草视频在线播放 | 日韩福利电影 | 操射视频 | 天天爽天天干 | 国产69久久精品成人看动漫 | 国产 日韩 欧美 制服 另类 | 日韩欧美在线一区 | 日韩精品视频在线免费观看 | 男人的天堂久久 | av一级一片 | 羞羞视频网站免费看 | 亚洲一区二区三区在线播放 | 亚洲444kkkk在线观看最新 | 三级在线视频 | 久久精品欧美一区二区三区不卡 | 久久国产综合 | 日韩国产精品一区二区三区 | 国产精品女人久久久 | 成人国产精品视频 |