成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<cite id="4ieoy"></cite>

<menu id="4ieoy"></menu>

<bdo id="4ieoy"><dd id="4ieoy"></dd></bdo>

<button id="4ieoy"><code id="4ieoy"></code></button>

<fieldset id="4ieoy"><dd id="4ieoy"></dd></fieldset>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

人類贏了！OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類，上演機器學習屆“神仙打架” 原創

發布于 2025-4-3 13:37

瀏覽

0收藏

編輯 | 李美涵

出品 | 51CTO技術棧（微信號：blog51cto）

深夜，OpenAI再次發力Agent領域，開源了一個全新的AI Agent評測基準—— PaperBench。

這是一個用于評估 AI 智能體復現最前沿 AI 研究能力的基準測試。智能體需從零開始復現 20 篇 ICML 2024 Spotlight 和 Oral 論文，包括理解論文貢獻、構建代碼庫并成功執行實驗。

人類贏了！OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類，上演機器學習屆“神仙打架”-AI.x社區圖片

看得出，OpenAI新的基準測試PaperBench，無疑是想將現在DeepResearch的功能更近一步，劍指AI科學家、甚至諾獎級AI。

那么AI搞科研的水平目前咋樣呢？

OpenAI也用這個最新基準測試了一把目前最頂尖的LLM，結果就是——人類并沒有一敗涂地！“頂尖的“人工智能博士”嘗試了 PaperBench 的一個子集，結果發現模型的性能尚未超過人類基線。”

有趣的是，在OpenAI家的基準上，表現最好的居然是死對頭Anthropic。使用開源 scaffolding 框架的 Claude 3.5 Sonnet（新版），其平均復現得分為 21.0%。

OpenAI指出，智能體的失敗顯示出當前模型在執行長時間、多步驟任務上的弱點。盡管它們能規劃多步驟計劃、寫出流程，卻很難真正一步步執行這些計劃。

OpenAI已經開源PaperBench代碼，旨在推動未來對 AI 智能體工程能力的研究：

開源地址：

??https://github.com/openai/preparedness/tree/main/project/paperbench??

論文閱讀：

??https://openai.com/index/paperbench/??

那么，我們來看看PaperBench究竟指明了Agent進化的那些方向，又是如何構成的？

1.PaperBench層級評分樹：包含 8,316可單獨評分的子任務

為實現客觀評估智能體能力，OpenAI整了一套“套娃式”的評分標準。

將每個復現任務按層次細分為多個小任務，并配有明確的評分標準。整個 PaperBench 共包含 8,316 個可單獨評分的子任務。這些評分標準專業到是由OpenAI成員和每篇 ICML 論文的作者共同開發，那真的是很權威了。

那怎么能方便地給每個智能體評分呢？——外包給AI，OpenAI開發了一個基于大語言模型（LLM）的自動評分系統，AI評估AI。

然后又套娃了一把：OpenAI又另外構建了一個專門的評分基準來評估該評分系統本身的性能，驗證下這個 LLM 評委到底靠不靠譜。

我們來看一下這個層級樹具體如何為AI打分：

人類贏了！OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類，上演機器學習屆“神仙打架”-AI.x社區圖片

層級結構說明：

頂層節點（例如圖中最上方 “.55”）表示某個大的復現目標，比如“成功實現某個算法”。
中間節點表示這個目標的子目標，比如“能正確實現 Transformer 的結構”。
底層葉子節點（藍色或紅色圓圈）是可以直接打分的最小任務單元，比如“實現了 Attention 模塊”、“設置了正確的超參數”等。

圖中右邊的文字說明：

每一層越往下，要求越具體（finer granularity）。
所有的葉子節點都由評審（LLM）逐個打分（1 表示通過，0 表示失?。?。
每個子任務都有一個權重（灰色數字），最終通過加權平均把得分向上傳遞，得出總得分。

以"測試時模型自適應"論文為例，其評分樹結構如下：

人類贏了！OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類，上演機器學習屆“神仙打架”-AI.x社區圖源：知乎@北方的郎

2.智能體搞科研：被發1000美元的OpenAI API額度，和一個工具箱

在OpenAI的論文中提到了測試環境：每個智能體都在一個 Ubuntu 24.04 的 Docker 容器中運行，該容器配備了一塊 A10 GPU。

智能體在容器內有一個本地工作目錄，其中包含：

論文的 PDF 和 Markdown 格式版本，
補充材料（addendum），
以及一份指令文本文件。

Docker容器可以訪問互聯網，方便智能體：

下載依賴包，
瀏覽網頁查找資料等。

還為智能體提供了：

HuggingFace 和 OpenAI 的 API key，
每個 key 預裝了 1000 美元額度，用于智能體在運行過程中調用這些服務（例如，如果某篇論文需要用到 OpenAI 的微調 API 來運行實驗）。

此外，OpenAI還使用了一個基于 Inspect AI 基礎智能體的簡單智能體腳手架，稱為 BasicAgent，并用 nanoeval 來調度運行。

這個腳手架會循環調用各種工具，直到模型選擇自行終止，或時間用完為止。

在運行過程中，智能體還獲得了一個原始工具箱，可以調用幾種工具：

一個 Bash shell 命令執行工具，
一個 Python 代碼執行工具，
一個網頁瀏覽器工具，
一個分頁文件閱讀器（用于閱讀長文檔）。

3.人機對照：AI在前24小時表現優于人類，然后被反超

我們先來看看AI對戰的結果：

OpenAI在所有 20 篇論文上評估了以下模型，每篇論文運行 3 次：GPT-4o、 o1、 o3-mini、 DeepSeek-R1、 Claude 3.5 Sonnet（新版）、 Gemini 2.0 Flash參與了這次競賽。

OpenAI還報告說，原本也想評估 Claude 3.7 Sonnet，但由于 Anthropic API 的調用限制，未能完成實驗。小編想，如果測成了Anthropic的評分可能更高？

來看一下這個榜單，其中Claude 3.5 Sonnet 表現最亮眼，得分 21.0%；R1的表現也算不錯，在其中位列第三名。

人類贏了！OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類，上演機器學習屆“神仙打架”-AI.x社區圖片

通過手動查看了多個智能體的運行日志，OpenAI發現：

智能體經常偷懶擺爛：除了 Claude 3.5 Sonnet 外，其他模型經常提前結束任務，說要么“已經完成了復現”，要么“遇到了無法解決的問題”。
策略不合理：所有模型都沒有制定出在有限時間內復現論文的合理策略。
工具調用有問題：o3-mini 經常在工具使用上失敗。（這也是o3-mini慘敗的重要原因，只能動腦不能動手）

再來看這個基準上的人機對戰結果：

人類贏了！OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類，上演機器學習屆“神仙打架”-AI.x社區圖片

雖然人類三小時后取勝了，但是看看OpenAI招募的測試員，還是感覺一陣冷汗了：參與和頂尖智能體PK的 8 個人類，均為正在攻讀或已完成機器學習博士（PhD）的人來構建人類基線（human baseline）。（注：他們來自伯克利、劍橋、卡內基梅隆、哥倫比亞、康奈爾、普渡、維也納理工、麻省大學阿默斯特）

這次只在 4 篇論文上建立人類基線。每篇論文安排 3 次獨立的復現實驗，每次由參與者中最有信心復現該論文的人來執行。

與此同時，OpenAI也對 o1 模型（使用 IterativeAgent）進行了一個 36 小時擴展實驗，并在第 1、3、6、12、36 小時分別保存快照。

我們將這個 o1 的 36 小時版本與人類的表現隨時間變化進行了對比。發現：

在復現初期，o1 模型表現超過人類基線；
但在 24 小時后，人類的表現開始反超 AI。

這一趨勢與 Wijk 等人（2024）以前的研究一致：AI 初期輸出快、人類后勁更強。

特別值得注意的是，o1 的得分在第一小時后幾乎就停滯了，說明它雖然能迅速產出大量代碼，但難以在更長時間內有效策略性地優化方案。

相比之下，人類在初期得分提升緩慢，可能是因為他們花時間認真理解論文內容。

4.寫在最后：智能體離“又好又便宜”還差很遠

OpenAI 的 PaperBench，像是一場酣暢淋漓的機器學習界“神仙打架”——AI 和頂尖人類選手打得有來有回，而最終人類的反超，也像是武俠電影結尾中的神來一筆。

這次“AI 智能體 vs 滿級 PhD 工程師”的對決，既展現了智能體的潛力，也提醒我們：真正的科研復現，還遠不只是“寫出代碼”這么簡單。

而另一方面，智能體也遠不便宜。就在上周，負責維護 ARC-AGI 的 Arc Prize 基金會更新了 o3 的計算成本：該機構最初估計，在測試中表現最好的 o3 配置（即 o3 high）解決一道 ARC-AGI 題目的成本約為 3,000 美元。最近已經更正到高達 30,000 美元。而此前OpenAI 也被外媒曝出可能會為某些 AI Agent 收取每月 2 萬美元的企業級費用。更讓人警醒的是，o3 high 為了完美答對一道題，平均嘗試了 1024 次。

當下的 AI 模型也許足夠強，但想高效、可控地替代人類，還沒那么快。

本文轉載自??51CTO技術棧??，作者：李美涵

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

ICCV 2023 Oral | 人類語言演化中學習最優圖像顏色編碼

爛漫樹林 ? 3194瀏覽 ? 0回復
基于數據正則化自博弈強化學習的人類兼容型自動駕駛

AIGC最前線 ? 3825瀏覽 ? 0回復
AI終結外語學習？未來人類只有母語一種語言

duhorse ? 3327瀏覽 ? 0回復
AI Agent：人類工作范式的顛覆者還是人機協作新范式？

Baihai_IDP ? 5136瀏覽 ? 0回復
Flames 安全評測基準：大語言模型的對齊效果如何？

戀戀青鳥 ? 4192瀏覽 ? 0回復
微笑機器人臉由活體人類皮膚細胞打造，你怕了沒

duhorse ? 2239瀏覽 ? 0回復
語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員

angel ? 2760瀏覽 ? 0回復
國家隊AI“大戰”巴黎

51CTO技術棧 ? 2998瀏覽 ? 0回復
又見神仙打架，全面超越快手可靈？智譜AI聯合清華發布CogVideoX | 技術報告解析

angel ? 3962瀏覽 ? 0回復
剛剛，OpenAI發布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2842瀏覽 ? 0回復
人類如何通過機器智能增強認知過程和行為

51CTO內容精選 ? 2331瀏覽 ? 0回復
多模態大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 9896瀏覽 ? 0回復
谷歌發布雙思維AI Agent：像人類一樣思考，重大技術突破！

Aceryt ? 2275瀏覽 ? 0回復
大語言模型評測中的評價指標：方法、基準和最佳實踐

芝士AI吃魚 ? 9625瀏覽 ? 0回復
OpenAI亮劍自主Agent？網友點評：這不Siri干的活嗎？反駁：不要低估這新功能，接管人類的智能體AI已在路上

51CTO技術棧 ? 2324瀏覽 ? 0回復
如何正確看待 AI 的推理能力？走出人類中心主義

Baihai_IDP ? 3090瀏覽 ? 0回復
OpenAI開源首個Agent SDK，反擊Manus

Aceryt ? 2372瀏覽 ? 0回復
AI Agent評測基準大揭秘：智能體的“體檢標準”

AIGC新知 ? 2454瀏覽 ? 0回復
《自然》機器智能：人工智能與人類的思維不同維度，深度神經網絡如何“看待”世界，與人類有何不同？

xuxiangda ? 988瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

Devin聯合創始人：別搞多智能體系統！微軟和OpenAI鼓吹的代理構建理念大錯特錯！ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇： Gemini Canvas 全民玩瘋了！免費可用！谷歌：我們的TPU燙麻了，簡直火上澆油！皮查伊：我們是SOTA！

下一篇： Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數減一半，一張H100就能跑，還有巨獸2萬億參數模型！

社區精華內容

目錄

主站蜘蛛池模板：午夜三级视频 | 91av小视频| 国产精品视频一区二区三区 | 成人性视频在线 | 久久综合一区二区三区 | 四季久久免费一区二区三区四区 | 91欧美| 在线观看免费黄色片 | av片在线免费看 | 久久天堂网 | 欧美精品久久久 | 一区在线免费视频 | 亚洲精品福利在线 | 国产在线播 | 成人亚洲性情网站www在线观看 | 欧美a∨| 精品一区二区三 | 亚洲综合第一页 | 操亚洲 | 国产精品亚洲一区二区三区在线观看 | 色888www视频在线观看 | 精品国产乱码久久久久久丨区2区 | 91黄在线观看 | 一级欧美 | 国产一区二区三区久久久久久久久 | 亚洲欧美成人影院 | 亚洲成人网在线播放 | 久久久久久久一区二区三区 | 一区二区中文字幕 | 亚洲美乳中文字幕 | 国产亚洲精品一区二区三区 | 国产精品99久久久久久人 | 日本精品在线播放 | 国产精品入口久久 | 亚洲精品一区二区三区在线 | 中文字幕视频免费 | 国产在线视频一区二区 | 欧美日韩一区二区电影 | 中文字幕国产精品视频 | 久久精品欧美一区二区三区麻豆 | 超碰成人在线观看 |

<dfn id="8uy06"><noscript id="8uy06"></noscript></dfn>

<input id="8uy06"><pre id="8uy06"></pre></input>

<small id="8uy06"><rt id="8uy06"></rt></small>