成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

七個月翻一番!AI Agent能力飆升,METR報告揭示指數級進化規律

人工智能 新聞
報告指出:在軟件開發、數學競賽、科學問答等任務中,agent已能完成相當于人類花費50–200分鐘才能完成的任務,并且這種能力還在快速提升——大約每2–6個月就能翻一番。

Agent能力每7個月翻一番!

根據非營利研究機構METR最新發布的報告,這一規律已在9項基準測試中得到了驗證。

這些任務涉及編程、數學、計算機使用、自動駕駛等領域,表明大模型正在不斷向著高度自動化邁進。

圖片

報告指出:在軟件開發、數學競賽、科學問答等任務中,agent已能完成相當于人類花費50–200分鐘才能完成的任務,并且這種能力還在快速提升——大約每2–6個月就能翻一番

在計算機操作任務中,雖然任務時長較短,但增長率與軟件開發等任務一致。

Agent在自動駕駛任務的性能增長速度則較慢,約20個月翻一番。

在視頻理解任務中,模型能夠在時長1小時的視頻上取得50%的成功率。

作為一家致力于研究前沿人工智能系統能力及其風險的研究團隊,METR此次的報告又進一步拉近了AI自主化的時間線,快來和我們看看報告有哪些內容吧。

Agent的摩爾定律

在此前的測試中,METR將評估范圍聚焦于軟件開發和研究類任務,并發現AI agent的能力呈現出一種“摩爾定律”式的增長趨勢——平均每七個月,其可完成任務的time horizon就會翻一番。

而在最新報告中,METR將這一評估方法拓展至更廣泛的領域,并繼續追問一個關鍵問題:AI的能力,是否能在更廣泛的任務中,以time horizon翻倍的方式不斷躍升?

不過我們首先要問的是,什么是time horizon?

舉例來說,人類平均花30分鐘完成一個任務,AI如果能在這類任務上有一半成功的概率,那就說它的time horizon是30分鐘。如果它成功率還遠高于一半,例如達到80%,那說明它其實能勝任更長、更復雜的任務。

概括地說,time horizon就是agent在任務上可穩定完成的時間跨度。

由于time horizon越長≈任務越難≈需要更多策略推理與計劃能力≈智能體的智能水平越高,所以time horizon的翻倍也被稱為agent的摩爾定律。

由于AI在不同任務中的能力差別極大,所以現在的問題是:這個指數級增長規律,會在其他領域也成立嗎?

如何跨領域衡量time horizon?

為了證明上面的問題,報告選取了9個benchmark,包括軟件開發(METR?HRS、SWE?bench)、計算機使用(OSWorld、WebArena)、數學競賽(Mock?AIME、MATH)、編程競賽(LiveCode-Bench)、科學問答(GPQADiamond)、視頻理解(Video?MME)、自動駕駛(Tesla?FSD)和機器人仿真(RLBench)。

圖片

對每個benchmark,METR構造了概率模型來估算agent的time horizon。報告采用最大似然估計(MLE)或簡化估計方法,處理不同benchmark的標簽粒度以估算出每個領域AI隨時間的time horizon增長曲線。

圖片

值得注意的是,不同基準測試的time horizon邊界相差超過100倍。許多推理和編碼基準測試的集群時間都在1小時或以上,但在計算機的使用時間(OSWorld、WebArena)僅為約2分鐘,而這可能源于agent在使用鼠標時發生的誤觸。

圖片

研究發現:智能體能力按月翻番

除了我們開頭提到的智能體的能力變化,報告還測試了當前主流的幾家大模型的能力。例如,像o3這樣的前沿模型在METR任務上的表現一直高于趨勢水平,翻倍時間快于7個月,在9個基準測試的翻倍時間中位數約為4個月(范圍為2.5至17個月)。

圖片

最后,time horizon并非對于所有的基礎測試中都重要。由于有些基準中難題的難度要遠大于簡單題,而在另一些基準中,難題卻和簡單題相差無幾。因此,對于agent來說,在這些基準測試中time horizon并不能完全反映其性能。

例如,LeetCode(LiveCodeBench)和數學問題(AIME)的難度要遠高于簡單問題,但長視頻上的Video-MME問題并不比短視頻上的難多少。

圖片

可見,agent的性能并不只是看“會更多技巧”,而是看是否能處理更長、更復雜任務

從幾秒、幾分鐘,到幾十分鐘、幾小時,agent的可處理范圍正在跨越級別提升;如果翻倍趨勢持續,未來幾年內可能看到AI完成“幾天→幾周”的任務成為可能。

總結這一研究可以看到一個很清楚的規律:從代碼推理到數學競賽,從GUI控制到自動駕駛,沒有一個任務域顯示出智能增長的“乏力”。在多數場景中,AI正全速向更大跨度、更深記憶、更復雜規劃演進。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-30 14:12:36

AI智能體編程

2023-02-27 15:07:46

ChatGPT半導體

2025-07-15 08:50:00

2022-02-17 10:16:52

LPWA物聯網5G

2010-02-23 10:16:02

IBM Power7

2009-03-20 09:05:00

IE8瀏覽器速度

2013-07-18 10:03:06

TypeScript

2009-02-23 09:57:35

云計算占有率IDC數據

2013-12-04 16:32:15

IE11IE瀏覽器

2021-09-07 14:28:59

物聯網網絡攻擊安全

2012-02-20 09:58:41

LTEHSPA

2022-09-22 15:34:05

網絡安全

2020-08-28 12:24:26

人工智能AI零售

2022-09-22 15:31:45

網絡安全智能建筑

2023-12-21 18:01:58

Docker容器部署

2024-02-23 15:13:59

2015-06-18 14:59:05

2023-11-01 18:01:02

改進WakaTime編程

2015-02-05 11:16:07

2009-02-16 12:20:02

面試失業職業生涯
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美性另类| 黄色国产在线视频 | 亚洲视频一区二区三区 | 国产999精品久久久 午夜天堂精品久久久久 | 亚洲精品乱码久久久久久9色 | 五月综合色啪 | 国产精品视频一区二区三区 | 欧美午夜精品 | 亚洲婷婷六月天 | 天天搞天天操 | 精精国产xxxx视频在线播放 | 99精品国产一区二区青青牛奶 | 黄色毛片在线看 | 国产视频福利一区 | 男女视频在线观看网站 | 99久久精品国产一区二区三区 | 久草中文在线 | 不卡一区二区三区四区 | 久久久久久毛片免费观看 | 我要看黄色录像一级片 | 久久久久国产一区二区 | 一区二区视频在线 | 日韩在线免费视频 | 欧美日韩国产一区二区三区 | 欧美成人精品一区二区男人看 | 在线中文字幕视频 | 爱爱视频日本 | 色橹橹欧美在线观看视频高清 | 久久久免费电影 | 国产在线一区二区三区 | 国产高清在线精品一区二区三区 | 久久久99精品免费观看 | 天天爽夜夜爽精品视频婷婷 | 97超碰人人| 日韩在线不卡 | 黄网站涩免费蜜桃网站 | 91精品久久久久久久久中文字幕 | 久久91av| 欧美精品一区二区三区蜜臀 | 999re5这里只有精品 | 久久91|