成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI進(jìn)化時間表已現(xiàn)!LLM每7個月能力翻倍,2030年職場不復(fù)存在?

新聞
LLM正以前所未有的速度進(jìn)化:METR發(fā)現(xiàn),它們的智能每7個月就翻一番。到了2030年,一個模型可能只需幾小時,就能搞定人類工程師幾個月的工作。別眨眼,你的崗位或許已在倒計時中。

隨著大模型能力一路狂飆,各路測評基準(zhǔn)也遍地開花。

從經(jīng)典的MMLU、HellaSwag,到多模態(tài)方向的MMMU、MathVista,再到AGI風(fēng)格的Arena對決、Agent任務(wù)、Tool-use測試。

如何科學(xué)地衡量LLM在長時、復(fù)雜、真實世界任務(wù)中的能力,至關(guān)重要。

今年3月,METR發(fā)布重磅研究《Measuring AI Ability to Complete Long Tasks》,首次提出令人眼前一亮的新指標(biāo):

50%任務(wù)完成時間視野(50%-task-completion time horizon)

——也就是:AI能以50%成功率完成的任務(wù),人類通常需要花多久?

圖片

論文鏈接:https://arxiv.org/pdf/2503.14499

據(jù)此,METR展開了一系列研究,包括任務(wù)復(fù)雜度設(shè)定、人類基準(zhǔn)時間測量、多模型對比實驗到層層統(tǒng)計回歸建模。

最終,團(tuán)隊精準(zhǔn)量化了AI智力演進(jìn)速度,并拋出驚人預(yù)測:

按照目前增長速度,5年之后,大模型可能就能在一天內(nèi)自動完成原本需要人類數(shù)月才能完成的復(fù)雜任務(wù)。

別眨眼,LLM每7個月實力翻倍!

METR團(tuán)隊選出每一時間段的最強(qiáng)模型,建立了一個精確的「大事年表」,進(jìn)一步定量分析模型能力隨時間的增長情況。

圖片

結(jié)果顯示出清晰的指數(shù)增長趨勢:在過去的六年中,模型能力每7個月翻一番

圖中的陰影區(qū)域表示通過在任務(wù)家族、任務(wù)以及任務(wù)嘗試之間進(jìn)行分層自助法(hierarchical bootstrap),計算得出95%的置信區(qū)間

不過,這個指數(shù)增長趨勢非常陡峭,所以于對誤差有很高的容忍度。

即便絕對測量誤差達(dá)到10倍,能力到來的時間也僅會改變大約2年左右。

因此,團(tuán)隊對不同能力何時出現(xiàn)的預(yù)測基本不會出錯。

模型vs人類:用「人類耗時」測量大模型智力

METR這項研究的核心就是他們提出的這項指標(biāo):「任務(wù)完成時間視野」(task-completion time horizon)。

這個指標(biāo)相當(dāng)于給分別完成任務(wù)的人和AI加了個映射:

想象一組各不相同的任務(wù),人類完成這些任務(wù)分別需要不同的時間。

把這些任務(wù)交給AI模型去做,然后找出AI能以50%成功率完成的那一檔任務(wù)(但不考慮AI用的時間)。

然后對應(yīng)去看人類完成這一檔任務(wù)通常需要多長時間。

這個人類所需的時間,就是該模型的50%-task-completion time horizon,也即「任務(wù)完成時間視野」。

圖片

為了證明這個基準(zhǔn)的有效性,METR團(tuán)隊做了翔實的統(tǒng)計分析。

結(jié)果顯示,人類基線完成某項任務(wù)所需時間,與各模型在該任務(wù)上的平均成功率之間存在負(fù)相關(guān)關(guān)系

簡而言之,人做起來越慢,模型做起來越容易失敗。

并且,用指數(shù)模型擬合這個負(fù)相關(guān)趨勢效果很好

用模型成功率對人類完成時間的對數(shù)做回歸分析,算出的R2約為0.83,相關(guān)系數(shù)為0.91,這比不同模型之間平均成功率的相關(guān)系數(shù)還高。

圖片

因此,「以人類時間衡量任務(wù)難度」,這個指標(biāo)非常合理。

模型越新,任務(wù)越難:能力進(jìn)化有跡可循

證明了這個指標(biāo)的有效性,接下來還要看看各個模型在這個指標(biāo)上的表現(xiàn)。

團(tuán)隊進(jìn)一步檢驗了不同模型能完成的任務(wù)所對應(yīng)的人類耗時。

結(jié)果相當(dāng)符合直覺:

2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需寫幾句話的簡單任務(wù)。

而對于人類耗時超過1分鐘的任務(wù),它們則迅速敗下陣來。

圖片

相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)則可以完成一些人類要花數(shù)小時的任務(wù),甚至在十幾小時的超長程任務(wù)上還能保持一定的成功率。

圖片

效率碾壓人類:2030年警告已拉響

按照「7個月翻一番」的這個速度下去,METR團(tuán)隊得到了一個驚人結(jié)論:

到2030年,最先進(jìn)的LLM有望以50%的可靠性,完成一個每周工作40小時的人類工程師花一個月才能完成的任務(wù)。

更令人毛骨悚然的是, LLM的速度可能遠(yuǎn)超人類——也許只需幾天,甚至幾小時。

到2030年,LLM可能已經(jīng)能輕松創(chuàng)辦一家公司、寫出一部像樣的小說,或是大幅改進(jìn)已有的大模型。

AI研究員Zach Stein-Perlman在博客中寫道,擁有此類能力的LLM的問世將帶來巨大的影響,無論是潛在好處還是潛在風(fēng)險」。

圖片

Kinniment承認(rèn),LLM能力翻倍的速度讓人害怕,仿佛科幻片災(zāi)難前奏。

但她也表示,在現(xiàn)實中也可能有很多因素影響和減緩這種進(jìn)展。AI再聰明,仍然可能受到硬件、機(jī)器人技術(shù)等瓶頸的掣肘。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-08-06 11:09:03

云計算IT

2023-07-04 13:39:17

2009-10-16 10:53:15

2021-05-21 11:04:13

手機(jī)5G屏幕

2012-02-14 10:02:05

Linux峰會時間表

2009-09-02 08:44:30

2024-04-15 12:43:26

人工智能LLM

2009-06-23 18:06:22

微軟Windows 7RTM

2015-06-05 10:07:41

BeOSiOS

2025-04-30 14:12:36

AI智能體編程

2025-03-20 14:18:57

AI算法模型

2020-01-16 08:21:59

谷歌Android開發(fā)者

2015-03-30 15:00:34

PHPPHP五件事

2022-01-18 19:42:01

Chrome瀏覽器Edge

2009-08-14 14:45:47

802.11n標(biāo)準(zhǔn)Wi-Fi無線網(wǎng)絡(luò)

2024-12-02 10:15:00

LLM模型

2017-05-03 10:38:57

2020-12-07 13:05:10

AI

2018-10-31 17:26:26

微軟機(jī)器人人工智能

2009-07-15 08:30:51

微軟Windows 7發(fā)布時間表
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91看片免费 | 97久久精品午夜一区二区 | 欧美日韩在线播放 | 欧美日韩中文字幕在线 | 日韩成人精品一区二区三区 | 国产精品成人一区二区三区 | 成人a视频在线观看 | 中文字幕亚洲区一区二 | 国产精品性做久久久久久 | 成人福利片 | 久久99精品久久久 | 国产高清视频 | 欧美亚洲国语精品一区二区 | 国产精品久久久久久久久久久久冷 | 日韩精品视频在线 | 免费观看毛片 | 毛片一级片| 久久久久久久久久一区 | 91九色在线观看 | 欧美一区二区三区视频在线 | 日韩久草 | 亚洲免费在线视频 | 久久小视频 | 热99在线| 日韩中文字幕高清 | 国产精品免费看 | 黄网站在线播放 | 亚洲品质自拍视频 | 日韩视频一区二区三区 | 日韩欧美在| 欧美日韩一区二区三区视频 | 午夜精品一区二区三区免费视频 | 熟女毛片 | 日韩精品成人 | 怡红院成人在线视频 | 黄色一级特级片 | 成人欧美一区二区三区色青冈 | 日本激情视频中文字幕 | 亚洲一区二区三区四区五区中文 | 成人影院网站ww555久久精品 | 成人免费一区二区三区视频网站 |