AI進(jìn)化時間表已現(xiàn)！LLM每7個月能力翻倍，2030年職場不復(fù)存在？

2025-07-15 08:50:00

新聞

LLM正以前所未有的速度進(jìn)化：METR發(fā)現(xiàn)，它們的智能每7個月就翻一番。到了2030年，一個模型可能只需幾小時，就能搞定人類工程師幾個月的工作。別眨眼，你的崗位或許已在倒計時中。

隨著大模型能力一路狂飆，各路測評基準(zhǔn)也遍地開花。

從經(jīng)典的MMLU、HellaSwag，到多模態(tài)方向的MMMU、MathVista，再到AGI風(fēng)格的Arena對決、Agent任務(wù)、Tool-use測試。

如何科學(xué)地衡量LLM在長時、復(fù)雜、真實世界任務(wù)中的能力，至關(guān)重要。

今年3月，METR發(fā)布重磅研究《Measuring AI Ability to Complete Long Tasks》，首次提出令人眼前一亮的新指標(biāo)：

50%任務(wù)完成時間視野（50%-task-completion time horizon）

——也就是：AI能以50%成功率完成的任務(wù)，人類通常需要花多久？

論文鏈接：https://arxiv.org/pdf/2503.14499

據(jù)此，METR展開了一系列研究，包括任務(wù)復(fù)雜度設(shè)定、人類基準(zhǔn)時間測量、多模型對比實驗到層層統(tǒng)計回歸建模。

最終，團(tuán)隊精準(zhǔn)量化了AI智力演進(jìn)速度，并拋出驚人預(yù)測：

按照目前增長速度，5年之后，大模型可能就能在一天內(nèi)自動完成原本需要人類數(shù)月才能完成的復(fù)雜任務(wù)。

別眨眼，LLM每7個月實力翻倍！

METR團(tuán)隊選出每一時間段的最強(qiáng)模型，建立了一個精確的「大事年表」，進(jìn)一步定量分析模型能力隨時間的增長情況。

結(jié)果顯示出清晰的指數(shù)增長趨勢：在過去的六年中，模型能力每7個月翻一番。

圖中的陰影區(qū)域表示通過在任務(wù)家族、任務(wù)以及任務(wù)嘗試之間進(jìn)行分層自助法（hierarchical bootstrap），計算得出95%的置信區(qū)間。

不過，這個指數(shù)增長趨勢非常陡峭，所以于對誤差有很高的容忍度。

即便絕對測量誤差達(dá)到10倍，能力到來的時間也僅會改變大約2年左右。

因此，團(tuán)隊對不同能力何時出現(xiàn)的預(yù)測基本不會出錯。

模型vs人類：用「人類耗時」測量大模型智力

METR這項研究的核心就是他們提出的這項指標(biāo)：「任務(wù)完成時間視野」（task-completion time horizon）。

這個指標(biāo)相當(dāng)于給分別完成任務(wù)的人和AI加了個映射：

想象一組各不相同的任務(wù)，人類完成這些任務(wù)分別需要不同的時間。

把這些任務(wù)交給AI模型去做，然后找出AI能以50%成功率完成的那一檔任務(wù)（但不考慮AI用的時間）。

然后對應(yīng)去看人類完成這一檔任務(wù)通常需要多長時間。

這個人類所需的時間，就是該模型的50%-task-completion time horizon，也即「任務(wù)完成時間視野」。

為了證明這個基準(zhǔn)的有效性，METR團(tuán)隊做了翔實的統(tǒng)計分析。

結(jié)果顯示，人類基線完成某項任務(wù)所需時間，與各模型在該任務(wù)上的平均成功率之間存在負(fù)相關(guān)關(guān)系。

簡而言之，人做起來越慢，模型做起來越容易失敗。

并且，用指數(shù)模型擬合這個負(fù)相關(guān)趨勢效果很好。

用模型成功率對人類完成時間的對數(shù)做回歸分析，算出的R2約為0.83，相關(guān)系數(shù)為0.91，這比不同模型之間平均成功率的相關(guān)系數(shù)還高。

因此，「以人類時間衡量任務(wù)難度」，這個指標(biāo)非常合理。

模型越新，任務(wù)越難：能力進(jìn)化有跡可循

證明了這個指標(biāo)的有效性，接下來還要看看各個模型在這個指標(biāo)上的表現(xiàn)。

團(tuán)隊進(jìn)一步檢驗了不同模型能完成的任務(wù)所對應(yīng)的人類耗時。

結(jié)果相當(dāng)符合直覺：

2023年之前的模型（如GPT-2和GPT-3）只能完成那些只需寫幾句話的簡單任務(wù)。

而對于人類耗時超過1分鐘的任務(wù)，它們則迅速敗下陣來。

相比之下，最新的前沿模型（如Claude 3.5 Sonnet和o1）則可以完成一些人類要花數(shù)小時的任務(wù)，甚至在十幾小時的超長程任務(wù)上還能保持一定的成功率。

效率碾壓人類：2030年警告已拉響

按照「7個月翻一番」的這個速度下去，METR團(tuán)隊得到了一個驚人結(jié)論：

到2030年，最先進(jìn)的LLM有望以50%的可靠性，完成一個每周工作40小時的人類工程師花一個月才能完成的任務(wù)。

更令人毛骨悚然的是， LLM的速度可能遠(yuǎn)超人類——也許只需幾天，甚至幾小時。

到2030年，LLM可能已經(jīng)能輕松創(chuàng)辦一家公司、寫出一部像樣的小說，或是大幅改進(jìn)已有的大模型。

AI研究員Zach Stein-Perlman在博客中寫道，擁有此類能力的LLM的問世將帶來巨大的影響，無論是潛在好處還是潛在風(fēng)險」。

Kinniment承認(rèn)，LLM能力翻倍的速度讓人害怕，仿佛科幻片災(zāi)難前奏。

但她也表示，在現(xiàn)實中也可能有很多因素影響和減緩這種進(jìn)展。AI再聰明，仍然可能受到硬件、機(jī)器人技術(shù)等瓶頸的掣肘。

責(zé)任編輯：張燕妮來源：新智元

LLM 模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI進(jìn)化時間表已現(xiàn)！LLM每7個月能力翻倍，2030年職場不復(fù)存在？

別眨眼，LLM每7個月實力翻倍！

效率碾壓人類：2030年警告已拉響