Anthropic聯(lián)創(chuàng)：Scaling Law沒崩，但推理成天價！有了TTT，2025年AI更加速

作者：新智元 2024-12-26 15:00:09

Anthropic聯(lián)創(chuàng)發(fā)文表示，誰要是說Scaling Law撞墻了，那他絕對錯了！在25年，AI靠測試時計算還會繼續(xù)加速。不過，隨之而來的推理成本也是天價，o3的每個任務成本高達20美元，怎么辦？

Scaling Law要撞墻了？

Anthropic聯(lián)創(chuàng)Jack Clark反駁了這一說法：絕非如此！

在他看來，目前的AI發(fā)展還遠遠沒到極限，「所有告訴你AI進展正在放緩，或者Scaling Law正在撞墻的人，都是錯誤的。」

o3仍有很大的增長空間，但采用了不同的方法。

OpenAI的技術秘訣并不是讓模型變得更大，而是讓它們在運行時，使用強化學習和額外的計算能力。

這種「大聲思考」的能力，為Scaling開辟了全新的可能性。

而Jack Clark預計，這一趨勢在2025年還會加速，屆時，科技公司都會開始將大模型的傳統(tǒng)方法跟在訓練和推理時使用計算的新方法相結合。

這個論斷，跟OpenAI首次推出o系列模型時的說法完全吻合了。

在同一時間，MIT的研究者也發(fā)現(xiàn)，采用測試時訓練（TTT）技術，能顯著提高LLM進行邏輯推理和解決問題的能力。

論文地址：https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墻，絕對錯了

在他的新聞通訊《Import AI》中，Clark對關于AI發(fā)展已到達瓶頸的觀點進行了反駁。

博文地址：https://jack-clark.net/

比如OpenAI的o3模型，就證明了AI極大的發(fā)展空間。

在現(xiàn)有強大基礎模型之上，采用一種新方法——讓大語言模型在推理時「邊思考邊執(zhí)行」，即測試時計算（test-time compute）。這種方式能帶來巨大的回報。

因此Clark預計，下一個合理的發(fā)展方向將是同時擴展強化學習（RL）和底層基礎模型，這將帶來更為顯著的性能提升。

這意味著，隨著現(xiàn)有方法（大模型scaling）與新方法（強化學習驅動的測試時計算等）的結合，2025年的AI進展相對2024年會進一步加速。

OpenAI著名研究員Jason Wei也表示，更加關鍵的是，從o1到o3的進步也僅僅只用了3個月，這說明了在推動人工智能領域發(fā)展方面來講，強化學習驅動的推理擴展計算范式，會比預訓練基礎模型的傳統(tǒng)擴展范式快得多。

這并非空談，Clark列舉了不少o3的亮眼成績來證明他的觀點。

首先，o3有效突破了「GPQA」科學理解基準（88%），這彰顯了它在科學領域進行常識推理和解答的能力。

它在「ARC-AGI」這一任務上的表現(xiàn)優(yōu)于亞馬遜眾包平臺（MTurk）雇傭的人類工作者。

甚至，o3在FrontierMath上達到了25%的成績——這是一個由菲爾茲獎得主設計的數(shù)學測試，就在幾個月前，SOTA的成績僅為2%。

并且，在Codeforces上，o3獲得了2727分，排名第175。這讓它成為這一極其困難基準上的最佳競技程序員之一。

模型成本將更難預測

Clark認為，大多數(shù)人還沒有意識到未來進展的速度將會有多快。

「我認為，基本上沒有人預見到——從現(xiàn)在開始，AI進展將會有多么急劇。」

同時，他也指出，算力成本是急速進展中的一個主要挑戰(zhàn)。

o3之所以如此優(yōu)秀，其中的一個原因是，它在推理時的運行成本更高。

o3的最先進版本需要的算力比基礎版多170倍，而基礎版的算力需求已經(jīng)超出了o1的需求，而o1本身所需的算力又超過了GPT-4。

o系列模型的性能與成本

Clark解釋說，這些基于推理擴展范式的新模型使得成本預測變得更加困難。

過去，模型的成本費用是很直觀的，主要取決于模型的大小和輸出長度。

但在o3這類模型中，由于其資源需求會根據(jù)具體任務的不同而變化，所以也更難直觀地給出模型執(zhí)行任務時的花費。

o3推理成本達新高

除了FrontierMath和Codeforces上的成績，o3在GPT Diamond Benchmar上，對于博士級的科學問題也拿到了87.7%，遠高于各自領域博士專家70%的平均分。

ARC-AGI基準測試開發(fā)者、Keras之父Fran?ois Chollet，將o3的性能稱為「AI能力中令人驚訝且重要的階躍函數(shù)增長」

而這背后付出的代價，就是運行o3極高的成本。

之所以會造成如此高的成本，就是源于o3和其他模型處理問題方式的不同。

傳統(tǒng)的LLM主要依靠的是檢索存儲模式，但o3處理問題時，卻是靠實時創(chuàng)建新程序，來解決不熟悉的挑戰(zhàn)。

Chollet表示，o3系統(tǒng)的工作原理，似乎和谷歌DeepMind的AlphaZero國際象棋程序類似。后者會有條不紊地搜索可能的解決方案，直到找到正確方法。

這個過程也就解釋了，為什么o3需要如此多的算力——只為單個任務，模型就需要處理多達3300萬個token。

跟當前的AI系統(tǒng)相比，這種密集的token處理成本，簡直是天價！

高強度推理版本的每個任務，運行費用約為20美元。

也就是說，100個測試任務的成本為2012美元，全套400個公共任務的成本則達到了6677美元（按平均每個任務花費17美元計算）。

而對于低強度推理版本，OpenAI尚未透露確切的成本，但測試顯示，此模型可以處理33至1.11億個token，每個任務需要約1.3分鐘的計算時間。

o3在ARC-AGI基準測試中必須解決的視覺邏輯問題示例

等待Anthropic的下一步

所以，Anthropic下一步會給我們帶來什么呢？

目前，由于Anthropic尚未發(fā)布推理模型（reasoning model）或測試時模型（test-time model），來與OpenAI的o系列或Google的Gemini Flash Thinking競爭，Clark的這一番預測，不禁讓人好奇Anthropic的計劃。

他們之前宣布的Opus 3.5旗艦模型至今仍沒有確切消息。

開發(fā)周期長達一個月，過程充滿不確定性

在11月，Anthropic CEO Dario Amodei曾證實，公司正在開發(fā)Claude Opus的新版本。

起初，Opus 3.5定于今年發(fā)布，但后來Amodei再提到它時，只是說它會在「某個時刻」到來。

不過Amodei倒是透露，公司最近更新和發(fā)布的Haiku 3.5，性能已經(jīng)跟原始的Opus 3相匹敵，同時運行速度還更快，成本也更低。

其實，這也不僅僅是Anthropic面臨的問題。

自GPT-4亮相以來，LLM的功能并沒有取得重大飛躍，這種停滯已經(jīng)成為AI行業(yè)內(nèi)一種普遍的廣泛趨勢。

更多時候，新發(fā)布的模型只是微小的進步，跟之前有一些細微的差別。

開發(fā)更先進的LLM，為何如此復雜

在Lex Fridman的播客訪問中，Amodei詳細講述了開發(fā)這些AI模型的復雜性。

他表示，僅訓練階段，就有可能會拖延數(shù)個月，還會需要大量的計算能力，用上數(shù)以萬計的專用芯片，如GPU或TPU。

預訓練過后，模型將經(jīng)歷復雜的微調(diào)的過程，一個關鍵部分就是RLHF。

人類專家會煞費苦心地審查模型的輸出，根據(jù)不同標準對其進行評分，幫助模型學習和改進。

接下來，就是一系列內(nèi)部測試和外部審計，來檢查模型的安全問題，通常是與美國和英國的AI安全組織合作。

總之，Amodei總結道：雖然AI的突破在圈外人士看來，像一個巨大的科學飛躍，但其實很多進步都可以歸結為枯燥和無聊的技術細節(jié)。

在此過程中，最困難的部分通常是軟件開發(fā)、讓模型運行得更快，而不是重大的概念進步。

而且，每個新版本模型的「智能」和「個性」，也都會發(fā)生不可預測的變化。在他看來，正確訓練模型與其說是一門科學，不如說是一門藝術。

即使真正發(fā)布的Opus 3.5的性能有了提升，卻也不足以證明其高昂的運營成本是合理的。

不過，雖然有人認為Anthropic沒有緊跟推理模型的步伐，已經(jīng)足以反映LLM擴展的巨大挑戰(zhàn)；但不得不說，Opus 3.5也并非毫無意義。

顯然，它幫助訓練了全新的Sonnet 3.5，它已經(jīng)成為了當今市場上最受歡迎的LLM。

責任編輯：張燕妮來源：新智元

AI 計算測試

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看