成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anthropic聯(lián)創(chuàng):Scaling Law沒崩,但推理成天價!有了TTT,2025年AI更加速

人工智能 新聞
Anthropic聯(lián)創(chuàng)發(fā)文表示,誰要是說Scaling Law撞墻了,那他絕對錯了!在25年,AI靠測試時計算還會繼續(xù)加速。不過,隨之而來的推理成本也是天價,o3的每個任務成本高達20美元,怎么辦?

Scaling Law要撞墻了?

Anthropic聯(lián)創(chuàng)Jack Clark反駁了這一說法:絕非如此!

在他看來,目前的AI發(fā)展還遠遠沒到極限,「所有告訴你AI進展正在放緩,或者Scaling Law正在撞墻的人,都是錯誤的。」

圖片

o3仍有很大的增長空間,但采用了不同的方法。

OpenAI的技術秘訣并不是讓模型變得更大,而是讓它們在運行時,使用強化學習和額外的計算能力。

這種「大聲思考」的能力,為Scaling開辟了全新的可能性。

而Jack Clark預計,這一趨勢在2025年還會加速,屆時,科技公司都會開始將大模型的傳統(tǒng)方法跟在訓練和推理時使用計算的新方法相結合。

這個論斷,跟OpenAI首次推出o系列模型時的說法完全吻合了。

在同一時間,MIT的研究者也發(fā)現(xiàn),采用測試時訓練(TTT)技術,能顯著提高LLM進行邏輯推理和解決問題的能力。

圖片

論文地址:https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墻,絕對錯了

在他的新聞通訊《Import AI》中,Clark對關于AI發(fā)展已到達瓶頸的觀點進行了反駁。

圖片

博文地址:https://jack-clark.net/

比如OpenAI的o3模型,就證明了AI極大的發(fā)展空間。

在現(xiàn)有強大基礎模型之上,采用一種新方法——讓大語言模型在推理時「邊思考邊執(zhí)行」,即測試時計算(test-time compute)。這種方式能帶來巨大的回報。

因此Clark預計,下一個合理的發(fā)展方向將是同時擴展強化學習(RL)和底層基礎模型,這將帶來更為顯著的性能提升。

這意味著,隨著現(xiàn)有方法(大模型scaling)與新方法(強化學習驅動的測試時計算等)的結合,2025年的AI進展相對2024年會進一步加速。

OpenAI著名研究員Jason Wei也表示,更加關鍵的是,從o1到o3的進步也僅僅只用了3個月,這說明了在推動人工智能領域發(fā)展方面來講,強化學習驅動的推理擴展計算范式,會比預訓練基礎模型的傳統(tǒng)擴展范式快得多。

圖片

這并非空談,Clark列舉了不少o3的亮眼成績來證明他的觀點。

首先,o3有效突破了「GPQA」科學理解基準(88%),這彰顯了它在科學領域進行常識推理和解答的能力。

它在「ARC-AGI」這一任務上的表現(xiàn)優(yōu)于亞馬遜眾包平臺(MTurk)雇傭的人類工作者。

甚至,o3在FrontierMath上達到了25%的成績——這是一個由菲爾茲獎得主設計的數(shù)學測試,就在幾個月前,SOTA的成績僅為2%。

并且,在Codeforces上,o3獲得了2727分,排名第175。這讓它成為這一極其困難基準上的最佳競技程序員之一。

模型成本將更難預測

Clark認為,大多數(shù)人還沒有意識到未來進展的速度將會有多快。

「我認為,基本上沒有人預見到——從現(xiàn)在開始,AI進展將會有多么急劇。」

同時,他也指出,算力成本是急速進展中的一個主要挑戰(zhàn)。

o3之所以如此優(yōu)秀,其中的一個原因是,它在推理時的運行成本更高。

o3的最先進版本需要的算力比基礎版多170倍,而基礎版的算力需求已經(jīng)超出了o1的需求,而o1本身所需的算力又超過了GPT-4。

圖片

o系列模型的性能與成本

Clark解釋說,這些基于推理擴展范式的新模型使得成本預測變得更加困難。

過去,模型的成本費用是很直觀的,主要取決于模型的大小和輸出長度。

但在o3這類模型中,由于其資源需求會根據(jù)具體任務的不同而變化,所以也更難直觀地給出模型執(zhí)行任務時的花費。

o3推理成本達新高

除了FrontierMath和Codeforces上的成績,o3在GPT Diamond Benchmar上,對于博士級的科學問題也拿到了87.7%,遠高于各自領域博士專家70%的平均分。

圖片

ARC-AGI基準測試開發(fā)者、Keras之父Fran?ois Chollet,將o3的性能稱為「AI能力中令人驚訝且重要的階躍函數(shù)增長」

而這背后付出的代價,就是運行o3極高的成本。

之所以會造成如此高的成本,就是源于o3和其他模型處理問題方式的不同。

傳統(tǒng)的LLM主要依靠的是檢索存儲模式,但o3處理問題時,卻是靠實時創(chuàng)建新程序,來解決不熟悉的挑戰(zhàn)。

Chollet表示,o3系統(tǒng)的工作原理,似乎和谷歌DeepMind的AlphaZero國際象棋程序類似。后者會有條不紊地搜索可能的解決方案,直到找到正確方法。

圖片

這個過程也就解釋了,為什么o3需要如此多的算力——只為單個任務,模型就需要處理多達3300萬個token。

跟當前的AI系統(tǒng)相比,這種密集的token處理成本,簡直是天價!

高強度推理版本的每個任務,運行費用約為20美元。

也就是說,100個測試任務的成本為2012美元,全套400個公共任務的成本則達到了6677美元(按平均每個任務花費17美元計算)。

而對于低強度推理版本,OpenAI尚未透露確切的成本,但測試顯示,此模型可以處理33至1.11億個token,每個任務需要約1.3分鐘的計算時間。

圖片

o3在ARC-AGI基準測試中必須解決的視覺邏輯問題示例

等待Anthropic的下一步

所以,Anthropic下一步會給我們帶來什么呢?

目前,由于Anthropic尚未發(fā)布推理模型(reasoning model)或測試時模型(test-time model),來與OpenAI的o系列或Google的Gemini Flash Thinking競爭,Clark的這一番預測,不禁讓人好奇Anthropic的計劃。

他們之前宣布的Opus 3.5旗艦模型至今仍沒有確切消息。

開發(fā)周期長達一個月,過程充滿不確定性

在11月,Anthropic CEO Dario Amodei曾證實,公司正在開發(fā)Claude Opus的新版本。

起初,Opus 3.5定于今年發(fā)布,但后來Amodei再提到它時,只是說它會在「某個時刻」到來。

不過Amodei倒是透露,公司最近更新和發(fā)布的Haiku 3.5,性能已經(jīng)跟原始的Opus 3相匹敵,同時運行速度還更快,成本也更低。

圖片

其實,這也不僅僅是Anthropic面臨的問題。

自GPT-4亮相以來,LLM的功能并沒有取得重大飛躍,這種停滯已經(jīng)成為AI行業(yè)內(nèi)一種普遍的廣泛趨勢。

更多時候,新發(fā)布的模型只是微小的進步,跟之前有一些細微的差別。

開發(fā)更先進的LLM,為何如此復雜

在Lex Fridman的播客訪問中,Amodei詳細講述了開發(fā)這些AI模型的復雜性。

圖片

他表示,僅訓練階段,就有可能會拖延數(shù)個月,還會需要大量的計算能力,用上數(shù)以萬計的專用芯片,如GPU或TPU。

預訓練過后,模型將經(jīng)歷復雜的微調(diào)的過程,一個關鍵部分就是RLHF。

人類專家會煞費苦心地審查模型的輸出,根據(jù)不同標準對其進行評分,幫助模型學習和改進。

接下來,就是一系列內(nèi)部測試和外部審計,來檢查模型的安全問題,通常是與美國和英國的AI安全組織合作。

總之,Amodei總結道:雖然AI的突破在圈外人士看來,像一個巨大的科學飛躍,但其實很多進步都可以歸結為枯燥和無聊的技術細節(jié)。

在此過程中,最困難的部分通常是軟件開發(fā)、讓模型運行得更快,而不是重大的概念進步。

而且,每個新版本模型的「智能」和「個性」,也都會發(fā)生不可預測的變化。在他看來,正確訓練模型與其說是一門科學,不如說是一門藝術。

即使真正發(fā)布的Opus 3.5的性能有了提升,卻也不足以證明其高昂的運營成本是合理的。

不過,雖然有人認為Anthropic沒有緊跟推理模型的步伐,已經(jīng)足以反映LLM擴展的巨大挑戰(zhàn);但不得不說,Opus 3.5也并非毫無意義。

顯然,它幫助訓練了全新的Sonnet 3.5,它已經(jīng)成為了當今市場上最受歡迎的LLM。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-16 07:15:00

2024-11-11 17:35:11

2024-09-20 16:20:00

2024-11-11 14:00:00

AI模型

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2024-11-27 13:40:00

模型訓練

2024-09-29 13:07:16

2025-02-07 10:13:16

2025-03-17 09:25:00

AI模型谷歌

2025-05-30 01:30:00

Anthropic技巧AI

2024-03-22 14:52:02

AI人工智能

2024-03-29 06:39:43

2024-08-06 14:07:40

2025-04-09 10:11:57

2025-01-06 12:59:52

2024-11-13 15:00:42

2024-11-14 18:40:57

2025-02-06 16:33:04

2018-07-31 10:34:10

百度

2024-08-15 15:45:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产日韩精品一区二区三区 | 蜜臀久久 | 日韩精品在线观看免费 | 久久久久久久99 | 欧美久久视频 | 国产一区二区三区四区三区四 | 欧美精品免费观看二区 | 日韩精品专区在线影院重磅 | 天堂亚洲 | 国产精品久久久久久久久久久久 | 乳色吐息在线观看 | 风间由美一区二区三区在线观看 | 在线中文视频 | 欧美人成在线视频 | 午夜av电影 | 91porn在线 | 伊人久久麻豆 | 久热国产在线 | 国产一区二区在线播放视频 | 激情小说综合网 | 视频一区二区国产 | 国产福利91精品 | 伊人精品一区二区三区 | 亚洲欧美中文字幕 | 女同久久另类99精品国产 | jav成人av免费播放 | 国产综合久久 | 99精品一区二区三区 | 免费一区二区三区 | 最新超碰| a级大毛片 | 国产高清无av久久 | 午夜男人天堂 | 午夜激情在线 | 日韩av在线一区二区 | 久久久www成人免费精品 | 国产日韩精品一区 | 日本久久精品视频 | 亚洲日韩第一页 | 成人日批视频 | 999视频|