半年復盤,AI迎來預訓練后的新瓶頸
2025年上半年結束了,AI領域持續加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 編碼能力一個比一個猛,多模態應用更是遍地開花。
今天給大家分享一個半年度的復盤。這里不只有歡呼,似乎也存在一些不對勁的味道。當模型越來越寫代碼,它們的綜合能力似乎遇到了第二波瓶頸。
本文很多參考信息來源于公開信息整理,非公開信息部分不保證信息的嚴謹性。
AI按下加速鍵的上半年!
簡單概括下這半年,“卷”出了新高度 (第一部分的觀察來源于Artificial Analysis報告):
觀察一: 頭部“神仙打架”,新勢力緊追不舍
OpenAI雖強,但Google、Anthropic、xAI,還有咱國內的DeepSeek、阿里,國外的Mistral,基本上保持了2月一更的節奏。開源模型跟專有模型的智能差距也在肉眼可見地縮小,甚至DeepSeek-R1-0528有追平的趨勢。
觀察二: 推理成本“打骨折”
高智能模型的推理成本,從去年9月到現在降了差不多32倍!達到GPT-4初版那種智能水平的成本,降了超過1000倍!
觀察三: “先思考再回答”成標配
啥叫“推理模型”?就是模型在回答你之前,會先自己叨叨咕咕輸出一堆中間步驟(思維鏈)。這招確實能讓答案更準,但代價嘛,就是可能得多花10倍的Token。
觀察四 : 智能體(Agent)和多模態“起飛”
AI自己干活的能力越來越強,什么編碼智能體、研究智能體、幫你P圖的、剪視頻的,都來了。
多模態原生處理能力也大升級,文本、圖像、音頻一把抓,言出法隨、用嘴改圖。甚至Google Veo 3支持了原生的帶音頻的視頻輸出。
觀察五 : 中國在AI競賽排行前列
US在推理模型上繼續處于領先地位,但是DeepSeek-v3-0324成了國人之光,引領了全球的非推理模型的性能。 (本文寫于DeepSeek-R1-0528 發布前,0528版本以接近o3性能開源,休假了暫未體驗~)
通用能力去哪兒了?
就在大家感慨AI寫代碼越來越6的時候,一個讓人“腦殼疼”的問題浮出水面。
因為暫未成為共識,沒有太多人探討,本文中稱之為“第二輪瓶頸”。
簡單來說,就是AI在編碼這種專業技能上突飛猛進,但在其他通用認知能力,比如復雜推理、創造性表達、細致理解這些方面,是不是有點“拉胯”了?
現象:編碼越強,其他越“菜”?
最典型的就是Anthropic的Claude 4系列。 在編碼基準SWE-Bench上那是嘎嘎亂殺,號稱“世界最好編碼模型”。但另一邊,OpenAI的o3模型在通用推理基準Humanity's Last Exam (HLE)上又領先了。這種“各領風騷”的局面,本身就很說明問題。
紅杉最近發布了一個榜單,排在榜首的還是o3。甚至沒有Claude4的影子,反而看到了Claude 3.7 Sonnet。
看到過不止一個吐槽,Claude 4 Sonnet雖然寫代碼很牛,但在文檔理解(比如OCR、手寫體識別)、世界知識和創造性寫作方面,好像有時候還不如它上一代Claude 3.7 Sonnet。這就有點尷尬了。
瓶頸的本質: 這倒不是說模型整體不進步了,而是能力圖譜可能出現了分化或者失衡,AI的畫像可能變得更尖銳了,成了個“偏科生”。
所以,一個問題來了:精通一項復雜技能(比如寫代碼),就代表AI在其他領域也能一樣牛嗎?這對AGI的實現路徑打上了一個大大的問號。
第二輪瓶頸
這“偏科”的鍋,難道要甩給 RL 階段過度使用AI編程數據(比如從cursor等編程軟件帶來的用戶實際訓練數據)嗎?
災難性遺忘 是一個在算法領域很古老的一個詞,意思是,在一個特定領域對大模型搞微調,很可能把它預訓練時學到的一般知識給覆蓋掉或者搞丟了,通用邏輯推理能力自然就受影響。
所以是否是因為用了過多的編程數據搞RL訓練,模型可能就更喜歡輸出那種結構化、邏輯化的東西,創造性、流暢性可能就下降了。
在去年,我們經歷了第一輪的AI瓶頸。
主要是因為高質量、多樣化的預訓練數據稀缺。更大規模參數的模型帶來的效果收益遞減。
在這基礎上,OpenAI的o1系列模型提出了通過測試時間推理,通過引導模型生成復雜邏輯結構(如思維鏈CoT、思維樹ToT)解決問題,無需重訓基礎模型。
在2024 Q3后的半年,“推理模型”成為主流,各家都在嘗試如何通過使用更多Token進行“思考”實現。
如何從已訓練模型中提取更多智能,更敏捷提升能力。
當前,我們面臨的更多是針對特定高級技能(如編碼)進行微調和RL所帶來的后果。
這是一個在更成熟發展階段出現的關于控制和平衡的問題。為推理/智能體技能進行的訓練,如何影響基礎模型的廣度?
本文轉載自???????探索AGI???????,作者:獼猴桃
