半年復盤，AI迎來預訓練后的新瓶頸

探索AGI

發布于 2025-6-4 05:56

瀏覽

0收藏

2025年上半年結束了，AI領域持續加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 編碼能力一個比一個猛，多模態應用更是遍地開花。

今天給大家分享一個半年度的復盤。這里不只有歡呼，似乎也存在一些不對勁的味道。當模型越來越寫代碼，它們的綜合能力似乎遇到了第二波瓶頸。

本文很多參考信息來源于公開信息整理，非公開信息部分不保證信息的嚴謹性。

AI按下加速鍵的上半年！

簡單概括下這半年，“卷”出了新高度（第一部分的觀察來源于Artificial Analysis報告）：

觀察一：頭部“神仙打架”，新勢力緊追不舍

OpenAI雖強，但Google、Anthropic、xAI，還有咱國內的DeepSeek、阿里，國外的Mistral，基本上保持了2月一更的節奏。開源模型跟專有模型的智能差距也在肉眼可見地縮小，甚至DeepSeek-R1-0528有追平的趨勢。

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

觀察二：推理成本“打骨折”

高智能模型的推理成本，從去年9月到現在降了差不多32倍！達到GPT-4初版那種智能水平的成本，降了超過1000倍！

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

觀察三: “先思考再回答”成標配

啥叫“推理模型”？就是模型在回答你之前，會先自己叨叨咕咕輸出一堆中間步驟（思維鏈）。這招確實能讓答案更準，但代價嘛，就是可能得多花10倍的Token。

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

觀察四 : 智能體(Agent)和多模態“起飛”

AI自己干活的能力越來越強，什么編碼智能體、研究智能體、幫你P圖的、剪視頻的，都來了。

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

多模態原生處理能力也大升級，文本、圖像、音頻一把抓，言出法隨、用嘴改圖。甚至Google Veo 3支持了原生的帶音頻的視頻輸出。

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

觀察五 : 中國在AI競賽排行前列

US在推理模型上繼續處于領先地位，但是DeepSeek-v3-0324成了國人之光，引領了全球的非推理模型的性能。（本文寫于DeepSeek-R1-0528 發布前，0528版本以接近o3性能開源，休假了暫未體驗~）

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

通用能力去哪兒了？

就在大家感慨AI寫代碼越來越6的時候，一個讓人“腦殼疼”的問題浮出水面。

因為暫未成為共識，沒有太多人探討，本文中稱之為“第二輪瓶頸”。

簡單來說，就是AI在編碼這種專業技能上突飛猛進，但在其他通用認知能力，比如復雜推理、創造性表達、細致理解這些方面，是不是有點“拉胯”了？

現象：編碼越強，其他越“菜”？

最典型的就是Anthropic的Claude 4系列。在編碼基準SWE-Bench上那是嘎嘎亂殺，號稱“世界最好編碼模型”。但另一邊，OpenAI的o3模型在通用推理基準Humanity's Last Exam (HLE)上又領先了。這種“各領風騷”的局面，本身就很說明問題。

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

紅杉最近發布了一個榜單，排在榜首的還是o3。甚至沒有Claude4的影子，反而看到了Claude 3.7 Sonnet。

半年復盤，AI迎來預訓練后的新瓶頸-AI.x社區

看到過不止一個吐槽，Claude 4 Sonnet雖然寫代碼很牛，但在文檔理解（比如OCR、手寫體識別）、世界知識和創造性寫作方面，好像有時候還不如它上一代Claude 3.7 Sonnet。這就有點尷尬了。

瓶頸的本質：這倒不是說模型整體不進步了，而是能力圖譜可能出現了分化或者失衡，AI的畫像可能變得更尖銳了，成了個“偏科生”。

所以，一個問題來了：精通一項復雜技能（比如寫代碼），就代表AI在其他領域也能一樣牛嗎？這對AGI的實現路徑打上了一個大大的問號。

第二輪瓶頸

這“偏科”的鍋，難道要甩給 RL 階段過度使用AI編程數據（比如從cursor等編程軟件帶來的用戶實際訓練數據）嗎？

災難性遺忘 是一個在算法領域很古老的一個詞，意思是，在一個特定領域對大模型搞微調，很可能把它預訓練時學到的一般知識給覆蓋掉或者搞丟了，通用邏輯推理能力自然就受影響。

所以是否是因為用了過多的編程數據搞RL訓練，模型可能就更喜歡輸出那種結構化、邏輯化的東西，創造性、流暢性可能就下降了。

在去年，我們經歷了第一輪的AI瓶頸。

主要是因為高質量、多樣化的預訓練數據稀缺。更大規模參數的模型帶來的效果收益遞減。

在這基礎上，OpenAI的o1系列模型提出了通過測試時間推理，通過引導模型生成復雜邏輯結構（如思維鏈CoT、思維樹ToT）解決問題，無需重訓基礎模型。

在2024 Q3后的半年，“推理模型”成為主流，各家都在嘗試如何通過使用更多Token進行“思考”實現。

如何從已訓練模型中提取更多智能，更敏捷提升能力。

當前，我們面臨的更多是針對特定高級技能（如編碼）進行微調和RL所帶來的后果。

這是一個在更成熟發展階段出現的關于控制和平衡的問題。為推理/智能體技能進行的訓練，如何影響基礎模型的廣度？

本文轉載自???????探索AGI???????，作者：獼猴桃

標簽

，AI

OpenAI

ToT

贊

回復

舉報

回復

相關推薦

MolGen: 化學反饋引導的預訓練分子生成

mb5f8eba9bdb0af ? 2949瀏覽 ? 0回復
AI迎來Uber時刻，初創公司如何構筑新護城河？

liutao988 ? 2767瀏覽 ? 0回復
AI信任危機之后，揭秘預訓練如何塑造機器的「可信靈魂」

輕薄滴假象 ? 2631瀏覽 ? 0回復
ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準

輕薄滴假象 ? 2709瀏覽 ? 0回復
預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升

海因斯DK ? 4971瀏覽 ? 0回復
LLM分布式預訓練淺析

zhcs333 ? 3194瀏覽 ? 0回復
LFPLM：基于預訓練語言模型的通用靈活負荷預測框架

AIRoobt ? 4273瀏覽 ? 0回復
你真的了解預訓練嗎？預訓練與微調的區別是什么？

AI探索時代 ? 7336瀏覽 ? 0回復
REGMIX: 作為語言模型預訓練的回歸數據配比

sbf_2000 ? 3409瀏覽 ? 0回復
年中復盤：大模型六小虎生存現狀盤點

51CTO技術棧 ? 6120瀏覽 ? 0回復
OLMoE: 開源的MoE語言模型(預訓練&效果)

sbf_2000 ? 2935瀏覽 ? 0回復
打破視覺-語言預訓練的瓶頸：新算法解決噪聲和標注問題

AI論文解讀 ? 3486瀏覽 ? 0回復
谷歌與學術界聯手，研究突破多智能體合作瓶頸的新算法

xuxiangda ? 3000瀏覽 ? 0回復
深入理解預訓練與微調，為什么需要預訓練，什么是微調？

AI探索時代 ? 4368瀏覽 ? 0回復
DeepSeek算力平權后端側AI和Agent智能體迎來爆發

數字化助推器 ? 2475瀏覽 ? 0回復
探討大模型預訓練與微調之間的相互作用

NLP工作站 ? 2241瀏覽 ? 0回復
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術棧 ? 2142瀏覽 ? 0回復
首次全面復盤AI Agents記憶系統：3大類，6種操作！

PaperAgent ? 1682瀏覽 ? 0回復
大語言模型的全新預訓練范式-強化預訓練

sbf_2000 ? 949瀏覽 ? 0回復

探索AGI

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

半年復盤，AI迎來預訓練后的新瓶頸

AI按下加速鍵的上半年！

通用能力去哪兒了？

第二輪瓶頸

目錄