成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

半年復盤,AI迎來預訓練后的新瓶頸

發布于 2025-6-4 05:56
瀏覽
0收藏

2025年上半年結束了,AI領域持續加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 編碼能力一個比一個猛,多模態應用更是遍地開花。

今天給大家分享一個半年度的復盤。這里不只有歡呼,似乎也存在一些不對勁的味道。當模型越來越寫代碼,它們的綜合能力似乎遇到了第二波瓶頸。

本文很多參考信息來源于公開信息整理,非公開信息部分不保證信息的嚴謹性。

AI按下加速鍵的上半年!

簡單概括下這半年,“卷”出了新高度 (第一部分的觀察來源于Artificial Analysis報告):

觀察一: 頭部“神仙打架”,新勢力緊追不舍

OpenAI雖強,但Google、Anthropic、xAI,還有咱國內的DeepSeek、阿里,國外的Mistral,基本上保持了2月一更的節奏。開源模型跟專有模型的智能差距也在肉眼可見地縮小,甚至DeepSeek-R1-0528有追平的趨勢。

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

觀察二: 推理成本“打骨折”

高智能模型的推理成本,從去年9月到現在降了差不多32倍!達到GPT-4初版那種智能水平的成本,降了超過1000倍!

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

觀察三:  “先思考再回答”成標配

啥叫“推理模型”?就是模型在回答你之前,會先自己叨叨咕咕輸出一堆中間步驟(思維鏈)。這招確實能讓答案更準,但代價嘛,就是可能得多花10倍的Token。

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

觀察四 :  智能體(Agent)和多模態“起飛”

AI自己干活的能力越來越強,什么編碼智能體、研究智能體、幫你P圖的、剪視頻的,都來了。

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

多模態原生處理能力也大升級,文本、圖像、音頻一把抓,言出法隨、用嘴改圖。甚至Google Veo 3支持了原生的帶音頻的視頻輸出。

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

觀察五 :  中國在AI競賽排行前列

US在推理模型上繼續處于領先地位,但是DeepSeek-v3-0324成了國人之光,引領了全球的非推理模型的性能。  (本文寫于DeepSeek-R1-0528 發布前,0528版本以接近o3性能開源,休假了暫未體驗~)

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

通用能力去哪兒了?

就在大家感慨AI寫代碼越來越6的時候,一個讓人“腦殼疼”的問題浮出水面。

因為暫未成為共識,沒有太多人探討,本文中稱之為“第二輪瓶頸”。

簡單來說,就是AI在編碼這種專業技能上突飛猛進,但在其他通用認知能力,比如復雜推理、創造性表達、細致理解這些方面,是不是有點“拉胯”了?

現象:編碼越強,其他越“菜”?

最典型的就是Anthropic的Claude 4系列。 在編碼基準SWE-Bench上那是嘎嘎亂殺,號稱“世界最好編碼模型”。但另一邊,OpenAI的o3模型在通用推理基準Humanity's Last Exam (HLE)上又領先了。這種“各領風騷”的局面,本身就很說明問題。

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

紅杉最近發布了一個榜單,排在榜首的還是o3。甚至沒有Claude4的影子,反而看到了Claude 3.7 Sonnet。

半年復盤,AI迎來預訓練后的新瓶頸-AI.x社區

看到過不止一個吐槽,Claude 4 Sonnet雖然寫代碼很牛,但在文檔理解(比如OCR、手寫體識別)、世界知識和創造性寫作方面,好像有時候還不如它上一代Claude 3.7 Sonnet。這就有點尷尬了。

瓶頸的本質: 這倒不是說模型整體不進步了,而是能力圖譜可能出現了分化或者失衡,AI的畫像可能變得更尖銳了,成了個“偏科生”。

所以,一個問題來了:精通一項復雜技能(比如寫代碼),就代表AI在其他領域也能一樣牛嗎?這對AGI的實現路徑打上了一個大大的問號。

第二輪瓶頸

這“偏科”的鍋,難道要甩給 RL 階段過度使用AI編程數據(比如從cursor等編程軟件帶來的用戶實際訓練數據)嗎?

災難性遺忘 是一個在算法領域很古老的一個詞,意思是,在一個特定領域對大模型搞微調,很可能把它預訓練時學到的一般知識給覆蓋掉或者搞丟了,通用邏輯推理能力自然就受影響。

所以是否是因為用了過多的編程數據搞RL訓練,模型可能就更喜歡輸出那種結構化、邏輯化的東西,創造性、流暢性可能就下降了。

在去年,我們經歷了第一輪的AI瓶頸。

主要是因為高質量、多樣化的預訓練數據稀缺。更大規模參數的模型帶來的效果收益遞減。

在這基礎上,OpenAI的o1系列模型提出了通過測試時間推理,通過引導模型生成復雜邏輯結構(如思維鏈CoT、思維樹ToT)解決問題,無需重訓基礎模型。

在2024 Q3后的半年,“推理模型”成為主流,各家都在嘗試如何通過使用更多Token進行“思考”實現。

如何從已訓練模型中提取更多智能,更敏捷提升能力。

當前,我們面臨的更多是針對特定高級技能(如編碼)進行微調和RL所帶來的后果。

這是一個在更成熟發展階段出現的關于控制和平衡的問題。為推理/智能體技能進行的訓練,如何影響基礎模型的廣度?

本文轉載自???????探索AGI???????,作者:獼猴桃

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 特黄视频 | 国产成人精品免费视频大全最热 | 国产超碰人人爽人人做人人爱 | 中文字幕日韩欧美 | 成人在线观看亚洲 | 国产欧美一区二区三区在线看 | www.国产.com | 国产分类视频 | 欧美电影网 | 99热首页| 极品电影院 | 欧美三区视频 | 日韩精品免费在线观看 | 在线免费观看毛片 | 尤物在线视频 | 97超级碰碰 | 亚洲精品在线播放 | 国产高清精品在线 | 日韩精品久久久久久 | 精品网 | 一级黄色毛片免费 | 北条麻妃一区二区三区在线观看 | 本地毛片 | 9色网站 | 免费成人av | 欧美日韩在线免费 | 日本电影网站 | 国产一区欧美 | 久久久久亚洲精品国产 | 三级黄色片在线观看 | 亚洲一区黄色 | 亚州影院 | 日韩 欧美 综合 | 一区二区三区久久久 | 欧美日韩在线一区二区三区 | 亚洲国产中文在线 | 狠狠的干狠狠的操 | 成人国产精品久久 | 国产在线一| 欧美日韩最新 | 国产中文|