蘋果一口咬死AI不會思考!OpenAI前高管直接開懟:AGI已來,別再酸了
最近,蘋果發布了一篇論文,引發了關于AI是否真正在推理的激烈討論。
它提出了一個尖銳問題:當前的推理模型,是否已經觸及能力的天花板?
與此同時,OpenAI前研究主管Bob McGrew則持完全不同的態度。他在播客《訓練數據》中表示:通用人工智能(AGI)所需的關鍵突破已經實現,2025年將是AI推理的元年。
這樣的討論是必要的反思,還是技術焦慮下的「酸葡萄心理」?蘋果是點破幻象,還是真的「酸蘋果」?
AI推理遇到瓶頸了嗎?
AI正站在重要的十字路口。
這幾年,語言模型一路狂飆,到了現在,新一代「推理模型」紛紛登場,比如OpenAI的o1、DeepSeek-R1,還有 Claude 3.7 Sonnet Thinking。
它們不再只是堆規模,而是號稱加入了更復雜的「思維機制」:在推理環節計算方式更靈活,目標是突破傳統模型的天花板。
聽起來很厲害,但不少嚴謹的研究也指出:AI可能已經碰到了能力上的瓶頸。
這不僅對它們目前的效果提出了質疑,也讓人開始擔心:推理模型還能不能繼續進化?
推理模型的承諾
與之前的語言模型相比,大型推理模型(Large Reasoning Models,簡稱 LRMs)已經完全不一樣了。
過去,模型主要靠預測下一個詞,而推理模型學會了三項「超能力」:
(1)思維鏈:能像人類一樣一步步推導(比如解數學題會寫步驟)
(2)自我反省:會檢查自己的答案對不對
(3)智能分配算力:遇到難題自動「多想想」
關鍵想法很簡單,也很有說服力:
人類解決復雜問題,不就是靠一步步地思考和推理嗎?
那讓AI也學學這招,不就變得更聰明、更會解決問題了嗎?
事實證明,的確如此!OpenAI的o1模型一出手,刷新了數學基準紀錄,把前輩們遠遠甩在后面。在寫代碼、搞科研這些任務上,其他推理模型也進步神速。
整個AI圈都沸騰了,大家覺得「新范式」來了:
以后不用光靠砸錢、堆數據做訓練了。在AI「思考」的時候多給它點時間,就能解鎖全新的能力!
這些令人振奮的進展,也引出了一個現實問題:它們真的有我們期待的那么強嗎?
現實檢驗
推理模型到底行不行?
雖然推理模型看起來前景不錯,但來自三個獨立研究團隊的測試也給我們潑了點冷水——
在嚴格條件下,這些模型的真實表現暴露出了不少問題,但也確實展現了它們的進步。
這三項測試分別為:
(1)蘋果的可控實驗;
(2)亞利桑那州立大學對AI規劃能力的測試;
(3)ARC測試對「模型越大就越強」的部分否定。
蘋果的可控實驗
目前,蘋果論文《思考的錯覺》最具爭議。
他們重點集中在游戲一樣的謎題,比如漢諾塔、跳棋過關、渡河難題等。
這樣做的好處是,可以隨意調整難度,還能防止AI靠「背題庫」來作弊。
他們發現了三種截然不同的狀態,對理解推理模型大有啟發:
- 低復雜度任務:傳統語言模型反而表現更好,且更節省token,說明推理機制并不總是有益;
- 中等復雜度任務:推理模型優勢明顯,證明其確實具備了超越模板匹配的真實能力;
- 高復雜度任務:所有模型性能全面崩潰,可能不是「算力不夠」,而是結構性瓶頸。
論文鏈接:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
更奇怪的是,研究人員還發現了讓人想不通的現象:
問題越難,這些推理模型反而越「躺平」,投入的「腦力」不增反降。
這就像一個學生,碰到難題不想著多算幾遍,反而直接把筆一扔。
當然,這也不全是壞消息:
至少在中等難度的任務上,推理模型確實能在一定程度上,突破LLM「死記硬背」的舊模式。
規劃能力的證據
早在去年,亞利桑那州立大學Subbarao Kambhampati教授等人對推理模型的「規劃能力」做了深入研究。
Subbarao Kambhampati,目前任亞利桑那州立大學計算與增強智能學院教授
他用PlanBench工具測試了o1-preview,結果顯示:
在簡單的Blocksworld任務中,模型準確率高達97.8%,進步非常顯著。
OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld域的600個實例上的性能和平均耗時
相比早期模型幾乎「死傷過半」的表現,這堪稱質的飛躍。
但他也指出一個令人意外的現象:哪怕明確告訴模型該怎么做、給出算法步驟,它的表現也不會更好。
這說明,雖然這些模型的推理方式更復雜了,但跟人類基于邏輯的推理,可能仍然不是一回事。
換句話說,它們是在「推理」,但推得方式和人很不一樣。
論文鏈接:https://www.arxiv.org/abs/2409.13373
ARC基準:AI推理試金石
為了突出了「人類易行」和「AI難懂」之間的關鍵差距,Keras之父Fran?ois Chollet聯手Mike Knoop發起了抽象與推理語料庫(Abstract and Reasoning Corpus,ARC)。
ARC-AGI-1測試示例:左側會顯示輸入/輸出對,用于理解任務的性質。 中間是當前的測試輸入網格。 右側是可以用來構建相應輸出網格的控件
這項任務非常難,2020年只能完成大約20%,到2024年提高到了55.5%,背后離不開推理模型和技術演進。
ARC-AGI-1隨時間推移的最高分
在ARC Prize的推動下,很多重要技術應運而生,比如測試時微調(test-time fine-tuning)和深度學習驅動的程序合成。
但也有一個信號值得警惕:ARC測試對「模型越大就越強」這件事非常不買賬。
換句話說,「無腦」堆算力、堆參數已經難以進一步提高成績了。
這說明,雖然推理模型確實帶來了突破,但要實現類似人類的通用智能,僅靠現在這套架構還遠遠不夠。
未來的進步,可能需要從根本上換種思路,甚至重構模型結構。
Scaling,不再是唯一答案。
趨同的批評
理論與實證不謀而合
這些研究之所以特別值得關注,是因為它們恰好印證了Gary Marcus等學者多年來一直堅持的觀點。
早在1998年,Marcus就指出:神經網絡擅長在「訓練過的范圍內」表現,但一旦遇到全新的問題,性能就會暴跌。
如今,一系列實證研究為他的理論提供了有力支持。
Marcus甚至用「給大語言模型致命一擊」這樣的說法,回應了蘋果的那篇論文。
聽起來激烈,但其實并不是情緒化發言,而是他多年觀點的現實驗證。
他指出了關鍵:哪怕在訓練中模型見過成千上萬個漢諾塔解法,一旦換個設定,它依然無法穩定應對。
這就揭示出一個本質問題:記憶≠推理。
背下了答案,不代表你真的理解了問題。
進步的「幻象」?
越來越多的跡象表明,當前的推理模型可能更像是一種高級模板匹配:
它們看似在「推理」,但實際上是調用記憶中類似問題的解法模板,一旦問題稍有變化,性能便迅速崩塌。
這種解釋能合理說明一系列令人費解的現象:
- 為什么提供明確的算法步驟,反而不能提升模型表現;
- 為什么面對更復雜問題時,模型反而減少「思考」;
- 為什么傳統算法始終優于這些耗費巨大算力的推理模型。
但別急著下結論:推理模型的進步是真的,只是復雜得多。
雖然推理模型暴露了不少問題,但這并不代表它們「沒用」或「失敗」。
相反,它們在很多方面確實取得了實質性突破:
- 確實有進步:像規劃類任務,以前根本做不了,現在模型已經能給出高質量解答,數學和邏輯推理也刷新了不少新紀錄;
- 表現因領域而異:只要訓練中見過類似的推理邏輯,模型表現就會好很多,比如數學證明、代碼生成這類結構化任務;
- 暴露了架構問題:在嚴格測試中的「反常行為」,其實很寶貴,為優化下一代模型提供了清晰方向。
這些發現說明,推理模型確實邁出了一大步,但它們的能力是有邊界的,但這些邊界要看出來并不容易。
想真正搞清楚它們到底強在哪、弱在哪,需要更科學的方式去評估它們的行為。
另辟蹊徑,別有洞天
那走出瓶頸,還能有別的路嗎?
好消息是,研究已經給出了幾個可能的新方向,也許能幫助我們跳出當前架構的局限:
- 混合架構(Hybrid Architectures):結合神經網絡的靈活性和傳統算法的可靠性;
- 專用推理系統(Specialized Reasoning Systems):聚焦具體領域,針對性更強、穩定性更高的推理系統。
混合架構,比如Kambhampati提出的LLM-Modulo框架,可以讓模型在「學得會」的同時也「講規則」。這種組合,可能更適合真正需要嚴謹推理的任務。
LLM-Modulo框架:大語言模型(LLMs)充當思想生成器,而各種專門針對不同方面的外部評論員則對候選計劃進行評審
與其追求「啥都能做」的萬能AI,不如聚焦具體領域比如數學、物理、法律這類任務,專用模型可能比「通用大模型」更靠譜、更好用。
下一階段的突破,也許就藏在這些「混搭」與「專精」的路徑里。
推理模型的問題,可能是評估的問題
Open Philanthropy高級項目專員Alex Lawsen對蘋果論文的研究方法提出了質疑。
論文標題叫《思考的錯覺的錯覺》,雖然聽起來像個段子,但里面指出的問題卻挺認真,尤其是方法上的漏洞。
他的核心觀點很清楚:很多被判定為「推理失敗」的案例,其實不是模型不行,而是評估方式出了問題。比如:
- 模型能判斷出題目在數學上根本無法解,但卻被打了個「不會做」的低分;
- 模型因為token限制被迫中斷,卻被認為「能力不行」;
- 模型生成的是算法,而不是一步步列出所有動作,結果也被判失敗。
這些情況如果不分青紅皂白全算「推理能力不足」,其實就是誤解模型了。
論文鏈接:https://arxiv.org/abs/2506.09250v2
模型沒撞墻,是評估方式變難了。
所以現在的問題,不是AI推理到底能不能行,而是:我們有沒有辦法準確評估它到底行不行。