蘋果一口咬死AI不會思考！OpenAI前高管直接開懟：AGI已來，別再酸了

2025-06-30 09:05:00

人工智能新聞

最近，蘋果的一篇論文掀起波瀾，挑戰了當下AI推理能力的基本假設。而OpenAI的前研究主管則斷言：AGI時代已近在眼前。誰是誰非？AGI還有多遠？

最近，蘋果發布了一篇論文，引發了關于AI是否真正在推理的激烈討論。

它提出了一個尖銳問題：當前的推理模型，是否已經觸及能力的天花板？

與此同時，OpenAI前研究主管Bob McGrew則持完全不同的態度。他在播客《訓練數據》中表示：通用人工智能（AGI）所需的關鍵突破已經實現，2025年將是AI推理的元年。

這樣的討論是必要的反思，還是技術焦慮下的「酸葡萄心理」？蘋果是點破幻象，還是真的「酸蘋果」？

AI推理遇到瓶頸了嗎？

AI正站在重要的十字路口。

這幾年，語言模型一路狂飆，到了現在，新一代「推理模型」紛紛登場，比如OpenAI的o1、DeepSeek-R1，還有 Claude 3.7 Sonnet Thinking。

它們不再只是堆規模，而是號稱加入了更復雜的「思維機制」：在推理環節計算方式更靈活，目標是突破傳統模型的天花板。

聽起來很厲害，但不少嚴謹的研究也指出：AI可能已經碰到了能力上的瓶頸。

這不僅對它們目前的效果提出了質疑，也讓人開始擔心：推理模型還能不能繼續進化？

推理模型的承諾

與之前的語言模型相比，大型推理模型（Large Reasoning Models，簡稱 LRMs）已經完全不一樣了。

過去，模型主要靠預測下一個詞，而推理模型學會了三項「超能力」：

（1）思維鏈：能像人類一樣一步步推導（比如解數學題會寫步驟）

（2）自我反省：會檢查自己的答案對不對

（3）智能分配算力：遇到難題自動「多想想」

關鍵想法很簡單，也很有說服力：

人類解決復雜問題，不就是靠一步步地思考和推理嗎？

那讓AI也學學這招，不就變得更聰明、更會解決問題了嗎？

事實證明，的確如此！OpenAI的o1模型一出手，刷新了數學基準紀錄，把前輩們遠遠甩在后面。在寫代碼、搞科研這些任務上，其他推理模型也進步神速。

整個AI圈都沸騰了，大家覺得「新范式」來了：

以后不用光靠砸錢、堆數據做訓練了。在AI「思考」的時候多給它點時間，就能解鎖全新的能力！

這些令人振奮的進展，也引出了一個現實問題：它們真的有我們期待的那么強嗎？

現實檢驗

推理模型到底行不行？

雖然推理模型看起來前景不錯，但來自三個獨立研究團隊的測試也給我們潑了點冷水——

在嚴格條件下，這些模型的真實表現暴露出了不少問題，但也確實展現了它們的進步。

這三項測試分別為：

（1）蘋果的可控實驗；

（2）亞利桑那州立大學對AI規劃能力的測試；

（3）ARC測試對「模型越大就越強」的部分否定。

蘋果的可控實驗

目前，蘋果論文《思考的錯覺》最具爭議。

他們重點集中在游戲一樣的謎題，比如漢諾塔、跳棋過關、渡河難題等。

這樣做的好處是，可以隨意調整難度，還能防止AI靠「背題庫」來作弊。

他們發現了三種截然不同的狀態，對理解推理模型大有啟發：

低復雜度任務：傳統語言模型反而表現更好，且更節省token，說明推理機制并不總是有益；
中等復雜度任務：推理模型優勢明顯，證明其確實具備了超越模板匹配的真實能力；
高復雜度任務：所有模型性能全面崩潰，可能不是「算力不夠」，而是結構性瓶頸。

論文鏈接：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

更奇怪的是，研究人員還發現了讓人想不通的現象：

問題越難，這些推理模型反而越「躺平」，投入的「腦力」不增反降。

這就像一個學生，碰到難題不想著多算幾遍，反而直接把筆一扔。

當然，這也不全是壞消息：

至少在中等難度的任務上，推理模型確實能在一定程度上，突破LLM「死記硬背」的舊模式。

規劃能力的證據

早在去年，亞利桑那州立大學Subbarao Kambhampati教授等人對推理模型的「規劃能力」做了深入研究。

Subbarao Kambhampati，目前任亞利桑那州立大學計算與增強智能學院教授

他用PlanBench工具測試了o1-preview，結果顯示：

在簡單的Blocksworld任務中，模型準確率高達97.8%，進步非常顯著。

OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld域的600個實例上的性能和平均耗時

相比早期模型幾乎「死傷過半」的表現，這堪稱質的飛躍。

但他也指出一個令人意外的現象：哪怕明確告訴模型該怎么做、給出算法步驟，它的表現也不會更好。

這說明，雖然這些模型的推理方式更復雜了，但跟人類基于邏輯的推理，可能仍然不是一回事。

換句話說，它們是在「推理」，但推得方式和人很不一樣。

論文鏈接:https://www.arxiv.org/abs/2409.13373

ARC基準：AI推理試金石

為了突出了「人類易行」和「AI難懂」之間的關鍵差距，Keras之父Fran?ois Chollet聯手Mike Knoop發起了抽象與推理語料庫（Abstract and Reasoning Corpus，ARC）。

ARC-AGI-1測試示例：左側會顯示輸入/輸出對，用于理解任務的性質。中間是當前的測試輸入網格。右側是可以用來構建相應輸出網格的控件

這項任務非常難，2020年只能完成大約20%，到2024年提高到了55.5%，背后離不開推理模型和技術演進。

ARC-AGI-1隨時間推移的最高分

在ARC Prize的推動下，很多重要技術應運而生，比如測試時微調（test-time fine-tuning）和深度學習驅動的程序合成。

但也有一個信號值得警惕：ARC測試對「模型越大就越強」這件事非常不買賬。

換句話說，「無腦」堆算力、堆參數已經難以進一步提高成績了。

這說明，雖然推理模型確實帶來了突破，但要實現類似人類的通用智能，僅靠現在這套架構還遠遠不夠。

未來的進步，可能需要從根本上換種思路，甚至重構模型結構。

Scaling，不再是唯一答案。

趨同的批評

理論與實證不謀而合

這些研究之所以特別值得關注，是因為它們恰好印證了Gary Marcus等學者多年來一直堅持的觀點。

早在1998年，Marcus就指出：神經網絡擅長在「訓練過的范圍內」表現，但一旦遇到全新的問題，性能就會暴跌。

如今，一系列實證研究為他的理論提供了有力支持。

Marcus甚至用「給大語言模型致命一擊」這樣的說法，回應了蘋果的那篇論文。

聽起來激烈，但其實并不是情緒化發言，而是他多年觀點的現實驗證。

他指出了關鍵：哪怕在訓練中模型見過成千上萬個漢諾塔解法，一旦換個設定，它依然無法穩定應對。

這就揭示出一個本質問題：記憶≠推理。

背下了答案，不代表你真的理解了問題。

進步的「幻象」？

越來越多的跡象表明，當前的推理模型可能更像是一種高級模板匹配：

它們看似在「推理」，但實際上是調用記憶中類似問題的解法模板，一旦問題稍有變化，性能便迅速崩塌。

這種解釋能合理說明一系列令人費解的現象：

為什么提供明確的算法步驟，反而不能提升模型表現；
為什么面對更復雜問題時，模型反而減少「思考」；
為什么傳統算法始終優于這些耗費巨大算力的推理模型。

但別急著下結論：推理模型的進步是真的，只是復雜得多。

雖然推理模型暴露了不少問題，但這并不代表它們「沒用」或「失敗」。

相反，它們在很多方面確實取得了實質性突破：

確實有進步：像規劃類任務，以前根本做不了，現在模型已經能給出高質量解答，數學和邏輯推理也刷新了不少新紀錄；
表現因領域而異：只要訓練中見過類似的推理邏輯，模型表現就會好很多，比如數學證明、代碼生成這類結構化任務；
暴露了架構問題：在嚴格測試中的「反常行為」，其實很寶貴，為優化下一代模型提供了清晰方向。

這些發現說明，推理模型確實邁出了一大步，但它們的能力是有邊界的，但這些邊界要看出來并不容易。

想真正搞清楚它們到底強在哪、弱在哪，需要更科學的方式去評估它們的行為。

另辟蹊徑，別有洞天

那走出瓶頸，還能有別的路嗎？

好消息是，研究已經給出了幾個可能的新方向，也許能幫助我們跳出當前架構的局限：

混合架構（Hybrid Architectures）：結合神經網絡的靈活性和傳統算法的可靠性；
專用推理系統（Specialized Reasoning Systems）：聚焦具體領域，針對性更強、穩定性更高的推理系統。

混合架構，比如Kambhampati提出的LLM-Modulo框架，可以讓模型在「學得會」的同時也「講規則」。這種組合，可能更適合真正需要嚴謹推理的任務。

LLM-Modulo框架：大語言模型（LLMs）充當思想生成器，而各種專門針對不同方面的外部評論員則對候選計劃進行評審

與其追求「啥都能做」的萬能AI，不如聚焦具體領域比如數學、物理、法律這類任務，專用模型可能比「通用大模型」更靠譜、更好用。

下一階段的突破，也許就藏在這些「混搭」與「專精」的路徑里。

推理模型的問題，可能是評估的問題

Open Philanthropy高級項目專員Alex Lawsen對蘋果論文的研究方法提出了質疑。

論文標題叫《思考的錯覺的錯覺》，雖然聽起來像個段子，但里面指出的問題卻挺認真，尤其是方法上的漏洞。

他的核心觀點很清楚：很多被判定為「推理失敗」的案例，其實不是模型不行，而是評估方式出了問題。比如：

模型能判斷出題目在數學上根本無法解，但卻被打了個「不會做」的低分；
模型因為token限制被迫中斷，卻被認為「能力不行」；
模型生成的是算法，而不是一步步列出所有動作，結果也被判失敗。

這些情況如果不分青紅皂白全算「推理能力不足」，其實就是誤解模型了。

論文鏈接:https://arxiv.org/abs/2506.09250v2

模型沒撞墻，是評估方式變難了。

所以現在的問題，不是AI推理到底能不能行，而是：我們有沒有辦法準確評估它到底行不行。

責任編輯：張燕妮來源：新智元

AI 推理 AGI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看