Gary Marcus驚世之言：純LLM上構(gòu)建AGI徹底沒了希望！MIT、芝大、哈佛論文火了

作者：機(jī)器之心 2025-06-29 13:43:24

大型語(yǔ)言模型通常依靠基準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)估。但僅僅根據(jù)它們?cè)谝惶拙奶暨x的問題上的回答，就推斷其能力是否合理？本文首先提出了一個(gè)形式化框架來(lái)探討這一問題。

今天，著名的人工智能學(xué)者和認(rèn)知科學(xué)家 Gary Marcus 轉(zhuǎn)推了 MIT、芝加哥大學(xué)、哈佛大學(xué)合著的一篇爆炸性論文，稱「對(duì)于 LLM 及其所謂能理解和推理的神話來(lái)說(shuō)，情況變得更糟了 —— 而且是糟糕得多。」

這項(xiàng)研究揭示了一種被稱為「波將金式」（Potemkins）的推理不一致性模式（見下文圖 1）。研究表明，即使是像 o3 這樣的頂級(jí)模型也頻繁犯此類錯(cuò)誤。基于這些連自身論斷都無(wú)法保持一致的機(jī)器，你根本不可能創(chuàng)造出通用人工智能（AGI）。

正如論文所言：在基準(zhǔn)測(cè)試上的成功僅證明了「波將金式理解」：一種由「與人類對(duì)概念的理解方式完全不可調(diào)和的答案」所驅(qū)動(dòng)的理解假象…… 這些失敗反映的不僅是理解錯(cuò)誤，更是概念表征深層次的內(nèi)在矛盾。

Gary Marcus 認(rèn)為，這宣告了任何試圖在純粹 LLM 基礎(chǔ)上構(gòu)建 AGI 希望的終結(jié)。最后，他還 @了 Geoffrey Hinton，稱后者要失敗（checkmate）。

接著，Gary Marcus 又接連發(fā)推，分享了他對(duì)這篇論文的更多看法。

他稱基于非正式測(cè)試，發(fā)現(xiàn)像 o3 這類模型似乎較不容易陷入簡(jiǎn)單的「波將金式錯(cuò)誤」，但并非完全免疫。

如下圖（左）所示，模型雖然能正確闡述俳句的定義，卻錯(cuò)誤斷言「asphalt shimmers」符合俳句末行應(yīng)為五音節(jié)的要求；直到后續(xù)追問之下（右），才勉強(qiáng)承認(rèn)錯(cuò)誤。這再次印證了問題的核心：根本缺陷在于其缺乏可靠性。

在仔細(xì)研讀論文后，Gary Marcus 認(rèn)為它的核心觀點(diǎn)是正確的 ——LLM 確實(shí)容易產(chǎn)生各種自相矛盾（比如之前說(shuō)的「波將金式錯(cuò)誤」）。但是，論文里具體的實(shí)驗(yàn)例子在他看來(lái)說(shuō)服力不夠強(qiáng)。

根據(jù)他自己之前非正式實(shí)驗(yàn)的觀察（包括下周會(huì)公布的一個(gè)例子），Gary Marcus 確信此處存在一個(gè)真正的問題。不過，要想真正弄清楚這個(gè)問題的普遍性有多大，以及它對(duì)不同類型模型的影響程度如何，還需要進(jìn)行更深入的研究。

Gary Marcus 的觀點(diǎn)讓評(píng)論區(qū)炸了鍋，有人問他是否認(rèn)可 LLM 越來(lái)越好。他雖然持肯定答案，但也認(rèn)為它們有可能來(lái)到了收益遞減的點(diǎn)。

還有人認(rèn)為，我們其實(shí)不需要 LLM 理解，只要它們表現(xiàn)得越來(lái)越好就夠了。即使是人類，也并不總是可以理解。

谷歌 DeepMind 資深科學(xué)家（Principal Scientist）Prateek Jain 現(xiàn)身評(píng)論區(qū)，表示這篇論文和它提出的評(píng)估方法 + 基準(zhǔn)測(cè)試很有意思！他拿出 Gemini 2.5 Pro 測(cè)試了論文中提到的所有例子，結(jié)果都答對(duì)了。因此，他很想知道 Gemini 2.5 Pro 在完整的測(cè)試集上表現(xiàn)如何，以及它在哪些具體例子上會(huì)出錯(cuò)。

有人也提出了質(zhì)疑，這篇論文只是很好地描述了當(dāng)前 LLM 的一種廣為人知的實(shí)效模式，不明白為什么「注定失敗」呢。

接下來(lái)，我們來(lái)看這篇論文究竟講了什么，是否真能支撐起 Gary Marcus 這番言論。

論文介紹

論文標(biāo)題：Potemkin Understanding in Large Language Models
論文地址：https://arxiv.org/pdf/2506.21521

大型語(yǔ)言模型通常依靠基準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)估。但僅僅根據(jù)它們?cè)谝惶拙奶暨x的問題上的回答，就推斷其能力是否合理？本文首先提出了一個(gè)形式化框架來(lái)探討這一問題。關(guān)鍵在于：用來(lái)測(cè)試 LLM 的基準(zhǔn)（例如 AP 考試）原本是為了評(píng)估人類設(shè)計(jì)的。然而，這帶來(lái)了一個(gè)重要前提：只有當(dāng) LLM 在理解概念時(shí)出現(xiàn)的誤解方式與人類相似時(shí)，這些基準(zhǔn)才能作為有效的能力測(cè)試。否則，模型在基準(zhǔn)上的高分只能展現(xiàn)一種「波將金式理解」：看似正確的回答，卻掩蓋了與人類對(duì)概念的真正理解之間的巨大差距。

為此，本文提出了兩種方法來(lái)量化「波將金現(xiàn)象」的存在：一種是基于針對(duì)三個(gè)不同領(lǐng)域特制的基準(zhǔn)，另一種是通用的程序，可提供其普遍性下限的估計(jì)。研究結(jié)果顯示，波將金現(xiàn)象在各類模型、任務(wù)和領(lǐng)域中普遍存在；更重要的是，這些失敗不僅是表面上的錯(cuò)誤理解，更揭示了模型在概念表征上的深層內(nèi)在不一致性。

大型語(yǔ)言模型中的潛在理解圖示。這個(gè)例子顯示了 GPT-4o 未能運(yùn)用自己的概念解釋 ABAB 韻律方案。

框架

當(dāng)人類與大型語(yǔ)言模型在對(duì)概念的理解上存在不一致時(shí)，就會(huì)出現(xiàn)「波將金現(xiàn)象」。在此，本文提出了一個(gè)用于定義概念性理解的理論框架。

研究團(tuán)隊(duì)將這一概念形式化：定義 X 為與某一概念相關(guān)的所有字符串的集合。例如，一個(gè)字符串可以是該概念的一個(gè)可能定義，或是一個(gè)可能的示例。然而，并非所有與概念相關(guān)的字符串都是對(duì)概念的有效使用。

一個(gè)概念的解釋被定義為任何函數(shù) f:X→{0,1}，其中輸出表示該字符串在此解釋中是否被認(rèn)為是有效的（0 表示無(wú)效，1 表示有效）。存在唯一正確的解釋，記作 f* 。人類對(duì)概念可能的解釋方式構(gòu)成的集合記作 F_h。其中，任何 f∈ F_h 且 f≠f* 的情況，都代表了人類對(duì)該概念可能產(chǎn)生的一種誤解。

考慮人類可能采用的某種解釋 f∈ F_h，我們?nèi)绾螜z驗(yàn) f 是不是正確的解釋？實(shí)際上，在所有字符串 x∈X 上驗(yàn)證 f (x)= f*(x) 是不可行的。

因此，研究團(tuán)隊(duì)希望僅在少數(shù)幾個(gè)字符串 x 上檢驗(yàn) f (x)= f*(x)。但這種做法在什么時(shí)候是合理的呢？答案在該框架中得以揭示：如果他們選擇的示例集是經(jīng)過精心設(shè)計(jì)的，使得只有真正理解概念的人才能對(duì)這些示例做出正確解釋，那么就可以用有限的示例集來(lái)測(cè)試人類的概念理解。

形式化地，他們將基石集定義為 S?X 的一個(gè)最小實(shí)例集，使得若 f∈F_h 且對(duì)所有 x∈S 滿足 f (x)=f*(x)，則可得出 f= f* 。也就是說(shuō)，如果某人在基石集中的每個(gè)示例上都能做出與正確解釋一致的判斷，那么就不可能將其解釋與任何錯(cuò)誤的人類理解調(diào)和起來(lái)。圖 2 給出了基石集的可視化示意。

這一方法說(shuō)明了為什么測(cè)試人類對(duì)概念的理解是可行的：測(cè)試概念理解并不需要在所有相關(guān)示例上檢驗(yàn)，而只需在基石集中的示例上進(jìn)行測(cè)試即可。

方法及結(jié)論

本文提出了兩種用于衡量大型語(yǔ)言模型中波將金現(xiàn)象普遍性的程序。本節(jié)介紹其中一種方法：基于研究團(tuán)隊(duì)收集的基準(zhǔn)數(shù)據(jù)集，測(cè)量一種特定類型的波將金式失敗 —— 即對(duì)概念的描述與應(yīng)用之間的脫節(jié)。具體來(lái)說(shuō)，他們構(gòu)建了一個(gè)涵蓋三個(gè)不同領(lǐng)域（文學(xué)技巧、博弈論和心理偏差）的數(shù)據(jù)集，涉及 32 個(gè)概念，共收集了 3159 條標(biāo)注數(shù)據(jù)。

他們發(fā)現(xiàn)，即使模型能夠正確地定義一個(gè)概念，它們?cè)诜诸悺⑸珊途庉嬋蝿?wù)中往往無(wú)法準(zhǔn)確地將其應(yīng)用。所有收集到的數(shù)據(jù)、標(biāo)注和分析結(jié)果均在 Potemkin Benchmark 倉(cāng)庫(kù)中公開提供。

研究團(tuán)隊(duì)在 32 個(gè)概念上對(duì) 7 個(gè)大型語(yǔ)言模型進(jìn)行了分析。這些模型因其流行度以及涵蓋不同開發(fā)商和規(guī)模而被選中。他們通過 OpenAI、Together.AI、Anthropic 和 Google 的 API 收集模型推理結(jié)果。對(duì)于每個(gè)（模型，概念）組合，他們首先判斷模型是否給出了正確的概念定義。如果定義正確，再評(píng)估其在三項(xiàng)額外任務(wù) —— 分類、生成和編輯 —— 中的準(zhǔn)確性。根據(jù)本文的框架規(guī)范，將模型的回答標(biāo)記為正確或錯(cuò)誤。

他們測(cè)量模型表現(xiàn)出的波將金率。波將金率被定義為：在基石示例上做出正確回答的前提下，模型在隨后的問題上回答錯(cuò)誤的比例。對(duì)于隨機(jī)準(zhǔn)確率為 0.50 的任務(wù)，將該值乘以 2，使得波將金率為 1 表示表現(xiàn)相當(dāng)于隨機(jī)水平。

研究結(jié)果顯示，在所有模型和領(lǐng)域中，波將金率都普遍較高。

雖然模型在 94.2% 的情況下能正確地定義概念，但在需要使用這些概念執(zhí)行任務(wù)時(shí)，其表現(xiàn)會(huì)急劇下降，這一點(diǎn)通過表中的高波將金率得到體現(xiàn)。盡管不同模型和任務(wù)間表現(xiàn)略有差異，但我們可以發(fā)現(xiàn)波將金現(xiàn)象在研究團(tuán)隊(duì)分析的所有模型、概念和領(lǐng)域中無(wú)處不在。

研究團(tuán)隊(duì)還提出了一種不同的、自動(dòng)化的程序，用于評(píng)估波將金現(xiàn)象的存在。

剛才，已經(jīng)展示了波將金式理解在大型語(yǔ)言模型中的普遍性。造成這種現(xiàn)象可能有兩種原因：一種可能是模型對(duì)概念的理解存在輕微偏差，但其內(nèi)部是一致的；另一種可能是模型對(duì)概念的理解本身就是不連貫的，對(duì)同一個(gè)概念持有相互沖突的認(rèn)知。為了區(qū)分這兩種情況，研究團(tuán)隊(duì)專門測(cè)試模型內(nèi)部的概念不一致性。

他們通過兩步來(lái)衡量不一致性。首先，研究團(tuán)隊(duì)提示模型生成某一特定概念的一個(gè)實(shí)例或非實(shí)例（例如，生成一個(gè)斜韻的例子）。接著，他們將模型生成的輸出重新提交給模型（通過獨(dú)立的查詢），并詢問該輸出是否確實(shí)是該概念的一個(gè)實(shí)例。在斜韻的例子中，這意味著測(cè)試模型能否認(rèn)出自己生成的示例是否屬于斜韻。圖 5 總結(jié)了這一流程。

表 2 中我們可以觀察到在所有檢查的模型、概念和領(lǐng)域之間存在不一致性，得分范圍從 0.02 到 0.64。盡管這些得分好于隨機(jī)情況，但仍然表明模型在一致性評(píng)估其自身輸出方面存在實(shí)質(zhì)性局限。這表明概念誤解不僅源于對(duì)概念的誤解，還源于對(duì)它們使用的不一致。

綜上，通過兩種互補(bǔ)的實(shí)證方法 —— 一種利用涵蓋文學(xué)技巧、博弈論和心理偏差的新基準(zhǔn)數(shù)據(jù)集，另一種采用自動(dòng)化評(píng)估策略 —— 本文量化了波將金式理解現(xiàn)象在各種任務(wù)、概念、領(lǐng)域和模型中的普遍存在。兩種方法均顯示，即便是在按照傳統(tǒng)基準(zhǔn)測(cè)試標(biāo)準(zhǔn)看似能力很強(qiáng)的模型中，這種現(xiàn)象的發(fā)生率也很高。不一致性檢測(cè)表明，模型內(nèi)部存在對(duì)同一思想的沖突表征。

責(zé)任編輯：趙寧寧來(lái)源：機(jī)器之心