Bengio親手戳穿CoT神話！LLM推理是假象，25％頂會論文遭打臉

作者：新智元 2025-07-03 01:45:00

人工智能

原來，CoT推理竟是假象！Bengio帶隊最新論文戳穿了CoT神話——我們所看到的推理步驟，并非是真實的。不僅如此，LLM在推理時會悄然糾正錯誤，卻在CoT中只字未提。

圖靈獎大牛Bengio新作上線了！

這篇由牛津、谷歌DeepMind、Mila多家機構(gòu)聯(lián)手論文指出——思維鏈并非可解釋性。

這一觀點徹底打破了許多人的認知：

CoT看似一步步給出答案，實則并不一定是其真實的推理過程。

圖片

論文地址：https://www.alphaxiv.org/abs/2025.02

這么說來，能夠暴露LLM內(nèi)心世界的「思維鏈」，如今也不可靠了？

論文中，研究人員撕開了CoT的面紗，揭露了一個令人震驚的真相：思維鏈的透明度，可能只是一種精心編織的假象！

圖片

思維鏈「謊言」被揭穿

然而，現(xiàn)實中，約25%的近期AI論文錯誤地將CoT標榜為「可解釋性技術(shù)」。

這一概念最先由前谷歌研究院Jason Wei在論文中提出，一時間，CoT被廣泛應用在推理模型當中。

圖片

它最大的特點，就是能夠多步驟推理，提升模型準確性。與此同時，讓AI黑盒變得不再那么神秘。

然而， CoT思考過程，是其真正的內(nèi)心OS嗎？

一些論文信誓旦旦地宣稱，CoT可以讓我們看清AI的推理過程，但事實遠非如此。

圖片

尤其是，在高風險領(lǐng)域，這個誤解的代價可能是致命的。

研究人員發(fā)現(xiàn)，在使用CoT論文中，約38%醫(yī)療 AI、25%法律AI、63%自動駕駛汽車相關(guān)論文，都盲目地將CoT視為可解釋性方法。

更令人毛骨悚然的是，帶有明確偏見的提示詞，可以輕易左右模型的答案。

而且，這些偏見在AI給出的「推理步驟」中只字不提。

AI能為帶有偏見的答案，編織出看似合理的解釋，卻從不暴露背后的「黑手」。

圖片

因此，輕信這些帶有偏見的答案，可能十分危險。

不僅如此，AI還會在推理過程中，常常「偷偷」修正自己的錯誤。

表面上看，大模型給出的步驟可能漏洞百出，但它卻能通過未被表述的「暗箱操作」得出正確答案。

這便制造了一種透明的假象。為何會出現(xiàn)這種脫節(jié)？

研究人員推測，簡潔的CoT無法完全捕捉基Transformer大模型中存在的分布式并行計算過程。

CoT如何掩蓋真實推理？

越來越多的實證研究已經(jīng)發(fā)現(xiàn)了大量案例，其中模型的思維鏈與其內(nèi)部推理過程相偏離。

需要指出的是，在審視不忠實性的具體模式之前，CoT解釋的忠實性因模型架構(gòu)等多種因素而異。

研究人員也總結(jié)了4項關(guān)鍵發(fā)現(xiàn)：偏見驅(qū)動的合理化與動機性推理、隱性錯誤糾正（Silent Error Correction）、不忠實的非邏輯捷徑（Unfaithful Illogical Shortcuts）、填充詞元 (Filler Tokens)。

每一項都闡明了CoT是如何誤導或掩蓋模型的實際決策過程，我們?yōu)槟闶崂砹岁P(guān)鍵發(fā)現(xiàn)中的要點問題：

偏見驅(qū)動的合理化與動機性推理

Turpin等研究者通過巧妙地偏置模型輸入證明偏見驅(qū)動的合理化。

舉個栗子：

在提示中重新排序多項選擇題的選項，使得正確選項總是在同一位置（例如，總是字母B）。

在這種情況下，盡管它們的CoT解釋從未提及選項重排是一個影響因素，GPT-3.5和Claude 1.0經(jīng)常會選擇那個被偏置的選項。

當模型被偏向錯誤答案時，它們?nèi)匀粫稍敿毜腃oT來為那些錯誤答案進行合理化解釋。

結(jié)果導致在一系列任務上準確率下降了高達36%，而CoT則給出了一個具有誤導性的推理假象。

另一項研究通過在提示中添加明確答案（例如，「答案是C」）來調(diào)查提示注入的偏見，然后要求模型為其選擇提供理由。

Claude 3.7-Sonnet和DeepSeek-R1分別僅在約25%和約39%的情況下承認了被注入的答案。

這些發(fā)現(xiàn)表明，思維鏈常常作為事后合理化（post-hoc rationalisations）運作，忽略了真正的因果因素，并制造了一種透明解釋的假象。

隱性錯誤糾正（Silent Error Correction）

研究人員指出，模型可能會在其思維鏈中犯錯，然后在內(nèi)部糾正這些錯誤，而CoT卻不反映這一糾正過程。

舉個栗子：

在一個CoT推理過程中，模型可能將一個三角形的斜邊錯誤地計算為16，而正確值應為13，但隨后卻陳述：「我們將斜邊長度13與其他兩條邊長相加得到周長。」

模型在內(nèi)部檢測并糾正了錯誤，但CoT的敘述從未修正或標記這個錯誤——它讀起來像一個連貫的解題過程。

這些隱性錯誤表明，最終答案是通過敘述步驟之外的計算得出的。

不忠實的非邏輯捷徑（Unfaithful Illogical Shortcuts）

研究人員表示，模型會通過潛在的捷徑得出正確答案，例如利用記憶的模式作為替代推理路徑，從而繞過完整的算法推理，這使得明確的推理鏈變得不相關(guān)或不正確。

來個典型案例：

有研究者使用歸因圖（一種追蹤哪些計算步驟對最終輸出有貢獻的方法）發(fā)現(xiàn)，在解決像「36 + 59」這樣的問題時，Claude 3.5 Haiku同時使用了查找表特征（例如，用于「將接近36的數(shù)與接近60的數(shù)相加」）和加法計算特征。

有趣的是，當被要求描述模型如何得出答案時，模型報告稱，其執(zhí)行了逐位相加進位，完全忽略了其使用查找表捷徑的事實。

填充詞元（Filler Tokens）

研究指出，在某些算法推理任務中，使用填充詞元——例如「...」或?qū)W習到的「停頓」詞元這類對任務沒有語義貢獻但會影響模型內(nèi)部計算的輸入詞元——可以提高模型性能。

方便你理解，舉個栗子：

研究者發(fā)現(xiàn)，輸入中附加可學習的停頓詞元（可作為一種填充詞元），在許多任務上都帶來了顯著的性能提升。

無獨有偶，研究者還發(fā)現(xiàn)，添加填充詞元使模型能夠解決它們以前失敗的問題，尤其是在使用密集監(jiān)督進行訓練時。

以上幾項關(guān)鍵發(fā)現(xiàn)，均解釋了CoT的不忠實性是一個普遍存在于不同模型架構(gòu)和規(guī)模中的根本性挑戰(zhàn)。

其由提示詞偏見、未能承認隱藏影響以及在復雜推理任務中系統(tǒng)性的修復錯誤等因素導致，發(fā)生率相當高。

CoT解釋與內(nèi)部計算不一致，是為何？

以上案例中，我們看到了一些關(guān)于CoT表里不一的現(xiàn)象，那么，究竟是什么原因?qū)е碌模?/p>

分布式并行計算，而非順序

「機制可解釋性」研究表明，Transformer架構(gòu)可能從根本上限制了CoT的忠實度。

基于Transformer搭建的LLM，通常以分布式方式同時通過多個組件處理信息，而不是CoT呈現(xiàn)的順序步驟。

正是因為這種架構(gòu)差異，導致了模型計算方式與語言表達方式之間，存在固有的不匹配。

舉個栗子，面對「24÷3=?」這樣簡單的數(shù)學問題，LLM會怎么做？

它一定不會像人類學生那樣，逐一分析「3能除24多少次」，或是列出長除法的步驟。

相反，LLM內(nèi)的多個注意力頭，會同時處理這些數(shù)字之間的關(guān)系。

它可能將其識別為記憶中的事實，確認其為8的乘法表的一部分，并計算除法——所有這些都在并行進行。

為了生成簡潔且看似合理的輸出，LLM通常只生成一個這樣的敘述來合理化它們的答案，而不是表達所有并行路徑，即使是那些可能顯著影響最終答案的路徑。

因此，CoT通常會忽略有影響的因素，僅作為模型底層分布式、疊加計算的部分、事后合理化。

冗余路徑

此外，LLM在處理任務時，往往會通過多條冗余計算路徑得出相同結(jié)論。

以計算√144為例，模型可能同時執(zhí)行以下操作：

識別這是一個記憶中的事實（12×12=144）
應用平方根算法
與訓練數(shù)據(jù)中的類似問題進行模式匹配

當從模型解釋「√144=12」的CoT中移除關(guān)鍵步驟「144=12×12」時，LLM仍能夠正確輸出12。

這表明，LLM的答案并不完全依賴于語言化的推理步驟，而是依賴其內(nèi)部的多條冗余路徑。

這種冗余計算路徑的現(xiàn)象，被研究者稱為「九頭蛇效應」（Hydra Effect）。

即如果LLM一條路徑被阻斷或移除，另一條路徑可以接替。

這也就解釋了，為什么對CoT的某些部分進行修改或刪除，對最終答案的影響微乎其微。

CoT忠實性挑戰(zhàn)

Tanneru等研究者曾嘗試通過在訓練中懲罰不一致性，引導LLM生成忠實的CoT推理。

然而，這一方法僅取得了部分成功，尤其是在復雜問題上，模型傾向于生成看似合理但非因果的解釋。

比如，模型可能輸出一個邏輯清晰的CoT，卻掩蓋了其真正的決策路徑。

這種「合理化」傾向不僅難以完全消除，還可能在微調(diào)或持續(xù)學習過程中重新出現(xiàn)。

另有研究人員Chua和Evans，進一步研究了經(jīng)過專門「推理訓練」的模型，結(jié)果發(fā)現(xiàn)：

DeepSeek-R1在59%的測試中能提及提示線索，但仍有41%的情況，未能識別關(guān)鍵影響因素。

即便是最先進的DeepSeek-V3，也僅在7%案例中提及線索，表明推理訓練的效果極其有限。

更令人擔憂的是，LLM可能通過CoT「欺騙」監(jiān)控機制。

當CoT被用于監(jiān)控RL獎勵函數(shù)中的推理時，模型學會生成看似無害的推理軌跡，實則暗中執(zhí)行有害策略。

CoT假象，破解之法

論文的最后，針對CoT透明度的問題，研究人員指出，「我們不能繼續(xù)被假象蒙蔽」。

為此，他們提出了以下幾點建議：

1. 重新定義CoT的角色

CoT不是可解釋性的「萬能鑰匙」，而應視為一種補充工具。它能提供線索，但絕非真相的全部。

2. 引入嚴格的驗證機制

通過因果驗證技術(shù)，如激活修補（activation patching）、反事實檢驗、驗證器模型，深入探查AI的推理過程是否忠實。

3. 借鑒認知科學

模仿人類的錯誤監(jiān)控、自我修正敘事和雙重過程推理（直覺+反思），讓AI的解釋更接近真實。

4. 強化人工監(jiān)督

開發(fā)更強大的工具，讓人類專家能夠?qū)彶楹万炞CAI的推理過程，確保其可信度。

參考資料：

https://x.com/FazlBarez/status/1940070420692312178

https://www.alphaxiv.org/abs/2025.02

責任編輯：武曉燕來源：新智元

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看