大模型不會(huì)推理,為什么也能有思路?有人把原理搞明白了
大語(yǔ)言模型的「推理」能力應(yīng)該不是推理,在今年 6 月,一篇 Nature 論文《Language is primarily a tool for communication rather than thought》曾引發(fā) AI 社區(qū)的大討論,改變了我們對(duì)于 AI 智力的看法。
該論文認(rèn)為人類語(yǔ)言主要是用于交流的工具,而不是思考的工具,對(duì)于任何經(jīng)過(guò)測(cè)試的思維形式都不是必需的。圖靈獎(jiǎng)獲得者 Yann LeCun 對(duì)此還表示,無(wú)論架構(gòu)細(xì)節(jié)如何,使用固定數(shù)量的計(jì)算步驟來(lái)計(jì)算每個(gè) token 的自回歸 LLM 都無(wú)法進(jìn)行推理。
那么,大模型的「推理」行為到底是在做什么呢?本周四,一篇來(lái)自倫敦大學(xué)學(xué)院(UCL)等機(jī)構(gòu)的研究《Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models》詳細(xì)探討了大語(yǔ)言模型(LLM)在執(zhí)行推理任務(wù)時(shí)采用的泛化策略類型,得出的結(jié)論給我們了一些啟發(fā)。
大模型的「推理」是在做什么?
一個(gè)普遍的猜測(cè)是:大模型的推理難道是在從參數(shù)知識(shí)中檢索答案?該研究給出了反對(duì)這一觀點(diǎn)的證據(jù)。作者認(rèn)為,是預(yù)訓(xùn)練中的程序性知識(shí)在推動(dòng)大模型進(jìn)行推理。
自從大模型出現(xiàn)以來(lái),AI 研究領(lǐng)域一直流傳著這樣一種假設(shè):當(dāng)大模型在進(jìn)行推理時(shí),它們進(jìn)行的是某種形式的近似檢索,即從參數(shù)知識(shí)中「檢索」中間推理步驟的答案,而不是進(jìn)行「真正的」推理。
考慮到大模型所訓(xùn)練的數(shù)萬(wàn)億個(gè) token、令人印象深刻的記憶能力、評(píng)估基準(zhǔn)的數(shù)據(jù)污染問(wèn)題已得到充分證實(shí),以及大模型推理依賴于 prompt 的性質(zhì),這種想法看起來(lái)似乎是合理的。
然而,大多數(shù)研究在得出結(jié)論認(rèn)為模型不是真正推理時(shí),并沒(méi)有進(jìn)一步去研究預(yù)訓(xùn)練數(shù)據(jù)。在新的工作中,人們希望探索一個(gè)命題:即使推理步驟的答案就在數(shù)據(jù)中,模型在生成推理軌跡時(shí)是否會(huì)依賴它們?
作者使用影響函數(shù)來(lái)估計(jì)預(yù)訓(xùn)練數(shù)據(jù)對(duì)兩個(gè) LLM(7B 和 35B)完成事實(shí)問(wèn)題回答(下圖左)的可能性,以及簡(jiǎn)單數(shù)學(xué)任務(wù)(3 個(gè)任務(wù),其中一個(gè)顯示在右側(cè))的推理軌跡的影響。
令人驚訝的是,研究發(fā)現(xiàn)的結(jié)果與我們的想法相反:LLM 使用的推理方法看起來(lái)不同于檢索,而更像是一種通用策略——從許多文檔中綜合程序性知識(shí)并進(jìn)行類似的推理。
新論文的一作、UCL 在讀博士 Laura Ruis 表示,該研究是基于對(duì) 5M 預(yù)訓(xùn)練文檔(涵蓋 25 億個(gè) token)對(duì)事實(shí)問(wèn)題、算術(shù)、計(jì)算斜率和線性方程的影響的分析。總而言之,他們?yōu)檫@項(xiàng)工作做了十億個(gè) LLM 大小的梯度點(diǎn)積。
接下來(lái)還有幾個(gè)問(wèn)題:大模型是否嚴(yán)重依賴于特定文檔來(lái)完成任務(wù),或者文檔是更有用,還是總體貢獻(xiàn)較少?前者適合檢索策略,后者則不適合。
通過(guò)實(shí)驗(yàn)可以看到,模型在生成推理痕跡時(shí)對(duì)單個(gè)文檔的依賴程度低于回答事實(shí)問(wèn)題(下圖箭頭粗細(xì)表示)時(shí)對(duì)單個(gè)文檔的依賴程度,并且它們所依賴的文檔集更具通用性。
對(duì)于事實(shí)問(wèn)題,答案往往表現(xiàn)出很大的影響力,而對(duì)于推理問(wèn)題則不然(見(jiàn)下圖底行)。此外,該研究發(fā)現(xiàn)的證據(jù)表明代碼對(duì)推理既有正向影響,也有反向的影響。
另外,看文檔對(duì)查詢推理軌跡的影響可以較容易地預(yù)測(cè)出該文檔對(duì)具有相同數(shù)學(xué)任務(wù)的另一個(gè)查詢的影響,這表明影響力會(huì)吸收文檔中用于推理任務(wù)的程序性知識(shí)。
因此可以得出結(jié)論,大模型通過(guò)應(yīng)用預(yù)訓(xùn)練期間看到的類似案例中的程序性知識(shí)(procedural knowledge)進(jìn)行推理。這表明我們不需要在預(yù)訓(xùn)練中涵蓋所有可能的案例——專注于高質(zhì)量、多樣化的程序數(shù)據(jù)可能是更有效的策略。
該研究可能會(huì)改變我們對(duì)于 LLM 推理的看法。Laura Ruis 表示,很期待見(jiàn)證這種程序泛化風(fēng)格的發(fā)現(xiàn),對(duì)于更大的模型,或潛在的不同預(yù)訓(xùn)練數(shù)據(jù)分割等方向的影響。
論文鏈接:https://arxiv.org/abs/2411.12580
實(shí)驗(yàn)設(shè)置
模型選擇
研究者選擇了兩個(gè)不同體量的模型(7B 和 35B),分別是 Cohere 的 Command R 系列的基礎(chǔ)和監(jiān)督微調(diào)版本。其中,他們使用基礎(chǔ)模型估計(jì)二階信息并計(jì)算文檔梯度,并使用監(jiān)督指令微調(diào)模型生成完成并計(jì)算查詢梯度。
查詢?cè)O(shè)置
研究者收集了一個(gè)包含不同類型問(wèn)題的查詢集,其中 40 個(gè)推理問(wèn)題,40 個(gè)事實(shí)問(wèn)題。
對(duì)于推理問(wèn)題,他們確定了兩種數(shù)學(xué)推理類型,每種模型都可以使用零樣本 CoT 來(lái)穩(wěn)健地完成。研究者在包含每種推理類型的 100 個(gè)問(wèn)題的更大集合上對(duì)模型進(jìn)行評(píng)估,并選擇了至少 80% 正確率的任務(wù)。
這為 7B 模型提供了簡(jiǎn)單的兩步算法(如下表 1 所示),并為 35B 模型求解線性方程中的 x(如下表 9 所示)。研究者確保沒(méi)有查詢需要輸出分?jǐn)?shù)。并且,為了使 7B 和 35B 模型之間的結(jié)果更具可比性,他們對(duì)這兩個(gè)模型使用了相同的斜率問(wèn)題。
對(duì)于 40 個(gè)事實(shí)問(wèn)題,研究者確保模型一半回答正確,一半錯(cuò)誤,從而能夠識(shí)別從參數(shù)知識(shí)中檢索事實(shí)的失敗。
文檔設(shè)置
研究者想要比較預(yù)訓(xùn)練數(shù)據(jù)對(duì)不同大小模型(7B 和 35B)推理的影響,因此他們選擇了兩個(gè)在相同數(shù)據(jù)上訓(xùn)練的模型。其中,每個(gè)模型只需要對(duì) Hessian 進(jìn)行一次 EK-FAC 估計(jì),但公式 1 中的其他項(xiàng)要求每個(gè)文檔 - 查詢對(duì)通過(guò)模型進(jìn)行兩次前向和后向傳遞。
為了解決這個(gè)問(wèn)題,研究者從預(yù)訓(xùn)練數(shù)據(jù)中抽取了一組文檔,這些文檔涵蓋了預(yù)訓(xùn)練期間看到的每個(gè)批次的多個(gè)示例,總共 500 個(gè)文檔(約 25 億 token),其分布與訓(xùn)練分布相似。
EK-FAC 估計(jì)
為了估計(jì) 7B 和 35B 模型的 Hessian,研究者通過(guò)對(duì)兩個(gè)模型進(jìn)行預(yù)訓(xùn)練,隨機(jī)抽取了 10 萬(wàn)份均勻分布的文檔。
實(shí)驗(yàn)結(jié)果:五大發(fā)現(xiàn)
為了回答上述關(guān)于 LLM 推理泛化的問(wèn)題,研究者進(jìn)行了定量和定性分析,并得出了以下五大發(fā)現(xiàn)。
發(fā)現(xiàn) 1:對(duì)于具有相同底層推理任務(wù)的查詢,文檔的影響力得分之間存在顯著的正相關(guān)性,表明了這些文檔與「需要對(duì)不同數(shù)字應(yīng)用相同程序」的問(wèn)題相關(guān)。
研究者計(jì)算了所有 500 萬(wàn)個(gè)文檔得分對(duì)于所有查詢組合的 Pearson R 相關(guān)性(每個(gè)模型有 802 個(gè)相關(guān)性)。下圖右顯示了每個(gè)任務(wù) 10 個(gè)查詢的子樣本結(jié)果。
他們還發(fā)現(xiàn),相同推理類型的很多查詢之間存在非常顯著的正相關(guān)性(p 值均低于 4e - 8),而大多數(shù)(但不是全部)事實(shí)查詢或其他組合(例如不同類型的推理查詢)之間存在非常顯著的相關(guān)性缺失(p 值均在 4e - 3 左右)。這意味著許多文檔對(duì)同一類型的推理具有類似的影響。
發(fā)現(xiàn) 2:在推理時(shí),模型對(duì)每個(gè)文檔的依賴程度平均低于回答事實(shí)問(wèn)題時(shí)對(duì)每個(gè)生成信息量的依賴程度,總體影響幅度波動(dòng)性要小得多,表明它是從一組更一般的文檔中泛化出來(lái)的。模型越大,效果越明顯。下圖 2 展示了對(duì)排名中不同百分?jǐn)?shù)正向部分的總影響。
結(jié)果描述了 top-k 百分位正向排名文檔中包含的總影響力,比如第 20 個(gè)百分?jǐn)?shù)包含了一個(gè)查詢的 20% 正向文檔,顯示的總影響力是截止到該部分排名的所有文檔影響力的總和。
發(fā)現(xiàn) 3:事實(shí)問(wèn)題的答案在對(duì)問(wèn)題 top 影響力的文檔中出現(xiàn)的頻率相對(duì)較高,而推理問(wèn)題的答案幾乎沒(méi)有在對(duì)它們 top 影響力的文檔中出現(xiàn)過(guò)。
如下圖 3 所示,對(duì)于 7B 模型,研究者在 55% 的事實(shí)查詢的前 500 個(gè)文檔中找到了答案,而推理查詢僅為 7.4%。對(duì)于 35B 模型,事實(shí)查詢的答案在 top 影響力文檔中出現(xiàn)的概率為 30%,而推理集的答案從未出現(xiàn)過(guò)。
發(fā)現(xiàn) 4:對(duì)推理查詢有影響力的文檔通常采用類似的逐步推理形式,如算術(shù)。同時(shí)有影響力的文檔通常以代碼或一般數(shù)學(xué)的形式實(shí)現(xiàn)推理問(wèn)題的解決方案。
總的來(lái)說(shuō),研究者在 top 100 份文檔中手動(dòng)找到了 7 個(gè)以代碼實(shí)現(xiàn)斜率的獨(dú)特文檔,以及 13 個(gè)提供計(jì)算斜率方程式的文檔。其中,7B 模型依賴其中 18 個(gè)文檔來(lái)完成其補(bǔ)全(這意味著 18 個(gè)不同的文檔出現(xiàn)在所有查詢的 top 100 份文檔中),而 35B 模型則依賴 8 個(gè)文檔。
下圖分別是一個(gè)以 JavaScript(左)和數(shù)學(xué)(右)實(shí)現(xiàn)解決方案的極具影響力的文檔示例。
發(fā)現(xiàn) 5:對(duì)于事實(shí)查詢,最有影響力的數(shù)據(jù)來(lái)源包括維基百科和小知識(shí);而推理查詢的主要來(lái)源包括數(shù)學(xué)、StackExchange、ArXiv 和代碼。
總而言之,該研究結(jié)果表明,LLM 實(shí)際上可以從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一種通用的推理方法,并且可以從數(shù)據(jù)中的程序性知識(shí)中學(xué)習(xí)。此外,人們發(fā)現(xiàn)沒(méi)有任何證據(jù)表明模型依賴于預(yù)訓(xùn)練數(shù)據(jù)中簡(jiǎn)單數(shù)學(xué)推理步驟的答案。這意味著近似檢索假設(shè)并不總是正確的,這對(duì)未來(lái)人工智能的設(shè)計(jì)具有重要意義。
也就是說(shuō),我們可能不需要專注于覆蓋預(yù)訓(xùn)練數(shù)據(jù)中的每種情況,而是可以專注于數(shù)據(jù)應(yīng)用和演示各種推理任務(wù)的程序。
這份研究結(jié)果表明,LLM 實(shí)際上可以從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一種通用的推理方法,并且可以從數(shù)據(jù)中的程序性知識(shí)中學(xué)習(xí)。此外,人們沒(méi)有發(fā)現(xiàn)任何證據(jù)表明模型依賴于預(yù)訓(xùn)練數(shù)據(jù)中簡(jiǎn)單數(shù)學(xué)推理步驟的答案。這意味著近似檢索假設(shè)并不總是正確的,這對(duì)未來(lái) AI 的設(shè)計(jì)具有意義。
也就是說(shuō),我們可能不需要專注于覆蓋預(yù)訓(xùn)練數(shù)據(jù)中的每種情況,而是可以專注于數(shù)據(jù)應(yīng)用和演示各種推理任務(wù)的程序。
更多技術(shù)細(xì)節(jié)與實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。