從黑箱到透明工廠：Anthropic用回路追蹤技術(shù)給LLM裝上思維監(jiān)控屏? 原創(chuàng)

發(fā)布于 2025-4-16 06:09

瀏覽

0收藏

本文旨在介紹利用歸因圖技術(shù)對大型語言模型的計算回路進行逆向工程，目的是試圖徹底搞清大型語言模型的決策過程。

引言

多年來，基于Transformer的大型語言模型（LLM）在從簡單的信息檢索系統(tǒng)到能夠進行編碼、寫作、開展研究的復雜智能體等一系列任務上取得了長足的進步。然而，盡管這些模型功能強大，但它們在很大程度上仍然是黑匣子。給定輸入，它們可以完成任務，但我們?nèi)狈χ庇^的方法來理解任務的具體完成方式。

LLM旨在預測統(tǒng)計上最佳的下一個單詞/標記。但是，它們是否只專注于預測下一個標記，還是會提前規(guī)劃？例如，當我們要求模型寫一首詩時，它是一次生成一個單詞，還是在輸出單詞之前預測押韻模式？或者，當我們被問及一些基本的推理問題，例如達拉斯所在的州首府是什么？它們通常會產(chǎn)生看起來像是一連串推理的結(jié)果，但模型真的運用了這些推理嗎？我們無法洞察模型的內(nèi)部思維過程。要理解LLM，我們需要追溯其底層邏輯。

對大型語言模型（LLM）內(nèi)部計算的研究屬于“機械可解釋性”領(lǐng)域，旨在揭示模型的計算回路。Anthropic是致力于可解釋性研究的領(lǐng)先人工智能公司之一。2025年3月，他們發(fā)表了一篇題為《??回路追蹤：揭示語言模型中的計算圖?》的論文，旨在解決回路追蹤問題。?

本文旨在解釋他們的論文工作背后的核心思想，并為理解LLM中的回路追蹤奠定基礎(chǔ)。

LLM中的回路是什么？

在定義語言模型中的“回路”之前，我們首先需要了解LLM的內(nèi)部結(jié)構(gòu)。它是一個基于Transformer架構(gòu)的神經(jīng)網(wǎng)絡；因此，將神經(jīng)元視為基本計算單元，并將其跨層激活模式解釋為模型的計算回路，這似乎是顯而易見的。

然而，論文《??邁向單義性??》表明，僅僅追蹤神經(jīng)元的激活并不能清楚地理解這些神經(jīng)元被激活的原因。這是因為單個神經(jīng)元通常是多義的，它們會對一系列不相關(guān)的概念做出反應。?

此論文進一步表明，神經(jīng)元由更基本的單元（稱為特征）組成，這些單元能夠捕獲更多可解釋的信息。事實上，一個神經(jīng)元可以被看作是多個特征的組合。因此，我們的目標是追蹤特征激活，而不是追蹤神經(jīng)元激活，也就是驅(qū)動模型輸出的實際意義單元。

這樣，我們可以將回路定義為模型用來將給定輸入轉(zhuǎn)換為輸出的特征激活和連接序列。

現(xiàn)在，我們知道了我們在尋找什么。接下來，讓我們更深入地了解一下基于Transformer的大型語言模型的基本架構(gòu)。

技術(shù)架構(gòu)

目前，我們已經(jīng)確定需要追蹤特征激活而不是神經(jīng)元激活。為了實現(xiàn)這一點，我們需要將現(xiàn)有LLM模型的神經(jīng)元轉(zhuǎn)換為特征，即構(gòu)建一個以特征形式表示計算的替代模型。

在深入探討這個替代模型是如何構(gòu)建的之前，我們先簡單回顧一下基于Transformer的大型語言模型的架構(gòu)。

下圖展示了基于Transformer的語言模型的運作方式。其思路是，使用嵌入將輸入轉(zhuǎn)換為標記（token）。這些標記被傳遞到注意力模塊，該模塊計算標記之間的關(guān)系。然后，每個標記被傳遞到多層感知器（MLP）模塊，該模塊使用非線性激活函數(shù)和線性變換進一步細化標記。在模型生成最終輸出之前，此過程會在多層中重復進行。

從黑箱到透明工廠：Anthropic用回路追蹤技術(shù)給LLM裝上思維監(jiān)控屏?-AI.x社區(qū)

本圖片由作者本人繪制

既然我們已經(jīng)闡述了基于Transformer的LLM的結(jié)構(gòu)，接下來我們來看看什么是轉(zhuǎn)碼器。作者使用了一個“轉(zhuǎn)碼器”來開發(fā)替換模型。

轉(zhuǎn)碼器

轉(zhuǎn)碼器本身是一種神經(jīng)網(wǎng)絡（通常比LLM的維度高得多），旨在用更易于解釋、功能等效的組件（特征）替換轉(zhuǎn)換器模型中的MLP塊。

從黑箱到透明工廠：Anthropic用回路追蹤技術(shù)給LLM裝上思維監(jiān)控屏?-AI.x社區(qū)

本圖片由作者本人繪制

它分三個階段處理來自注意力模塊的標記：編碼、稀疏激活和解碼。實際上，它將輸入縮放到更高維空間，應用激活以強制模型僅激活稀疏特征，然后在解碼階段將輸出壓縮回原始維度。

從黑箱到透明工廠：Anthropic用回路追蹤技術(shù)給LLM裝上思維監(jiān)控屏?-AI.x社區(qū)

本圖片由作者本人繪制

在對基于轉(zhuǎn)換器的LLM和轉(zhuǎn)碼器有了個基本了解之后，讓我們看看如何使用轉(zhuǎn)碼器來構(gòu)建替換模型。

構(gòu)建替代模型

如前所述，Transformer模塊通常由兩個主要組件組成：注意力模塊和MLP模塊（前饋網(wǎng)絡）。為了構(gòu)建替換模型，需要將原始Transformer模型中的MLP模塊替換為轉(zhuǎn)碼器。這種集成是無縫的，因為轉(zhuǎn)碼器經(jīng)過訓練可以模擬原始MLP的輸出，同時通過稀疏和模塊化特征公開其內(nèi)部計算。

雖然標準轉(zhuǎn)碼器在單個Transformer層中訓練以模仿MLP行為，但本文作者使用了跨層轉(zhuǎn)碼器（CLT），它可以捕獲跨多個層級的多個轉(zhuǎn)碼器塊的組合效應。這一點非常重要，因為它使我們能夠追蹤某個特征是否分布在多個層級上，而這對于回路追蹤至關(guān)重要。

下圖展示了如何使用跨層轉(zhuǎn)碼器（CLT）構(gòu)建替換模型。第一層的轉(zhuǎn)碼器輸出有助于構(gòu)建所有上層模型的MLP等效輸出，直至最后。

從黑箱到透明工廠：Anthropic用回路追蹤技術(shù)給LLM裝上思維監(jiān)控屏?-AI.x社區(qū)

本圖片由作者本人繪制

提示：下圖來自本文開始處的論文，展示了如何構(gòu)建替換模型。它是利用特征替換原始模型的神經(jīng)元。

從黑箱到透明工廠：Anthropic用回路追蹤技術(shù)給LLM裝上思維監(jiān)控屏?-AI.x社區(qū)

本圖片的出處是??這里??

現(xiàn)在，我們了解了替換模型的架構(gòu)。接下來，讓我們看看如何在替換模型的計算路徑上構(gòu)建可解釋的表示。

模型計算的可解釋呈現(xiàn)：歸因圖

為了構(gòu)建模型計算路徑的可解釋表示，我們從模型的輸出特征出發(fā)，逆向追溯特征網(wǎng)絡，以發(fā)現(xiàn)哪個先前的特征對其做出了貢獻。這通過后向雅可比矩陣來實現(xiàn)，該矩陣可以計算前一層的特征對當前特征激活的貢獻程度，并遞歸應用直至到達輸入。每個特征被視為一個節(jié)點，每個影響因素被視為一條邊。此過程可能生成包含數(shù)百萬條邊和節(jié)點的復雜圖，因此需要進行剪枝以保持圖的緊湊性和手動可解釋性。

作者將此計算圖稱為歸因圖，并開發(fā)了檢查它的工具，這成為了本文的核心貢獻。

下圖展示了一個示例歸因圖。

從黑箱到透明工廠：Anthropic用回路追蹤技術(shù)給LLM裝上思維監(jiān)控屏?-AI.x社區(qū)

本圖片的出處是??這里??

現(xiàn)在，有了所有這些理解，我們就可以討論特征可解釋性了。

使用歸因圖實現(xiàn)特征可解釋性

研究人員使用Anthropic公司的Claude 3.5Haiku模型的歸因圖來研究其在不同任務中的表現(xiàn)。在詩歌生成中，他們發(fā)現(xiàn)該模型不僅僅是生成下一個詞，它還會進行一種規(guī)劃，既向前規(guī)劃，又向后規(guī)劃。在生成一行詩之前，該模型會識別幾個可能押韻或語義合適的詞作為結(jié)尾，然后向后推演，生成一行自然地指向該目標的詩句。令人驚訝的是，該模型似乎可以同時記住多個候選結(jié)尾詞，并根據(jù)最終選擇的詞重構(gòu)整個句子。

這項技術(shù)提供了一個清晰的、機制化的視角，展現(xiàn)了語言模型如何生成結(jié)構(gòu)化、富有創(chuàng)意的文本。這對于人工智能界來說是一個重要的里程碑。隨著我們開發(fā)出越來越強大的模型，追蹤和理解其內(nèi)部規(guī)劃和執(zhí)行的能力對于確保人工智能系統(tǒng)的一致性、安全性和可信度至關(guān)重要。

當前方法的局限性

歸因圖提供了一種追蹤單個輸入模型行為的方法，但它們尚無法提供可靠的方法來理解全局回路或模型在多個示例中使用的一致機制。這種分析依賴于用轉(zhuǎn)碼器替換多層感知器（MLP）計算，但目前尚不清楚這些轉(zhuǎn)碼器是真正復制了原始機制，還是僅僅近似輸出。此外，當前方法僅強調(diào)活躍特征，但非活躍或抑制性特征對于理解模型行為同樣重要。