打破大模型黑盒,徹底分解神經元!OpenAI對頭Anthropic擊破AI不可解釋性障礙
長久以來,我們都無從理解AI是如何進行決策和輸出的。
模型開發人員只能決定算法、數據,最后得到模型的輸出結果,而中間部分——模型是怎么根據這些算法和數據輸出結果,就成為了不可見的「黑箱」。
所以就出現了「模型的訓練就像煉丹」這樣的戲言。
但現在,模型黑箱終于有了可解釋性!
來自Anthropic的研究團隊提取了模型的神經網絡中最基本的單位神經元的可解釋特征。
這將是人類揭開AI黑箱的里程碑式的一步。
Anthropic激動地表示:
「如果我們能夠理解模型中的神經網絡是如何工作的,那么診斷模型的故障模式、設計修復程序,并讓模型安全地被企業和社會采用就將成為觸手可及的現實!」
在Anthropic的最新研究報告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning(《走向單語義性:用字典學習分解語言模型》),研究人員通過字典學習將包含512個神經元的層分解出了4000多個可解釋的特征。
研究報告地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html
這些特征分別表示DNA序列,法律語言,HTTP請求,希伯來文本,營養成分說明等。
當孤立地觀察單個神經元的激活時,這些模型屬性中的大多數都是不可見的。
這是由于大多數神經元都是「多語義」的,單個神經元與網絡行為沒有對應一致的關系。
例如,在一個小型語言模型中,單個神經元在許多不相關的上下文中都很活躍,包括:學術引文、英語對話、HTTP 請求和韓語文本。
而在經典視覺模型中,單個神經元會對貓的臉和汽車的前臉做出反應。
不少研究都證實了一個神經元的激活在不同的語境中可能意味著不同的含義。
而神經元多語義的一個潛在原因是疊加,這是一種假設的現象,即神經網絡通過為每個特征分配自己的神經元線性組合,來表示數據的獨立「特征」多于它的神經元數量。
如果將每個特征視為神經元上的一個向量,那么特征集就構成了網絡神經元激活的一個過完備線性基礎。
在Anthropic之前的Toy Models of Superposition(《疊加玩具模型》)論文中,證明了稀疏性在神經網絡訓練中可以消除歧義,幫助模型更好地理解特征之間的關系,從而減少激活向量的來源特征的不確定性,使模型的預測和決策更可靠。
這一概念類似于壓縮感知中的思想,其中信號的稀疏性允許從有限的觀測中還原出完整的信號。
但在Toy Models of Superposition中提出的三種策略中:
(1)創建沒有疊加的模型,或許可以鼓勵激活稀疏性;
(2)使用字典學習在表現出疊加態的模型中尋找過完備特征;
(3)依賴于兩者結合的混合方法。
方法(1)不足以防止多義性,方法(2)則存在著嚴重的過度擬合問題。
因此,這次Anthropic的研究人員使用了一種稱為稀疏自動編碼器的弱字典學習算法,從經過訓練的模型中生成學習到的特征,這些特征提供了比模型神經元本身更單一的語義分析單位。
具體來說,研究人員采用了具有512個神經元的MLP單層transformer,并通過從80億個數據點的MLP激活上訓練稀疏自動編碼器,最終將MLP激活分解為相對可解釋的特征,擴展因子范圍從1×(512個特征)到256×(131,072個特征)。
為了驗證本研究發現的特征比模型的神經元更具可解釋性,采用了盲審評估,讓一位人類評估員對它們的可解釋性進行評分。
可以看到,特征(紅色)的得分比神經元(青色)高得多。
證明了研究人員找到的特征相對于模型的內部神經元來說更易理解。
此外,研究人員還采用了「自動解釋性」方法,通過使用大型語言模型生成小型模型特征的簡短描述,并讓另一個模型根據該描述預測特征激活的能力對其進行評分。
同樣,特征得分高于神經元,證明了特征的激活及其對模型行為的下游影響具有一致的解釋。
并且,這些提取出的特征還提供了一種有針對性的方法來引導模型。
如下圖所示,人為激活特征會導致模型行為以可預測的方式更改。
這些被提取的可解釋性特征可視化圖如下:
點擊左邊的特征列表,就能與神經網絡中的特征空間進行交互式探索。
研究報告概要
這份來自Anthropic的研究報告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning,主要可以分為四個部分。
問題設置,研究人員介紹了研究動機,并闡述訓練的transfomer和稀疏自動編碼器。
單個特征詳細調查,證明了研究發現的幾個特征是功能上特定的因果單元。
全局分析,論證了典型特征是可解釋的,并且它們可以解釋MLP層的重要部分。
現象分析,描述了特征的幾個屬性,包括特征分割、普遍性,以及它們如何形成類似于「有限狀態自動機」的系統來實現復雜的行為。
結論包括以下7個:
1. 稀疏自動編碼器能提取相對單一的語義特征。
2. 稀疏自編碼器能產生可解釋的特征,而這些特征在神經元基礎中實際上是不可見的。
3. 稀疏自動編碼器特征可用于干預和引導變壓器的生成。
4. 稀疏自編碼器能生成相對通用的特征。
5. 隨著自動編碼器大小的增加,特征有「分裂」的傾向。
6. 僅512個神經元就能代表數以萬計的特征。
7. 這些特征在類似「有限狀態自動機」的系統中連接起來,從而實現復雜的行為,如下圖。
具體詳細內容可見報告。
但對這份研究報告,Anthropic認為想要將本研究報告中小模型的成功復制到更大的模型上,我們今后面臨的挑戰將不再是科學問題,而是工程問題。
而這意味著為了在大模型上實現解釋性,需要在工程領域投入更多的努力和資源,以克服模型復雜性和規模帶來的挑戰。
包括開發新的工具、技術和方法,以應對模型復雜性和數據規模的挑戰;也包括構建可擴展的解釋性框架和工具,以適應大規模模型的需求。
這將是解釋性AI和大規模深度學習研究領域的最新趨勢。