邁向人工智能的認識論:窺探黑匣子的新方法
鑒于上述困難,研究人員正在多個方面進行創新,以更好地理解和控制大型語言模型(LLM)的推理方式。總體而言,兩種互補的策略正在形成:
機械分析和歸因:分解模型的內部計算(電路、神經元、注意力頭),將特定的決策或步驟歸因于特定的組件。
行為評估和約束:設計評估指標和訓練框架,區分真正的推理和表面模式,并鼓勵模型在中間步驟中講真話。
一個有進展的想法是將電路級可解釋性與思路鏈驗證相結合。例如,人們可以使用因果追蹤方法來查看模型的哪些部分與思路鏈的每個步驟相對應地被激活,從而檢查所聲稱的推理步驟是否在產生答案的過程中發揮了因果作用。如果一個模型說:“因此,由于原因 X,選項 C 是正確的”,我們可以驗證與原因 X 相關的神經元確實對選項 C 的對數有影響。Anthropic 的工作已經展示了追蹤個體特征的可行性:他們設法識別出能夠檢測 Claude 是否遵循用戶提示的神經元。通過觀察模型內部的信息流,他們有效地標記出一種“令人擔憂的機制”——模型在生成虛假推理路徑時傾向于使用提示。進一步擴展,我們可以想象一個自動化系統,它實時監控 LLM 的內部激活狀態,以便及時發現其是否存在不良行為或魯棒性不足的情況。事實上,Anthropic 提到,他們投資了模型內部狀態的“實時監控”,并將其作為安全流程的一部分。
另一項創新是開發更好的推理保真度指標。涌現階段的討論強調了如何選擇正確的指標來揭示持續的進展,而不是突如其來的神奇跳躍。同樣,對于思路鏈,研究人員正在提出直接評估忠實度的指標。例如,我們不再僅僅問“模型是否得到了正確答案?”,而是問“如果我們干預或刪除解釋中的某個特定步驟,答案會改變嗎?”。Anthropic 的團隊以一種受控的方式做到了這一點:他們嘗試在思路鏈中提供誤導性的步驟,看看忠實的模型是否會標記不一致性或更改其答案。另一種方法是一致性檢查:讓模型針對同一個問題生成多個不同的思路鏈(通過提示變異性),然后驗證所有思路鏈是否都指向同一個答案(自洽性)。如果不是,那么模型可能是在猜測,或者推理并沒有確定性地引導答案——這表明思路鏈可能空洞無物,缺乏實質內容。
人們對使用輔助模型進行自動化 CoT 評估的興趣也日益濃厚。可以訓練一個輔助模型(或使用現有模型)來充當推理驗證器。例如,給定一個思路鏈和一個答案,驗證器模型會判斷答案是否真正遵循推理。這類似于證明檢查。如果大型語言模型 (LLM) 正在進行真正的推理,獨立的檢查人員應該能夠判斷出來。AI 新聞中提到的一個相關概念是思考-求解-驗證 (TSV) 框架。在 TSV 中,模型會經歷思考步驟(生成 CoT)、求解步驟(獲得答案),然后是驗證步驟,在此步驟中,模型本身或其他系統會驗證每個步驟的有效性和總體結論。這強制執行了一種紀律:思路鏈不僅必須產生正確的答案,還必須經得起逐步的審查。如果模型知道其推理將被驗證,它就有動力使其嚴密無懈可擊(否則它將被抓住)。早期對 TSV 的研究已用于探索模型自我意識和可信度,并且它在捕捉解釋中的矛盾或幻覺方面似乎很有前景。
在可解釋性方面,一個有意義的發展是使用人工智能來幫助解釋人工智能。像 GPT-4 這樣的網絡規模龐大(每層有數萬個神經元)可能超出人工分析的范圍,但研究人員正在研究是否可以使用更簡單或更小的模型作為探針。例如,可以訓練一個小型的“解釋模型”來預測某個大型模型神經元的激活意味著什么(可能通過給它輸入大量輸入并觀察相關性)。Anthropic 暗示可能使用人工智能輔助來理解復雜的電路。我們可能會看到未來的項目,在適當的工具和數據下,GPT-4 本身被要求解釋 GPT-2 中的神經元在做什么,反之亦然。已經有先例:模型已被用來生成可解釋性的假設,然后由人類研究人員證實或反駁。
跨架構或跨模態的可解釋性也在討論之中。如果我們在語言模型中找到了用于某些推理任務的回路,那么視覺或多模態模型中是否有用于類似任務的類似回路?Schaeffer 等人證明,通過應用類似語言模型的指標,可以在視覺模型中產生類似的“涌現”效應——但反之亦然:或許視覺分類網絡表示不確定性的方式可以借鑒 LLM 的表現方式。通過比較和對比,我們可以開發出不局限于某一架構的通用可解釋性原則。例如,疊加的概念(神經元以糾纏的方式編碼多個特征)在視覺和語言模型中都有出現。了解如何在一個模型中解開疊加,可能有助于在另一個模型中解開疊加。
另一個有希望的方法論進步是基于回路的干預。一旦你確定了導致不良行為的回路(比如一組注意力頭會復制提示而不透露),你可以嘗試消融或修改它們,看看行為是否改變。這類似于神經科學病變研究。如果禁用某個注意力頭可以阻止模型遵循被禁止的指令,那么你就找到了該行為的控制點。然后,你可以考慮微調模型以移除或改變該回路。這就進入了“細粒度模型編輯”的領域——通過手術調整內部參數來改變一種行為,同時保持其他行為不變。為了安全部署,人們可以使用它來從模型知識中刪除記住的密鑰,或者打破內部學習到的錯誤啟發式方法,比如總是相信用戶的猜測。
忠實度評分作為常規評估很可能成為標準。正如我們報告模型在任務上的準確率一樣,未來的基準測試可能會報告忠實度指標:例如,“模型 X 解決了 90% 的問題,其中 70% 的解決方案具有忠實的理論基礎(以指標 Y 衡量)。”陳等人的提示披露率就是這樣一個指標。其他指標也正在被提出,例如與已知必要事實的一致性:如果一個數學解法使用了某個公式,那么思路鏈中是否提到了該公式?如果沒有,那就說明出了問題。
展望未來,研究人員正在考慮架構變革以提高可解釋性。一個想法是構建具有內在解耦表示的模型,以便每個維度或模塊都有明確的含義。這很難,盡管模塊化或符號神經網絡已經取得了一些進展。另一個想法是讓模型生成可驗證的計劃——類似于可以用形式化系統或更簡單算法進行檢驗的證明。例如,大型語言模型(LLM)可以輸出一個 Python 程序作為其推理,然后可以執行該程序來確認結果,這在某些算術或邏輯任務中已經實現。如果程序失敗或給出不同的答案,我們就發現了推理錯誤。
最后,一個關鍵的方法論轉變是在對抗性情境中進行評估。研究人員不再僅僅在簡單的查詢上測試模型,而是刻意地用旨在誘使模型揭示隱藏過程的情境對模型進行壓力測試。這包括對抗性生成的提示,這些提示會引發模型錯誤或不一致,然后分析這些情況下的思路鏈。通過研究失敗之處(例如模型在兩種不同的解釋之間自相矛盾),我們可以了解推理過程在哪里出現問題,或者在哪里僅僅是浮于表面的。
總而言之,理解 LLM 的前沿領域涉及從機制上探究內部和從行為上探索外部之間的緊密相互作用。單靠任何一種都不足夠:如果不知道要尋找什么,那么機械分析就像大海撈針;如果只進行行為測試而不深入探究內部,我們只能猜測原因。通過將兩者結合起來,例如將神經元的激活與已知行為關聯起來,我們可以獲得更全面的圖景。例如,如果我們注意到某個模型的解釋經常遺漏提示,并且我們識別出特定的注意力頭,這些注意力頭在提示標記出現但輸出中未提及時就會出現峰值,那么我們就可以創建一個“提示使用檢測器”組件。我們甚至可以使用輔助損失來訓練模型,使這些注意力頭的影響在輸出中明確體現(從而提高忠實度)。
這是一個激動人心的時代,因為這些方法正變得越來越復雜。僅在過去一兩年里,可解釋性研究就取得了顯著發展,跨組織(OpenAI、Anthropic、DeepMind、學術團體)之間的合作正在形成,以解決這個問題。正如一項調查所示,雖然前景光明,但“人們擔心機器智能研究結果的可擴展性和普遍性,以及它在解決人工智能安全等關鍵問題方面的實際應用。”的確,這是一個艱難的攀登之路,但有些社區正在積極構建工具——從可視化每個頭部關注的內容,到創建機器智能任務的教程和庫。我們的目標是,當更強大的人工智能系統到來時,我們不會像今天這樣對它們的工作原理一無所知。