從語言到認知：LLM如何超越人類語言網絡

發布于 2025-3-12 00:42

瀏覽

0收藏

引言

解碼人類大腦處理語言的機制是神經科學的核心目標之一。人類語言處理由大腦的語言網絡（Language Network, LN）支持，這是一組位于大腦左側的前額葉和顳葉區域，具有對語言輸入的選擇性反應能力。近年來，隨著機器學習的快速發展，基于大規模文本語料庫訓練的下一詞預測的大型語言模型（LLMs）成為了模擬人類語言網絡內部過程的有力工具。

本文旨在探討大型語言模型如何與人類語言網絡對齊，并分析這種對齊在模型訓練中的演化過程。研究表明，LLMs 與人類語言網絡的對齊主要依賴于形式語言能力（即對語言規則的理解），而功能語言能力（涉及世界知識和推理）的對齊較弱。這一發現為理解語言網絡的核心功能提供了全新視角，同時也揭示了提升未來語言模型的潛在方向。

研究背景與關鍵問題

人類語言網絡的基礎

人類語言網絡是支持語言處理的一組大腦區域，這些區域通過對語言輸入的選擇性反應而被定義。相比于音樂感知或算術計算等非語言任務，語言網絡對語言處理表現出顯著的選擇性。此外，失語癥患者的研究進一步證實了語言網絡的功能性，當語言區域受損時，患者會失去語言能力，但保留其他認知功能。

模型與大腦對齊的現狀

過去的研究表明，某些人工神經網絡的內部表征與大腦中的表征相似。例如，在視覺領域，深度卷積神經網絡已被證明可以預測靈長類動物視覺皮層的神經響應。最近，這種對齊研究被擴展到聽覺和語言處理領域。然而，盡管LLMs在語言建模任務中表現出色，其與人類大腦語言網絡的對齊仍存在許多未解之謎。

本研究聚焦以下四個關鍵問題：

什么驅動了未訓練模型的腦對齊？
腦對齊主要與形式語言能力還是功能語言能力相關？
模型大小或下一詞預測性能是否能解釋腦對齊？
當前的LLMs是否完全解釋了腦對齊基準中的變異性？

方法與數據集

基準測試框架

為了系統地分析LLMs的腦對齊情況，研究引入了一套嚴格的大腦評分框架。該框架通過嶺回歸模型預測大腦活動，并測量預測值與實際大腦激活之間的皮爾遜相關系數。與其他度量（如中心核對齊和表征相似性分析）相比，線性預測性能夠更好地區分有意義的語言刺激與隨機刺激。

數據集

本研究使用了多種神經影像學和行為數據集，包括fMRI、ECoG以及自我調節的逐詞閱讀時間數據。這些數據集涵蓋了從短句到完整故事的不同語言刺激形式，確保研究結論的普適性。

模型

研究使用了Pythia模型套件中的八個模型，規模從1400萬到69億參數不等。每個模型在訓練過程中被評估了34個檢查點，涵蓋了約3000億個標記。為了避免模型規模對對齊結果的影響，研究控制了特征數量，并通過功能定位方法選擇固定數量的語言單元進行比較。

從語言到認知：LLM如何超越人類語言網絡-AI.x社區圖片

研究發現

未訓練模型的腦對齊

盡管未訓練模型的腦對齊分數低于預訓練模型，但它們仍表現出一定程度的對齊。這表明，未訓練模型的架構本身可能具有促進腦對齊的歸納偏差。研究進一步發現，基于序列的模型（如GRU、LSTM和Transformer）比僅依賴最后一個標記表示的模型（如線性模型和MLP）表現出更高的腦對齊。這表明上下文或時間整合是實現高對齊的關鍵因素。