從語言到認知:LLM如何超越人類語言網絡
引言
解碼人類大腦處理語言的機制是神經科學的核心目標之一。人類語言處理由大腦的語言網絡(Language Network, LN)支持,這是一組位于大腦左側的前額葉和顳葉區域,具有對語言輸入的選擇性反應能力。近年來,隨著機器學習的快速發展,基于大規模文本語料庫訓練的下一詞預測的大型語言模型(LLMs)成為了模擬人類語言網絡內部過程的有力工具。
本文旨在探討大型語言模型如何與人類語言網絡對齊,并分析這種對齊在模型訓練中的演化過程。研究表明,LLMs 與人類語言網絡的對齊主要依賴于形式語言能力(即對語言規則的理解),而功能語言能力(涉及世界知識和推理)的對齊較弱。這一發現為理解語言網絡的核心功能提供了全新視角,同時也揭示了提升未來語言模型的潛在方向。
研究背景與關鍵問題
人類語言網絡的基礎
人類語言網絡是支持語言處理的一組大腦區域,這些區域通過對語言輸入的選擇性反應而被定義。相比于音樂感知或算術計算等非語言任務,語言網絡對語言處理表現出顯著的選擇性。此外,失語癥患者的研究進一步證實了語言網絡的功能性,當語言區域受損時,患者會失去語言能力,但保留其他認知功能。
模型與大腦對齊的現狀
過去的研究表明,某些人工神經網絡的內部表征與大腦中的表征相似。例如,在視覺領域,深度卷積神經網絡已被證明可以預測靈長類動物視覺皮層的神經響應。最近,這種對齊研究被擴展到聽覺和語言處理領域。然而,盡管LLMs在語言建模任務中表現出色,其與人類大腦語言網絡的對齊仍存在許多未解之謎。
本研究聚焦以下四個關鍵問題:
- 什么驅動了未訓練模型的腦對齊?
- 腦對齊主要與形式語言能力還是功能語言能力相關?
- 模型大小或下一詞預測性能是否能解釋腦對齊?
- 當前的LLMs是否完全解釋了腦對齊基準中的變異性?
方法與數據集
基準測試框架
為了系統地分析LLMs的腦對齊情況,研究引入了一套嚴格的大腦評分框架。該框架通過嶺回歸模型預測大腦活動,并測量預測值與實際大腦激活之間的皮爾遜相關系數。與其他度量(如中心核對齊和表征相似性分析)相比,線性預測性能夠更好地區分有意義的語言刺激與隨機刺激。
數據集
本研究使用了多種神經影像學和行為數據集,包括fMRI、ECoG以及自我調節的逐詞閱讀時間數據。這些數據集涵蓋了從短句到完整故事的不同語言刺激形式,確保研究結論的普適性。
模型
研究使用了Pythia模型套件中的八個模型,規模從1400萬到69億參數不等。每個模型在訓練過程中被評估了34個檢查點,涵蓋了約3000億個標記。為了避免模型規模對對齊結果的影響,研究控制了特征數量,并通過功能定位方法選擇固定數量的語言單元進行比較。
圖片
研究發現
未訓練模型的腦對齊
盡管未訓練模型的腦對齊分數低于預訓練模型,但它們仍表現出一定程度的對齊。這表明,未訓練模型的架構本身可能具有促進腦對齊的歸納偏差。研究進一步發現,基于序列的模型(如GRU、LSTM和Transformer)比僅依賴最后一個標記表示的模型(如線性模型和MLP)表現出更高的腦對齊。這表明上下文或時間整合是實現高對齊的關鍵因素。
訓練過程中的對齊演化
在訓練早期(約20億個標記),腦對齊迅速增加,并在約80億個標記時達到峰值。此后,對齊分數趨于穩定或略有下降。這一趨勢在不同規模的模型中表現出一致性,表明腦對齊的演化主要受訓練動態驅動,而非模型規模。
形式與功能語言能力的關系
研究表明,腦對齊與形式語言能力(如對語法規則的理解)之間的相關性顯著高于功能語言能力(如世界知識和推理)。這一發現支持了人類語言網絡主要編碼形式語言結構的假設。此外,功能語言能力在訓練后期持續增長,但其與腦對齊的關系較弱。
模型規模的影響
研究發現,在控制特征數量的情況下,模型規模并不是腦對齊的可靠預測指標。較大的模型并未表現出更高的對齊分數,這挑戰了“更大模型更接近人腦”的假設。
討論與未來方向
對語言網絡功能的啟示
本研究的結果表明,人類語言網絡主要支持形式語言處理,而更廣泛的認知功能可能依賴于其他大腦網絡。這一發現為理解語言網絡的核心功能提供了新的視角,并為改進LLMs的設計提供了指導。
提升LLMs的潛力
盡管當前的腦對齊基準尚未飽和,但研究表明,通過優化模型的架構和訓練動態,LLMs在模擬人類語言處理方面仍有很大的改進空間。例如,研究發現腦對齊可以作為優化模型初始化參數的有效啟發式指標,這可能有助于提高模型的訓練效率。
開放問題與未來工作
未來的研究可以進一步探索LLMs在發展推理和世界知識時與其他認知網絡(如多需求網絡或心智理論網絡)的對齊情況。此外,將LLMs的對齊演化與人類語言習得過程進行比較,可能揭示其學習軌跡的獨特性。擴展腦評分基準并引入多模態模型也將有助于深化我們對人工智能和生物智能之間關系的理解。
結論
本研究通過系統分析LLMs與人類語言網絡的對齊情況,揭示了形式語言能力在對齊中的關鍵作用,并挑戰了關于模型規模與腦對齊關系的傳統假設。這些發現不僅為理解人工與生物語言處理的關系提供了新視角,也為未來語言模型的設計和優化指明了方向。
論文:??https://arxiv.org/abs/2503.01830??
本文轉載自??頓數AI??,作者:小頌
