首篇潛空間推理綜述!模型思考不必依賴Token,帶寬暴增2700+倍
大模型在潛空間中推理,帶寬能達到普通(顯式)思維鏈(CoT)的2700多倍?
史上首篇潛空間推理綜述,對這種新興的推理范式進行了全面總結。
這篇綜述當中,作者分析了循環、遞歸、連續思維等潛空間推理的形式,并將這些方法總結成了一個框架。
這個統一框架不是強行整合,而是建立在機械可解釋性的基礎之上,能夠與模型的內部運作進行聯系。
作者表示,這一框架還將有助于未來的路線探索,例如研究通過擴散模型進行無限深度推理等高級范式。
這篇綜述共同一作有四人,其中字節SEED實習生、加州大學圣克魯茲分校博士生Ruijie Zhu同時是通訊作者。
什么是潛空間推理?
潛空間推理是一個新興領域,其思想最早可以追溯到ICLR 2019上阿姆斯特丹大學學者Mostafa Dehghani與谷歌大腦和DeepMind(后兩者當時處于獨立狀態)共同發表的《Universal Transformers》。
這篇文章引入了自適應計算時間(ACT)機制,首次實現了層級間的動態遞歸,為后續的潛空間推理研究奠定了基礎。
此外比較著名的研究還包括Meta的Coconut,入選了今年的頂會COML。
今年年初,在潛空間推理這個方向上也有不少新作發表,表明這極有可能是一個待挖掘的新方向。
那么,潛空間推理到底是個什么概念?
與顯式推理相同,潛空間推理也要用到思維鏈,但不同的是其中的思維鏈是潛式思維鏈(Latent Chain-of-Thought)。
這種潛式思維鏈以內部連續的形式表示推理,構成一個抽象的推理軌跡,而不用離散的自然語言(Token)表示推理過程。
這樣一來人類會無法看懂大模型的推理過程,但帶來的好處是帶寬的巨額提升。
顯式CoT當中每個token約為15bits,而潛式CoT操作的高維隱藏狀態,例如在2560維FP16當中,每步大約相當于40960bits,帶寬比顯式CoT提升了2700多倍。
并且由于推理中不使用Token,這種方法中模型不受有限詞匯表的限制,可以探索沒有直接語言對應物的推理軌跡,帶來了更豐富的表達能力。
而在具體處理過程上,潛空間推理主要有兩種模式——垂直循環和水平循環。
垂直循環是一類基于激活的方法(Activation-based Methods),這類方法通過擴展計算深度來實現推理。
具體來說是在固定的時間步內,通過重復處理同一組層來增加計算深度,說得再通俗一些,就是讓模型反復思考同一個問題。
這種方式可以從架構、訓練等不同層面實現,因此包含有多種變體。
- 架構層面的實現(如Universal Transformer)采用自適應計算時間機制,將網絡深度視為動態計算資源而非靜態超參數;
- 訓練層面的實現(如Coconut)將連續思維向量插入當前token之前,使推理在潛空間進行;
- 其他方法如CoTFormer將隱藏激活交錯回輸入序列,讓早期退出的token能夠關注到自身表示的更深層優化。
垂直循環的優勢在于能夠為復雜問題分配更多計算資源,通過增加迭代次數來處理需要多步推理的任務。
但其局限性在于需要在固定的層數約束下工作,當推理鏈變得非常長時,可能會遇到梯度消失或爆炸的問題。
水平循環則基于隱藏狀態,專注于沿時間維度擴展模型的記憶和推理能力,基本思路是維護一個壓縮的隱藏狀態,該狀態能夠聚合來自多個時間步或空間上下文的信息。
這種方法可以利用歷史表示來指導當前的計算,有效創建了一個跨越多層或時間步的記憶庫。
其實現方式,主要包括線性狀態循環(對隱藏狀態應用更新和衰減規則)和梯度狀態循環(將隱藏狀態視為在線學習參數并進行優化)。
那么,無論垂直還是水平,這樣的層堆疊是否真的構成了一種潛在的推理鏈呢?作者對其機械可解釋性進行了分析。
潛空間真的能表示思維鏈嗎?
綜合多份文獻,作者發現層深度與模型推理能力之間存在著緊密的關聯關系。
去年,清華大學碩士生俞一炅的一篇題為《Do LLMs Really Think Step-by-step In Implicit Reasoning?》的論文(2411.15862)表明,模型的隱式思維鏈能力嚴格受到網絡層數的限制。
在一個需要5步推理的任務中,雖然中間結果會在某些層中出現,但由于層數不足,最終的推理結果無法涌現。
這就像建造一座需要10層樓高度的建筑,但只有8層樓的材料,無論如何優化設計,都無法達到預定的高度。
今年,UC伯克利Tianyu Guo等人的發現(2502.13913)進一步支持了這個觀點——至少需要2-3層,才能在模型內部形成完整的兩步推理鏈。
如果層數不足或后續層的深度不夠,就會阻礙執行多跳推理的能力。
這表明層深度不僅影響推理的復雜程度,更是推理能力實現的基礎門檻。
進一步地,谷歌研究院的Nikunj Saunshi等人在今年ICLR上發布的論文中正式建立了一個重要定理(2502.17416):
任何執行m步思維鏈推理的K層transformer都可以通過m次迭代前向傳播被(L+O(1))層transformer模擬。
這個定理從根本上確立了層深度作為潛在推理容量主要瓶頸的地位,其中可實現的思維鏈步長與層數呈線性關系。
繼續進行深入,不同深度的層在推理過程中展現出了明確的功能分化,類似于流水線作業中不同工位的專門化分工。
- 淺層主要負責處理基礎信息,例如局部信息、句法結構和表面模式,執行初始數據轉換。更重要的是,淺層負責存儲和回憶事實知識,在多層推理任務中建立實體解析的橋梁;
- 中間層構成了推理的核心引擎,包含專門用于推理功能的算法,涉及注意力頭和MLP模塊之間的協調交互;
- 深層則負責輸出優化和決策制定,接收來自中間層的表示信息,執行針對特定下游任務的語義轉換,進行更復雜的邏輯整合并確定最終答案。
理解了層的特化分工后,信息如何在這些專門化層之間流動就成為了新的問題。
蘇黎世聯邦理工學院的Stolfo等人通過量化MLP和注意力模塊的間接貢獻(2305.15054),闡明了大模型在算術任務中的內部信息流路徑。
結果突出了注意力機制在推理過程中層間信息流的關鍵作用——將計算信息從早期處理層傳輸到最終token。
更多研究表明,這種信息流動并非單向的線性傳遞,還包含跨層信息流,甚至“反向注意力”機制表明,隱藏信息可以有效地從較高層傳輸到較低層,增強模型的推理能力。
這種雙向的信息流動機制確保了推理過程中信息的充分整合和利用。
無限深度推理
此外,研究者提出了“無限深度推理”的假想,也就是讓AI能夠投入無限的“思考時間”來完善解決方案,不受輸出長度限制,并能根據問題復雜度動態分配計算資源。
這個概念通過兩種主要途徑實現——空間無限推理和時間無限推理。
空間無限推理通過文本擴散模型實現,從完全遮蔽或含噪聲的整個輸出序列開始,通過迭代去噪并行處理所有位置。每次迭代都能訪問完整的雙向上下文,優化步數可在推理時調整。
作者在綜述中具體介紹了三種文本擴散模型。
- 遮蔽(masked)擴散模型:在完整文本序列上操作,初始時token被遮蔽,模型基于雙向上下文同時預測所有缺失token。更新機制為逐步取消遮蔽高置信度的token,同時保持低置信度token繼續優化;
- 嵌入(embedding based)擴散模型:先將離散token序列映射到連續嵌入空間,然后對這些嵌入進行高斯噪聲擾動并去噪。這種方法在連續空間操作,為模型提供了更大的表達自由度;
- 混合AR-擴散(Hybrid AR-Diffusion)模型:結合擴散和自回歸范式的優勢,使用自回歸前綴緩存機制,將已生成的穩定文本部分固定,只對不確定部分使用擴散優化。
時間無限推理則是基于一個核心洞察——時間可以交換網絡深度。
當隱藏狀態通過梯度類規則更新時,每個額外token執行一個優化步驟來優化隱式層。處理更長序列等價于讓同一層運行更多優化迭代,在不增加參數情況下產生更大推理深度。
作者同樣介紹了三種具體方法:
- 無限注意力:為每個Transformer塊附加壓縮記憶,通過線性-增量規則更新記憶狀態,漸近逼近關聯數組的不動點。
- 測試時訓練:在推理期間對隱藏狀態執行SGD步驟,通過分塊并行化處理長序列;
- 隱式不動點RNN:通過迭代狀態空間塊直到收斂,產生非線性、非對角轉換,在保持訓練并行性的同時恢復通用RNN的表達能力。
總之作者認為,這些高級范式,也可以通過與潛空間推理同樣的統一視角來理解。
作者希望,這篇綜述能夠清晰地闡明潛空間推理這一領域,并激發新的、更具整合性的研究方向。
論文地址:https://arxiv.org/abs/2507.06203