首篇潛空間推理綜述！模型思考不必依賴Token，帶寬暴增2700+倍

2025-07-16 10:08:57

人工智能新聞

這篇綜述當中，作者分析了循環、遞歸、連續思維等潛空間推理的形式，并將這些方法總結成了一個框架。

大模型在潛空間中推理，帶寬能達到普通（顯式）思維鏈（CoT）的2700多倍？

史上首篇潛空間推理綜述，對這種新興的推理范式進行了全面總結。

這篇綜述當中，作者分析了循環、遞歸、連續思維等潛空間推理的形式，并將這些方法總結成了一個框架。

這個統一框架不是強行整合，而是建立在機械可解釋性的基礎之上，能夠與模型的內部運作進行聯系。

作者表示，這一框架還將有助于未來的路線探索，例如研究通過擴散模型進行無限深度推理等高級范式。

這篇綜述共同一作有四人，其中字節SEED實習生、加州大學圣克魯茲分校博士生Ruijie Zhu同時是通訊作者。

什么是潛空間推理？

潛空間推理是一個新興領域，其思想最早可以追溯到ICLR 2019上阿姆斯特丹大學學者Mostafa Dehghani與谷歌大腦和DeepMind（后兩者當時處于獨立狀態）共同發表的《Universal Transformers》。

這篇文章引入了自適應計算時間（ACT）機制，首次實現了層級間的動態遞歸，為后續的潛空間推理研究奠定了基礎。

此外比較著名的研究還包括Meta的Coconut，入選了今年的頂會COML。

今年年初，在潛空間推理這個方向上也有不少新作發表，表明這極有可能是一個待挖掘的新方向。

那么，潛空間推理到底是個什么概念？

與顯式推理相同，潛空間推理也要用到思維鏈，但不同的是其中的思維鏈是潛式思維鏈（Latent Chain-of-Thought）。

這種潛式思維鏈以內部連續的形式表示推理，構成一個抽象的推理軌跡，而不用離散的自然語言（Token）表示推理過程。

這樣一來人類會無法看懂大模型的推理過程，但帶來的好處是帶寬的巨額提升。

顯式CoT當中每個token約為15bits，而潛式CoT操作的高維隱藏狀態，例如在2560維FP16當中，每步大約相當于40960bits，帶寬比顯式CoT提升了2700多倍。

并且由于推理中不使用Token，這種方法中模型不受有限詞匯表的限制，可以探索沒有直接語言對應物的推理軌跡，帶來了更豐富的表達能力。

而在具體處理過程上，潛空間推理主要有兩種模式——垂直循環和水平循環。

垂直循環是一類基于激活的方法（Activation-based Methods），這類方法通過擴展計算深度來實現推理。

具體來說是在固定的時間步內，通過重復處理同一組層來增加計算深度，說得再通俗一些，就是讓模型反復思考同一個問題。

這種方式可以從架構、訓練等不同層面實現，因此包含有多種變體。

架構層面的實現（如Universal Transformer）采用自適應計算時間機制，將網絡深度視為動態計算資源而非靜態超參數；
訓練層面的實現（如Coconut）將連續思維向量插入當前token之前，使推理在潛空間進行；
其他方法如CoTFormer將隱藏激活交錯回輸入序列，讓早期退出的token能夠關注到自身表示的更深層優化。

垂直循環的優勢在于能夠為復雜問題分配更多計算資源，通過增加迭代次數來處理需要多步推理的任務。

但其局限性在于需要在固定的層數約束下工作，當推理鏈變得非常長時，可能會遇到梯度消失或爆炸的問題。

水平循環則基于隱藏狀態，專注于沿時間維度擴展模型的記憶和推理能力，基本思路是維護一個壓縮的隱藏狀態，該狀態能夠聚合來自多個時間步或空間上下文的信息。

這種方法可以利用歷史表示來指導當前的計算，有效創建了一個跨越多層或時間步的記憶庫。

其實現方式，主要包括線性狀態循環（對隱藏狀態應用更新和衰減規則）和梯度狀態循環（將隱藏狀態視為在線學習參數并進行優化）。

那么，無論垂直還是水平，這樣的層堆疊是否真的構成了一種潛在的推理鏈呢？作者對其機械可解釋性進行了分析。

潛空間真的能表示思維鏈嗎？

綜合多份文獻，作者發現層深度與模型推理能力之間存在著緊密的關聯關系。

去年，清華大學碩士生俞一炅的一篇題為《Do LLMs Really Think Step-by-step In Implicit Reasoning?》的論文（2411.15862）表明，模型的隱式思維鏈能力嚴格受到網絡層數的限制。

在一個需要5步推理的任務中，雖然中間結果會在某些層中出現，但由于層數不足，最終的推理結果無法涌現。

這就像建造一座需要10層樓高度的建筑，但只有8層樓的材料，無論如何優化設計，都無法達到預定的高度。

今年，UC伯克利Tianyu Guo等人的發現（2502.13913）進一步支持了這個觀點——至少需要2-3層，才能在模型內部形成完整的兩步推理鏈。

如果層數不足或后續層的深度不夠，就會阻礙執行多跳推理的能力。

這表明層深度不僅影響推理的復雜程度，更是推理能力實現的基礎門檻。

進一步地，谷歌研究院的Nikunj Saunshi等人在今年ICLR上發布的論文中正式建立了一個重要定理（2502.17416）：

任何執行m步思維鏈推理的K層transformer都可以通過m次迭代前向傳播被(L+O(1))層transformer模擬。

這個定理從根本上確立了層深度作為潛在推理容量主要瓶頸的地位，其中可實現的思維鏈步長與層數呈線性關系。

繼續進行深入，不同深度的層在推理過程中展現出了明確的功能分化，類似于流水線作業中不同工位的專門化分工。

淺層主要負責處理基礎信息，例如局部信息、句法結構和表面模式，執行初始數據轉換。更重要的是，淺層負責存儲和回憶事實知識，在多層推理任務中建立實體解析的橋梁；
中間層構成了推理的核心引擎，包含專門用于推理功能的算法，涉及注意力頭和MLP模塊之間的協調交互；
深層則負責輸出優化和決策制定，接收來自中間層的表示信息，執行針對特定下游任務的語義轉換，進行更復雜的邏輯整合并確定最終答案。

理解了層的特化分工后，信息如何在這些專門化層之間流動就成為了新的問題。

蘇黎世聯邦理工學院的Stolfo等人通過量化MLP和注意力模塊的間接貢獻（2305.15054），闡明了大模型在算術任務中的內部信息流路徑。

結果突出了注意力機制在推理過程中層間信息流的關鍵作用——將計算信息從早期處理層傳輸到最終token。

更多研究表明，這種信息流動并非單向的線性傳遞，還包含跨層信息流，甚至“反向注意力”機制表明，隱藏信息可以有效地從較高層傳輸到較低層，增強模型的推理能力。

這種雙向的信息流動機制確保了推理過程中信息的充分整合和利用。

無限深度推理

此外，研究者提出了“無限深度推理”的假想，也就是讓AI能夠投入無限的“思考時間”來完善解決方案，不受輸出長度限制，并能根據問題復雜度動態分配計算資源。

這個概念通過兩種主要途徑實現——空間無限推理和時間無限推理。

空間無限推理通過文本擴散模型實現，從完全遮蔽或含噪聲的整個輸出序列開始，通過迭代去噪并行處理所有位置。每次迭代都能訪問完整的雙向上下文，優化步數可在推理時調整。

作者在綜述中具體介紹了三種文本擴散模型。

遮蔽（masked）擴散模型：在完整文本序列上操作，初始時token被遮蔽，模型基于雙向上下文同時預測所有缺失token。更新機制為逐步取消遮蔽高置信度的token，同時保持低置信度token繼續優化；
嵌入（embedding based）擴散模型：先將離散token序列映射到連續嵌入空間，然后對這些嵌入進行高斯噪聲擾動并去噪。這種方法在連續空間操作，為模型提供了更大的表達自由度；
混合AR-擴散（Hybrid AR-Diffusion）模型：結合擴散和自回歸范式的優勢，使用自回歸前綴緩存機制，將已生成的穩定文本部分固定，只對不確定部分使用擴散優化。

時間無限推理則是基于一個核心洞察——時間可以交換網絡深度。

當隱藏狀態通過梯度類規則更新時，每個額外token執行一個優化步驟來優化隱式層。處理更長序列等價于讓同一層運行更多優化迭代，在不增加參數情況下產生更大推理深度。

作者同樣介紹了三種具體方法：

無限注意力：為每個Transformer塊附加壓縮記憶，通過線性-增量規則更新記憶狀態，漸近逼近關聯數組的不動點。
測試時訓練：在推理期間對隱藏狀態執行SGD步驟，通過分塊并行化處理長序列；
隱式不動點RNN：通過迭代狀態空間塊直到收斂，產生非線性、非對角轉換，在保持訓練并行性的同時恢復通用RNN的表達能力。

總之作者認為，這些高級范式，也可以通過與潛空間推理同樣的統一視角來理解。

作者希望，這篇綜述能夠清晰地闡明潛空間推理這一領域，并激發新的、更具整合性的研究方向。

論文地址：https://arxiv.org/abs/2507.06203

責任編輯：張燕妮來源：量子位

AI 模型論文

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首篇潛空間推理綜述！模型思考不必依賴Token，帶寬暴增2700+倍

什么是潛空間推理？

潛空間真的能表示思維鏈嗎？

無限深度推理