成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首篇潛空間推理綜述!模型思考不必依賴Token,帶寬暴增2700+倍

人工智能 新聞
這篇綜述當中,作者分析了循環、遞歸、連續思維等潛空間推理的形式,并將這些方法總結成了一個框架。

大模型在潛空間中推理,帶寬能達到普通(顯式)思維鏈(CoT)的2700多倍?

史上首篇潛空間推理綜述,對這種新興的推理范式進行了全面總結。

這篇綜述當中,作者分析了循環、遞歸、連續思維等潛空間推理的形式,并將這些方法總結成了一個框架。

圖片

這個統一框架不是強行整合,而是建立在機械可解釋性的基礎之上,能夠與模型的內部運作進行聯系。

作者表示,這一框架還將有助于未來的路線探索,例如研究通過擴散模型進行無限深度推理等高級范式。

這篇綜述共同一作有四人,其中字節SEED實習生、加州大學圣克魯茲分校博士生Ruijie Zhu同時是通訊作者。

圖片

什么是潛空間推理?

潛空間推理是一個新興領域,其思想最早可以追溯到ICLR 2019上阿姆斯特丹大學學者Mostafa Dehghani與谷歌大腦和DeepMind(后兩者當時處于獨立狀態)共同發表的《Universal Transformers》。

這篇文章引入了自適應計算時間(ACT)機制,首次實現了層級間的動態遞歸,為后續的潛空間推理研究奠定了基礎。

圖片

此外比較著名的研究還包括Meta的Coconut,入選了今年的頂會COML。

圖片

今年年初,在潛空間推理這個方向上也有不少新作發表,表明這極有可能是一個待挖掘的新方向。

那么,潛空間推理到底是個什么概念?

與顯式推理相同,潛空間推理也要用到思維鏈,但不同的是其中的思維鏈是潛式思維鏈(Latent Chain-of-Thought)。

這種潛式思維鏈以內部連續的形式表示推理,構成一個抽象的推理軌跡,而不用離散的自然語言(Token)表示推理過程。

這樣一來人類會無法看懂大模型的推理過程,但帶來的好處是帶寬的巨額提升。

顯式CoT當中每個token約為15bits,而潛式CoT操作的高維隱藏狀態,例如在2560維FP16當中,每步大約相當于40960bits,帶寬比顯式CoT提升了2700多倍。

并且由于推理中不使用Token,這種方法中模型不受有限詞匯表的限制,可以探索沒有直接語言對應物的推理軌跡,帶來了更豐富的表達能力。

圖片

而在具體處理過程上,潛空間推理主要有兩種模式——垂直循環和水平循環。

垂直循環是一類基于激活的方法(Activation-based Methods),這類方法通過擴展計算深度來實現推理。

具體來說是在固定的時間步內,通過重復處理同一組層來增加計算深度,說得再通俗一些,就是讓模型反復思考同一個問題。

這種方式可以從架構、訓練等不同層面實現,因此包含有多種變體。

  • 架構層面的實現(如Universal Transformer)采用自適應計算時間機制,將網絡深度視為動態計算資源而非靜態超參數;
  • 訓練層面的實現(如Coconut)將連續思維向量插入當前token之前,使推理在潛空間進行;
  • 其他方法如CoTFormer將隱藏激活交錯回輸入序列,讓早期退出的token能夠關注到自身表示的更深層優化。

垂直循環的優勢在于能夠為復雜問題分配更多計算資源,通過增加迭代次數來處理需要多步推理的任務。

但其局限性在于需要在固定的層數約束下工作,當推理鏈變得非常長時,可能會遇到梯度消失或爆炸的問題。

圖片

水平循環則基于隱藏狀態,專注于沿時間維度擴展模型的記憶和推理能力,基本思路是維護一個壓縮的隱藏狀態,該狀態能夠聚合來自多個時間步或空間上下文的信息。

這種方法可以利用歷史表示來指導當前的計算,有效創建了一個跨越多層或時間步的記憶庫。

其實現方式,主要包括線性狀態循環(對隱藏狀態應用更新和衰減規則)和梯度狀態循環(將隱藏狀態視為在線學習參數并進行優化)。

圖片

那么,無論垂直還是水平,這樣的層堆疊是否真的構成了一種潛在的推理鏈呢?作者對其機械可解釋性進行了分析。

潛空間真的能表示思維鏈嗎?

綜合多份文獻,作者發現層深度與模型推理能力之間存在著緊密的關聯關系。

去年,清華大學碩士生俞一炅的一篇題為《Do LLMs Really Think Step-by-step In Implicit Reasoning?》的論文(2411.15862)表明,模型的隱式思維鏈能力嚴格受到網絡層數的限制。

圖片

在一個需要5步推理的任務中,雖然中間結果會在某些層中出現,但由于層數不足,最終的推理結果無法涌現。

這就像建造一座需要10層樓高度的建筑,但只有8層樓的材料,無論如何優化設計,都無法達到預定的高度。

圖片

今年,UC伯克利Tianyu Guo等人的發現(2502.13913)進一步支持了這個觀點——至少需要2-3層,才能在模型內部形成完整的兩步推理鏈。

如果層數不足或后續層的深度不夠,就會阻礙執行多跳推理的能力。

這表明層深度不僅影響推理的復雜程度,更是推理能力實現的基礎門檻。

圖片

進一步地,谷歌研究院的Nikunj Saunshi等人在今年ICLR上發布的論文中正式建立了一個重要定理(2502.17416):

任何執行m步思維鏈推理的K層transformer都可以通過m次迭代前向傳播被(L+O(1))層transformer模擬。

圖片

這個定理從根本上確立了層深度作為潛在推理容量主要瓶頸的地位,其中可實現的思維鏈步長與層數呈線性關系。

繼續進行深入,不同深度的層在推理過程中展現出了明確的功能分化,類似于流水線作業中不同工位的專門化分工。

  • 淺層主要負責處理基礎信息,例如局部信息、句法結構和表面模式,執行初始數據轉換。更重要的是,淺層負責存儲和回憶事實知識,在多層推理任務中建立實體解析的橋梁;
  • 中間層構成了推理的核心引擎,包含專門用于推理功能的算法,涉及注意力頭和MLP模塊之間的協調交互;
  • 深層則負責輸出優化和決策制定,接收來自中間層的表示信息,執行針對特定下游任務的語義轉換,進行更復雜的邏輯整合并確定最終答案。

理解了層的特化分工后,信息如何在這些專門化層之間流動就成為了新的問題。

蘇黎世聯邦理工學院的Stolfo等人通過量化MLP和注意力模塊的間接貢獻(2305.15054),闡明了大模型在算術任務中的內部信息流路徑。

圖片

結果突出了注意力機制在推理過程中層間信息流的關鍵作用——將計算信息從早期處理層傳輸到最終token。

圖片

更多研究表明,這種信息流動并非單向的線性傳遞,還包含跨層信息流,甚至“反向注意力”機制表明,隱藏信息可以有效地從較高層傳輸到較低層,增強模型的推理能力。

這種雙向的信息流動機制確保了推理過程中信息的充分整合和利用。

無限深度推理

此外,研究者提出了“無限深度推理”的假想,也就是讓AI能夠投入無限的“思考時間”來完善解決方案,不受輸出長度限制,并能根據問題復雜度動態分配計算資源。

這個概念通過兩種主要途徑實現——空間無限推理和時間無限推理。

空間無限推理通過文本擴散模型實現,從完全遮蔽或含噪聲的整個輸出序列開始,通過迭代去噪并行處理所有位置。每次迭代都能訪問完整的雙向上下文,優化步數可在推理時調整。

作者在綜述中具體介紹了三種文本擴散模型。

  • 遮蔽(masked)擴散模型:在完整文本序列上操作,初始時token被遮蔽,模型基于雙向上下文同時預測所有缺失token。更新機制為逐步取消遮蔽高置信度的token,同時保持低置信度token繼續優化;
  • 嵌入(embedding based)擴散模型:先將離散token序列映射到連續嵌入空間,然后對這些嵌入進行高斯噪聲擾動并去噪。這種方法在連續空間操作,為模型提供了更大的表達自由度;
  • 混合AR-擴散(Hybrid AR-Diffusion)模型:結合擴散和自回歸范式的優勢,使用自回歸前綴緩存機制,將已生成的穩定文本部分固定,只對不確定部分使用擴散優化。

圖片

時間無限推理則是基于一個核心洞察——時間可以交換網絡深度。

當隱藏狀態通過梯度類規則更新時,每個額外token執行一個優化步驟來優化隱式層。處理更長序列等價于讓同一層運行更多優化迭代,在不增加參數情況下產生更大推理深度。

作者同樣介紹了三種具體方法:

  • 無限注意力:為每個Transformer塊附加壓縮記憶,通過線性-增量規則更新記憶狀態,漸近逼近關聯數組的不動點。
  • 測試時訓練:在推理期間對隱藏狀態執行SGD步驟,通過分塊并行化處理長序列;
  • 隱式不動點RNN:通過迭代狀態空間塊直到收斂,產生非線性、非對角轉換,在保持訓練并行性的同時恢復通用RNN的表達能力。

總之作者認為,這些高級范式,也可以通過與潛空間推理同樣的統一視角來理解。

作者希望,這篇綜述能夠清晰地闡明潛空間推理這一領域,并激發新的、更具整合性的研究方向。

論文地址:https://arxiv.org/abs/2507.06203

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-03-04 09:25:08

Go語言惡意軟件黑客

2025-05-13 15:13:28

AI模型訓練

2022-09-13 15:40:56

模型分析

2020-04-26 11:07:41

新冠疫情網絡攻擊惡意軟件

2024-03-01 15:18:24

2022-09-13 14:54:08

模型AI

2024-05-13 10:38:08

2025-06-03 08:26:00

2023-12-05 13:25:00

數據訓練

2023-10-23 12:43:05

模型訓練

2024-07-08 13:04:01

2025-07-01 09:08:00

2024-01-08 12:47:02

代碼模型Mistral

2025-04-18 10:36:42

2025-05-28 02:40:00

AdaptThink推理模型AI

2023-08-09 07:04:17

清華微軟LLM

2022-04-13 14:04:14

銳捷

2025-05-08 02:02:02

2024-05-13 12:53:06

AI模型

2025-04-30 16:48:07

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲字幕在线观看 | 久久中文字幕一区 | 99reav | 东京久久 | 一区二区三区电影在线观看 | 欧美日韩国产欧美 | 美女在线国产 | 日日摸日日添日日躁av | 日韩在线视频播放 | 成人在线不卡 | 色综合久 | av毛片| 久久久久久国产精品免费免费 | 毛片网站在线观看 | 亚洲成人精品 | 欧美精品一区在线 | 欧美精品成人 | 亚洲日本欧美 | 国产丝袜一区二区三区免费视频 | 91九色在线观看 | 中文字幕欧美日韩一区 | 日韩看片| 午夜小电影 | 亚洲精品久久久久久久久久久久久 | 日韩免费一区 | 黄色视频a级毛片 | 精品福利在线视频 | 91视频免费在观看 | 91精品国产91久久久久福利 | 亚洲一区二区在线播放 | 好姑娘影视在线观看高清 | 日批日韩在线观看 | 天天插天天干 | 日韩欧美国产一区二区 | 日韩国产在线 | 久久成人精品视频 | 亚洲精品1区| 中文字幕在线一区二区三区 | 91精品国产色综合久久不卡98口 | 精品三区 | 欧日韩不卡在线视频 |