舍棄自回歸,離散擴散語言模型如何演化?NUS綜述解構技術圖譜與應用前沿
本論文共同第一作者于潤芃和李奇是新加坡國立大學 xML 實驗室博士生,指導老師為王鑫超,研究方向是多模態大模型與可信深度模型。
本文主要介紹 xML 團隊的論文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。
- 論文鏈接:https://arxiv.org/pdf/2506.13759
- GitHub 倉庫:https://github.com/LiQiiiii/DLLM-Survey
自 GPT 引爆大語言模型熱潮以來,自回歸的大語言模型(LLMs)與多模態模型(MLLMs)已成為智能系統的基石。然而,當人們著眼于更快、更可控、更智能的生成范式時,一條新興路徑悄然浮現:離散擴散(Discrete Diffusion)。
本綜述系統梳理了離散擴散方向的研究圖譜,呈現了離散擴散語言模型(dLLMs)與離散擴散多模態語言模型(dMLLMs)的理論基礎、代表模型、訓練與推理技術,以及在推理、視覺、生物等多個領域的應用進展。
圖 1 綜述的框架結構與內容
自回歸的局限與離散擴散的崛起
傳統大模型采用自回歸(Autoregressive, AR)架構,其從左至右逐詞生成方式雖然自然,但存在顯著的性能瓶頸:無法并行解碼、難以精確控制輸出、局限于對輸入的靜態感知、對補全和逆向推理的建模能力差。這使其在需要結構化控制與動態感知的復雜場景中表現受限。
離散擴散模型打破了這一范式。它不再逐詞預測,而是將生成視為一個「掩碼 - 去噪」迭代過程,并行處理所有 Token,并借助全局注意力機制實現動態感知。這種設計帶來了三大核心優勢:
- 推理并行性(Parallel Decoding): 并行推理是離散擴散模型最大的特點和優勢。并行推理使得離散擴散每次迭代都可以解碼出多個 Token,從而帶來解碼速度上的提升。
- 輸出可控性(Controllability)與補全能力(Infilling): 掩碼 - 去噪的解碼機制,使得每一次回答都可以預設回答的長度、格式、結構,為回答設定一個模板。
- 動態感知能力(Dynamic Perception): 全局注意力機制下模型對左側 Token 的處理受到右側 Token 的影響;多輪迭代的解碼機制使得對所有 Token 的處理都可以反復多次進行。這使得 dLLM 和 dMLLM 可以對長語料和多模態輸入進行多輪、有條件的動態感知,而不是如單向注意力一樣僅僅能夠感知一次。
圖 2 自回歸模型與典型離散擴散模型的對比
離散擴散語言模型的數理基礎
D3PM(Discrete Denoising Diffusion Probabilistic Models)框架是眾多離散擴散數理模型的起點。D3PM 給出了在離散時間上、離散狀態空間中的馬爾可夫模型。整個模型由兩個對偶過程構成:前向擴散過程和反向去噪過程。
在前向過程中,原始序列被逐步擾動為噪聲表示
,其轉移機制由一系列時間依賴的轉移矩陣
控制,不同形式的
對應不同的擴散行為。例如,均勻(Uniform)轉移會將 Token 等概率擾亂;吸收態(Absorbing)轉移則將所有 Token 都映射至特定的 [MASK] Token。因此,使用吸收態轉移的擴散過程也被稱為 Masked Diffusion,是當前 dLLM 和 dMLLM 中使用最多的一類。此外,還有基于嵌入相似度的擴散矩陣、帶狀(band-diagonal)或離散高斯轉移等,增強模型在語義空間或局部結構中的建模能力。
反向過程則學習如何一步步去噪,還原出高質量文本。常見的,通過一個神經網絡
來預測原始 Token 的概率分布,再結合前向轉移概率,從而構造出反向轉移概率
。訓練時的損失函數由變分下界(ELBO)導出。在 Masked Diffusion 框架下,損失函數還可以被化簡成加權的 Masked Language Modeling 損失。
在 D3PM 的基礎上,連續時間擴散模型將離散時間步泛化為連續時間步,構建了在連續時間上 離散狀態空間的馬爾可夫過程,通過引入速率矩陣來建模任意時刻的狀態躍遷。Concrete Score 模型將反向過程的轉移速率矩陣
拆解為前向速率矩陣
和聯合概率比 c 的乘積,通過 Score Matching、基于 Bregman 散度的 Score Entropy 等損失函數來學習概率比 c。 Discrete Flow Matching 將流匹配思想引入到離散空間,在給定源目標分布和噪聲分布之間,構造連續變化的概率路徑。訓練過程通過定義 Token 級速度場來驅動序列生成,配合交叉熵損失優化。
離散擴散語言模型生態概覽
圖 3 離散擴散模型的發展歷程
隨著離散擴散語言模型(dLLMs)快速崛起,近年來該領域涌現出一系列代表性模型。從早期探索性的輕量模型,到近期可比肩自回歸 LLM 的離散擴散大模型,再到多模態與統一建模范式的拓展,離散擴散正逐漸演化為一條獨立而完整的技術路徑。綜述將當前模型生態大致劃分為以下四類:
1. 輕量級模型:早期的離散擴散模型參數量往往不超過 1B,代表作包括 D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4 等。這些模型重點在于探索基礎的建模機制與去噪策略,驗證離散擴散在文本和多模態生成任務上的可行性。
2. 大規模 dLLM:隨著技術成熟,多個工作開始將擴散架構拓展至 10 億以上參數量,構建具備完整語言理解與生成能力的「非自回歸大模型」,代表模型包括:LLaDA 系列、DiffuGPT / DiffuLLaMA 和 DREAM 等。這些工作從規模上拓展了擴散語言模型的邊界,系統性地探索了其工程可行性。
3. 多模態擴展(dMLLM):在語言能力日趨完善之后,研究者開始探索 dLLMs 在多模態任務中的適應性,典型代表有:Dimple、LaViDa 和 LLaDA-V。
4. 統一生成模型:離散擴散在圖片生成中的可行性很早就被驗證了,隨著語言生成能力的完善,MMaDA、FUDOKI 和 Muddit 等模型給出了一種統一的架構,使用離散擴散模型在一個神經網絡中同時建模文本和視覺的生成。
訓練與推理技術
方興未艾的 dLLM 與 dMLLM 正在不斷演進,伴隨而來的還有訓練與推理技術的持續創新。本綜述系統地梳理并歸納了已有模型中采用的核心方法,同時也在不斷收錄和更新該領域的最新進展。
訓練技術
離散擴散模型在訓練過程中面臨一系列獨特挑戰,包括語料利用率低、生成長度偏差(length bias)、隨機時間采樣帶來的監督信號覆蓋率低等。為解決這些問題,研究人員提出了多種創新性的訓練機制。綜述中主要歸納了以下幾類:
- 初始化機制:使用已經訓練好的 BERT 模型或者 AR 模型作為訓練起點,或者對模型首先進行 AR 訓練再進行擴散訓練。典型的模型包括 DiffuLLaMA、DiffuGPT 和 Dimple 。這一類初始化技術化能夠加速訓練過程,保證模型性能,在資源受限的訓練時效果顯著。
- 互補掩碼策略(Complementary Masking):為提升語料使用效率,構造一對互補的掩碼樣本,兩次掩碼的位置互斥,但是拼起來可以使所有 Token 都被覆蓋,從而解決信息利用稀疏問題。典型的模型包括 LaViDa 和 DiffuCoder。
- 掩碼調度(Masking Scheduling)函數:掩碼調度函數決定了訓練過程中各個時間步上掩碼比例的大小。在訓練過程中既可以為所有的 Token 設置統一的調度函數,也可以針對各個 Token 設置不同的調度函數。在線性調度函數下,掩碼比例隨時間線性變化,使每一步加噪的 Token 數量大致相同。在凸(convex)調度函數下,掩碼函數斜率的絕對值先大后小,在時間步不大時就能夠掩碼大量的 Token,從而使得模型訓練時能夠接觸到更 noisy 的樣本,也鼓勵推理時從慢到快,每一步解碼出來的 Token 數量先少后多。
- 重加權策略(Reweighting):對不同 Token 處的損失函數值進行調整,強化對特定 Token 的學習。比如,MGDM 提升損失函數大的 Token 的權重,提升對困難位置的關注,加速收斂。
- 知識蒸餾(Distillation): 通過知識蒸餾實現對推理步數的壓縮,將多步的「教師模型」知識傳遞給步數更少的「學生模型」。
這些技術從訓練目標、數據使用到網絡初始化等方面優化了擴散訓練流程,使 dLLMs 得以在更大規模、更復雜任務上保持穩定、有效的訓練表現。
圖 4 幾種掩碼調度函數
推理技術
dLLMs 和 dMLLMs 的推理過程中的每一步都會對所有的 token 進行并行的同步預測,之后基于特定的規則來決定要保留哪些位置的預測。為兼顧生成質量與效率,研究人員提出了一系列推理技術。綜述中主要歸納了以下幾類:
- Unmasking 策略決定「什么時候生成什么」。推理中每輪只會保留對部分 Token 的預測,Unmasking 策略負責決定解哪里、解多少。解碼的位置既可以是隨機選取,也可以是度量驅動(Metric-based),根據模型置信度、負熵等指標優先解碼「最確定」的位置。每一步解碼的 Token 數量可以設置為固定值,也可以根據訓練時的調度函數計算得到。如果使用了度量驅動的解碼策略,還可以使用 Confident Decoding 算法,通過閾值動態調整每一步解碼出來的 Token 數量。
- Remasking 技術實現「修正」,解決吸收態擴散模型「寫完不能改」的局限。Remasking 允許將已經解碼出來的 Token 再次設置為 [Mask],從而對回答進行修改,實現 Test-Time-Scaling。
- 緩存機制(Caching):AR 框架下的 Prefilling 和 KV-Cache 機制也被引入了 dLLM 和 dMLLM 中,通過緩存注意力計算的中間結果,并選擇性動態更新,以加速生成。
- Guidance 技術:類比于連續擴散模型中的 Guidance 機制,Classifier-Free Guidance、Reward Guidance、Energy-Based Guidance 等技術也被應用在離散擴散模型中,實現對模型輸出的定向調整。
這些推理技術不僅提升了生成效率,更賦予了 dLLMs 修正和控制的能力,逐步構建出具備實用價值的非自回歸語言推理范式。
圖 5 對 Unmasking 策略的展示
結語
除了以上內容,綜述中也介紹了 dLLM 和 dMLLM 在生物、視覺、推理等方面的應用,探討了其未來可能的發展方向。
隨著大語言模型不斷拓展其邊界,離散擴散模型(dLLMs 與 dMLLMs)為傳統自回歸范式提供了強有力的替代路徑。并行解碼、結構控制與動態感知等優勢使它們突破了自回歸模型在效率與控制性上的瓶頸。從基礎理論到工程優化,再到多模態與跨領域應用,離散擴散范式正在逐步走向成熟。