ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代” 精華

zhangyannni

發布于 2025-7-9 09:38

瀏覽

0收藏

論文鏈接：??https://arxiv.org/pdf/2507.04947??

Git鏈接：https://github.com/dc-ai-projects/DC-AR?

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

亮點直擊

構建了DC-HT，該方法顯著減少了 token 數量，從而提升了自回歸（AR）模型的效率，同時保持了具有競爭力的重建質量和跨分辨率泛化能力。
提出了一種有效的三階段適應策略，用于提升 DC-HT 的重建質量。
在 DC-HT 的基礎上構建了DC-AR。DC-AR 相較于以往的masked 自回歸模型和擴散模型，在大幅提升效率的同時，提供了更優的圖像生成質量。

效果展示

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

總結速覽

解決的問題

現有masked 自回歸（Masked AR）文本生成圖像模型在圖像質量和生成效率方面普遍落后于擴散模型（Diffusion Models），主要原因在于tokenizer 的表達能力和壓縮效率不足，導致生成過程耗時且效果有限。

提出的方案

提出了一種新穎的文本生成圖像框架DC-AR，并引入了核心組件DC-HT（Deep Compression Hybrid Tokenizer）以解決上述問題。
在 DC-HT 的基礎上擴展了 MaskGIT，構建了一個混合 masked 自回歸生成框架：先通過離散 token 生成圖像結構，再通過殘差 token 精細化圖像細節。

應用的技術

DC-HT：一種高效的混合 tokenizer，具備32 倍空間壓縮率，同時保持高保真度和跨分辨率泛化能力。
三階段適應策略：提升 DC-HT 的重建質量。
結構-細節分離生成機制：通過離散 token 與殘差 token 分階段生成圖像，提高生成效率和質量。
基于MaskGIT的混合掩碼自回歸生成流程。

達到的效果

圖像生成質量：在 MJHQ-30K 數據集上取得5.49 的 gFID，在 GenEval 上獲得0.69 的綜合評分，達到了SOTA。
生成效率：相較于主流擴散模型和自回歸模型，DC-AR 實現：

1.5 至 7.9 倍的吞吐率提升
2.0 至 3.5 倍的延遲降低

方法

首先介紹 Deep Compression Hybrid Tokenizer（DC-HT），這是一種用于自回歸生成的二維 tokenizer，能夠實現32X的空間壓縮率，并配合三階段適應訓練策略以保證良好的重建性能。接著，介紹基于 DC-HT 構建的高效掩碼自回歸文本生成圖像框架 DC-AR。

Deep Compression Hybrid Tokenizer

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

三階段適應訓練策略 僅使用混合 token 化無法完全解決重建質量下降的問題，因為離散和連續隱空間之間存在內在沖突。本文發現直接應用 HART 中的交替訓練策略會導致不理想的重建效果。

本文提出三階段適應訓練策略來應對這一挑戰。詳細的訓練流程如下圖 3 所示。

第一階段：連續預熱階段（continuous warm-up），僅激活連續路徑。該階段較短，旨在初始化編碼器，使其適用于重建任務。
第二階段：離散學習階段（discrete learning），僅激活離散路徑。目標是訓練 tokenizer 學習穩定的隱空間，并能夠有效重建圖像。
第三階段：交替微調階段（alternate fine-tuning），對每張圖像以50%的概率隨機選擇連續路徑或離散路徑進行訓練。在此階段，編碼器和量化器被凍結，僅微調解碼器。該階段確保解碼器能夠同時處理連續和離散 token。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

通過將訓練過程劃分為這三個階段，本文的策略有效解決了上述問題，使得 rFID 從1.92提升至1.60 ，離散路徑的 rFID（discrete-rFID）從6.18 提升至 5.13。

Hybrid Masked Autoregressive Model

為了充分利用 DC-HT 的能力，本文構建了 DC-AR，一個 masked 自回歸框架，旨在高效地在文本引導下生成高分辨率圖像。下圖 4 展示了本文的總體框架。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

一個文本模型從輸入提示中提取文本嵌入，并通過 cross-attention 融入 transformer 模塊中以提供文本引導。在訓練過程中，本文隨機掩蓋一部分離散 token，并訓練 transformer 模型使用交叉熵損失預測這些被掩蓋的 token。同時，transformer 模型產生的隱藏狀態作為條件輸入，用于通過一個輕量級擴散 MLP 頭預測殘差 token，并使用擴散損失進行優化。

下圖 5 展示了本文的推理流程。所有離散 token 通過逐步解掩的方式迭代預測，初始狀態為完全掩蓋。當所有離散 token 被生成后，transformer 的最終隱藏狀態被用作擴散頭的條件輸入，通過降噪過程預測殘差 token。然后本文將預測的離散 token 和殘差 token 相加，得到最終的連續 token，并使用解碼器生成圖像。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

本文混合生成框架中的一個關鍵設計選擇是：transformer 模型的前向過程僅使用離散 token。該設計基于這樣一個原則：殘差 token 僅用于細節優化，而不應改變生成圖像的整體結構。

這一設計至關重要，因為已有實驗證據表明：基于離散 token 的 MaskGIT 通常只需 8 步即可達到接近最優的生成性能，而基于連續 token 的 MAR 模型則需要 64 步才能達到最優，這會顯著提高推理成本。通過將 transformer 預測過程限定在離散 token 上，并將殘差 token 用于細節修復，本文的框架既保持了 MaskGIT 等離散方法的高采樣效率，又實現了更優的圖像生成質量。

如前文所述，本文的二維空間 tokenizer 相比一維 tokenizer 的一個關鍵優勢是其能夠在不同分辨率間無縫泛化，生成的 token 位于相同的隱空間中。利用這一特性，本文采用兩階段訓練策略來高效訓練512X512圖像生成模型：

首先，在較長的訓練周期內，在256X256圖像上預訓練模型；
然后，將預訓練的256X256模型在512X512圖像上進行微調，得出最終模型。

由于共享隱空間，該微調過程收斂迅速。如下文所示，該訓練流程相比從零開始訓練512X512模型，GPU 訓練時間至少減少了1.9X ，顯著提升了訓練效率。

實驗

設置

模型。 對于 tokenizer，本文采用了 DC-AE-f32c32 架構，其空間壓縮率為 32X，潛通道數為 32。本文將 codebook 設置為N=16384 。在生成器方面，本文使用 PixArt-α 架構作為 transformer 模型，并移除了其自適應歸一化層。該模型由 28 層組成，寬度為 1152，總參數量為 634M。擴散頭由 6 層 MLP 組成，總參數量為 37M。為了在研究環境中保證計算效率和可訪問性，本文采用 T5-base 作為文本編碼器，其參數量為 109M。

評估與數據集。 對于 tokenizer，本文使用 ImageNet 的訓練集作為訓練數據集，并將每張圖像調整為。為了評估 tokenizer 的重建性能，本文在 ImageNet 驗證集上以256X256 和 512X512 分辨率評估重建 FID（rFID）、峰值信噪比（PSNR）、結構相似性指數（SSIM）和感知圖像 patch 相似度（LPIPS）。對于文本生成圖像模型，本文使用 JourneyDB 和一個內部的 MidJourney 風格合成數據集，每個數據點由圖像-文本對組成，文本由 VILA1.5-13B 生成。為了評估生成性能，本文在 MJHQ-30K 上報告生成 FID（gFID）以衡量圖像美學質量，并使用 GenEval 分數評估輸入提示與生成圖像之間的對齊程度。

效率分析。 本文在 NVIDIA A100 GPU 上評估延遲和吞吐率。吞吐率在 batch size 為 16 時測量，延遲在 batch size 為 1 時測量。所有實驗均使用 float16 精度。

主要結果

圖像 token 化。 下表 1 中的定量結果表明，DC-HT 在保持高壓縮率的同時，實現了與一維緊湊 tokenizer 相當的重建性能。值得注意的是，DC-HT 僅在圖像上訓練，但在分辨率下仍表現出色，而一維 tokenizer 模型則需要分別在和分辨率上單獨訓練。這一優勢源于 DC-HT 保留了二維 tokenizer 所具有的分辨率泛化能力，而這一能力是一維 tokenizer 所不具備的。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

消融實驗與分析

本文通過以下方面評估 DC-AR 的關鍵設計選擇：混合設計相較于僅離散 token 基線模型的有效性、三階段適應策略在 tokenizer 訓練中的優勢、分辨率泛化 tokenizer 為生成器帶來的訓練效率提升，以及混合生成框架在采樣步驟上的效率優勢。

混合設計的有效性。 與僅依賴離散 token 的傳統自回歸方法相比，混合 token 化與生成設計增強了 DC-AR 的表示能力，從而提升了性能。為驗證這一點，本文將 DC-AR 與一個僅使用離散路徑、無連續路徑、無殘差 token、無擴散頭的離散基線模型進行對比。結果如下表 4 所示，DC-AR 在多個綜合指標上均優于該基線模型，僅增加約10%的計算開銷，驗證了混合設計的有效性。此外，下圖 9 展示了混合設計如何通過捕捉細節提升生成質量的定性示例。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

三階段適應訓練策略。 本文評估了在壓縮率為32X的條件下，使用三階段適應策略訓練混合 tokenizer 的效果，并與兩種替代方法進行了比較，如下表 5 所示。第一種替代策略省略了連續預熱階段，這會增加學習離散隱空間的難度，導致最終 tokenizer 的離散-rFID 和連續-rFID 性能較差。第二種替代策略在連續預熱之后直接進入交替訓練階段，該階段類似于交替微調階段，但所有組件都是可訓練的。由于隱空間是可訓練的，這種方法會因離散與連續隱空間之間的沖突而降低離散-rFID 和連續-rFID 的性能。本文的三階段策略有效地解決了這些問題，確保性能的平衡與優化。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

訓練效率優勢。 如前文所述，本文的分辨率泛化 tokenizer 支持在512X512 模型中采用有效的“預訓練-微調”策略。該策略先在256X256 分辨率下進行預訓練，然后在目標512X512分辨率下進行微調。相比之下，使用單一分辨率 tokenizer 的模型只能在目標分辨率下從頭訓練。下表 6 的定量結果表明，與從頭訓練相比，本文的策略在保持優越生成質量（以 gFID 評分衡量）的同時，訓練成本降低了超過。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

推理效率優勢。 下圖 6 展示了 DC-AR 在不同采樣步數下的 gFID 結果。本文的離散 token 主導的生成流程使得 DC-AR 在僅使用 12 個采樣步驟的情況下即可達到最優圖像質量。相比之下，基于 MAR 的模型需要大量步驟才能達到最優性能。采樣步驟需求的降低使得 DC-AR 在不犧牲生成質量的同時獲得了顯著的效率優勢。

ICCV 2025 | 32倍瘦身成功！英偉達最新DC-AR，秒殺擴散模型！圖像生成進入“光速時代”-AI.x社區

結論

DC-AR，一種新穎且高效的 masked 自回歸文本生成圖像框架。盡管現代擴散模型可以利用高壓縮率的 tokenizer，自回歸模型在采用相同方法時面臨顯著挑戰。為了解決這一問題，本文引入了 DC-HT，這是一種二維混合 tokenizer，能在實現32X空間壓縮率的同時保持卓越的重建保真度。在 DC-HT 的基礎上，DC-AR 成為一種能夠有效生成離散與殘差 token 的掩碼自回歸生成框架。DC-AR 首先通過離散 token 預測結構元素，然后利用殘差 token 精細化細節，僅需 12 步即可生成高質量圖像。該方法相比最先進的擴散與掩碼自回歸模型，在吞吐率上提升1.5X至7.9X，延遲降低 2.0X 至3.5X 。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/ckjpiOYKqKggU3O8gjWBZQ??

標簽

模型

圖像生成

贊

回復