ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代” 精華
論文鏈接:??https://arxiv.org/pdf/2507.04947??
Git鏈接:https://github.com/dc-ai-projects/DC-AR?
亮點直擊
- 構建了DC-HT,該方法顯著減少了 token 數量,從而提升了自回歸(AR)模型的效率,同時保持了具有競爭力的重建質量和跨分辨率泛化能力。
- 提出了一種有效的三階段適應策略,用于提升 DC-HT 的重建質量。
- 在 DC-HT 的基礎上構建了DC-AR。DC-AR 相較于以往的masked 自回歸模型和擴散模型,在大幅提升效率的同時,提供了更優的圖像生成質量。
效果展示
總結速覽
解決的問題
- 現有masked 自回歸(Masked AR)文本生成圖像模型在圖像質量和生成效率方面普遍落后于擴散模型(Diffusion Models),主要原因在于tokenizer 的表達能力和壓縮效率不足,導致生成過程耗時且效果有限。
提出的方案
- 提出了一種新穎的文本生成圖像框架DC-AR,并引入了核心組件DC-HT(Deep Compression Hybrid Tokenizer)以解決上述問題。
- 在 DC-HT 的基礎上擴展了 MaskGIT,構建了一個混合 masked 自回歸生成框架:先通過離散 token 生成圖像結構,再通過殘差 token 精細化圖像細節。
應用的技術
- DC-HT:一種高效的混合 tokenizer,具備32 倍空間壓縮率,同時保持高保真度和跨分辨率泛化能力。
- 三階段適應策略:提升 DC-HT 的重建質量。
- 結構-細節分離生成機制:通過離散 token 與殘差 token 分階段生成圖像,提高生成效率和質量。
- 基于MaskGIT的混合掩碼自回歸生成流程。
達到的效果
- 圖像生成質量:在 MJHQ-30K 數據集上取得5.49 的 gFID,在 GenEval 上獲得0.69 的綜合評分,達到了SOTA。
- 生成效率:相較于主流擴散模型和自回歸模型,DC-AR 實現:
- 1.5 至 7.9 倍的吞吐率提升
- 2.0 至 3.5 倍的延遲降低
方法
首先介紹 Deep Compression Hybrid Tokenizer(DC-HT),這是一種用于自回歸生成的二維 tokenizer,能夠實現32X的空間壓縮率,并配合三階段適應訓練策略以保證良好的重建性能。接著,介紹基于 DC-HT 構建的高效掩碼自回歸文本生成圖像框架 DC-AR。
Deep Compression Hybrid Tokenizer
三階段適應訓練策略 僅使用混合 token 化無法完全解決重建質量下降的問題,因為離散和連續隱空間之間存在內在沖突。本文發現直接應用 HART 中的交替訓練策略會導致不理想的重建效果。
本文提出三階段適應訓練策略來應對這一挑戰。詳細的訓練流程如下圖 3 所示。
- 第一階段:連續預熱階段(continuous warm-up),僅激活連續路徑。該階段較短,旨在初始化編碼器,使其適用于重建任務。
- 第二階段:離散學習階段(discrete learning),僅激活離散路徑。目標是訓練 tokenizer 學習穩定的隱空間,并能夠有效重建圖像。
- 第三階段:交替微調階段(alternate fine-tuning),對每張圖像以50%的概率隨機選擇連續路徑或離散路徑進行訓練。在此階段,編碼器和量化器被凍結,僅微調解碼器。該階段確保解碼器能夠同時處理連續和離散 token。
通過將訓練過程劃分為這三個階段,本文的策略有效解決了上述問題,使得 rFID 從1.92提升至1.60 ,離散路徑的 rFID(discrete-rFID)從6.18 提升至 5.13。
Hybrid Masked Autoregressive Model
為了充分利用 DC-HT 的能力,本文構建了 DC-AR,一個 masked 自回歸框架,旨在高效地在文本引導下生成高分辨率圖像。下圖 4 展示了本文的總體框架。
一個文本模型從輸入提示中提取文本嵌入,并通過 cross-attention 融入 transformer 模塊中以提供文本引導。在訓練過程中,本文隨機掩蓋一部分離散 token,并訓練 transformer 模型使用交叉熵損失預測這些被掩蓋的 token。同時,transformer 模型產生的隱藏狀態作為條件輸入,用于通過一個輕量級擴散 MLP 頭預測殘差 token,并使用擴散損失進行優化。
下圖 5 展示了本文的推理流程。所有離散 token 通過逐步解掩的方式迭代預測,初始狀態為完全掩蓋。當所有離散 token 被生成后,transformer 的最終隱藏狀態被用作擴散頭的條件輸入,通過降噪過程預測殘差 token。然后本文將預測的離散 token 和殘差 token 相加,得到最終的連續 token,并使用解碼器生成圖像。
本文混合生成框架中的一個關鍵設計選擇是:transformer 模型的前向過程僅使用離散 token。該設計基于這樣一個原則:殘差 token 僅用于細節優化,而不應改變生成圖像的整體結構。
這一設計至關重要,因為已有實驗證據表明:基于離散 token 的 MaskGIT 通常只需 8 步即可達到接近最優的生成性能,而基于連續 token 的 MAR 模型則需要 64 步才能達到最優,這會顯著提高推理成本。通過將 transformer 預測過程限定在離散 token 上,并將殘差 token 用于細節修復,本文的框架既保持了 MaskGIT 等離散方法的高采樣效率,又實現了更優的圖像生成質量。
如前文所述,本文的二維空間 tokenizer 相比一維 tokenizer 的一個關鍵優勢是其能夠在不同分辨率間無縫泛化,生成的 token 位于相同的隱空間中。利用這一特性,本文采用兩階段訓練策略來高效訓練512X512圖像生成模型:
- 首先,在較長的訓練周期內,在256X256圖像上預訓練模型;
- 然后,將預訓練的256X256模型在512X512圖像上進行微調,得出最終模型。
由于共享隱空間,該微調過程收斂迅速。如下文所示,該訓練流程相比從零開始訓練512X512模型,GPU 訓練時間至少減少了1.9X ,顯著提升了訓練效率。
實驗
設置
模型。 對于 tokenizer,本文采用了 DC-AE-f32c32 架構,其空間壓縮率為 32X,潛通道數為 32。本文將 codebook 設置為N=16384 。在生成器方面,本文使用 PixArt-α 架構作為 transformer 模型,并移除了其自適應歸一化層。該模型由 28 層組成,寬度為 1152,總參數量為 634M。擴散頭由 6 層 MLP 組成,總參數量為 37M。為了在研究環境中保證計算效率和可訪問性,本文采用 T5-base 作為文本編碼器,其參數量為 109M。
評估與數據集。 對于 tokenizer,本文使用 ImageNet 的訓練集作為訓練數據集,并將每張圖像調整為 。為了評估 tokenizer 的重建性能,本文在 ImageNet 驗證集上以256X256 和 512X512 分辨率評估重建 FID(rFID)、峰值信噪比(PSNR)、結構相似性指數(SSIM)和感知圖像 patch 相似度(LPIPS)。對于文本生成圖像模型,本文使用 JourneyDB 和一個內部的 MidJourney 風格合成數據集,每個數據點由圖像-文本對組成,文本由 VILA1.5-13B 生成。為了評估生成性能,本文在 MJHQ-30K 上報告生成 FID(gFID)以衡量圖像美學質量,并使用 GenEval 分數評估輸入提示與生成圖像之間的對齊程度。
效率分析。 本文在 NVIDIA A100 GPU 上評估延遲和吞吐率。吞吐率在 batch size 為 16 時測量,延遲在 batch size 為 1 時測量。所有實驗均使用 float16 精度。
主要結果
圖像 token 化。 下表 1 中的定量結果表明,DC-HT 在保持高壓縮率的同時,實現了與一維緊湊 tokenizer 相當的重建性能。值得注意的是,DC-HT 僅在 圖像上訓練,但在 分辨率下仍表現出色,而一維 tokenizer 模型則需要分別在 和 分辨率上單獨訓練。這一優勢源于 DC-HT 保留了二維 tokenizer 所具有的分辨率泛化能力,而這一能力是一維 tokenizer 所不具備的。
消融實驗與分析
本文通過以下方面評估 DC-AR 的關鍵設計選擇:混合設計相較于僅離散 token 基線模型的有效性、三階段適應策略在 tokenizer 訓練中的優勢、分辨率泛化 tokenizer 為生成器帶來的訓練效率提升,以及混合生成框架在采樣步驟上的效率優勢。
混合設計的有效性。 與僅依賴離散 token 的傳統自回歸方法相比,混合 token 化與生成設計增強了 DC-AR 的表示能力,從而提升了性能。為驗證這一點,本文將 DC-AR 與一個僅使用離散路徑、無連續路徑、無殘差 token、無擴散頭的離散基線模型進行對比。結果如下表 4 所示,DC-AR 在多個綜合指標上均優于該基線模型,僅增加約10%的計算開銷,驗證了混合設計的有效性。此外,下圖 9 展示了混合設計如何通過捕捉細節提升生成質量的定性示例。
三階段適應訓練策略。 本文評估了在壓縮率為32X的條件下,使用三階段適應策略訓練混合 tokenizer 的效果,并與兩種替代方法進行了比較,如下表 5 所示。第一種替代策略省略了連續預熱階段,這會增加學習離散隱空間的難度,導致最終 tokenizer 的離散-rFID 和連續-rFID 性能較差。第二種替代策略在連續預熱之后直接進入交替訓練階段,該階段類似于交替微調階段,但所有組件都是可訓練的。由于隱空間是可訓練的,這種方法會因離散與連續隱空間之間的沖突而降低離散-rFID 和連續-rFID 的性能。本文的三階段策略有效地解決了這些問題,確保性能的平衡與優化。
訓練效率優勢。 如前文所述,本文的分辨率泛化 tokenizer 支持在512X512 模型中采用有效的“預訓練-微調”策略。該策略先在256X256 分辨率下進行預訓練,然后在目標512X512分辨率下進行微調。相比之下,使用單一分辨率 tokenizer 的模型只能在目標分辨率下從頭訓練。下表 6 的定量結果表明,與從頭訓練相比,本文的策略在保持優越生成質量(以 gFID 評分衡量)的同時,訓練成本降低了超過 。
推理效率優勢。 下圖 6 展示了 DC-AR 在不同采樣步數下的 gFID 結果。本文的離散 token 主導的生成流程使得 DC-AR 在僅使用 12 個采樣步驟的情況下即可達到最優圖像質量。相比之下,基于 MAR 的模型需要大量步驟才能達到最優性能。采樣步驟需求的降低使得 DC-AR 在不犧牲生成質量的同時獲得了顯著的效率優勢。
結論
DC-AR,一種新穎且高效的 masked 自回歸文本生成圖像框架。盡管現代擴散模型可以利用高壓縮率的 tokenizer,自回歸模型在采用相同方法時面臨顯著挑戰。為了解決這一問題,本文引入了 DC-HT,這是一種二維混合 tokenizer,能在實現32X空間壓縮率的同時保持卓越的重建保真度。在 DC-HT 的基礎上,DC-AR 成為一種能夠有效生成離散與殘差 token 的掩碼自回歸生成框架。DC-AR 首先通過離散 token 預測結構元素,然后利用殘差 token 精細化細節,僅需 12 步即可生成高質量圖像。該方法相比最先進的擴散與掩碼自回歸模型,在吞吐率上提升1.5X至7.9X,延遲降低 2.0X 至3.5X 。
本文轉自AI生成未來 ,作者:AI生成未來
