成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代” 精華

發布于 2025-7-9 09:38
瀏覽
0收藏

論文鏈接:??https://arxiv.org/pdf/2507.04947??

Git鏈接:https://github.com/dc-ai-projects/DC-AR?

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

亮點直擊

  • 構建了DC-HT,該方法顯著減少了 token 數量,從而提升了自回歸(AR)模型的效率,同時保持了具有競爭力的重建質量和跨分辨率泛化能力。
  • 提出了一種有效的三階段適應策略,用于提升 DC-HT 的重建質量。
  • 在 DC-HT 的基礎上構建了DC-AR。DC-AR 相較于以往的masked 自回歸模型和擴散模型,在大幅提升效率的同時,提供了更優的圖像生成質量。

效果展示

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

總結速覽

解決的問題

  • 現有masked 自回歸(Masked AR)文本生成圖像模型在圖像質量生成效率方面普遍落后于擴散模型(Diffusion Models),主要原因在于tokenizer 的表達能力和壓縮效率不足,導致生成過程耗時且效果有限。

提出的方案

  • 提出了一種新穎的文本生成圖像框架DC-AR,并引入了核心組件DC-HT(Deep Compression Hybrid Tokenizer)以解決上述問題。
  • 在 DC-HT 的基礎上擴展了 MaskGIT,構建了一個混合 masked 自回歸生成框架:先通過離散 token 生成圖像結構,再通過殘差 token 精細化圖像細節。

應用的技術

  • DC-HT:一種高效的混合 tokenizer,具備32 倍空間壓縮率,同時保持高保真度和跨分辨率泛化能力。
  • 三階段適應策略:提升 DC-HT 的重建質量。
  • 結構-細節分離生成機制:通過離散 token 與殘差 token 分階段生成圖像,提高生成效率和質量。
  • 基于MaskGIT的混合掩碼自回歸生成流程。

達到的效果

  • 圖像生成質量:在 MJHQ-30K 數據集上取得5.49 的 gFID,在 GenEval 上獲得0.69 的綜合評分,達到了SOTA。
  • 生成效率:相較于主流擴散模型和自回歸模型,DC-AR 實現:
  • 1.5 至 7.9 倍的吞吐率提升
  • 2.0 至 3.5 倍的延遲降低

方法

首先介紹 Deep Compression Hybrid Tokenizer(DC-HT),這是一種用于自回歸生成的二維 tokenizer,能夠實現32X的空間壓縮率,并配合三階段適應訓練策略以保證良好的重建性能。接著,介紹基于 DC-HT 構建的高效掩碼自回歸文本生成圖像框架 DC-AR

Deep Compression Hybrid Tokenizer

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

三階段適應訓練策略  僅使用混合 token 化無法完全解決重建質量下降的問題,因為離散和連續隱空間之間存在內在沖突。本文發現直接應用 HART 中的交替訓練策略會導致不理想的重建效果。


本文提出三階段適應訓練策略來應對這一挑戰。詳細的訓練流程如下圖 3 所示。

  • 第一階段:連續預熱階段(continuous warm-up),僅激活連續路徑。該階段較短,旨在初始化編碼器,使其適用于重建任務。
  • 第二階段:離散學習階段(discrete learning),僅激活離散路徑。目標是訓練 tokenizer 學習穩定的隱空間,并能夠有效重建圖像。
  • 第三階段:交替微調階段(alternate fine-tuning),對每張圖像以50%的概率隨機選擇連續路徑或離散路徑進行訓練。在此階段,編碼器和量化器被凍結,僅微調解碼器。該階段確保解碼器能夠同時處理連續和離散 token。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

通過將訓練過程劃分為這三個階段,本文的策略有效解決了上述問題,使得 rFID 從1.92提升至1.60 ,離散路徑的 rFID(discrete-rFID)從6.18  提升至 5.13。

Hybrid Masked Autoregressive Model

為了充分利用 DC-HT 的能力,本文構建了 DC-AR,一個 masked 自回歸框架,旨在高效地在文本引導下生成高分辨率圖像。下圖 4 展示了本文的總體框架。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

一個文本模型從輸入提示中提取文本嵌入,并通過 cross-attention 融入 transformer 模塊中以提供文本引導。在訓練過程中,本文隨機掩蓋一部分離散 token,并訓練 transformer 模型使用交叉熵損失預測這些被掩蓋的 token。同時,transformer 模型產生的隱藏狀態作為條件輸入,用于通過一個輕量級擴散 MLP 頭預測殘差 token,并使用擴散損失進行優化。


下圖 5 展示了本文的推理流程。所有離散 token 通過逐步解掩的方式迭代預測,初始狀態為完全掩蓋。當所有離散 token 被生成后,transformer 的最終隱藏狀態被用作擴散頭的條件輸入,通過降噪過程預測殘差 token。然后本文將預測的離散 token 和殘差 token 相加,得到最終的連續 token,并使用解碼器生成圖像。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

本文混合生成框架中的一個關鍵設計選擇是:transformer 模型的前向過程僅使用離散 token。該設計基于這樣一個原則:殘差 token 僅用于細節優化,而不應改變生成圖像的整體結構。


這一設計至關重要,因為已有實驗證據表明:基于離散 token 的 MaskGIT 通常只需 8 步即可達到接近最優的生成性能,而基于連續 token 的 MAR 模型則需要 64 步才能達到最優,這會顯著提高推理成本。通過將 transformer 預測過程限定在離散 token 上,并將殘差 token 用于細節修復,本文的框架既保持了 MaskGIT 等離散方法的高采樣效率,又實現了更優的圖像生成質量。


如前文所述,本文的二維空間 tokenizer 相比一維 tokenizer 的一個關鍵優勢是其能夠在不同分辨率間無縫泛化,生成的 token 位于相同的隱空間中。利用這一特性,本文采用兩階段訓練策略來高效訓練512X512圖像生成模型:

  • 首先,在較長的訓練周期內,在256X256圖像上預訓練模型;
  • 然后,將預訓練的256X256模型在512X512圖像上進行微調,得出最終模型。

由于共享隱空間,該微調過程收斂迅速。如下文所示,該訓練流程相比從零開始訓練512X512模型,GPU 訓練時間至少減少了1.9X ,顯著提升了訓練效率。

實驗

設置

模型。 對于 tokenizer,本文采用了 DC-AE-f32c32 架構,其空間壓縮率為 32X,潛通道數為 32。本文將 codebook 設置為N=16384 。在生成器方面,本文使用 PixArt-α 架構作為 transformer 模型,并移除了其自適應歸一化層。該模型由 28 層組成,寬度為 1152,總參數量為 634M。擴散頭由 6 層 MLP 組成,總參數量為 37M。為了在研究環境中保證計算效率和可訪問性,本文采用 T5-base 作為文本編碼器,其參數量為 109M。


評估與數據集。 對于 tokenizer,本文使用 ImageNet 的訓練集作為訓練數據集,并將每張圖像調整為 。為了評估 tokenizer 的重建性能,本文在 ImageNet 驗證集上以256X256  和 512X512 分辨率評估重建 FID(rFID)、峰值信噪比(PSNR)、結構相似性指數(SSIM)和感知圖像 patch 相似度(LPIPS)。對于文本生成圖像模型,本文使用 JourneyDB 和一個內部的 MidJourney 風格合成數據集,每個數據點由圖像-文本對組成,文本由 VILA1.5-13B 生成。為了評估生成性能,本文在 MJHQ-30K 上報告生成 FID(gFID)以衡量圖像美學質量,并使用 GenEval 分數評估輸入提示與生成圖像之間的對齊程度。


效率分析。 本文在 NVIDIA A100 GPU 上評估延遲和吞吐率。吞吐率在 batch size 為 16 時測量,延遲在 batch size 為 1 時測量。所有實驗均使用 float16 精度。

主要結果

圖像 token 化。 下表 1 中的定量結果表明,DC-HT 在保持高壓縮率的同時,實現了與一維緊湊 tokenizer 相當的重建性能。值得注意的是,DC-HT 僅在  圖像上訓練,但在  分辨率下仍表現出色,而一維 tokenizer 模型則需要分別在  和  分辨率上單獨訓練。這一優勢源于 DC-HT 保留了二維 tokenizer 所具有的分辨率泛化能力,而這一能力是一維 tokenizer 所不具備的。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

消融實驗與分析

本文通過以下方面評估 DC-AR 的關鍵設計選擇:混合設計相較于僅離散 token 基線模型的有效性、三階段適應策略在 tokenizer 訓練中的優勢、分辨率泛化 tokenizer 為生成器帶來的訓練效率提升,以及混合生成框架在采樣步驟上的效率優勢。


混合設計的有效性。 與僅依賴離散 token 的傳統自回歸方法相比,混合 token 化與生成設計增強了 DC-AR 的表示能力,從而提升了性能。為驗證這一點,本文將 DC-AR 與一個僅使用離散路徑、無連續路徑、無殘差 token、無擴散頭的離散基線模型進行對比。結果如下表 4 所示,DC-AR 在多個綜合指標上均優于該基線模型,僅增加約10%的計算開銷,驗證了混合設計的有效性。此外,下圖 9 展示了混合設計如何通過捕捉細節提升生成質量的定性示例。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

三階段適應訓練策略。 本文評估了在壓縮率為32X的條件下,使用三階段適應策略訓練混合 tokenizer 的效果,并與兩種替代方法進行了比較,如下表 5 所示。第一種替代策略省略了連續預熱階段,這會增加學習離散隱空間的難度,導致最終 tokenizer 的離散-rFID 和連續-rFID 性能較差。第二種替代策略在連續預熱之后直接進入交替訓練階段,該階段類似于交替微調階段,但所有組件都是可訓練的。由于隱空間是可訓練的,這種方法會因離散與連續隱空間之間的沖突而降低離散-rFID 和連續-rFID 的性能。本文的三階段策略有效地解決了這些問題,確保性能的平衡與優化。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

訓練效率優勢。 如前文所述,本文的分辨率泛化 tokenizer 支持在512X512  模型中采用有效的“預訓練-微調”策略。該策略先在256X256 分辨率下進行預訓練,然后在目標512X512分辨率下進行微調。相比之下,使用單一分辨率 tokenizer 的模型只能在目標分辨率下從頭訓練。下表 6 的定量結果表明,與從頭訓練相比,本文的策略在保持優越生成質量(以 gFID 評分衡量)的同時,訓練成本降低了超過 。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

推理效率優勢。 下圖 6 展示了 DC-AR 在不同采樣步數下的 gFID 結果。本文的離散 token 主導的生成流程使得 DC-AR 在僅使用 12 個采樣步驟的情況下即可達到最優圖像質量。相比之下,基于 MAR 的模型需要大量步驟才能達到最優性能。采樣步驟需求的降低使得 DC-AR 在不犧牲生成質量的同時獲得了顯著的效率優勢。

ICCV 2025 | 32倍瘦身成功!英偉達最新DC-AR,秒殺擴散模型!圖像生成進入“光速時代”-AI.x社區

結論

DC-AR,一種新穎且高效的 masked 自回歸文本生成圖像框架。盡管現代擴散模型可以利用高壓縮率的 tokenizer,自回歸模型在采用相同方法時面臨顯著挑戰。為了解決這一問題,本文引入了 DC-HT,這是一種二維混合 tokenizer,能在實現32X空間壓縮率的同時保持卓越的重建保真度。在 DC-HT 的基礎上,DC-AR 成為一種能夠有效生成離散與殘差 token 的掩碼自回歸生成框架。DC-AR 首先通過離散 token 預測結構元素,然后利用殘差 token 精細化細節,僅需 12 步即可生成高質量圖像。該方法相比最先進的擴散與掩碼自回歸模型,在吞吐率上提升1.5X至7.9X,延遲降低 2.0X 至3.5X 。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/ckjpiOYKqKggU3O8gjWBZQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线观看av网站永久 | 亚洲日韩中文字幕一区 | 亚洲精品黄 | 欧美成人激情 | 国产精品久久久久久久久久久久久 | www.日韩 | www.久久久久久久久久久久 | 国产成人精品久久二区二区 | 综合婷婷 | 亚洲精品9999| 亚洲三区在线观看 | 风间由美一区二区三区在线观看 | 国产精品成人久久久久 | 婷婷开心激情综合五月天 | 性色的免费视频 | 欧美久久久久久 | 欧美日韩精品一区 | 婷婷在线免费 | 午夜天堂 | 好姑娘影视在线观看高清 | 在线免费看91| 日韩精品成人av | 免费在线视频精品 | 91欧美精品 | 99免费精品视频 | 国产精品a久久久久 | 毛片久久久 | 91短视频网址 | 男人天堂久久久 | 亚洲综合日韩精品欧美综合区 | 久久久久久久网 | 久久精品一区二区三区四区 | 免费观看www7722午夜电影 | 99这里只有精品视频 | 日韩三级在线 | 精品一区二区三区免费毛片 | 日韩毛片视频 | 91xx在线观看 | 亚洲欧洲色视频 | 无人区国产成人久久三区 | 亚洲欧美日韩在线 |