GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式

發布于 2024-4-15 09:14

瀏覽

0收藏

新一代視覺生成范式「VAR: Visual Auto Regressive」視覺自回歸來了！使 GPT 風格的自回歸模型在圖像生成首次超越擴散模型，并觀察到與大語言模型相似的 Scaling Laws 縮放定律、Zero-shot Task Generalization 泛化能力：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

論文標題: "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction"

這項名為 VAR 的新工作由北京大學和字節跳動的研究者提出，登上了 GitHub 和 Paperwithcode 熱度榜單，并得到大量同行關注：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

目前體驗網站、論文、代碼、模型已放出：

體驗網站：https://var.vision/
論文鏈接：https://arxiv.org/abs/2404.02905
開源代碼：https://github.com/FoundationVision/VAR
開源模型：https://huggingface.co/FoundationVision/var

背景介紹

在自然語言處理中，以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive 自回歸模型已經取得了較大的成功，尤其 Scaling Law 縮放定律和 Zero-shot Task Generalizability 零樣本任務泛化能力十分亮眼，初步展示出通往「通用人工智能 AGI」的潛力。

然而在圖像生成領域中，自回歸模型卻廣泛落后于擴散（Diffusion）模型：近期持續刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均屬于 Diffusion 家族。此外，對于視覺生成領域是否存在「Scaling Law 縮放定律」仍未知，即測試集損失是否隨模型或訓練開銷增長而呈現出可預測的冪律 (Power-law) 下降趨勢仍待探索。

GPT 形式自回歸模型的強大能力與 Scaling Law，在圖像生成領域，似乎被「鎖」住了：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

自回歸模型在生成效果榜單上落后于一眾 Diffusion 模型

劍指「解鎖」自回歸模型的能力和 Scaling Laws，研究團隊從圖像模態內在本質出發，模仿人類處理圖像的邏輯順序，提出一套全新的「視覺自回歸」生成范式：VAR, Visual AutoRegressive Modeling，首次使得 GPT 風格的自回歸視覺生成，在效果、速度、Scaling 能力多方面超越 Diffusion，并迎來了視覺生成領域的 Scaling Laws：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

VAR 方法核心：模仿人類視覺，重新定義圖像自回歸順序

人類在感知圖像或進行繪畫時，往往先概覽全局、再深入細節。這種由粗到細、從把握整體到精調局部的思想非常自然：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

人類感知圖片（左）與創作畫作（右）由粗到細的邏輯順序

然而，傳統的圖像自回歸（AR）卻使用一種不符合人類直覺（但適合計算機處理）的順序，即自上而下、逐行掃描的光柵順序（或稱 raster-scan 順序），來逐個預測圖像 token：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

VAR 則「以人為本」，模仿人感知或人創造圖像的邏輯順序，使用從整體到細節的多尺度順序逐漸生成 token map：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

除了更自然、更符合人類直覺，VAR 帶來的另一個顯著優勢是大幅提高了生成速度：在自回歸的每一步（每一個尺度內部），所有圖像 token 是一次性并行生成的；跨尺度則是自回歸的。這使得在模型參數和圖片尺寸相當的情況下，VAR 能比傳統 AR 快數十倍。此外，在實驗中作者也觀察到 VAR 相比 AR 展現出更強的性能和 Scaling 能力。

VAR 方法細節：兩階段訓練

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

VAR 在第一階段訓練一個多尺度量化自動編碼器（Multi-scale VQVAE），在第二階段訓練一個與 GPT-2 結構一致（結合使用 AdaLN）的自回歸 Transformer。

如左圖所示，VQVAE 的訓練前傳細節如下：

離散編碼：編碼器將圖片轉化為離散 token map R=(r1, r2, ..., rk)，分辨率從小到大
連續化：r1 至 rk 先通過嵌入層轉換為連續 feature map，再統一插值到 rk 對應最大分辨率，并求和
連續解碼：求和后的 feature map 經過解碼器得到重建圖片，并通過重建 + 感知 + 對抗三個損失混合訓練

如右圖所示，在 VQVAE 訓練結束后，會進行第二階段的自回歸 Transformer 訓練：

自回歸第一步是通過起始 token [S] 預測最初的1x1token map
隨后每一步，VAR 都基于歷史所有的 token map 去預測下一個更大尺度的 token map
訓練階段，VAR 使用標準的交叉熵損失監督這些 token map 的概率預測
測試階段，采樣得到的 token map 會借助 VQVAE 進行連續化、插值求和、解碼，從而得到最終生成的圖像

作者表示，VAR 的自回歸框架是全新的，而具體技術方面則吸收了 RQ-VAE 的殘差 VAE、StyleGAN 與 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列經典技術的長處。VAR 實際是站在巨人的肩膀上，聚焦于自回歸算法本身的創新。

實驗效果對比

VAR 在 Conditional ImageNet 256x256 和 512x512 上進行實驗：

VAR 大幅提升了 AR 的效果，一轉 AR 落后于 Diffusion的局面
VAR 僅需10 步自回歸步驟，生成速度大幅超過 AR、Diffusion，甚至逼近 GAN 的高效率
通過Scale upVAR 直至2B/3B，VAR 達到了 SOTA 水平，展現出一個全新的、有潛力的生成模型家族。

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

令人關注的是，通過與 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer（DiT）對比，VAR 展現出了：

更好效果：經過scale up，VAR 最終達到 FID=1.80，逼近理論上的 FID 下限 1.78（ImageNet validation set），顯著優于 DiT 最優的 2.10
更快速度：VAR 只需不到0.3 秒即可生成一張 256 圖像，速度是 DiT 的45 倍；在 512 上更是 DiT 的81 倍
更好 Scaling能力：如左圖所示，DiT 大模型在增長至 3B、7B 后體現出飽和現象，無法靠近 FID 下限；而 VAR 經過縮放到 20 億參數，性能不斷提升，最終觸及 FID 下限
更高效的數據利用：VAR 僅需350epoch 訓練即超過 DiT1400epoch 訓練

這些比 DiT 更高效、更高速、更可擴放的證據為新一代視覺生成的基礎架構路徑帶來了更多可能性。

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

Scaling Law 實驗

Scaling law 可謂是大語言模型的「皇冠明珠」。相關研究已經確定，在 Scale up 自回歸大型語言模型過程中，測試集上的交叉熵損失 L，會隨著模型參數量 N、訓練 token 個數 T，以及計算開銷 Cmin 進行可預測的降低，呈現出冪律（Power-law）關系。

Scaling law 不僅使根據小模型預測大模型性能成為可能，節省了計算開銷和資源分配，也體現出自回歸 AR 模型強大的學習能力，測試集性能隨著 N、T、Cmin 增長。

通過實驗，研究者觀察到了 VAR 展現出與 LLM 幾乎完全一致的冪律 Scaling Law：研究者訓練了 12 種大小的模型，縮放模型參數量從 1800 萬到 20 億，總計算量橫跨 6 個數量級，最大總 token 數達到 3050 億，并觀察到測試集損失 L 或測試集錯誤率與 N 之間、L 與 Cmin 之間展現出平滑的的冪律關系，并擬合良好：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

在 scale-up 模型參數和計算量過程中，模型的生成能力可見得到逐步提升（例如下方示波器條紋）：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

Zero-shot 實驗

得益于自回歸模型能夠使用 Teacher-forcing 機制強行指定部分 token 不變的這一優良性質，VAR 也展現出一定的零樣本任務泛化能力。在條件生成任務上訓練好的 VAR Transformer，不通過任何微調即可零樣本泛化到一些生成式任務中，例如圖像補全（inpainting）、圖像外插（outpainting）、圖像編輯（class-condition editing），并取得一定效果：

GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式-AI.x社區

結論

VAR 為如何定義圖像的自回歸順序提供了一個全新的視角，即由粗到細、由全局輪廓到局部精調的順序。在符合直覺的同時，這樣的自回歸算法帶來了很好的效果：VAR 顯著提升自回歸模型的速度和生成質量，在多方面使得自回歸模型首次超越擴散模型。同時 VAR 展現出類似 LLM 的 Scaling Laws、Zero-shot Generalizability。作者們希望 VAR 的思想、實驗結論、開源，能夠貢獻社區探索自回歸范式在圖像生成領域的使用，并促進未來基于自回歸的統一多模態算法的發展。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/KOEdTgJX4Gga5zRbl57Yow??

標簽

模型

圖像生成

贊

回復