成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

自回歸超越擴散!北大、字節 VAR 范式解鎖視覺生成 Scaling Law

人工智能
在自然語言處理中,以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive 自回歸模型已經取得了較大的成功,尤其 Scaling Law 縮放定律和 Zero-shot Task Generalizability 零樣本任務泛化能力十分亮眼,初步展示出通往「通用人工智能 AGI」的潛力。

新一代視覺生成范式「VAR: Visual Auto Regressive」視覺自回歸來了!使 GPT 風格的自回歸模型在圖像生成首次超越擴散模型,并觀察到與大語言模型相似的 Scaling Laws 縮放定律、Zero-shot Task Generalization 泛化能力:

圖片

論文標題:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

這項名為 VAR 的新工作由北京大學字節跳動的研究者提出,登上了 GitHub 和 Paperwithcode 熱度榜單,并得到大量同行關注:

圖片

目前體驗網站、論文、代碼、模型已放出:

背景介紹

在自然語言處理中,以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive 自回歸模型已經取得了較大的成功,尤其 Scaling Law 縮放定律Zero-shot Task Generalizability 零樣本任務泛化能力十分亮眼,初步展示出通往「通用人工智能 AGI」的潛力。

然而在圖像生成領域中,自回歸模型卻廣泛落后于擴散(Diffusion)模型:近期持續刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均屬于 Diffusion 家族。此外,對于視覺生成領域是否存在「Scaling Law 縮放定律」仍未知,即測試集的交叉熵損失是否能夠隨著模型或訓練開銷 而呈現出可預測的冪律(Power-law)下降趨勢 仍待探索。

GPT形式自回歸模型的強大能力與 Scaling Law,在圖像生成領域,似乎被「鎖」住了:

圖片

自回歸模型在生成效果榜單上落后于一眾 Diffusion 模型

劍指「解鎖」自回歸模型的能力和 Scaling Laws,研究團隊從圖像模態內在本質出發,模仿人類處理圖像的邏輯順序,提出一套全新的「視覺自回歸」生成范式:VAR, Visual AutoRegressive Modeling,首次使得GPT風格的自回歸視覺生成,在效果、速度、Scaling能力多方面超越 Diffusion,并迎來了視覺生成領域的 Scaling Laws:

圖片

VAR方法核心:模仿人類視覺,重新定義圖像自回歸順序

人類在感知圖像或進行繪畫時,往往先概覽全局、再深入細節。這種由粗到細、從把握整體到精調局部的思想非常自然:

圖片

人類感知圖片(左)與創作畫作(右)由粗到細的邏輯順序

然而,傳統的圖像自回歸(AR)卻使用一種不符合人類直覺(但適合計算機處理)的順序,即自上而下、逐行掃描的光柵順序,來逐個預測圖像token:

圖片

VAR則「以人為本」,模仿人感知或人創造圖像的邏輯順序,使用從整體到細節的多尺度順序逐漸生成token map:

圖片

除了更自然、更符合人類直覺,VAR帶來的另一個顯著優勢是大幅提高了生成速度:在自回歸的每一步(每一個尺度內部),所有圖像token是一次性并行生成的;跨尺度則是自回歸的。這使得在模型參數和圖片尺寸相當的情況下,VAR能比傳統AR快數十倍。此外,在實驗中作者也觀察到 VAR 相比 AR 展現出更強的性能和 Scaling 能力。

VAR方法細節:兩階段訓練

圖片

VAR 在第一階段訓練一個多尺度量化自動編碼器(Multi-scale VQVAE),在第二階段訓練一個與 GPT-2 結構一致(結合使用AdaLN)的自回歸 Transformer。

如左圖所示,VQVAE 的訓練前傳細節如下:

  • 離散編碼:編碼器將圖片轉化為離散 token map R=(r1, r2, ..., rk),分辨率從小到大
  • 連續化:r1至rk先通過嵌入層轉換為連續 feature map,再統一插值到rk對應最大分辨率,并求和
  • 連續解碼:求和后的 feature map 經過解碼器得到重建圖片,并通過重建+感知+對抗三個損失混合訓練

如右圖所示,在 VQVAE 訓練結束后,會進行第二階段的自回歸 Transformer 訓練:

  • 自回歸第一步是通過起始 token [S] 預測最初的 1x1 token map
  • 隨后每一步,VAR都基于歷史所有的 token map 去預測下一個更大尺度的 token map
  • 訓練階段,VAR 使用標準的交叉熵損失監督這些 token map 的概率預測
  • 測試階段,采樣得到的 token map 會借助 VQVAE decoder 進行連續化、插值求和、解碼,從而得到最終生成的圖像

作者表示,VAR 的自回歸框架是全新的,而具體技術方面則吸收了 RQ-VAE 的殘差VAE、StyleGAN與DiT的AdaLN、PGGAN的progressive training等一系列經典技術的長處。VAR 實際是站在巨人的肩膀上,聚焦于自回歸算法本身的創新。

實驗效果對比

VAR 在 Conditional ImageNet 256x256 和 512x512 上進行實驗:

  • VAR 大幅提升了 AR 的效果,一轉 AR 落后于 Diffusion 的局面
  • VAR 僅需 10 步自回歸步驟,生成速度大幅超過AR、Diffusion,甚至逼近 GAN 的高效率
  • 通過 Scale up VAR 直至 2B/3B,VAR 達到了 SOTA 水平,展現出一個全新的、有潛力的生成模型家族。

圖片

令人關注的是,通過與 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer(DiT)對比,VAR 展現出了:

  • 更好效果:經過 scale up,VAR最終達到 FID=1.80,逼近理論上的 FID 下限 1.78(ImageNet validation set),顯著優于 DiT最優的 2.10
  • 更快速度:VAR只需不到0.3秒即可生成一張256圖像,速度是DiT的45倍;在512上更是DiT的81倍
  • 更好 Scaling 能力:如左圖所示,DiT 大模型在增長至 3B、7B 后體現出飽和現象,無法更靠近 FID 下限;而 VAR 經過縮放到20億參數,性能不斷提升,最終觸及 FID 下限
  • 更高效的數據利用:VAR僅需350 epoch訓練即超過 DiT 1400 epoch 訓練

這些比 DiT 更高效、更高速、更可擴放的證據為新一代視覺生成的基礎架構路徑帶來了更多可能性。

圖片

Scaling Law 實驗

Scaling law 可謂是大語言模型的「皇冠明珠」。相關研究已經確定,在 Scale up 自回歸大型語言模型過程中,測試集上的交叉熵損失 L,會隨著模型參數量 N、訓練token個數 T,以及計算開銷 Cmin 進行可預測的降低,呈現出冪律(Power-law)關系。

Scaling law 不僅使根據小模型預測大模型性能成為可能,節省了計算開銷和資源分配,也體現出自回歸 AR 模型強大的學習能力,測試集性能隨著 N、T、Cmin 增長。

通過實驗,研究者觀察到了 VAR 展現出與 LLM 幾乎完全一致的冪律 Scaling Law:研究者訓練了 12 種大小的模型,縮放模型參數量從1800萬到20億,總計算量橫跨 6 個數量級,最大總 token 數達到3050億,并觀察到測試集損失 L 或測試集錯誤率 與 N 之間、L 與 Cmin 之間展現出平滑的的冪律關系,并擬合良好:

圖片

在 scale-up 模型參數和計算量過程中,模型的生成能力可見得到逐步提升(例如下方示波器條紋):

圖片

Zero-shot 實驗

得益于自回歸模型能夠使用 Teacher-forcing 機制強行指定部分 token 不變的這一優良性質,VAR 也展現出一定的零樣本任務泛化能力。在條件生成任務上訓練好的 VAR Transformer,不通過任何微調即可零樣本泛化到一些生成式任務中,例如圖像補全(inpainting)、圖像外插(outpainting)、圖像編輯(class-condition editing),并取得一定效果:

圖片

結論

VAR 為如何定義圖像的自回歸順序提供了一個全新的視角,即由粗到細、由全局輪廓到局部精調的順序。在符合直覺的同時,這樣的自回歸算法帶來了很好的效果:VAR 顯著提升自回歸模型的速度和生成質量,在多方面使得自回歸模型首次超越擴散模型。同時 VAR 展現出類似 LLM 的 Scaling Laws、Zero-shot Generalizability。作者們希望 VAR 的思想、實驗結論、開源,能夠貢獻社區探索自回歸范式在圖像生成領域的使用,并促進未來基于自回歸的統一多模態算法的發展。

責任編輯:龐桂玉 來源: 字節跳動技術團隊
相關推薦

2024-09-09 13:50:00

2024-12-05 10:00:31

2024-11-12 13:10:49

2024-06-26 14:50:52

2024-03-11 00:20:00

模型論文

2024-11-12 13:07:44

2025-04-21 08:20:00

視覺模型訓練

2025-07-02 09:21:30

2025-06-04 13:55:03

AI模型技術

2025-03-17 08:25:00

模型AI訓練

2024-06-05 19:11:23

2024-04-26 12:51:48

2025-04-16 02:55:00

2024-10-23 14:04:24

2025-05-27 15:35:02

大模型技術AI

2024-12-16 07:15:00

2024-11-14 18:40:57

2024-08-15 15:45:00

AI訓練

2025-01-03 11:35:42

2025-02-27 13:45:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 视频在线一区 | 免费av一区二区三区 | 亚洲品质自拍视频网站 | 亚洲国产成人av好男人在线观看 | 一级黄大片| 精品一二三区 | 91久久夜色 | 久久久91精品国产一区二区三区 | 日日操夜夜操视频 | 一级日批片 | 欧日韩在线 | 在线看成人av | 超碰在线国产 | 久久久综合精品 | 国产精品精品视频一区二区三区 | 草草影院ccyy | 久久久久国产精品 | 国产日韩欧美一区 | 91视频国产精品 | 国产黄色在线观看 | 中文在线a在线 | 免费观看黄 | 国产精品一二区 | 国产中文视频 | 日日骚网| 99reav| 久久精品99久久 | 久久久精彩视频 | 亚洲精品一区二三区不卡 | 精品久久久久久亚洲精品 | 日韩免费一区二区 | 狠狠爱一区二区三区 | 国产亚洲精品久久久久久牛牛 | 国产h在线| 欧美 日韩 综合 | 最新国产在线 | 中文字幕av在线播放 | 国产一区二区三区四区五区加勒比 | 久草视频在线看 | 亚洲97 | 午夜三级视频 |