圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節)
論文:https://arxiv.org/pdf/2404.02905.pdf
代碼:https://github.com/FoundationVision/VAR
demo:https://var.vision/
視覺自回歸建模(VAR),這是一種重新定義圖像上的自回歸學習的新一代范式。VAR將自回歸學習視為粗到細的“下一尺度預測”或“下一分辨率預測”,與標準的光柵掃描“下一個token預測”有所不同。這種簡單直觀的方法使得自回歸(AR)transformers能夠快速學習視覺分布,并且具有良好的泛化能力:VAR首次使得類似GPT風格的自回歸模型在圖像生成方面超越了diffusion transformers。在ImageNet 256×256基準測試中,VAR顯著改善了AR基線,將Fréchet inception distance(FID)從18.65降低到1.80,將inception score(IS)從80.4提高到356.4,同時推理速度提高了20倍。
經驗驗證還表明,VAR在多個維度上優于Diffusion Transformer(DiT),包括圖像質量、推理速度、數據效率和可擴展性。擴大VAR模型規模表現出明顯的冪律尺度定律,類似于LLMs中觀察到的情況,相關系數接近-0.998,是堅實的證據。VAR還展示了在圖像修復、修補和編輯等下游任務中的zero-shot泛化能力。這些結果表明,VAR已經初步模擬了LLMs的兩個重要屬性:scaling laws和zero-shot泛化。已經發布了所有模型和代碼,以鼓勵探索自回歸/VAR模型用于視覺生成和統一學習。
介紹
GPT系列和其他自回歸(AR)大語言模型(LLMs)的出現標志著人工智能領域的新紀元。這些模型在泛化性和多功能性方面表現出有前途的智能,盡管存在幻覺等問題,但仍被認為是邁向通用人工智能(AGI)的堅實一步。這些大型模型的核心是一種自監督學習策略——預測序列中的下一個token,這是一種簡單而深刻的方法。對這些大型AR模型成功的研究強調了它們的可擴展性和泛化能力:前者通過scaling laws的例證允許從較小的模型預測大型模型的性能,從而指導更好地資源分配;而后者,正如zero-shot和few-shot學習所證實的那樣,強調了無監督訓練模型適應不同、未見任務的能力。這些特性顯示了AR模型在從大量未標注數據中學習的潛力,概括了“AGI”的本質。
與此同時,計算機視覺領域一直在努力發展大型的自回歸模型或世界模型,旨在模擬它們令人印象深刻的可擴展性和泛化能力。像VQGAN和DALL-E這樣的開創性工作以及它們的后繼模型展示了自回歸模型在圖像生成中的潛力。這些模型利用視覺tokenizer將連續圖像離散化為2D token網格,然后將其展平為1D序列進行自回歸學習(如圖2 b所示),類似于順序語言建模的過程(如圖2 a所示)。然而,這些模型的scaling laws仍然未被充分探索,更令人沮喪的是,它們的性能明顯落后于擴散模型,如圖3所示。與大語言模型的顯著成就形成鮮明對比,自回歸模型在計算機視覺領域的潛力似乎有些受限。
自回歸建模需要定義數據的順序。本文的工作重新考慮了如何“order”圖像。人類通常以分層方式感知或創建圖像,先捕捉全局結構,然后是局部細節。這種多尺度、由粗到細的方法自然地為圖像提供了一種“order”。受到廣泛使用的多尺度設計的啟發,本文將圖像的自回歸學習定義為圖2(c)中的“下一尺度預測”,與圖2(b)中的傳統“下一個token預測”有所不同。本文的方法從將圖像編碼成多尺度token 圖開始。然后,自回歸過程從1×1 token 圖開始,并逐漸擴展分辨率:在每一步,transformer根據所有先前的token 圖預測下一個更高分辨率的token 圖。這種方法稱為Visual AutoRegressive(VAR)建模。
VAR直接利用了類似于GPT-2的transformer架構進行視覺自回歸學習。在ImageNet 256×256基準測試中,VAR顯著改善了其自回歸基線,實現了1.80的Fréchet inception距離(FID)和356.4的inception分數(IS),推理速度提高了20倍。值得注意的是,VAR在FID/IS、數據效率、推理速度和可擴展性等方面超過了diffusion transformer(DiT)—— 諸如Stable Diffusion 3.0和SORA等領先的擴散系統的基礎。VAR模型還展示了與LLM中觀察到的相似的scaling laws。最后,展示了VAR在諸如圖像修復、生成和編輯等任務中的zero-shot泛化能力。總而言之,本文對社區的貢獻包括:
- 使用多尺度自回歸范式和下一尺度預測的新視覺生成框架,為計算機視覺中的自回歸算法設計提供新的見解。
- 對VAR模型的scaling laws和zero-shot泛化潛力進行了實證驗證,這些潛力最初模擬了大語言模型(LLMs)的吸引人特性。
- 在視覺自回歸模型性能方面取得突破,使得類似于GPT的自回歸方法首次超越了強大的擴散模型在圖像合成方面的性能。
- 提供了全面的開源代碼套件,包括VQ tokenizer和自回歸模型訓練pipelines,以推動視覺自回歸學習的進展。
相關工作
大型自回歸語言模型的屬性
Scaling laws。 冪律scaling laws在數學上描述了模型參數、數據集大小、計算資源的增長與機器學習模型性能改進之間的關系,具有幾個明顯的優點。首先,它們通過擴大模型規模、數據規模和計算成本的縮放來便于推斷出更大模型的性能。這有助于節省不必要的成本,并提供了分配訓練預算的原則。其次,scaling laws證明了性能的持續且非飽和增長,證實了它們在增強模型能力方面的持續優勢。
受神經語言模型中scaling laws原理的啟發,提出了幾種大語言模型[9, 76, 70, 27, 63, 64],體現了增加模型規模通常會產生更好性能結果的原則。基于transformer解碼器架構的GPT經歷了生成式預訓練,并將模型規模擴展到前所未有的1750億參數。LLama發布了一系列規模從70億到700億參數的預訓練和微調的大語言模型(LLMs)。將scaling laws應用于語言模型的明顯有效性展示了對視覺模型進行升級的有前途潛力。
Zero-shot 泛化。 zero-shot泛化指的是模型,特別是大語言模型,能夠執行未經明確訓練的任務的能力。在視覺領域,人們對基礎模型(如CLIP、SAM、Dinov2)的 zero-shot和上下文學習能力越來越感興趣。像Painter和LVM這樣的創新利用視覺提示設計上下文學習范式,從而促進了對下游未見任務的泛化。
視覺生成
圖像分詞器和自回歸模型。 語言模型依賴于字節對編碼(BPE)或WordPiece算法進行文本分詞。基于語言模型的視覺生成模型也需要將2D圖像編碼為1D token 序列。早期的嘗試VQVAE已經證明了將圖像表示為離散token的能力,盡管重建質量相對較低。VQGAN通過引入對抗損失和感知損失來提高圖像保真度,并采用僅解碼器的transformer以標準掃描方式生成圖像token。VQVAE-2和RQTransformer也遵循VQGAN的掃描方式,但通過額外的比例或堆疊代碼進一步改進了VQVAE。Parti利用ViT-VQGAN的基礎架構將transformer模型大小擴展到200億參數,取得了在文本到圖像合成方面的顯著成果。
Masked-prediction模型。MaskGIT采用了一個帶有VQ自編碼器的masked預測框架,通過“貪心”算法生成基于圖像tokens的圖像。MagViT將這種方法應用到視頻數據中,而MagViT-2通過引入改進的VQVAE改進了MaskGIT。MUSE將MaskGIT的架構擴展到30億參數,并將其與T5語言模型合并,在文本到圖像合成方面設定了新的基準。
擴散模型 被認為是視覺合成的前沿,因為它們具有出色的生成質量和多樣性。擴散模型的進展集中在改進的采樣技術、更快的采樣和架構增強。Imagen將T5語言模型用于文本條件,并通過多個獨立的擴散模型進行級聯生成和超分辨率來構建圖像生成系統。潛在擴散模型(LDM)在latent space中應用擴散,提高了訓練和推理的效率。DiT用基于transformer的架構替換了傳統的U-Net,被用于最近的圖像或視頻合成系統,如Stable Diffusion 3.0和SORA。
方法
初步:通過下一個token預測進行自回歸建模
討論。 上述的tokenization和展平使得可以在圖像上進行下一個token自回歸學習,但它們引入了幾個問題:
空間局部性的破壞(問題2)是顯而易見的。關于問題1,本文在附錄中提供了實證證據,分析了流行的量化自編碼器中的token依賴關系,并揭示了顯著的雙向相關性。關于問題3的計算復雜性證明在附錄中有詳細說明。這些理論和實際限制要求重新思考圖像生成中的自回歸模型。
通過下一尺度預測的視覺自回歸建模
實現細節
VAR tokenizer。 如前所述,使用基本的VQVAE架構,采用多尺度量化方案,并增加了個K額外的卷積層(0.03M額外參數)。對所有尺度使用共享的codebook,其中V=4096,潛在維度為32。與基準方法[19]一樣,分詞器也在OpenImages上使用復合損失(5)進行訓練。更多細節請參閱附錄。
VAR transformer。 本文的主要重點是VAR算法,因此保持了簡單的模型架構設計。本文采用了類似于GPT-2和VQGAN的標準解碼器transformer的架構,唯一的修改是用自適應歸一化(AdaLN)替代傳統的層歸一化——這個選擇受到了其在視覺生成模型中被廣泛采用和被證明有效的啟發。對于類別條件的合成,使用類別embedding作為起始token[s],也作為AdaLN的條件。本文沒有使用現代大語言模型中的高級技術,比如旋轉位置嵌入(RoPE)、SwiGLU MLP或RMS Norm。本文的模型形狀超參數遵循一個簡單的規則,即寬度W、頭部數量h和丟失率dr隨著深度d線性縮放,如下所示:
因此,深度d為的VAR transformer的主要參數數量由以下公式給出:
實驗結果
這一部分首先比較了VAR與其他圖像生成模型家族在性能和效率方面的表現。并進行了評估。然后對VAR模型的可擴展性和泛化能力進行了評估。最后進行了一些消融實驗和可視化。
最先進的圖像生成
設置。 在ImageNet 256×256和512×512的條件生成基準上測試了深度為16、20、24和30的VAR模型,并將它們與最先進的圖像生成模型進行了比較。在所有基于VQVAE的AR或VAR模型中,VQGAN和本文的模型使用相同的架構(CNN)和訓練數據(OpenImages)進行VQVAE訓練,而ViT-VQGAN使用ViT自編碼器,并且它和RQTransformer直接在ImageNet上訓練VQVAE。結果總結如下表所示。
整體比較。
效率比較。 傳統的自回歸(AR)模型在計算成本上存在很大問題,因為圖像token的數量與圖像分辨率的平方成正比。完整的自回歸生成個token需要的解碼迭代和的總計算量。相比之下,VAR只需要的迭代和的總計算量。表1中報告的墻鐘時間也提供了實證證據,即使具有更多的模型參數,VAR的速度也比VQGAN和ViT-VQGAN快約20倍,達到了高效GAN模型的速度,后者只需要1步即可生成一幅圖像。
與流行的 diffusion transformer相比。 VAR模型在多個方面都超過了最近流行的擴散模型Diffusion Transformer(DiT),它是最新的Stable Diffusion 3和SORA的前身:
- 在圖像生成的多樣性和質量(FID和IS)方面,具有20億參數的VAR始終優于DiT-XL/2,L-DiT-3B和L-DiT-7B。VAR還保持了可比的精度和召回率。
- 對于推理速度,DiT-XL/2需要比VAR多45倍的墻鐘時間,而3B和7B模型則需要更多。
- VAR被認為更具數據效率,因為它只需要350個訓練周期,而DiT-XL/2需要1400個。
- 就可擴展性而言,圖3和表1顯示,DiT在超過6.75億參數時只能獲得微小甚至負面的增益。相比之下,VAR的FID和IS不斷提高,與scaling laws研究相一致。這些結果表明,與DiT等模型相比,VAR是一個更高效、可擴展的圖像生成模型。
冪律 scaling laws
背景。 先前的研究[30, 22, 27, 1]已經確定,擴展自回歸(AR)大語言模型(LLMs)會導致測試損失的可預測下降。這一趨勢與參數數量、訓練token 和最佳訓練計算呈現出一種冪律關系:
這些觀察到的scaling laws不僅驗證了LLM的可擴展性,而且作為AR建模的預測工具,有助于根據較小的對應物估計更大的AR模型的性能,從而通過大型模型性能預測節省資源使用。鑒于由LLM帶來的這些吸引人的規模律性質,它們在計算機視覺中的復制因此具有重要意義。
設置scalingVAR模型。 遵循[30, 22, 27, 1]的協議,檢查本文的VAR模型是否符合類似的scaling laws。在12種不同大小的模型上進行了訓練,參數從18M到2B不等,使用包含1.28M張圖片(或根據VQVAE為870B的圖像token)的ImageNet訓練集進行每輪訓練。對于不同大小的模型,訓練持續了200到350個epoch,最大的token數量達到3050億。以下將重點放在模型參數和給定足夠token數的最優訓練計算上的scaling laws。
使用模型參數N的scaling laws。 本文首先調查了隨著VAR模型大小增加而變化的測試損失趨勢。對于深度為的VAR transformer,參數數量,如公式(8)所示。將從6變化到30,得到了12個模型,參數數量從18.5M到2.0B不等。本文評估了在ImageNet驗證集上的最終測試交叉熵損失和token預測錯誤率,該驗證集包含50,000張圖片。本文計算了最后一個尺度(在最后一個下一個尺度的自回歸步驟中)以及全局平均的和。結果如圖5所示,觀察到作為函數的清晰的冪律scaling趨勢,與[30, 22, 27, 1]一致。冪律scaling laws可以表示為:
盡管規模律主要研究了測試損失,本文也在token錯誤率上觀察到類似的冪律趨勢:
這些結果驗證了VAR的強大可擴展性,通過擴大VAR transformer的規模可以持續提高模型的測試性能。
以最優訓練計算量 為尺度的scaling laws。 接著,本文研究了在增加訓練計算量 時,VAR transformer 的scaling行為。對于這 12 個模型中的每一個,追蹤了測試損失 和token誤差率 隨著訓練計算量 的變化情況,訓練計算量以 PFlops(每秒 浮點運算)為單位報告。結果繪制在圖 6 中。在這里,繪制了 和 的帕累托前沿,以突出達到一定損失或誤差值所需的最優訓練計算量 。
對于作為 函數的 和 Err 的擬合冪律為scaling laws:
這些關系(13、14)在 的 6 個數量級范圍內保持一致,本文的發現與[30, 22]中的結果一致:在有足夠數據的情況下,更大的 VAR transformer 更具計算效率,因為它們可以用更少的計算達到相同的性能水平。
可視化。 為了更好地了解當VAR模型擴展時它們是如何學習的,在圖7中比較了來自4種不同尺寸的VAR模型(深度為6、16、26、30)和3個不同訓練階段(總訓練token的20%、60%、100%)生成的一些256×256樣本。為了保持內容一致,使用了相同的隨機種子和teacher-forced初始token。觀察到的視覺保真度和完整性的改進與scaling laws一致,因為更大的transformer被認為能夠學習更復雜、更精細的圖像分布。
zero-shot任務泛化
圖像修復和摳圖。 對VAR-d30進行了測試。對于圖像修復和摳圖,使用真實圖像中mask之外的真實token強制網絡進行訓練,使網絡只生成mask內的token。沒有向網絡注入類別標簽信息。結果見圖8。在不修改網絡架構或調整參數的情況下,VAR在這些下游任務上取得了不錯的結果,證實了VAR的泛化能力。
類別條件圖像編輯。 本文也在類別條件圖像編輯任務上對VAR進行了測試,這與修復圖像的情況類似。模型被強制只在邊界框內生成token,條件是某個類別標簽。圖8顯示,模型可以生成與周圍環境融合良好的內容,再次驗證了VAR的通用性。
消融研究
在這項研究中,旨在驗證本文提出的VAR框架的有效性和效率。結果報告在表3中。
VAR的有效性和效率。 從由[11]實施的基準vanilla AR transformer開始,本文將其方法替換為VAR,并保持其他設置不變以獲得第2行。VAR的FID要好得多(18.65比5.22),而推理掛鐘成本僅為AR模型的0.013倍,這顯示了視覺AR模型在性能和效率上的飛躍。
各組件分離實驗。 本文進一步測試了VAR中的一些關鍵組件。通過將標準層歸一化(LN)替換為自適應層歸一化(AdaLN),VAR開始產生比基準更好的FID。通過使用類似于基準的top-k抽樣,VAR的FID進一步提高。通過使用比例為2.0的無分類器指導(CFG),達到了3.60的FID,比基準低了15.05,其推斷速度仍然快45倍。由于觀察到的有效性,將最終的VAR模型配備了AdaLN、top-k抽樣和無分類器指導。最后,將VAR大小擴展到2.0B,并實現了1.80的FID。這比基準FID高出16.85。
未來工作
在這項工作中,主要關注學習范式的設計,并保持VQVAE架構和訓練與基準[19]保持不變,以更好地證明VAR框架的有效性。本文期望推進VQVAE分詞器作為增強自回歸生成模型的另一種有前途的方式,這與本文的工作無關。相信在這些最新工作中通過先進的tokenizer或抽樣技術迭代VAR可以進一步提高VAR的性能或速度。
文本提示生成 是研究的一個持續方向。考慮到本文模型在基本上與現代LLMs類似,它可以很容易地與它們集成,通過編碼器-解碼器或上下文方式執行文本到圖像的生成。這是作者目前重點探索的方向。
結論
本文引入了一種名為Visual AutoRegressive modeling(VAR)的新視覺生成框架,該框架在理論上解決了標準圖像自回歸(AR)模型中存在的一些問題,并使基于語言模型的AR模型首次在圖像質量、多樣性、數據效率和推理速度方面超越了強大的擴散模型。將VAR擴展到20億參數后,觀察到測試性能與模型參數或訓練計算之間存在明顯的冪律關系,皮爾遜系數接近-0.998,表明該框架對性能預測具有強大的魯棒性。這些scaling laws以及zero-shot任務泛化的可能性,作為LLM的標志,在VAR transformer模型中已初步驗證。希望本發現和開放源代碼能夠促進自然語言處理領域取得的巨大成功更無縫地整合到計算機視覺中,最終推動強大的多模態智能的發展。
本文轉自 AI生成未來 ,作者:Keyu Tian等
