純自回歸圖像生成模型開源來了，復旦聯手字節seed共同捍衛自回歸

作者：量子位 2025-04-21 08:20:00

來自復旦視覺與學習實驗室和字節Seed的研究者們希望“驗一驗”自回歸視覺生成模型的能力，他們保持“Next-token prediction”這樣簡潔優美的形式，而通過優化訓練和推理過程來探究自回歸視覺生成是否可以像擴散模型一樣取得不錯的文生圖效果。

基于Transformer的自回歸架構在語言建模上取得了顯著成功，但在圖像生成領域，擴散模型憑借強大的生成質量和可控性占據了主導地位。

雖然一些早期工作如Parti、LlamaGen，嘗試用更強的視覺tokenizer和Transformer架構來提升自回歸生成的效果，但他們論文中的結果表明，只有更多的參數量才能讓自回歸模型勉強和擴散模型“掰掰手腕”。

這也讓越來越多的研究者質疑自回歸視覺生成是否是一條可行、值得探索的路徑。通常來說，大家認為自回歸視覺生成模型的不足集中：

1. 離散的token必然帶來更多的信息損失：當下改進視覺tokenizer也是一個備受關注的方向，最新的方法無論是離散或連續都可以取得非常好的重建效果（至少不會制約生成模型），因此相信這一點不會是制約兩條路線的核心原因；

2。視覺token序列往往較長、因此很難建模token間的關系：對于一個512分辨率的圖像來說，16倍壓縮比的tokenizer意味著視覺token序列的長度是1024。對于采用因果掩碼（causal mask）的自回歸模型來說，建模這么長的序列無疑是很有挑戰性的；

3. 下一個token預測的效率太低：相比于擴散模型或MaskGIT那樣一步出整圖或多個token，自回歸模型串行預測token的方式在生成速度方面存在明顯劣勢。

近些時間，也有一些工作如VAR和MAR嘗試重新定義視覺里自回歸的形式，比如下一個尺度預測、或用連續token做自回歸。這些方法在ImageNet這樣的學術數據集上取得了不錯的效果，但是也潛在地破壞了視覺模態和語言模型的對齊性。

帶著好奇的心態，來自復旦視覺與學習實驗室和字節Seed的研究者們希望“驗一驗”自回歸視覺生成模型的能力，他們保持“Next-token prediction”這樣簡潔優美的形式，而通過優化訓練和推理過程來探究自回歸視覺生成是否可以像擴散模型一樣取得不錯的文生圖效果。

不依賴外掛文本編碼器的自回歸模型

先說結論！這篇工作有三點驚艷的發現：

在0.5B的參數規模下，純自回歸模型可以生成1024分辨率的高質量圖像，且在常用文生圖基準上取得了非常有競爭力的結果，例如在GenEval上取得了0.59，是1B以內模型的SOTA；

通過“預訓練-有監督微調-強化學習”這樣的三階段訓練，模型可以生成出具有很高美學性的圖像，且有監督微調（SFT）和基于GRPO的強化學習可以持續提升模型的指令跟隨能力以及生成效果；

當用vLLM進行部署時，0.5B的模型可以在14秒以內生成1024分辨率的圖像。

性能比較

本文提出的SimpleAR在GenEval和DPG上都取得了不錯的結果，其中0.5B模型顯著超越了SDv2.1和LlamaGen。

值得一提的是，擴散模型和Infinity這類方法都依賴于外掛的文本編碼器，如Infinity使用了3B的FlanT5-XL,而本文提出的自回歸模型則將文本（prompt）編碼和視覺生成集成在了一個decoder-only的Transformer里，不僅可以更好地學習跨模態對齊，也能更加高效地利用參數。

1.5B模型的性能距離Infinity還有差距，但本文相信這主要是由數據規模導致的，當用更多的高質量數據訓練時，模型的性能還可以被進一步提升。此外，本文選擇了Cosmos作為視覺tokenizer，其在重建低分辨率圖像和人臉等細節上十分有限，因此生成能力還有充分被改進的空間。

本文還首次在文生圖上成功應用了GRPO進行后訓練，結果表明：利用CLIP這樣非常簡單的reward函數，也依然可以觀察到非常有潛力的reward曲線、并在GenEval上了取得了顯著的性能提升：

最后是關于效率問題。本文首先嘗試了用vLLM將模型部署到A100上，結果表明其可以顯著地提升模型的推理速度：僅需13.55秒就能生成1024分辨率的高質量圖像，這顯著縮小了和擴散模型的差距，并由于可以使用KV Cache技術而相比于MaskGIT更有優勢。本文也實現了推斷采樣，其可以有效降低2倍的自回歸推理步數。盡管由于不能使用KV Cache，單純的步數減少不能直接帶來推理時間的降低，但這為高效自回歸視覺生成提供了一些嶄新的思路。