自回歸+流匹配完美融合!Show-o2:語言模型一鍵生成高清圖/視頻,多模態理解也封神!
論文鏈接:https://arxiv.org/pdf/2506.15564
Git鏈接:https://github.com/showlab/Show-o
亮點直擊
- 提出了一種改進的原生統一多模態模型,無縫整合自回歸建模與流匹配技術,能夠跨(交錯)文本、圖像及視頻實現廣泛的多模態理解與生成任務。
- 基于3D因果VAE空間,通過語義與低維特征的雙路徑時空融合機制,構建了可擴展至多模態理解與生成、圖像與視頻模態的統一視覺表示。
- 設計了一種兩階段訓練流程,高效學習統一多模態模型,既能保留語言知識,又無需海量文本語料即可支持模型規模的有效擴展。
- 所提模型在多模態理解與視覺生成基準測試中達到領先性能,各項指標均超越現有方法。
效果展示
圖生視頻
總結速覽
解決的問題
- 多模態統一建模的局限性:現有統一多模態模型(UMMs)主要關注文本和圖像,缺乏對文本、圖像和視頻多模態的統一處理能力。
- 視覺表示與生成的分離:許多方法采用分離的視覺表示(如CLIP理解+VAE生成),導致語義與低維特征割裂,難以兼顧理解與生成。
- 生成能力的缺失:基于語言模型的多模態系統通常缺乏原生的視覺生成能力,需依賴外部適配器或額外模型組裝。
提出的方案
- Show-o2模型架構:
- 3D因果變分自編碼器(3D Causal VAE)空間:統一處理圖像和視頻的隱空間表示,支持時空融合。
- 雙路徑視覺表示:通過語義層、投影器和空間(-時序)融合,構建同時包含高層語義和低維結構的統一視覺表示。
- 多模態統一建模:
- 語言頭(Language Head):基于自回歸建模預測文本token。
- 流頭(Flow Head):基于流匹配(Flow Matching)生成圖像/視頻,實現文本到視覺的端到端生成。
- 兩階段訓練策略:
- 第一階段:預訓練流頭,學習跨文本、圖像、視頻的生成能力。
- 第二階段:全模型微調,結合高質量多模態理解與生成數據。
應用的技術
- 3D Causal VAE:擴展傳統VAE至視頻模態,支持時序建模。
- 流匹配(Flow Matching):替代擴散模型,提升生成效率和質量。
- 雙路徑融合機制:結合語義層(理解)與低維特征(生成),實現多模態對齊。
- 自回歸與流匹配協同:語言頭(自回歸)處理文本,流頭(流匹配)處理視覺,共享語言模型基座。
達到的效果
- 多模態統一能力:
- 支持文本、圖像、視頻的理解與生成任務,如視覺問答、文本到圖像/視頻生成。
- 在3D VAE空間實現跨模態時空融合,視頻生成中保持時序一致性。
- 性能優勢:
- 在多項多模態理解與生成基準測試中超越現有方法(如Chameleon、Transfusion等)。
- 流匹配技術提升生成速度和質量,兩階段訓練保留語言模型知識的同時高效學習視覺生成。
- 擴展性:模型設計支持更大規模訓練,為未來多模態統一框架提供可擴展基礎。
基于視覺表示類型的選擇性統一多模態模型比較分析,以及用于多模態理解和生成的統一建模
方法論
本節介紹整體框架,包含兩個關鍵組件:i) 適用于圖像和視頻的多模態理解與生成的統一視覺表示設計,ii) 多模態理解與生成能力的原生學習。隨后,提出兩階段訓練流程,旨在漸進式學習并有效擴展統一多模態模型。
整體框架
總體架構
本文提出的統一模型概覽如下圖1所示。給定(交錯的)文本、圖像或視頻,文本分詞器與嵌入層以及3D因果VAE編碼器分別將其處理為連續的文本嵌入和視覺隱空間表示。隨后,視覺隱空間表示經過雙路徑時空融合提取以構建統一視覺表示。這些表示被組織為序列,輸入至配備語言頭和流頭的語言模型中,分別通過自回歸建模和流匹配進行序列建模。最終,文本反分詞器與3D因果VAE解碼器聯合解碼輸出。接下來將深入探討統一視覺表示和流頭背后的基礎設計原則。
統一視覺表示
訓練方案
現有統一多模態模型(如Show-o、Janus-Pro、Transfusion、Chameleon和Emu3)通常基于大型語言模型(LLMs)、大型多模態模型(LMMs)或從頭開始訓練。這些方法旨在培養視覺生成建模能力,同時保持語言建模能力。然而,該過程通常依賴于網絡規模的高質量文本語料庫,其收集成本極高。因此,缺乏此類資源會導致語言知識和建模性能的退化。為解決這一挑戰,我們采用兩階段訓練方案(如下表2所示),在無需海量文本語料的情況下,有效保留語言知識的同時發展視覺生成能力。
第一階段
第二階段
隨后使用900萬高質量多模態理解指令數據(來自Densefusion-1M和LLaVA-OneVision)以及從6600萬圖文對中篩選的1600萬高質量視覺生成數據,對完整模型進行微調。
規模化擴展
在完成約15億參數的LLM小規模模型訓練后,我們將預訓練的流頭遷移至70億參數的LLM大模型中,并引入輕量級MLP變換對齊隱藏層維度,使其快速適配大模型并收斂。
實驗
實驗設置
數據集
- 整理的約6600萬圖文對包含分辨率至少為512×512的圖像,篩選自CC12M、COYO、LAION-Aesthetic-12M及AI合成數據(合成數據除外,其余圖像均通過ShareGPT4-V重新標注)。
- 900萬高質量多模態理解指令數據來自Densefusion-1M和LLaVA-OneVision。
在蒸餾過程中,公式(1)僅在最后20K次迭代中以0.3的概率應用于視覺潛變量。通過配置3D因果VAE編碼器的輸入圖像分辨率為432×432,并采用2×2的塊嵌入層,最終獲得729個(27×27)視覺潛變量,與SigLIP提取的潛變量維度匹配。經蒸餾后,語義層S(·)能夠從干凈和含噪的視覺潛變量中提取豐富的語義特征。統計數據顯示,在精選的6600萬圖文數據集上,S(·)從干凈視覺潛變量提取的特征與原始SigLIP提取特征的余弦相似度已收斂至約0.9。當處理其他圖像/視頻分辨率時,本文采用雙三次插值模式對位置嵌入進行插值。
本文的模型基于兩種大語言模型變體:Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct。采用Wan2.1提出的3D因果VAE架構,空間和時間壓縮率分別為8倍和4倍。
第一階段訓練中,首先在6600萬精選圖文數據(分辨率432×432)上,使用AdamW優化器(恒定學習率0.0001)對15億參數模型進行150K次迭代訓練。單圖文對的上下文長度設為1024,多模態理解與生成任務的批大小分別為128和384。公式(4)中的α設為0.2。對于視覺生成數據,以0.1概率隨機丟棄標題以實現分類器無關引導。該訓練過程使用64塊H100 GPU耗時約1.5天。隨后將生成數據替換為1600萬高質量數據(從6600萬圖文對中篩選),繼續訓練40K次迭代。
第二階段參照LLaVA-OneVision策略,使用約900萬多模態指令數據和1600萬高質量生成數據對15億模型進行總計約35K次迭代訓練,此時式(4)中α設為1.0,耗時約15小時。對于混合模態和視頻生成能力的模型,我們在第一階段逐步加入視頻文本和交錯數據。視頻數據采用隨機采樣策略:從每段視頻中抽取2秒480p或432×432的17幀片段,幀間隔為3幀,此時上下文長度設置為7006。第二階段加入高質量視頻文本和交錯數據以增強視頻和混合模態生成能力。為提升圖像生成和文本渲染質量,進一步在小規模模型上訓練更高分辨率圖像(512×512和1024×1024)并引入TextAtlas的文本密集圖像子集。
在基于70億參數大模型的訓練中,復用15億模型預訓練的流預測頭,對新初始化的空間(-時序)融合模塊、投影器和MLP變換層進行3K次迭代訓練(含2K步熱身)以實現隱層尺寸對齊,隨后聯合訓練空間(-時序)融合模塊、投影器、MLP變換層和流預測頭。之后按照15億模型的相同流程進行第一、二階段訓練。整個70億模型訓練過程使用128塊H100 GPU耗時約2.5天。由于巨大計算成本和訓練時長,大規模模型訓練階段未包含交錯和視頻數據。
多模態理解
定量結果
下表3展示了本文的模型在多模態理解基準測試中的性能表現,評估指標包括MME、GQA、SEED-Bench、MM-Bench、MMU、MMStar和AI2D。如表所示,1.5B和7B模型變體在多數指標上均優于當前最優模型。
對于參數量相近的模型(1.5B),本文的模型在MME-p和MMU-val基準上取得最高分,同時在GQA和SEED-Bench指標上保持競爭力。與約7B參數的更大模型相比,本文的模型在MME-p、GQA、MMMU-val、MMStar和AI2D等指標上超越了Janus-Pro等先進模型,甚至顯著優于14B參數的TokenFlow-XL模型,而在SEED-Bench和MM-Bench上保持競爭性表現。這些結果驗證了統一視覺表示的強大感知能力。
定性結果
下圖2展示了本文模型的多模態理解能力。該模型在回答關于圖像的通用問題時表現優異。它能夠提供圖像的詳細描述、統計物體數量并識別圖像中的文字。此外,模型還能結合其世界知識,為制作牛油果奶昔等日常飲品提供分步指導,并支持雙語問答功能,充分體現了其實用性和多功能性。更重要的是,我們的模型同時支持中英文多模態理解,實現了雙語交互能力。
視覺生成
圖像生成
在GenEval和DPG-Bench基準測試中(下表4和表5),本文的模型超越了TokenFlow-XL、Show-o、Emu3和Transfusion等多數方法。與使用1.44億圖文對訓練的Janus-Pro相比,僅用6600萬數據即取得可比結果。在DPG-Bench評估中,本文的模型相比SD3-Medium等純生成模型及Emu3-DPO等統一模型獲得最高綜合分數。上圖2的生成樣例顯示模型可生成高質量逼真圖像。
視頻生成在文本/圖像到視頻生成任務中(下表6和表7),我們的20億參數模型性能優于60億參數的Show-1、Emu3和VILA-U,并與CogVideoX和Step-Video-T2V競爭。圖2中部展示了文本/圖像到視頻生成樣例,模型能根據文本提示或輸入圖像生成動作合理的連續視頻幀(如微笑女孩、海浪和浮云)。
混合模態生成
如前圖2所示,我們使用下游任務視覺敘事數據集驗證模型的混合模態生成能力。微調時,給定交錯圖文序列,以0.3概率對所有圖像添加噪聲,否則隨機保留序列中部分早期圖像僅對后續圖像加噪。基于3.節所述通用交錯序列格式,模型可預測[BOI]令牌開始生成圖像。檢測到[BOI]令牌后,將向序列追加噪聲逐步生成圖像,已生成的文本令牌和圖像將作為上下文繼續生成后續輸出。圖2展示兩個案例,證明模型能交錯生成連貫文本與圖像以生動敘述故事。
消融實驗
下表8的預研實驗驗證了空間(-時序)融合對多模態理解與生成性能的影響。實驗采用LLaMA-3.2-1B作為基礎語言模型,僅使用約100萬多模態理解數據和ImageNet-1K生成數據。相同訓練設置下,MME-p、GQA和FID-5K等指標均有提升,表明融合機制中的語義與低維特征對多模態生成和理解能力具有協同增強作用。
下表9展示分類器無關引導(CFG)和推理步數對1.5B模型性能的影響。增大CFG引導系數和推理步數(合理范圍內)可提升GenEval和DPG-Bench分數,但當CFG引導超過5.0時GenEval分數提升不顯著。
下表10說明兩階段訓練對生成性能的影響。第二階段訓練持續顯著提升GenEval和DPG-Bench指標,驗證其必要性。
結論
原生統一多模態模型Show-o2,通過整合3D因果VAE、自回歸建模和流匹配技術,實現多模態理解與生成、圖像與視頻模態的統一建模。空間(-時序)雙路徑融合機制構建了同時包含高低層特征的統一視覺表示,兩階段訓練方案有效學習多模態能力,使模型可處理多模態理解和圖像/視頻生成等多樣化任務。大量實驗證明該模型在多項基準測試中達到最先進性能。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/4XtfXlWljpwzvEyeq_bFXQ??
