謝賽寧團隊提出BLIP3-o:融合自回歸與擴散模型的統一多模態架構,開創CLIP特征驅動的圖像理解與生成新范式!
BLIP3-o 是一個統一的多模態模型,它將自回歸模型的推理和指令遵循優勢與擴散模型的生成能力相結合。與之前擴散 VAE 特征或原始像素的研究不同,BLIP3-o 擴散了語義豐富的CLIP 圖像特征,從而為圖像理解和生成構建了強大而高效的架構。
此外還發布了包含 2000 萬張帶詳細標題的圖片(BLIP3o Pretrain Long Caption)和 400 萬張帶短標題的圖片(BLIP3o Pretrain Short Caption)的數據集。
亮點
- 完全開源:完全開源訓練數據(預訓練和指令調整)、訓練方案、模型權重、代碼。
- 統一架構:用于圖像理解和生成。
- CLIP 特征擴散:直接擴散語義視覺特征,以實現更強的對齊和性能。
- 最先進的性能:涵蓋廣泛的圖像理解和生成基準。
支持的任務
- 文本 → 文本
- 圖像→文本(圖像理解)
- 文本→圖像(圖像生成)
- 圖像 → 圖像(圖像編輯)
- 多任務訓練(圖像生成和理解混合訓練)
相關鏈接
- 論文:https://arxiv.org/pdf/2505.09568
- 代碼:https://github.com/JiuhaiChen/BLIP3o
- 模型:https://huggingface.co/BLIP3o/BLIP3o-Model
- 預訓練:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain
- 優化:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
論文閱讀
在近期的多模態模型研究中,統一圖像理解和生成越來越受到關注。盡管圖像理解的設計方案已被廣泛研究,但用于統一圖像生成框架的最佳模型架構和訓練方法仍未得到充分探索。
鑒于自回歸和擴散模型在高質量生成和可擴展性方面的巨大潛力,作者對它們在統一多模態環境中的應用進行了全面的研究,重點關注圖像表征、建模目標和訓練策略。基于這些研究,論文提出了一種新穎的方法,該方法使用擴散變換器來生成語義豐富的CLIP圖像特征,這與傳統的基于VAE的表征不同。這種設計既提高了訓練效率,又提升了生成質量。
此外,作者證明了統一模型的順序預訓練策略——先進行圖像理解訓練,然后再進行圖像生成訓練——在保留圖像理解能力的同時,發展強大的圖像生成能力,具有實用優勢。最后,作者精心策劃了一個高質量的指令調整數據集 BLIP3o-60k,用于圖像生成,通過為 GPT-4o 提供涵蓋各種場景、物體、人體手勢等內容的多樣化字幕。基于論文提出的創新的模型設計、訓練方案和數據集,作者開發了 BLIP3-o,這是一套最先進的統一多模態模型。BLIP3-o 在涵蓋圖像理解和生成任務的大多數熱門基準測試中均取得了卓越的性能。
BLIP3-o 的架構。 在圖像理解部分,我們使用 CLIP 對圖像進行編碼,并計算目標文本標記和預測文本標記之間的交叉熵損失。在圖像生成部分,自回歸模型首先生成一系列中間視覺特征,然后將其作為條件輸入,輸入到擴散變換器中,該變換器生成 CLIP 圖像特征,以近似真實的 CLIP 特征。通過使用 CLIP 編碼器,圖像理解和圖像生成共享相同的語義空間,從而有效地統一了這兩個任務。
統一多模態模型中圖像生成的三種設計選擇。所有設計均采用自回歸 + 擴散框架,但其圖像生成組件有所不同。對于流匹配損失,我們保持自回歸模型不變,僅對圖像生成模塊進行微調,以保留模型的語言能力。
聯合訓練 vs. 順序訓練:聯合訓練通過混合圖像理解和圖像生成數據進行多任務學習,同時更新自回歸主干網絡和生成模塊。順序訓練將兩個過程分開:首先,模型僅進行圖像理解任務的訓練;然后凍結自回歸主干網絡,并在第二階段僅訓練圖像生成模塊。
實驗結果
BLIP3-o 8B 在 1024×1024 分辨率下的可視化結果圖像理解基準測試的結果。用粗體突出顯示最佳結果。
圖像生成基準結果
Janus Pro 與模型在 DPG-Bench 上的人體研究結果。
結論
論文首次系統地探索了用于統一多模態建模的混合自回歸和擴散架構,并評估了三個關鍵方面:圖像表征(CLIP 與 VAE 特征)、訓練目標(光流匹配與 MSE)以及訓練策略(聯合與順序)。實驗表明CLIP 嵌入與光流匹配損失相結合,能夠提高訓練效率并提升輸出質量。基于這些洞察,作者推出了 BLIP3-o,這是一系列最先進的統一模型,并基于 60k 指令集調整數據集 BLIP3o-60k 進行了增強,顯著提升了快速對齊和視覺美感。此外,作者正在積極開發該統一模型的應用,包括迭代圖像編輯、視覺對話和逐步視覺推理。