開源版MetaQuery來了!OpenUni用1.1B參數媲美BLIP3-o-8B,數據代碼完全開源
隨著 GPT-4o 展現出令人印象深刻的多模態能力,將視覺理解和圖像生成統一到單一模型中已成為 AI 領域的研究趨勢(如MetaQuery 和 BLIP3-o )。
南洋理工大學 S-Lab 和商湯科技的研究團隊推出 OpenUni,一個開源版 MetaQuery,僅用 1.1B 參數達到 8B 模型性能,更將代碼、權重、數據全部開源!
- 技術報告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
- 機構: 南洋理工大學 S-Lab、商湯科技新加坡研究院
- 作者: Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等貢獻), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy
- 開源代碼: https://github.com/wusize/OpenUni
- 聯系方式: size001@e.ntu.edu.sg
架構圖,OpenUni 架構:通過 256 個可學習查詢和 6 層輕量連接器,橋接凍結的 InternVL(理解)與 SANA(生成)
圖 1:OpenUni 在生成任務上的性能表現,展示了其高效的參數利用
三大核心優勢
- ??? 架構極簡
僅 6 層連接器,相比 MetaQuery 的 24 層大幅精簡
- ? 參數高效
1.1B 參數達到 GenEval 0.84 分,與 BLIP3-o-8B 模型性能相當
- ?? 完全開源
模型權重 + 訓練代碼 + 2300 萬數據集全部公開
架構設計與訓練策略
OpenUni 遵循 MetaQuery 的設計理念,包含四個核心組件:
1.256 個可學習查詢 - 從用戶指令中提取條件信息
2. 凍結的 InternVL - 保持原有理解能力
3.6 層 transformer 連接器 - 基于 ViT 架構
4.SANA 擴散模型 - 高效圖像生成
模型對比
* 對于 BLIP3-o,將預測 CLIP 特征的 DiT 視為連接器
關鍵特點: - 連接器參數大幅減少 - 使用更小的 MLLM 和擴散模型 - 訓練數據完全公開
兩階段訓練策略
第一階段:預訓練(2300 萬圖文對)
- 目標:訓練可學習查詢和連接器
- 策略:凍結 MLLM 和擴散模型
- 數據:公開數據集,使用 LLM/MLLM 重新標注
第二階段:微調(6 萬圖文對)
- 目標:提升生成質量
- 策略:解凍擴散模型,聯合優化
- 數據:BLIP3-o 貢獻的高質量數據集
性能驗證
OpenUni 在參數效率上表現出色:
- OpenUni-B-512:1.1B 激活參數,GenEval 達到 0.84 分,與 BLIP3-o-8B 持平
- OpenUni-L-512:3.1B 激活參數,GenEval 達到 0.85 分
- OpenUni-L-1024:3.1B 激活參數,GenEval 達到 0.86 分,為開源統一模型最佳
其他基準測試
- DPG-Bench:OpenUni-L-1024 獲得 83.08 分,超越所有 MetaQuery 和 BLIP3-o 變體
- WISE:OpenUni-L 達到 0.52 分,與 BLIP3-o-8B(公開數據版)持平
生成效果展示
圖 2:OpenUni-L-1024 生成的多樣化高質量圖像
多模態理解能力
由于采用凍結 InternVL3 的策略,OpenUni 繼承了其理解能力:
圖 3:OpenUni-L 的多模態理解能力展示
理解基準測試
應用前景與開源貢獻
OpenUni 提供完整的開源資源:
? 模型權重 - 所有訓練階段的 checkpoint
? 訓練代碼 - 完整訓練 pipeline
? 2300 萬訓練數據 - 包含重新生成的 caption
? 詳細文檔 - 訓練配置和復現指南
研究團隊指出了當前的局限:
- 生成圖像中渲染文字的能力有限
- 最大模型基于 2B MLLM 和 1.6B 擴散模型,有待擴展
- 圖像到圖像生成任務將在未來版本支持
- GenEval 的局限性,由于 prompt 范式固定,模型經過 GPT4o 蒸餾數據(BLIP4o-60K)微調后在 GenEval 上大幅提升;作為統一模型(Show-o,Janus,Harmon,Bagel)常用的指標,GenEval 難以再真正衡量模型能力
總結
OpenUni 為統一多模態模型提供了一個簡單但強大的基線。通過極簡的架構設計和高效的參數利用,OpenUni 展示了:
- 更少的參數可以達到有競爭力的性能
- 簡單的設計往往更有效
- 完全開源促進社區研究和創新
作為一個持續進行的項目,OpenUni 為研究社區提供了清晰、可復現、易擴展的基線實現。