成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<mark id="tisrj"></mark>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

開源版MetaQuery來了！OpenUni用1.1B參數媲美BLIP3-o-8B，數據代碼完全開源

2025-06-23 09:01:00

人工智能新聞

南洋理工大學 S-Lab 和商湯科技的研究團隊推出 OpenUni，一個開源版 MetaQuery，僅用 1.1B 參數達到 8B 模型性能，更將代碼、權重、數據全部開源！

隨著 GPT-4o 展現出令人印象深刻的多模態能力，將視覺理解和圖像生成統一到單一模型中已成為 AI 領域的研究趨勢（如MetaQuery 和 BLIP3-o ）。

南洋理工大學 S-Lab 和商湯科技的研究團隊推出 OpenUni，一個開源版 MetaQuery，僅用 1.1B 參數達到 8B 模型性能，更將代碼、權重、數據全部開源！

技術報告： OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
機構：南洋理工大學 S-Lab、商湯科技新加坡研究院
作者： Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等貢獻), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy
開源代碼： https://github.com/wusize/OpenUni
聯系方式： size001@e.ntu.edu.sg

架構圖，OpenUni 架構：通過 256 個可學習查詢和 6 層輕量連接器，橋接凍結的 InternVL（理解）與 SANA（生成）

圖 1：OpenUni 在生成任務上的性能表現，展示了其高效的參數利用

三大核心優勢

??? 架構極簡

僅 6 層連接器，相比 MetaQuery 的 24 層大幅精簡

? 參數高效

1.1B 參數達到 GenEval 0.84 分，與 BLIP3-o-8B 模型性能相當

?? 完全開源

模型權重 + 訓練代碼 + 2300 萬數據集全部公開

架構設計與訓練策略

OpenUni 遵循 MetaQuery 的設計理念，包含四個核心組件：

1.256 個可學習查詢 - 從用戶指令中提取條件信息

2. 凍結的 InternVL - 保持原有理解能力

3.6 層 transformer 連接器 - 基于 ViT 架構

4.SANA 擴散模型 - 高效圖像生成

模型對比

* 對于 BLIP3-o，將預測 CLIP 特征的 DiT 視為連接器

關鍵特點： - 連接器參數大幅減少 - 使用更小的 MLLM 和擴散模型 - 訓練數據完全公開

兩階段訓練策略

第一階段：預訓練（2300 萬圖文對）

目標：訓練可學習查詢和連接器
策略：凍結 MLLM 和擴散模型
數據：公開數據集，使用 LLM/MLLM 重新標注

第二階段：微調（6 萬圖文對）

目標：提升生成質量
策略：解凍擴散模型，聯合優化
數據：BLIP3-o 貢獻的高質量數據集

性能驗證

OpenUni 在參數效率上表現出色：

OpenUni-B-512：1.1B 激活參數，GenEval 達到 0.84 分，與 BLIP3-o-8B 持平
OpenUni-L-512：3.1B 激活參數，GenEval 達到 0.85 分
OpenUni-L-1024：3.1B 激活參數，GenEval 達到 0.86 分，為開源統一模型最佳

其他基準測試

DPG-Bench：OpenUni-L-1024 獲得 83.08 分，超越所有 MetaQuery 和 BLIP3-o 變體
WISE：OpenUni-L 達到 0.52 分，與 BLIP3-o-8B（公開數據版）持平

生成效果展示

圖 2：OpenUni-L-1024 生成的多樣化高質量圖像

多模態理解能力

由于采用凍結 InternVL3 的策略，OpenUni 繼承了其理解能力：

圖 3：OpenUni-L 的多模態理解能力展示

理解基準測試

應用前景與開源貢獻

OpenUni 提供完整的開源資源：

? 模型權重 - 所有訓練階段的 checkpoint

? 訓練代碼 - 完整訓練 pipeline

? 2300 萬訓練數據 - 包含重新生成的 caption

? 詳細文檔 - 訓練配置和復現指南

研究團隊指出了當前的局限：

生成圖像中渲染文字的能力有限
最大模型基于 2B MLLM 和 1.6B 擴散模型，有待擴展
圖像到圖像生成任務將在未來版本支持
GenEval 的局限性，由于 prompt 范式固定，模型經過 GPT4o 蒸餾數據（BLIP4o-60K）微調后在 GenEval 上大幅提升；作為統一模型（Show-o,Janus,Harmon,Bagel）常用的指標，GenEval 難以再真正衡量模型能力

總結

OpenUni 為統一多模態模型提供了一個簡單但強大的基線。通過極簡的架構設計和高效的參數利用，OpenUni 展示了：

更少的參數可以達到有競爭力的性能
簡單的設計往往更有效
完全開源促進社區研究和創新

作為一個持續進行的項目，OpenUni 為研究社區提供了清晰、可復現、易擴展的基線實現。

責任編輯：張燕妮來源：機器之心

模型開源 AI

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：免费看黄色视屏 | 久草视频观看 | 国产成人精品一区二区三区 | 操操日| 亚洲人va欧美va人人爽 | 国产精品一区一区三区 | 成人精品一区 | 成人性视频在线播放 | 狠狠的日| 永久av| 国产成人jvid在线播放 | 在线观看av网站 | 欧美精品乱码久久久久久按摩 | 中文字幕亚洲国产 | 精品久久久久久一区二区 | 99爱国产 | 天天操天天操 | 国产伦精品一区二区三毛 | 午夜羞羞| 久久小视频 | 成人免费小视频 | 91麻豆精品国产91久久久久久久久 | 老司机久久 | 狠狠的干 | 91在线免费观看网站 | 国产第二页 | www四虎影视 | 欧美在线网站 | 玖玖色在线视频 | 日韩三片| 中文字幕成人在线 | 日韩亚洲一区二区 | 在线欧美视频 | 午夜精品久久久久久久久久久久久 | 91pao对白在线播放 | 亚洲女人天堂成人av在线 | 国产精品99久久久久久久vr | 在线免费观看a级片 | 久久国产精品免费一区二区三区 | 97超碰成人| 欧美一区|

<label id="verwg"><dl id="verwg"><dl id="verwg"></dl></dl></label>

<cite id="verwg"></cite>

<abbr id="verwg"><pre id="verwg"><cite id="verwg"></cite></pre></abbr>

<abbr id="verwg"><style id="verwg"><dl id="verwg"></dl></style></abbr>