成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

達摩院貓頭鷹mPLUG-Owl亮相:模塊化多模態大模型,追趕GPT-4多模態能力

人工智能 新聞
阿里達摩院便推出 mPLUG-Owl ,一個基于模塊化實現的多模態大模型。

純文本大模型方興未艾,多模態領域也開始涌現出多模態大模型工作,地表最強的 GPT-4 具備讀圖的多模態能力,但是遲遲未向公眾開放體驗,于是乎研究社區開始在這個方向上發力研究并開源。MiniGPT-4 和 LLaVA 問世不久,阿里達摩院便推出 mPLUG-Owl ,一個基于模塊化實現的多模態大模型。

mPLUG-Owl 是阿?巴巴達摩院 mPLUG 系列的最新工作,延續了 mPLUG 系列的模塊化訓練思想,把 LLM 升級為一個多模態大模型。在 mPLUG 系列工作中,之前的 E2E-VLP 、mPLUG 、mPLUG-2 分別被 ACL2021 、EMNLP2022、ICML2023 錄用,其中 mPLUG 工作在 VQA 榜單首超人類的成績。

今天要介紹的是 mPLUG-Owl,該工作不僅通過大量 cases 展示出優秀的多模態能力,還第一次針對視覺相關的指令理解提出一個全?的測試集 OwlEval,通過人工評測對比了已有模型,包括 LLaVA 、MiniGPT-4 、BLIP-2 以及系統類 MM-REACT 等工作,實驗結果表明 mPLUG-Owl 展示出更優的多模態能力,尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方?表現突出

圖片

論文鏈接:https://arxiv.org/abs/2304.14178

代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl

ModelScope體驗地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace體驗地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態能力展示

我們把 mPLUG-Owl 與現有工作進行對比來感受一下 mPLUG-Owl 的多模態效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了 cherry pick 問題。

下圖 6 展示了 mPLUG-Owl 很強的多輪對話能力。

圖片

從圖 7 中可以發現,  mPLUG-Owl 具有很強的推理能力。

圖片

如圖 9 展示了一些笑話解釋例?。

圖片

在該工作中,除了評測對比外,該研究團隊還觀察到 mPLUG-Owl 初顯一些意想不到的能力,比如多圖關聯、多語?、文字識別和文檔理解等能力。

如圖 10 所示,雖然在訓練階段并沒有進行多圖關聯數據的訓練,mPLUG-Owl 展現出了一定的多圖關聯能力。

圖片

如圖 11 所示,盡管 mPLUG-Owl 在訓練階段僅使用了英文數據,但其展現出了有趣的多語?能力。這可能是因為 mPLUG-Owl 中的語?模型使用了 LLaMA,從而出現了這一現象。

圖片

盡管 mPLUG-Owl 沒有在帶有標注的文檔數據上進行訓練,但其仍然展現出了一定的文字識別和文檔理解能力,測試結果如圖 12 所示。

圖片

方法介紹

該工作提出的 mPLUG-Owl,其整體架構如圖 2 所示。

圖片

模型結構:它由視覺基礎模塊

圖片

(開源的 ViT-L)、視覺抽象模塊

圖片

以及預訓練語?模型

圖片

( LLaMA-7B) 組成。視覺抽象模塊將較?的、細粒度的圖像特征概括為少量可學習的 Token,從而實現對視覺信息的?效建模。?成的視覺 Token 與文本查詢一起輸?到語?模型中,以?成相應的回復。

模型訓練:采用兩階段的訓練方式

第一階段:主要目的也是先學習視覺和語?模態間的對?。不同于先前的工作,  mPLUG-Owl 提出凍住視覺基礎模塊會限制模型關聯視覺知識和文本知識的能力。  因此 mPLUG-Owl 在第一階段只凍住 LLM 的參數,采用 LAION-400M,  COYO-700M,  CC 以及 MSCOCO 訓練視覺基礎模塊和視覺摘要模塊。

第?階段:延續 mPLUG 和 mPLUG-2 中不同模態混合訓練對彼此有收益的發現,Owl 在第?階段的指令微調訓練中也同時采用了純文本的指令數據 (52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模態的指令數據 (150k from LLaVA)。作者通過詳細的消融實驗驗證了引?純文本指令微調在指令理解等方?帶來的收益。第?階段中視覺基礎模塊、視覺摘要模塊和原始 LLM 的參數都被凍住,參考 LoRA,只在 LLM 引?少量參數的 adapter 結構用于指令微調。

實驗結果

SOTA 對比

為了比較不同模型的多模態能力,該工作構建一個多模態指令評測集 OwlEval。由于?前并沒有合適的自動化指標,參考 Self-Intruct 對模型的回復進行人工評測,打分規則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C="理解了指令但是回復存在明顯錯誤";D="完全不相關或不正確的回復"。

對比結果如下圖 3 所示,實驗證明 Owl 在視覺相關的指令回復任務上優于已有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。

圖片

多維度能力對比

多模態指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖?上文字理解以及推理等。為了細粒度地探究模型在不同能力上的?平,本文進一步定義了多模態場景中的 6 種主要的能力,并對 OwlEval 每個測試指令人工標注了相關的能力要求以及模型的回復中體現了哪些能力。

結果如下表格 6 所示,在該部分實驗,作者既進行了 Owl 的消融實驗,驗證了訓練策略和多模態指令微調數據的有效性,也和上一個實驗中表現最佳的 baseline— MiniGPT4 進行了對比,結果顯示 Owl 在各個能力方?都優于 MiniGPT4。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-30 10:23:45

模型研究

2023-08-14 07:20:10

2025-01-08 08:21:16

2024-08-19 13:35:09

2024-08-08 13:04:28

2023-09-19 13:48:31

AI數據

2023-12-23 23:35:13

語言視覺

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2023-07-23 18:55:20

ChatGPTGPT-4

2025-05-21 08:47:00

2023-03-21 15:23:52

模型測試

2024-11-13 09:39:13

2024-12-18 18:57:58

2023-03-10 13:30:01

微軟人工智能

2023-05-15 12:14:02

ChatGPT語音模型

2023-04-28 15:27:06

微軟模型

2023-06-02 13:39:00

GPT-3開源GPU

2023-07-05 09:57:11

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成年人在线播放 | 精品成人在线 | 亚洲黄色视屏 | 玩丰满女领导对白露脸hd | 日韩三级免费观看 | 国产免费一区二区三区 | 亚洲成人a v | 一级做a爰片性色毛片 | 国产日韩欧美在线观看 | 亚洲精品久久久蜜桃网站 | 亚洲一二三区精品 | 国产精品久久久久久久久 | 国产人久久人人人人爽 | 欧美极品视频 | 日本一道本视频 | 国产在线中文字幕 | 国产精品国产成人国产三级 | 日日夜夜精品视频 | 亚洲九九| 懂色av一区二区三区在线播放 | 男女啪啪高潮无遮挡免费动态 | 日韩国产中文字幕 | 一区二区在线 | 国产专区在线 | 国产精品欧美一区二区 | 一区二区三区欧美在线 | 一区二区影视 | 色性av| 日韩在线中文字幕 | 天堂资源最新在线 | 国产精品资源在线 | 国产美女一区二区 | 国产精品久久久久久久久久久久久久 | 亚洲在线成人 | 精品国产一区二区三区四区在线 | 九九精品在线 | 亚洲精品欧美 | 亚洲国产精品人人爽夜夜爽 | 国产免费一区二区三区网站免费 | 欧美日韩第一页 | 亚洲三级在线观看 |