成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于模塊化思想,阿里達摩院提出多模態基礎模型mPLUG-2

人工智能 新聞
達摩院的研究者提出了 mPLUG-2,其通過模塊化的?絡結構設計來平衡多模態之間的協作和糾纏問題。

對于多模態基礎模型,我們希望其不僅可以處理特定的多模態相關任務,還希望其處理單模態任務時也具有優異的性能。阿?達摩院團隊發現現有的模型往往不能很好的平衡模態協作和模態糾纏的問題,這限制了模型在各種單模態和跨模態下游任務的性能。

基于此,達摩院的研究者提出了 mPLUG-2,其通過模塊化的?絡結構設計來平衡多模態之間的協作和糾纏問題,mPLUG-2 在 30 + 多 / 單模態任務,取得同等數據量和模型規模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超?模型取得絕對SOTA。此外,mPLUG-Owl 是阿?巴巴達摩院 mPLUG 系列的最新工作,延續了 mPLUG 系列的模塊化訓練思想,把 LLM 升級為?個多模態?模型。mPLUG-2 的研究論文已被 ICML 2023 接收。

圖片

  • 論?地址:https://arxiv.org/pdf/2302.00402.pdf
  • mPLUG-2 地址:https://github.com/X-PLUG/mPLUG-2
  • mPLUG-Owl 地址:https://github.com/X-PLUG/mPLUG-Owl

研究背景

?規模預訓練基礎模型是??智能領域的新興范式,涉及語?、視覺和多模態等多個領域。隨著 Transformer 體系結構的?泛成功,近年來已經出現了語?、視覺和多模態預訓練的?融合趨勢。

該趨勢下的?條主要線路是采?統?的序列?成框架來統?任務和模態,如 T5、OFA 和 Flamingo 等。另?條主要線路則是將所有任務都視為實例區分 (instance discrimination),并采用純編碼器架構,如 BERT、Florence 和 BEIT-3 模型。

以上主流基礎模型提出為多模態數據建模共享的單?網絡 (single network),以此來利用模態協作的信息,如 Flamingo。然而,由于不同模態涉及到的任務的巨?差異,這種策略將?臨模態糾纏的問題,多個模態可能會相互干擾,特別是當存在多種模態和任務時。單模塊基礎模型難以平衡模態協作的收益和模態糾纏對多個跨模態下游任務的影響。

為了緩解這個挑戰,在這項?作中,阿?達摩院團隊引?了?種新的多模態基礎模型的統?范式,如下圖 1 所示。它采?基于模塊的?絡設計來考慮到模態協作和模態糾纏之間的平衡。mPLUG-2 的研究者設計了特定的共享功能模塊 (functional modules),以?勵模態協作,同時保留特定于模態的模塊 (modality-specific modules) 以解決模態糾纏的問題。

圖片

基于模塊化的設計,不同的模塊可以靈活地選取和組合,以適應?量的單模態和多模態的理解和?成任務。支持的下游任務的詳細信息在表 1 中給出,可以看到 mPLUG-2 可以處理多種跨?本、圖像和視頻的不同類型的下游任務。下表 2 中也提供了不同的下游任務所需要的模塊組合。

圖片

圖片

方法概覽

圖片

模型框圖如上圖 2 所示:(1) mPLUG-2 設計了?個統?的雙 (dual) 視覺編碼器模塊,其中視頻與圖像輸?共享的標準 Transformer 模塊,?于建??臻g信息。局部時域建模模塊?于視頻相關任務的時域關系建模。(2) mPLUG-2 設計了?個新穎的通?層模塊 ( universal layers module),?于作為不同模態之間的樞紐,其通過共享?注意?模塊將視覺和語?模態投影到共同的以語?為導向的語義空間中。(3) mPLUG-2 使?額外的交叉注意?模塊將通?視覺表示 (universal vision representation) 與原始細粒度視覺表示融合。詳細的模塊設計如圖 2 所示。最后,mPLUG-2 的不同模塊通過任務和模態指令 (task and modality instructions) 在單模態和跨模態任務上進?聯合預訓練。在推理過程中,mPLUG-2 可以使?模塊化 Transformer 架構為各種單模態和交叉模態任務選擇不同的模塊。

mPLUG-2 的卓越性能

mPLUG-2 在 30 多個有挑戰性的單模態和跨模態理解和?成基準測試中評估了 mPLUG-2 的性能,它在相似的模型大小和數據規模下取得了最先進或有競爭力的結果。

這里展示幾個有代表性的實驗結果:

多模態任務

研究者在多模態理解型和生成型的相關任務上評測 mPLUG-2 的性能,包括: multimodal retrieval、question answering、visual grounding 和 captioning 等,實驗結果表明其可以得到 SOTA 的性能。

圖片

圖片

圖片

圖片

純語言任務

研究者發現,相比于專?語?預訓練模型和其他多模態預訓練模型,mPLUG-2 在 GLUE benchmark 上可以取得可?的性能。實驗結果證明了使? universal layer 做模態協作的有效性。

圖片

純視覺任務

研究者發現,mPLUG-2 在純視覺任務上,如行為識別,圖像分類任務,可以取得具有競爭力的性能。

圖片

圖片

消融:用于模態協作的通用層 (universal layer) 的作用有多大?

研究者在 baseline 的基礎上,添加他們設計的通?層 universal layer??梢园l現,通過鼓勵模態協作,在單模態或者跨模態任務上,都會有明顯的性能提升,證明了通?層 universal layer 的有效性。

圖片

圖片

另外,研究者還發現,?勵模態協作的通?層 universal layer 可以得到更小的 modality gap。

圖片

更多技術和實驗細節請參閱原論?。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-08 10:14:07

模型AI

2023-08-14 07:20:10

2022-07-12 14:45:54

達摩院模型

2024-08-19 13:35:09

2022-04-22 11:22:47

達摩院阿里巴巴

2018-06-07 16:00:28

阿里巴巴語音識別開源

2023-01-14 14:59:05

達摩院

2020-04-10 15:07:45

優化代碼圖像

2023-07-05 09:57:11

2022-08-17 10:39:44

AI阿里達摩院文檔智能

2025-02-08 13:30:00

2020-12-29 09:36:57

科技趨勢阿里

2020-01-02 11:19:55

阿里巴巴2020科技趨勢5G

2023-04-03 10:32:56

模型數據集

2025-01-08 08:21:16

2025-01-13 09:17:41

2023-03-06 14:07:31

系統訓練

2020-09-18 15:10:25

阿里達摩院數據

2018-04-20 09:08:10

AI芯片阿里巴巴

2019-08-28 16:18:39

JavaScriptJS前端
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 粉嫩一区二区三区性色av | 久久久精 | 日韩精品成人 | 五月网婷婷 | 久久在线看 | 高清视频一区二区三区 | 日韩视频在线一区 | 91九色视频在线 | 一区二区视频 | 亚洲国产成人在线视频 | 天堂免费 | 亚洲精品乱码久久久久久按摩观 | 亚洲精品一区中文字幕乱码 | 成人av影院 | 视频羞羞 | 狠狠色综合网站久久久久久久 | 五月天国产在线 | 天堂久久一区 | 国产精品大全 | 久久久久久国产精品久久 | 99精品福利视频 | 91国在线视频 | 91在线影院| 日日操网站 | 国产精品视频免费 | 久久成人免费观看 | 国产福利小视频 | 特级丰满少妇一级aaaa爱毛片 | 亚欧精品一区 | 久久久精品一区 | 狠狠躁夜夜躁人人爽天天高潮 | 精品国产91亚洲一区二区三区www | 欧美在线激情 | 亚洲一区二区三区视频 | 一级毛片在线播放 | 久久精品视频一区二区三区 | 91影院在线观看 | 宅男伊人 | h视频免费在线观看 | 中文字幕人成乱码在线观看 | 午夜激情视频 |