基于模塊化思想，阿里達摩院提出多模態基礎模型mPLUG-2

作者：機器之心 2023-05-30 10:23:45

達摩院的研究者提出了 mPLUG-2，其通過模塊化的?絡結構設計來平衡多模態之間的協作和糾纏問題。

對于多模態基礎模型，我們希望其不僅可以處理特定的多模態相關任務，還希望其處理單模態任務時也具有優異的性能。阿?達摩院團隊發現現有的模型往往不能很好的平衡模態協作和模態糾纏的問題，這限制了模型在各種單模態和跨模態下游任務的性能。

基于此，達摩院的研究者提出了 mPLUG-2，其通過模塊化的?絡結構設計來平衡多模態之間的協作和糾纏問題，mPLUG-2 在 30 + 多 / 單模態任務，取得同等數據量和模型規模 SOTA 或者 Comparable 效果，在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超?模型取得絕對SOTA。此外，mPLUG-Owl 是阿?巴巴達摩院 mPLUG 系列的最新工作，延續了 mPLUG 系列的模塊化訓練思想，把 LLM 升級為?個多模態?模型。mPLUG-2 的研究論文已被 ICML 2023 接收。

論?地址：https://arxiv.org/pdf/2302.00402.pdf
mPLUG-2 地址：https://github.com/X-PLUG/mPLUG-2
mPLUG-Owl 地址：https://github.com/X-PLUG/mPLUG-Owl

研究背景

?規模預訓練基礎模型是??智能領域的新興范式，涉及語?、視覺和多模態等多個領域。隨著 Transformer 體系結構的?泛成功，近年來已經出現了語?、視覺和多模態預訓練的?融合趨勢。

該趨勢下的?條主要線路是采?統?的序列?成框架來統?任務和模態，如 T5、OFA 和 Flamingo 等。另?條主要線路則是將所有任務都視為實例區分 (instance discrimination)，并采用純編碼器架構，如 BERT、Florence 和 BEIT-3 模型。

以上主流基礎模型提出為多模態數據建模共享的單?網絡 (single network)，以此來利用模態協作的信息，如 Flamingo。然而，由于不同模態涉及到的任務的巨?差異，這種策略將?臨模態糾纏的問題，多個模態可能會相互干擾，特別是當存在多種模態和任務時。單模塊基礎模型難以平衡模態協作的收益和模態糾纏對多個跨模態下游任務的影響。

為了緩解這個挑戰，在這項?作中，阿?達摩院團隊引?了?種新的多模態基礎模型的統?范式，如下圖 1 所示。它采?基于模塊的?絡設計來考慮到模態協作和模態糾纏之間的平衡。mPLUG-2 的研究者設計了特定的共享功能模塊 (functional modules)，以?勵模態協作，同時保留特定于模態的模塊 (modality-specific modules) 以解決模態糾纏的問題。

基于模塊化的設計，不同的模塊可以靈活地選取和組合，以適應?量的單模態和多模態的理解和?成任務。支持的下游任務的詳細信息在表 1 中給出，可以看到 mPLUG-2 可以處理多種跨?本、圖像和視頻的不同類型的下游任務。下表 2 中也提供了不同的下游任務所需要的模塊組合。

方法概覽

模型框圖如上圖 2 所示：(1) mPLUG-2 設計了?個統?的雙 (dual) 視覺編碼器模塊，其中視頻與圖像輸?共享的標準 Transformer 模塊，?于建?？臻g信息。局部時域建模模塊?于視頻相關任務的時域關系建模。(2) mPLUG-2 設計了?個新穎的通?層模塊 ( universal layers module)，?于作為不同模態之間的樞紐，其通過共享?注意?模塊將視覺和語?模態投影到共同的以語?為導向的語義空間中。(3) mPLUG-2 使?額外的交叉注意?模塊將通?視覺表示 (universal vision representation) 與原始細粒度視覺表示融合。詳細的模塊設計如圖 2 所示。最后，mPLUG-2 的不同模塊通過任務和模態指令 (task and modality instructions) 在單模態和跨模態任務上進?聯合預訓練。在推理過程中，mPLUG-2 可以使?模塊化 Transformer 架構為各種單模態和交叉模態任務選擇不同的模塊。