阿里mPLUG-Owl新升級,魚與熊掌兼得,模態協同實現MLLM新SOTA
OpenAI GPT-4V 和 Google Gemini 都展現了非常強的多模態理解能力,推動了多模態大模型(MLLM)快速發展,MLLM 成為了現在業界最熱的研究方向。
MLLM 在多種視覺-語言開放任務中取得了出色的指令跟隨能力。盡管以往多模態學習的研究表明不同模態之間能夠相互協同和促進,但是現有的 MLLM 的研究主要關注提升多模態任務的能力,如何平衡模態協作的收益與模態干擾的影響仍然是一個亟待解決的重要問題。
- 論文地址:https://arxiv.org/pdf/2311.04257.pdf
- 代碼地址:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
- ModelScope 體驗地址: https://modelscope.cn/studios/damo/mPLUG-Owl2/summary
- HuggingFace 體驗地址:https://huggingface.co/spaces/MAGAer13/mPLUG-Owl2
針對這一問題,阿里多模態大模型 mPLUG-Owl 迎來大升級,通過模態協同同時提升純文本和多模態性能,超過 LLaVA1.5,MiniGPT4,Qwen-VL 等模型,取得多種任務 SOTA。具體的,mPLUG-Owl2 利用共享的功能模塊來促進不同模態之間的協作,并引入模態自適應模塊來保留各個模態自身的特征。通過簡潔有效的設計,mPLUG-Owl2 在包括純文本和多模態在內的多種任務上取得了 SOTA 性能,對模態協作現象的研究也有助于啟發未來多模態大模型的發展。
圖 1 與現有 MLLM 模型性能對比
方法介紹
mPLUG-Owl2 模型主要由三部分組成:
- Visual Encoder:以 ViT-L/14 作為視覺編碼器,將輸入的分辨率為 H x W 的圖像,轉換為 H/14 x W/14 的視覺 tokens 序列,輸入到 Visual Abstractor 中。
- Visual Abstractor:利用一組可學習的 query,提取高層次的語義特征,同時降低輸入語言模型的視覺序列的長度。
- 語言模型:使用了 LLaMA-2-7B 作為文本解碼器,并設計了如圖 3 所示的模態自適應模塊。
圖 2 mPLUG-Owl2 模型結構
為了對齊視覺和語言模態,現有的工作通常是將視覺特征映射到文本的語義空間中,然而這樣的做法忽視了視覺和文本信息各自的特性,可能由于語義粒度的不匹配影響模型的性能。為了解決這一問題,本文提出模態自適應模塊 (Modality-adaptive Module, MAM),來將視覺和文本特征映射到共享的語義空間,同時解耦視覺 - 語言表征以保留模態各自的獨特屬性。
圖 3 Modality-adaptive 模塊示意圖
如圖 3 所示,與傳統 Transformer 相比,模態自適應模塊的主要設計在于:
- 在模塊的輸入、輸出階段,分別對視覺和語言模態進行 LayerNorm 操作,以適應兩種模態各自的特征分布。
- 在自注意力操作中,對視覺和語言模態采用分離的 key 和 value 投影矩陣,但采用共享的 query 投影矩陣,通過這樣解耦 key 和 value 投影矩陣,能夠在語義粒度不匹配的情況下,避免兩種模態之間的干擾。
- 兩種模態共享相同的 FFN,從而促進模態間的協作。
圖 4 mPLUG-Owl2 訓練策略
如圖 4 所示,mPLUG-Owl2 的訓練包含預訓練和指令微調兩個階段。預訓練階段主要是為了實現視覺編碼器和語言模型的對齊,在這一階段,Visual Encoder、Visual Abstractor 都是可訓練的,語言模型中則只對 Modality Adaptive Module 新增的視覺相關的模型權重進行更新。在指令微調階段,結合文本和多模態指令數據(如圖 5 所示)對模型的全部參數進行微調,以提升模型的指令跟隨能力。
圖 5 mPLUG-Owl2 使用的指令微調數據
實驗及結果
圖 6 圖像描述和 VQA 任務性能
圖 7 MLLM 基準測試性能
如圖 6、圖 7 所示,無論是傳統的圖像描述、VQA 等視覺 - 語言任務,還是 MMBench、Q-Bench 等面向多模態大模型的基準數據集上,mPLUG-Owl2 都取得了優于現有工作的性能。
圖 8 純文本基準測試性能
圖 9 模態自適應模塊對純文本任務性能的影響
此外,為了評估模態協同對純文本任務的影響,作者還測試了 mPLUG-Owl2 在自然語言理解和生成方面的表現。如圖 8 所示,與其他指令微調的 LLM 相比,mPLUG-Owl2 取得了更好的性能。圖 9 展示的純文本任務上的性能可以看出,由于模態自適應模塊促進了模態協作,模型的考試和知識能力都得到了顯著提高。作者分析,這是由于多模態協作使得模型能夠利用視覺信息來理解語言難以描述的概念,并通過圖像中豐富的信息增強模型的推理能力,并間接強化文本的推理能力。
mPLUG-Owl2 展示了很強的多模態理解能力,有效的緩解多模態幻覺。相關多模態技術已應用于通義星塵、通義智文等核心通義產品,并已在 ModelScope,HuggingFace 開放 Demo。