充分激發模態協作，MokA量身打造MLLM微調新范式

2025-06-30 08:44:00

來自中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室、上海人工智能實驗室的研究團隊在最新論文中給出了一種全新的思考方式。

本文第一作者衛雅珂為中國人民大學四年級博士生，主要研究方向為多模態學習機制、多模態大模型等，師從胡迪副教授。作者來自于中國人民大學和上海人工智能實驗室。

近年來，多模態大模型（MLLMs）已經在視覺語言、音頻語言等任務上取得了巨大進展。然而，當在多模態下游任務進行微調時，當前主流的多模態微調方法大多直接沿用了在純文本大語言模型（LLMs）上發展出的微調策略，比如 LoRA。但這種「照搬」策略，真的適用于多模態模型嗎？

來自中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室、上海人工智能實驗室的研究團隊在最新論文中給出了一種全新的思考方式。他們指出：當下 MLLMs 微調方案大多簡單的將單模態策略遷移至多模態場景，未結合多模態學習特性進行深入思考。事實上，在多模態場景中，單模態信息的獨立建模（Unimodal Adaptation）和模態之間的交互建模（Cross-modal Adaptation）是同等重要的，但當前的微調范式往往沒有關注思考這兩個重要因素，導致對單模態信息的充分利用及跨模態充分交互存在較大局限性。

為此，研究團隊充分結合多模態場景的學習特性，提出了 MokA（Multimodal low-rank Adaptation）方法，在參數高效微調背景下對單模態信息的獨立建模和模態之間的交互建模進行了并重考量。實驗覆蓋音頻 - 視覺 - 文本、視覺 - 文本、語音 - 文本三大代表性場景，并在 LLaMA、Qwen 等主流 LLM 基座上進行了系統評估。結果顯示，MokA 在多個 benchmark 上顯著提升了任務表現。

論文鏈接：https://arxiv.org/abs/2506.05191
項目主頁：https://gewu-lab.github.io/MokA

多基座、多場景下均實現性能提升

當下被忽略的模態特性

在本文中，研究團隊指出當前多數高效多模態微調方法存在一個關鍵性限制：它們直接借鑒自單模態的大語言模型的設計。以 LoRA 為例，如下公式所示，在多模態場景中，直接應用 LoRA 將會使得同樣的可學習參數 W 被用于同時處理和適配來自不同模態的輸入 x。其中，代表第 i 個模態的輸入。

而在真實場景中，不同模態的信息存在異質性。因此，這種直接 “照搬” 單模態微調方法的實踐忽視多模態場景中模態之間的本質差異，可能導致模型難以充分利用所有模態的信息。基于此研究團隊提出，要高效地微調多模態大模型，單模態信息的獨立建模（Unimodal Adaptation）和模態之間的交互建模（Cross-modal Adaptation）缺一不可：

如上公式所示意，既需要單模態獨有參數保證單模態信息適配不受其他模態干擾，同時也需要跨模態參數對模態間交互對齊進行適配建模。

MokA：關注模態特性的多模態微調方法

基于以上思想，研究團隊提出了 MokA 方法，兼顧單模態信息的獨立建模和模態之間的交互建模。

MokA 在結構上繼承了 LoRA 的核心思想，以保持高效的優點。但基于多模態場景對于 A、B 投影矩陣的角色進行了重新定義。如上圖所示，MokA 包括三個關鍵模塊：模態特異的 A 矩陣，跨模態注意力機制和模態共享的 B 矩陣。

模態特異的 A 矩陣： MokA 考慮多模態場景，使用模態特異的 A 矩陣，從而可以在參數空間中保留模態獨立性，確保每種模態的信息壓縮過程不會互相干擾，是實現單模態信息獨立建模的關鍵一步。

跨模態注意力機制：這一模塊的主要目的是顯式增強跨模態之間的交互。在進行 instruction tuning 時，通常文本信息包含了具體的問題或任務描述，而其他模態信息提供了回答問題的場景。因此，為了顯式加強跨模態交互，MokA 在獨立壓縮后的低秩空間內對文本和非文本模態之間進行了跨模態建模，加強任務和場景間的關聯關系。

模態共享的 B 矩陣：最后，在獨立子空間中的各個模態被統一投影到一個共享空間中，利用一個共享的低秩矩陣 B 進行融合，以共享參數的方式進一步隱式實現跨模態對齊。

最終，MokA 的形式化表達如上所示。在多模態場景下，MokA 有效保證了對單模態信息的獨立建模和模態之間的交互建模。

實驗結果

實驗在三個具有代表性的多模態任務場景上進行了評估，分別包括音頻 - 視覺 - 文本、視覺 - 文本以及語音 - 文本。同時，在多個主流語言模型基座（如 LLaMA 系列與 Qwen 系列）上系統地驗證了方法的適用性。結果表明，MokA 在多個標準評測數據集上均取得了顯著的性能提升，展現出良好的通用性與有效性。

表 1: 在音頻 - 視覺 - 文本的實驗結果。

表 2: 在視覺 - 文本場景的實驗結果。

表 3：在語音 - 文本場景的實驗結果。

總述

綜上所述，MokA 作為一種面向多模態大模型的高效微調方法，兼顧了單模態特性建模與模態間交互建模的雙重需求，克服了對模態差異性的忽視問題。在保留 LoRA 參數高效優勢的基礎上，MokA 通過模態特異 A 矩陣、跨模態注意力機制與共享 B 矩陣協同工作，實現了有效的多模態微調。實驗驗證表明，MokA 在多個任務和模型基座上均取得顯著性能提升，展現適應性和推廣潛力，為多模態大模型的微調范式提供了新的方向。

責任編輯：張燕妮來源：機器之心

MLLM 模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

充分激發模態協作，MokA量身打造MLLM微調新范式

多基座、多場景下均實現性能提升

當下被忽略的模態特性

MokA：關注模態特性的多模態微調方法

實驗結果

總述