成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

充分激發模態協作,MokA量身打造MLLM微調新范式

人工智能 新聞
來自中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室、上海人工智能實驗室的研究團隊在最新論文中給出了一種全新的思考方式。

本文第一作者衛雅珂為中國人民大學四年級博士生,主要研究方向為多模態學習機制、多模態大模型等,師從胡迪副教授。作者來自于中國人民大學和上海人工智能實驗室。

近年來,多模態大模型(MLLMs)已經在視覺語言、音頻語言等任務上取得了巨大進展。然而,當在多模態下游任務進行微調時,當前主流的多模態微調方法大多直接沿用了在純文本大語言模型(LLMs)上發展出的微調策略,比如 LoRA。但這種「照搬」 策略,真的適用于多模態模型嗎?

來自中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室、上海人工智能實驗室的研究團隊在最新論文中給出了一種全新的思考方式。他們指出:當下 MLLMs 微調方案大多簡單的將單模態策略遷移至多模態場景,未結合多模態學習特性進行深入思考。事實上,在多模態場景中,單模態信息的獨立建模(Unimodal Adaptation)和模態之間的交互建模(Cross-modal Adaptation)是同等重要的,但當前的微調范式往往沒有關注思考這兩個重要因素,導致對單模態信息的充分利用及跨模態充分交互存在較大局限性。

為此,研究團隊充分結合多模態場景的學習特性,提出了 MokA(Multimodal low-rank Adaptation)方法,在參數高效微調背景下對單模態信息的獨立建模和模態之間的交互建模進行了并重考量。實驗覆蓋音頻 - 視覺 - 文本、視覺 - 文本、語音 - 文本三大代表性場景,并在 LLaMA、Qwen 等主流 LLM 基座上進行了系統評估。結果顯示,MokA 在多個 benchmark 上顯著提升了任務表現。

圖片

  • 論文鏈接:https://arxiv.org/abs/2506.05191
  • 項目主頁:https://gewu-lab.github.io/MokA

多基座、多場景下均實現性能提升

圖片

當下被忽略的模態特性

在本文中,研究團隊指出當前多數高效多模態微調方法存在一個關鍵性限制:它們直接借鑒自單模態的大語言模型的設計。以 LoRA 為例,如下公式所示,在多模態場景中,直接應用 LoRA 將會使得同樣的可學習參數 W 被用于同時處理和適配來自不同模態的輸入 x。其中,圖片 代表第 i 個模態的輸入。

圖片

而在真實場景中,不同模態的信息存在異質性。因此,這種直接 “照搬” 單模態微調方法的實踐忽視多模態場景中模態之間的本質差異,可能導致模型難以充分利用所有模態的信息。基于此研究團隊提出,要高效地微調多模態大模型,單模態信息的獨立建模(Unimodal Adaptation)和模態之間的交互建模(Cross-modal Adaptation)缺一不可:

圖片

如上公式所示意,既需要單模態獨有參數保證單模態信息適配不受其他模態干擾,同時也需要跨模態參數對模態間交互對齊進行適配建模。

MokA:關注模態特性的多模態微調方法

基于以上思想,研究團隊提出了 MokA 方法,兼顧單模態信息的獨立建模和模態之間的交互建模。

圖片

MokA 在結構上繼承了 LoRA 的核心思想,以保持高效的優點。但基于多模態場景對于 A、B 投影矩陣的角色進行了重新定義。如上圖所示,MokA 包括三個關鍵模塊:模態特異的 A 矩陣,跨模態注意力機制和模態共享的 B 矩陣。

模態特異的 A 矩陣: MokA 考慮多模態場景,使用模態特異的 A 矩陣,從而可以在參數空間中保留模態獨立性,確保每種模態的信息壓縮過程不會互相干擾,是實現單模態信息獨立建模的關鍵一步。

跨模態注意力機制:這一模塊的主要目的是顯式增強跨模態之間的交互。在進行 instruction tuning 時,通常文本信息包含了具體的問題或任務描述,而其他模態信息提供了回答問題的場景。因此,為了顯式加強跨模態交互,MokA 在獨立壓縮后的低秩空間內對文本和非文本模態之間進行了跨模態建模,加強任務和場景間的關聯關系。

模態共享的 B 矩陣:最后,在獨立子空間中的各個模態被統一投影到一個共享空間中,利用一個共享的低秩矩陣 B 進行融合,以共享參數的方式進一步隱式實現跨模態對齊。

圖片

最終,MokA 的形式化表達如上所示。在多模態場景下,MokA 有效保證了對單模態信息的獨立建模和模態之間的交互建模。

實驗結果

實驗在三個具有代表性的多模態任務場景上進行了評估,分別包括音頻 - 視覺 - 文本、視覺 - 文本以及語音 - 文本。同時,在多個主流語言模型基座(如 LLaMA 系列與 Qwen 系列)上系統地驗證了方法的適用性。結果表明,MokA 在多個標準評測數據集上均取得了顯著的性能提升,展現出良好的通用性與有效性。

圖片

表 1: 在音頻 - 視覺 - 文本的實驗結果。

圖片

表 2: 在視覺 - 文本場景的實驗結果。

圖片

表 3:在語音 - 文本場景的實驗結果。

總述

綜上所述,MokA 作為一種面向多模態大模型的高效微調方法,兼顧了單模態特性建模與模態間交互建模的雙重需求,克服了對模態差異性的忽視問題。在保留 LoRA 參數高效優勢的基礎上,MokA 通過模態特異 A 矩陣、跨模態注意力機制與共享 B 矩陣協同工作,實現了有效的多模態微調。實驗驗證表明,MokA 在多個任務和模型基座上均取得顯著性能提升,展現適應性和推廣潛力,為多模態大模型的微調范式提供了新的方向。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-23 23:35:13

語言視覺

2025-06-26 09:06:59

2023-06-28 18:36:59

MokaAI

2023-06-09 07:29:03

模型文本document

2023-09-28 08:23:18

AI模型

2024-07-22 08:17:00

模型性能

2021-01-27 09:52:55

惡意軟件技術網絡安全

2021-01-20 11:44:31

惡意軟件技術網絡安全

2024-07-01 09:00:00

2013-07-05 10:53:38

2025-04-25 02:30:00

機械臂大模型多模態

2013-12-25 13:13:24

校園網建設萬兆網絡華三

2015-10-29 21:29:19

華為
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产中的精品av涩差av | 久草网站 | www.精品国产 | 国产97视频在线观看 | 中文字幕韩在线第一页 | 久久久久国产 | 天堂一区 | 国产精品极品美女在线观看免费 | 中文字幕福利 | 欧美一级做性受免费大片免费 | 久久久久久免费精品一区二区三区 | 国产成人久久久 | 成人在线观看网址 | av一区二区三区四区 | 日本高清中文字幕 | 99久久久久久99国产精品免 | 嫩草网| 欧美成人精品一区二区男人看 | 免费看国产一级特黄aaaa大片 | 中文字幕在线二区 | 在线伊人网 | 精品一区二区三区在线观看国产 | 成人深夜小视频 | 成人国产精品久久 | 国产一区二区在线免费播放 | 国产精品视频网 | 国产视频福利一区 | 国产一区二区毛片 | 国产视频久久 | 成人国产在线观看 | 免费在线看黄 | 一级做a | 精品国产一区二区国模嫣然 | 日韩在线视频一区 | 午夜免费网站 | 久草资源在线 | 毛片综合| 日本特黄a级高清免费大片 特黄色一级毛片 | 国产美女精品视频 | 欧美日韩在线高清 | 久久精品欧美一区二区三区不卡 |