舍棄自回歸!國內(nèi)團隊打造純擴散多模態(tài)大模型LLaDA-V,理解任務(wù)新SOTA
本文介紹的工作由中國人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團隊與螞蟻集團共同完成。游澤彬和聶燊是中國人民大學(xué)高瓴人工智能學(xué)院的博士生,導(dǎo)師為李崇軒副教授。該研究基于團隊前期發(fā)布的、首個性能比肩 LLaMA 3 的 8B 擴散大語言模型 LLaDA。
此次,團隊將 LLaDA 拓展至多模態(tài)領(lǐng)域,推出了 LLaDA-V—— 集成了視覺指令微調(diào)的純擴散多模態(tài)大語言模型(MLLM)。這項工作標(biāo)志著對當(dāng)前以自回歸為主流的多模態(tài)方法的一次重要突破,展示了擴散模型在多模態(tài)理解領(lǐng)域的巨大潛力。
近年來,多模態(tài)大語言模型(MLLMs)在處理圖像、音頻、視頻等多種輸入模態(tài)方面取得了顯著進展。然而,現(xiàn)有的大多數(shù)方法依賴自回歸模型。雖然有研究嘗試將擴散模型引入 MLLMs,但往往采用混合架構(gòu)(自回歸 + 擴散)或者受限于語言建模能力,導(dǎo)致性能不佳。
繼 LLaDA 成功證明擴散模型在純語言任務(wù)上能與自回歸模型(如 LLaMA3-8B)競爭后,一個關(guān)鍵問題隨之而來:擴散語言模型能否在多模態(tài)任務(wù)中也達到與自回歸模型相當(dāng)?shù)男阅埽縇LaDA-V 正是對這一問題的有力回答。
研究團隊將 LLaDA 作為語言基座,通過引入視覺編碼器(SigLIP 2)和 MLP 連接器,將視覺特征投影到語言嵌入空間,實現(xiàn)了有效的多模態(tài)對齊。LLaDA-V 在訓(xùn)練和采樣階段均采用離散擴散機制,擺脫了自回歸范式。
- 論文標(biāo)題:LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
- 論文鏈接:https://arxiv.org/abs/2505.16933
- 項目地址:https://ml-gsai.github.io/LLaDA-V-demo/
- 代碼倉庫:https://github.com/ML-GSAI/LLaDA-V
團隊預(yù)計近期開源訓(xùn)練推理代碼以及 LLaDA-V 權(quán)重。
性能亮點
數(shù)據(jù)可擴展性強,多項基準(zhǔn)表現(xiàn)優(yōu)異
大規(guī)模的實驗評估揭示了 LLaDA-V 的多個引人注目的特性:
1. 卓越的數(shù)據(jù)可擴展性與競爭力。團隊將 LLaDA-V 與使用 LLaMA3-8B 作為語言基座、但其他部分完全相同的自回歸基線 LLaMA3-V 進行了對比。
結(jié)果顯示,LLaDA-V 展現(xiàn)出更強的數(shù)據(jù)可擴展性,特別是在多學(xué)科知識(如 MMMU)基準(zhǔn)上。令人印象深刻的是,盡管 LLaDA-8B 在純文本任務(wù)上略遜于 LLaMA3-8B,但 LLaDA-V 在 11 個 多模態(tài)任務(wù)中超越了 LLaMA3-V。這表明擴散架構(gòu)在多模態(tài)任務(wù)上面具備一定的優(yōu)勢。
2. 純擴散與混合架構(gòu)中的 SOTA:與現(xiàn)有的混合自回歸 - 擴散模型(如 MetaMorph, Show-o)和純擴散模型相比,LLaDA-V 在多模態(tài)理解任務(wù)上達到了當(dāng)前最佳(SOTA)性能。這證明了基于強大語言擴散模型的 MLLM 架構(gòu)的有效性。
3. 縮小與頂尖自回歸 MLLM 的差距:盡管 LLaDA 的語言能力明顯弱于 Qwen2-7B,但 LLaDA-V 在某些基準(zhǔn)(如 MMStar)上顯著縮小了與強大的 Qwen2-VL 的性能差距,達到了相當(dāng)?shù)乃剑?0.1 vs. 60.7)。這進一步印證了擴散模型在多模態(tài)領(lǐng)域的潛力。
下圖是 LLaDA-V 同用戶進行交流的場景。
LLaDA-V 準(zhǔn)確描述出了一幅寧靜而富有層次感的瑞士阿爾卑斯山景:一條綠色小路蜿蜒延伸,一位行人沿路行走,遠處是山谷中的白色教堂和被薄霧環(huán)繞的巍峨群山,藍天白云為畫面增添了寧靜氛圍,整體構(gòu)圖清晰,意境優(yōu)美。
核心方法
LLaDA-V 的核心在于將視覺指令微調(diào)框架與 LLaDA 的掩碼擴散機制相結(jié)合。下圖展示了 LLaDA-V 的訓(xùn)練和推理過程:
架構(gòu): 采用經(jīng)典的「視覺編碼器 + MLP 投影器 + 語言模型」架構(gòu)。視覺編碼器(SigLIP 2)提取圖像特征,MLP 投影器將其映射到 LLaDA 的嵌入空間。LLaDA 語言塔則負責(zé)處理融合后的多模態(tài)輸入并生成回復(fù)。特別地,LLaDA-V 采用了雙向注意力機制,允許模型在預(yù)測時全面理解對話上下文,這在消融實驗中被證明略優(yōu)于對話因果注意力機制。
訓(xùn)練目標(biāo): LLaDA-V 擴展了 LLaDA 的訓(xùn)練目標(biāo),以支持多輪多模態(tài)對話。其核心思想是在訓(xùn)練時保持圖像特征和用戶提示(Prompt),僅對模型的回復(fù)(Response)進行隨機掩碼,訓(xùn)練目標(biāo)僅對被掩碼部分計算交叉熵損失。
推理過程: LLaDA-V 的生成過程并非自回歸式的逐詞預(yù)測,而是通過擴散模型的反向去噪過程。從一個完全被掩碼的回復(fù)開始,模型在多個步驟中迭代地預(yù)測被掩碼的詞元,逐步恢復(fù)出完整的回復(fù)。研究采用了 LLaDA 的低置信度重掩碼策略,優(yōu)先保留高置信度的預(yù)測,提升了生成質(zhì)量。
總結(jié)與展望
LLaDA-V 成功地將視覺指令微調(diào)與掩碼擴散模型相結(jié)合,證明了擴散模型不僅能在語言任務(wù)上與自回歸模型一較高下,在多模態(tài)理解領(lǐng)域同樣展現(xiàn)出強大的競爭力和獨特的優(yōu)勢,尤其是在數(shù)據(jù)可擴展性方面。
這項工作不僅為 MLLM 的發(fā)展開辟了一條新的技術(shù)路徑,也挑戰(zhàn)了多模態(tài)智能必須依賴自回歸模型的傳統(tǒng)觀念。隨著語言擴散模型的不斷發(fā)展,我們有理由相信,基于擴散的 MLLM 將在未來扮演更重要的角色,進一步推動多模態(tài) AI 的邊界。