vivo突破手機AI部署難題,繞開MoE架構限制,驍龍8 Elite流暢運行|ICCV 2025
在AI邁入多模態時代的當下,“讓大模型上手機”成為產業落地的焦點。
現有MLLM在手機端部署時常面臨兩大難題:
1、純語言任務性能下降:現有的端側MLLM在純文本的任務上表現不盡人意;
2、手機NPU不支持MoE架構:而MoE架構恰恰是多模態訓練中保持語言能力的常用手段(比如CogVLM,Wings)。
vivo AI研究院聯合港中文以及上交團隊為了攻克這些難題,從訓練數據和模型結構兩方面,系統性地分析了如何在MLLM訓練中維持純語言能力,并基于此提出了GenieBlue——專為移動端手機NPU設計的高效MLLM結構方案。目前已被ICCV 2025接收。
主要貢獻和技術亮點
1、現有端側LLM在支持多模態功能后,純語言任務準確率下降超10%。GenieBlue通過凍結原始LLM參數,并引入復制的Transformer層和輕量化的LoRA模塊,在多模態訓練的過程中保留原始的語言能力。
2、通過大規模微調,GenieBlue達到與主流MLLM相媲美的多模態能力,并完全保留原始純語言性能。
3、避開當前NPU不支持的MoE架構,采用不共享基座的推理策略。在搭載高通驍龍8 Elite(第四代)芯片的手機上實現流暢運行。
技術背景
1、當前的端側MLLM無法取得令人滿意的純語言能力
在MATH(客觀難題)、AlignBench和MT-Bench(主觀題)上測試主流開源MLLM的純語言能力,并與原始LLM進行了對比。
其中,Wings是NeurIPS 2024提出的多模態訓練中保持語言能力的方案。測試結果表明,當前多模態大模型雖然在圖文任務上表現優異,但在純語言任務上普遍存在顯著性能下降,降幅大多超過10%。相比之下,GenieBlue在保持多模態能力的同時,未出現任何純語言能力的損失。
2、目前主流的手機NPU平臺尚不支持部署MoE結構
由于MoE架構對內存帶寬和容量要求較高,主流移動端NPU平臺尚未提供支持。測試顯示,包括聯發科天璣9400和高通驍龍8 Elite在內的旗艦SoC,其NPU均無法有效部署標準MoE模型。
基于上述兩個發現,團隊從訓練數據和模型結構兩個方面詳細探討了多模態訓練過程中保持純語言性能的方法。
語言性能維持-數據角度
在MLLM訓練過程中,保持純語言能力最直接常用的方法是在訓練數據中加入純文本數據。目前InternVL2.5和Qwen2.5-VL都采用了這種方法。但這種方法存在兩個主要問題:一是難以收集大量高質量的純文本指令微調數據,特別是針對主觀性NLP任務的數據;二是在MLLM訓練中加入大量純文本數據會顯著增加訓練時間。
為了驗證該方法的有效性,從ViT與LLM開始全量微調一個MLLM。具體地,模型基于面向手機端部署的BlueLM-V-3B架構,ViT部分使用SigLIP,LLM部分使用BlueLM-3B或Qwen2.5-3B。訓練流程參考Cambrian-1,先用提供的250萬對齊數據預訓練,再用700萬數據進行微調。為對比,在微調階段額外加入200萬純文本數據,主要來自InternVL2.5,如下表所示。
在7個常見LLM測評集和7個常見MLLM測評集上測試了模型的訓練效果,得到兩個主要結論:
1、加入純文本數據對多模態能力影響有限
在訓練中引入了包含200萬樣本的額外純語言數據,發現模型的多模態能力幾乎未受影響。這一現象表明,在多模態大模型訓練過程中,適量加入純文本數據對模型的多模態表現并無顯著影響。
2、純文本數據對客觀類NLP任務有一定提升,但對主觀類任務幫助不大
引入700萬多模態數據后,原始語言模型在客觀與主觀語言任務上的表現均出現明顯下降。為緩解這一問題,團隊借鑒InternVL2.5的方法,額外加入了200萬條純文本數據進行訓練。然而由于目前缺乏足夠高質量的人類對齊數據,這部分純文本僅在客觀NLP任務上帶來部分性能恢復,對主觀任務幾乎無幫助。這表明,當前通過添加純文本來維持語言模型原有能力仍面臨較大挑戰。
語言性能維持-模型結構角度
上述實驗表明,僅靠增加純文本數據來維持多模態大模型的語言能力效果有限。為此,另一類方法嘗試通過架構設計來增強語言表現,例如 CogVLM 和 Wings 采用 MoE結構來提升模型性能。
然而在實際部署中發現,Wings 雖然設計復雜,但純語言任務性能平均下降超過 20%,無法滿足實際應用需求;而 CogVLM 在每個 Transformer 層旁邊加上視覺專家模塊,并凍結原始語言模型,從而在多模態輸入下保持其純語言能力不變。
盡管這一方式在精度上更穩定,但也存在兩大問題:
其一,部署時需同時加載 LLM 和視覺專家模塊,顯著增加內存開銷;
其二,當前手機NPU尚不支持 MoE 模型運行,導致模型難以在移動端真正落地。
這些挑戰說明,提升語言能力與實現高效部署之間仍需更好的權衡策略。
為完整評估CogVLM方法在多模態訓練中的效果,基于BlueLM-3B和Qwen2.5-3B兩種語言模型進行實驗。為緩解部署中的內存壓力,僅在1/4的Transformer層中加入視覺專家模塊,分別嘗試插入在前1/4(Pre)、后1/4(Post)和每隔1/4(Skip)的位置。同時,對其余層的注意力和前饋模塊加入LoRA權重。在此基礎上,將三種CogVLM策略與全量微調和全LoRA訓練進行對比,并列出訓練中涉及的可學習參數量(包括ViT和投影層)。
這一實驗有助于理解不同多模態訓練策略在性能和參數效率之間的權衡。得到兩個主要結論:
1、與全量微調相比,LoRA 和 CogVLM 方法都會不同程度地削弱多模態大模型的性能。
由于可訓練參數數量受限,LoRA 和 CogVLM 的多模態性能仍略低于全量微調,但整體已可達90%以上。其中,CogVLM 在多模態表現上優于 LoRA。值得注意的是,全量微調雖然多模態能力最強,但會顯著削弱純文本任務的效果;相比之下,LoRA 和 CogVLM 采用不共享基座模型的部署策略,在提升多模態能力的同時,能夠保持純文本性能不受影響。
2、對于CogVLM,將視覺專家模塊均勻插入至整個模型的1/4層位置,能夠實現最佳的MLLM性能表現。
在CogVLM方法中,將視覺專家模塊添加到每1/4層的位置(即每隔若干層插入一次,覆蓋總層數的1/4),能使多模態大模型的性能達到全量微調的96%以上。同時,CogVLM的訓練方式不會影響純文本任務表現,基于此,團隊選擇以此方法為基礎設計了GenieBlue。
GenieBlue的設計
1、模型結構
基于CogVLM結構進行改進,重點考慮了當前手機NPU對MoE架構的限制。CogVLM的核心思想是將文本和多模態信息分開處理,采用MoE架構由不同專家分別負責文本和視覺Token。而設計原則則繞開MoE,通過為LLM和多模態模型部署選擇不同權重,保持原始LLM架構在多模態推理時不變。
GenieBlue框架如上圖所示。為節省手機端模型存儲和部署內存,在LLM中每1/4的位置復制一組Transformer層,其余層加入LoRA模塊。
在多模態訓練階段,凍結原始LLM,僅對ViT、投影層、復制的Transformer塊和新增的LoRA參數進行訓練。
推理時采用不共基座的部署策略。純文本任務使用未修改的原始LLM計算;多模態任務則用訓練好的復制Transformer塊替換對應層,同時在其余層添加LoRA參數。這種不共基座策略有效避免了MoE架構,將LLM和多模態模型推理解耦。實際NPU部署時,只需替換權重并加載LoRA模塊,簡化了部署流程,提高了效率。
基于250萬預訓練數據和900萬微調數據,使用BlueLM-3B和Qwen2.5-3B兩種語言模型,將提出的GenieBlue與全量微調和CogVLM方法進行了對比評測。
GenieBlue-Skip實現了最佳的多模態性能表現,且優于CogVLM-Skip方法。
2、不共基座部署方案
通過將LLM和MLLM的推理過程分離,采用GenieBlue的不共基座部署策略可以有效保持原始LLM的純語言能力。
為驗證該策略的重要性,在LLM基準測試中對比了共基座和不共基座兩種部署方式。共基座表示將LLM和多模態模型推理流程合并,純文本任務推理時也使用全訓練的Transformer層和LoRA模塊。此外還展示了BlueLM-3B和Qwen2.5-3B在全量微調和全LoRA訓練下的NLP性能。
采用不共基座的部署策略,在純文本任務上表現出顯著優于共基座部署的語言能力。
訓練和部署方案
基于對訓練數據和模型結構的分析,最終確定了GenieBlue-Skip模型結構及不共基座部署策略。
1、訓練方案
采用GenieBlue-Skip結構,嚴格按照BlueLM-V-3B的訓練方案和數據進行訓練。訓練分兩階段:第一階段使用250萬預訓練數據,僅訓練MLP投影層,凍結ViT和LLM;第二階段用6.45億微調數據,微調ViT、投影層、復制的Transformer塊及新增的LoRA參數,保持原始LLM凍結。訓練中,ViT采用SigLIP,LLM為BlueLM-3B,LoRA秩設置為8。
2、部署方案
將GenieBlue部署在搭載高通驍龍8 Elite(第四代)SoC的iQOO 13手機NPU上,采用高通QNN SDK進行模型部署。ViT和投影層采用W8A16量化,LLM采用W4A16量化,新增的LoRA參數同樣使用W8A16量化。目前支持單Patch的ViT推理。需要特別說明的是,驍龍8 Elite的NPU平臺暫不支持MoE架構的部署。
GenieBlue的準確率和部署效果
團隊驗證了GenieBlue的多模態、純語言準確率以及在手機NPU上的部署效率。
1、多模態準確率
GenieBlue與參數量小于40億的其他MLLM進行了對比。GenieBlue的多模態準確率略低于Qwen2.5-VL-3B,但保留了BlueLM-V-3B約97%的性能。此外,GenieBlue在平均表現上略優于InternVL2-8B。
2、純語言準確率
GenieBlue最大特點是采用不共基座部署策略,能夠保持原始語言模型性能不受影響。在多個代表性基準測試上對其語言能力進行了評測。作為對比,選擇了通過加入純文本數據保持語言性能的Qwen2.5VL-3B。GenieBlue在語言能力上無任何下降,而Qwen2.5VL-3B尤其在主觀任務中存在一定程度的性能退化。這表明,與單純增加純文本數據相比,目前探索模型結構設計更有助于維持語言模型的純文本能力。
3、部署效率
在搭載高通驍龍8 Elite(第四代)SoC的設備上,采用不共基座部署策略實現了GenieBlue,支持單Patch的ViT推理,并展示了BlueLM-V-3B與GenieBlue的部署效率對比。由于增加了LoRA參數,GenieBlue的模型加載時間稍長,存儲和內存需求略增,輸出速度略有下降,但30token/s的速度完全滿足移動設備的日常使用需求。
總結
本文從移動設備實際部署出發,聚焦如何保持純語言能力,深入分析了訓練數據和模型結構兩方面的影響,探索有效策略。基于這些分析提出GenieBlue——專為移動端打造的高效且硬件友好的多模態大模型,能夠融合語言理解與多模態能力。GenieBlue在訓練時凍結原始語言模型參數,利用復制的Transformer層和輕量的LoRA模塊獲得多模態能力,既保持了語言性能,又實現了有競爭力的多模態表現。在智能手機NPU上的部署驗證了其實際可行性和高效性,是移動端邊緣計算的有力解決方案。團隊期待此項工作為該領域未來研究帶來有益啟示。
論文地址:https://arxiv.org/pdf/2503.06019