Moonshot AI開源輕量級MoE多模態(tài)模型Kimi-VL,2.8B參數(shù)媲美SOTA模型!
最近有點忙,沒來得及更新,但一直保持著對前沿技術(shù)的緊密關(guān)注,不得不感嘆當(dāng)今技術(shù)日新月異。
多模態(tài)推理模型進展,現(xiàn)有的開源大型視覺語言模型在可擴展性、計算效率和高級推理能力方面顯著落后于純文本語言模型。
OpenAI的GPT-4o和Google的Gemini等模型能夠無縫感知和解釋視覺輸入,但不開源,DeepSeek-R1等模型雖然采用了MoE架構(gòu),但在長上下文推理和多模態(tài)任務(wù)上仍有不足。
此外,早期的基于MoE的視覺語言模型在架構(gòu)和能力上存在局限,無法處理長上下文和高分辨率視覺輸入。
今天來看一下月之暗面最新的工作,基于MoE架構(gòu)的高效多模態(tài)模型Kimi-VL。
先來看下Kimi-VL的主要創(chuàng)新:
- 創(chuàng)新的模型架構(gòu)設(shè)計:該模型由 MoonViT(原生分辨率視覺編碼器)、MLP 投影器和 MoE 語言模型組成,能夠處理多種輸入形式(單圖像、多圖像、視頻、長文檔等),在多種任務(wù)(如細(xì)粒度感知、數(shù)學(xué)問題、大學(xué)水平問題、OCR、代理任務(wù)等)上表現(xiàn)出色。
- 高效多模態(tài)推理能力:Kimi-VL 在多個具有挑戰(zhàn)性的視覺語言任務(wù)中展現(xiàn)出強大的能力,包括大學(xué)水平的圖像和視頻理解、OCR、數(shù)學(xué)推理、多圖像理解等,并在與 GPT-4omini、Qwen2.5-VL-7B、Gemma-3-12B-IT 等前沿高效 VLM 的比較評估中表現(xiàn)出色,甚至在某些關(guān)鍵領(lǐng)域超越了 GPT-4o。
- 長文本和長視頻處理能力:Kimi-VL 擁有 128K 擴展上下文窗口,能夠處理多樣化的長輸入,在 LongVideoBench 和 MMLongBench-Doc 等基準(zhǔn)測試中取得了令人印象深刻的分?jǐn)?shù)(分別為 64.5 和 35.1),并且其原生分辨率視覺編碼器 MoonViT 能夠清晰地看到和理解超高分辨率視覺輸入,同時在常見任務(wù)中保持較低的計算成本。
- 推出 Kimi-VL-Thinking 變體:基于 Kimi-VL,通過長鏈推理(CoT)監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)開發(fā)了 Kimi-VL-Thinking,該模型僅2.8B激活參數(shù)就在 MMMU、MathVision 和 MathVista 等基準(zhǔn)測試中表現(xiàn)出色。
再來看下突破性的性能表現(xiàn):
- 與Qwen2.5-VL、Gemma-3等前沿開源VLM相比,Kimi-VL-Thinking僅使用2.8B激活參數(shù)即可實現(xiàn)強大的多模態(tài)推理。
- 在一些重要基準(zhǔn)測試中,Kimi新模型“以小博大”,2.8B的參數(shù)激活超越了GPT-4o、Llama-3.2等前沿模型。
下面來詳細(xì)介紹下技術(shù)細(xì)節(jié):
1、模型架構(gòu)
Kimi-VL 的模型架構(gòu)由三個主要部分組成:原生分辨率視覺編碼器(MoonViT)、MLP 投影器和混合專家(MoE)語言模型。
MoonViT:原生分辨率視覺編碼器
MoonViT 是 Kimi-VL 的視覺編碼器,其核心功能是能夠直接處理不同分辨率的圖像,而無需復(fù)雜的子圖像分割和拼接操作。這種設(shè)計使得模型能夠更自然地處理多樣化的視覺輸入,同時保持高效的計算性能。
實現(xiàn)細(xì)節(jié):
- 圖像預(yù)處理:MoonViT 采用 NaViT 的打包方法,將圖像分割為圖塊(patches),展平后按順序拼接成一維序列。這種預(yù)處理方法使得 MoonViT 能夠與語言模型共享相同的核心計算算子和優(yōu)化,例如變長序列注意力機制(如 FlashAttention)。
- 位置嵌入:MoonViT 基于 SigLIP-SO-400M 初始化并持續(xù)預(yù)訓(xùn)練,該模型原本使用可學(xué)習(xí)的固定尺寸絕對位置嵌入來編碼空間信息。然而,隨著圖像分辨率的提高,這些插值后的嵌入逐漸變得不足。為了解決這一問題,在高度和寬度維度上引入了二維旋轉(zhuǎn)位置嵌入(RoPE),從而改善了細(xì)粒度位置信息的表示,尤其是在高分辨率圖像中。這兩種位置嵌入方法共同為模型編碼空間信息,并與展平和打包流程無縫集成。
- 輸出特征:生成的連續(xù)圖像特征隨后被傳遞到 MLP 投影器,并最終輸入 MoE 語言模型進行后續(xù)訓(xùn)練階段。
MLP 投影器
MLP 投影器的作用是將視覺編碼器(MoonViT)提取的圖像特征投影到語言模型(LLM)的嵌入維度。這一過程確保了視覺特征能夠被語言模型有效理解和處理。
實現(xiàn)細(xì)節(jié):
- 像素混洗操作:首先使用像素混洗操作對 MoonViT 提取的圖像特征進行空間維度壓縮,進行 2×2 下采樣并相應(yīng)擴展通道維度。
- 兩層 MLP:將像素混洗后的特征輸入兩層 MLP,將其投影到 LLM 嵌入的維度。
混合專家(MoE)語言模型
Kimi-VL 的語言模型采用 Moonlight 模型,一個具有2.8B激活參數(shù)、16B總參數(shù)的 MoE 語言模型,其架構(gòu)與 DeepSeek-V3 相似。MoE 架構(gòu)通過動態(tài)選擇專家模塊來處理輸入,從而在保持高效計算的同時,提升模型的表達(dá)能力和推理能力。
實現(xiàn)細(xì)節(jié):
- 初始化:從 Moonlight 預(yù)訓(xùn)練階段的中間檢查點初始化,該檢查點已處理 5.2T 純文本數(shù)據(jù) token 并激活了 8192 token(8K)的上下文長度。
- 聯(lián)合預(yù)訓(xùn)練:使用總計 2.3T token 的多模態(tài)和純文本數(shù)據(jù)的聯(lián)合配方繼續(xù)預(yù)訓(xùn)練。這一過程確保了模型在語言和多模態(tài)任務(wù)上的全面能力。
- 專家選擇:MoE 架構(gòu)通過動態(tài)選擇專家模塊來處理輸入,從而在保持高效計算的同時,提升模型的表達(dá)能力和推理能力。
增強版Muon優(yōu)化器
在訓(xùn)練Kimi-VL模型時,優(yōu)化器的選擇對于模型的收斂速度和最終性能至關(guān)重要。本研究中使用了增強版的Muon優(yōu)化器(Muon is Scalable for LLM Training),它在原始Muon優(yōu)化器的基礎(chǔ)上,通過增加權(quán)重衰減、調(diào)整Per-Parameter更新規(guī)模、基于ZeRO-1優(yōu)化策略,開發(fā)了Muon優(yōu)化器的分布式實現(xiàn)等方法進行了改進,以更好地適應(yīng)大規(guī)模訓(xùn)練的需求。
2、預(yù)訓(xùn)練
Kimi-VL的預(yù)訓(xùn)練過程包含四個階段,每個階段都有其特定的目標(biāo)和數(shù)據(jù)組成,旨在逐步提升模型的語言和多模態(tài)能力。
ViT訓(xùn)練階段
這一階段的目標(biāo)是訓(xùn)練一個強大的原生分辨率視覺編碼器(MoonViT),使其能夠高效處理不同分辨率的圖像。
訓(xùn)練數(shù)據(jù)使用圖像-文本對進行訓(xùn)練,其中文本部分包括:圖像替代文本(alt text)、合成標(biāo)題(synthetic captions)、grounding 邊界框(grounding bboxes)、OCR 文本(OCR texts)。
方法:
- 損失函數(shù):結(jié)合 SigLIP 損失(一種對比損失變體)和基于輸入圖像的標(biāo)題生成交叉熵?fù)p失。最終損失函數(shù)為:
,其中λ=2。
- 訓(xùn)練策略:圖像和文本編碼器計算對比損失,文本解碼器基于圖像編碼器的特征進行下一 token 預(yù)測(NTP)。為加速訓(xùn)練,使用 SigLIP SO-400M 權(quán)重初始化兩個編碼器,并采用漸進分辨率采樣策略逐步允許更大尺寸的圖像。
- 對齊階段:在消耗 2T token 的 CoCa 式階段訓(xùn)練 ViT 后,再用 0.1T token 將 MoonViT 與 MoE 語言模型對齊,此階段僅更新 MoonViT 和 MLP 投影器。這一對齊階段顯著降低了語言模型中 MoonViT 嵌入的初始困惑度,為后續(xù)聯(lián)合預(yù)訓(xùn)練階段的平穩(wěn)進行奠定了基礎(chǔ)。
聯(lián)合預(yù)訓(xùn)練階段
這一階段的目標(biāo)是整合語言和視覺能力,提升模型的多模態(tài)理解能力。
訓(xùn)練數(shù)據(jù)使用純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)的組合進行訓(xùn)練。多模態(tài)數(shù)據(jù)包括:圖像-文本對、視頻-文本對、OCR 數(shù)據(jù)、知識數(shù)據(jù)(如幾何圖形、圖表等)
方法:
- 訓(xùn)練策略:從加載的 LLM 檢查點繼續(xù)訓(xùn)練,采用相同的學(xué)習(xí)率調(diào)度器,額外消耗 1.4T token。初始步驟僅使用語言數(shù)據(jù),之后逐步增加多模態(tài)數(shù)據(jù)的比例。
- 漸進方法:通過逐步增加多模態(tài)數(shù)據(jù)的比例,確保模型在保留語言能力的同時,成功整合視覺理解能力。
聯(lián)合冷卻階段
這一階段的目標(biāo)是通過高質(zhì)量的數(shù)據(jù)進一步提升模型的性能,特別是在數(shù)學(xué)推理、知識型任務(wù)和代碼生成方面
訓(xùn)練數(shù)據(jù)使用高質(zhì)量的語言和多模態(tài)數(shù)據(jù)集進行訓(xùn)練,包括:合成數(shù)據(jù)(用于數(shù)學(xué)推理、知識型任務(wù)和代碼生成)、經(jīng)過篩選的學(xué)術(shù)視覺或視覺語言數(shù)據(jù)源
方法:
- 語言部分:通過實證研究,發(fā)現(xiàn)冷卻階段加入合成數(shù)據(jù)能顯著提升性能,尤其是在數(shù)學(xué)推理、知識型任務(wù)和代碼生成方面。冷卻數(shù)據(jù)集的一般文本部分選自預(yù)訓(xùn)練語料庫的高保真子集。
- 多模態(tài)部分:除了采用文本冷卻數(shù)據(jù)準(zhǔn)備的兩種策略(即問答合成和高質(zhì)量子集回放)外,還篩選并重寫了多種學(xué)術(shù)視覺或視覺語言數(shù)據(jù)源為 QA 對。
- 采樣策略:采用混合方法,利用選定的預(yù)訓(xùn)練子集,同時通過專有語言模型生成內(nèi)容進行增強。通過拒絕采樣技術(shù)生成 QA 對,并在整合到冷卻數(shù)據(jù)集前進行全面驗證。
聯(lián)合冷卻階段是模型預(yù)訓(xùn)練過程中的一個重要環(huán)節(jié),通過使用高質(zhì)量的數(shù)據(jù)集和特定的訓(xùn)練策略,可以幫助模型在多種任務(wù)上表現(xiàn)出色,通過逐步減少數(shù)據(jù)的復(fù)雜性和多樣性,幫助模型在訓(xùn)練過程中更加穩(wěn)定,避免過擬合,進一步提升模型的性能和穩(wěn)定性。
聯(lián)合長上下文激活階段
這一階段的目標(biāo)是擴展模型的上下文長度,使其能夠處理更長的文本和視頻輸入。
訓(xùn)練數(shù)據(jù)使用長文本、長視頻和長文檔等長上下文數(shù)據(jù)進行訓(xùn)練。
方法:
- 上下文長度擴展:將模型的上下文長度從 8192(8K)擴展到 131072(128K),并將其 RoPE 嵌入的逆頻率從 50,000 重置為 800,000。
- 分階段擴展:聯(lián)合長上下文階段分為兩個子階段,每個子階段將模型的上下文長度擴展四倍。在每個子階段,將長數(shù)據(jù)的比例過濾并上采樣至 25%,同時用剩余的 75% token 回放前一階段的短數(shù)據(jù)。
- 數(shù)據(jù)組成:長上下文激活數(shù)據(jù)不僅包含長文本,還包括長多模態(tài)數(shù)據(jù),如長交錯數(shù)據(jù)、長視頻和長文檔。還合成了一小部分 QA 對以增強長上下文激活的學(xué)習(xí)效率。
經(jīng)過長上下文激活后,模型能夠通過長純文本或長視頻的 NIAH 評估,證明了其多功能的長上下文能力。具體來說,模型在不同上下文長度范圍內(nèi)的 NIAH 召回準(zhǔn)確率如表所示:
3、后訓(xùn)練
在預(yù)訓(xùn)練階段之后,Kimi-VL 進入后訓(xùn)練階段,這一階段的目標(biāo)是通過特定的任務(wù)數(shù)據(jù)進一步微調(diào)模型,以提升其在實際應(yīng)用中的性能。后訓(xùn)練階段主要包括以下幾個部分:聯(lián)合監(jiān)督微調(diào)(SFT)、長鏈推理(CoT)監(jiān)督微調(diào)和強化學(xué)習(xí)(RL)。
聯(lián)合監(jiān)督微調(diào)(SFT)
這一階段,通過基于指令的微調(diào),增強模型遵循指令和進行對話的能力,最終形成交互式的 Kimi-VL 模型。
訓(xùn)練數(shù)據(jù)使用純文本和視覺語言 SFT 數(shù)據(jù)的混合進行訓(xùn)練。這些數(shù)據(jù)包括指令-響應(yīng)對,覆蓋多種任務(wù)和場景。
長鏈推理(CoT)監(jiān)督微調(diào)
這一階段,通過長鏈推理(CoT)監(jiān)督微調(diào),提升模型在復(fù)雜推理任務(wù)中的表現(xiàn)。
訓(xùn)練數(shù)據(jù)基于精煉的RL提示集,通過提示工程構(gòu)建了一個高質(zhì)量的長 CoT 預(yù)熱數(shù)據(jù)集,包含針對文本和圖像輸入的經(jīng)過準(zhǔn)確驗證的推理路徑。生成的預(yù)熱數(shù)據(jù)集旨在封裝對人類式推理至關(guān)重要的關(guān)鍵認(rèn)知過程,例如規(guī)劃(模型在執(zhí)行前系統(tǒng)化步驟)、評估(對中間步驟的關(guān)鍵評估)、反思(重新考慮并改進方法)和探索(鼓勵考慮替代解決方案)。
方法:對預(yù)熱數(shù)據(jù)集進行輕量級監(jiān)督微調(diào),引導(dǎo)模型內(nèi)化這些多模態(tài)推理策略。逐步增加推理路徑的復(fù)雜性,使模型能夠處理更復(fù)雜的推理任務(wù)。
強化學(xué)習(xí)(RL)
這一階段,通過強化學(xué)習(xí)進一步提升模型的推理能力,使其能夠自主生成結(jié)構(gòu)化的 CoT 推理過程。
方法:采用在線策略鏡像下降變體作為 RL 算法,通過迭代優(yōu)化策略模型以提高其問題解決準(zhǔn)確性。在第i次訓(xùn)練迭代中,將當(dāng)前模型視為參考策略模型,并優(yōu)化以下目標(biāo),通過相對熵正則化以穩(wěn)定策略更新:
4、實驗結(jié)果
與前沿模型對比
推理能力
- Kimi-VL 的長鏈推理(CoT)能力通過長 CoT 監(jiān)督微調(diào)和強化學(xué)習(xí)得到了顯著提升,使其在處理復(fù)雜的多步推理任務(wù)時具有強大的能力。
- Kimi-VL-Thinking 在測試時推理長度的擴展也表現(xiàn)出色,表明 Kimi-VL-Thinking 能夠利用更長的推理鏈來提高其在復(fù)雜任務(wù)中的表現(xiàn)。