Moonshot AI開源輕量級MoE多模態(tài)模型Kimi-VL，2.8B參數(shù)媲美SOTA模型！

作者：Goldma 2025-04-14 00:30:00

人工智能開源

帶你一起來看一下月之暗面最新的工作，基于MoE架構(gòu)的高效多模態(tài)模型Kimi-VL。

最近有點忙，沒來得及更新，但一直保持著對前沿技術(shù)的緊密關(guān)注，不得不感嘆當(dāng)今技術(shù)日新月異。

多模態(tài)推理模型進展，現(xiàn)有的開源大型視覺語言模型在可擴展性、計算效率和高級推理能力方面顯著落后于純文本語言模型。

OpenAI的GPT-4o和Google的Gemini等模型能夠無縫感知和解釋視覺輸入，但不開源，DeepSeek-R1等模型雖然采用了MoE架構(gòu)，但在長上下文推理和多模態(tài)任務(wù)上仍有不足。

此外，早期的基于MoE的視覺語言模型在架構(gòu)和能力上存在局限，無法處理長上下文和高分辨率視覺輸入。

今天來看一下月之暗面最新的工作，基于MoE架構(gòu)的高效多模態(tài)模型Kimi-VL。

先來看下Kimi-VL的主要創(chuàng)新：

創(chuàng)新的模型架構(gòu)設(shè)計：該模型由 MoonViT（原生分辨率視覺編碼器）、MLP 投影器和 MoE 語言模型組成，能夠處理多種輸入形式（單圖像、多圖像、視頻、長文檔等），在多種任務(wù)（如細(xì)粒度感知、數(shù)學(xué)問題、大學(xué)水平問題、OCR、代理任務(wù)等）上表現(xiàn)出色。
高效多模態(tài)推理能力：Kimi-VL 在多個具有挑戰(zhàn)性的視覺語言任務(wù)中展現(xiàn)出強大的能力，包括大學(xué)水平的圖像和視頻理解、OCR、數(shù)學(xué)推理、多圖像理解等，并在與 GPT-4omini、Qwen2.5-VL-7B、Gemma-3-12B-IT 等前沿高效 VLM 的比較評估中表現(xiàn)出色，甚至在某些關(guān)鍵領(lǐng)域超越了 GPT-4o。
長文本和長視頻處理能力：Kimi-VL 擁有 128K 擴展上下文窗口，能夠處理多樣化的長輸入，在 LongVideoBench 和 MMLongBench-Doc 等基準(zhǔn)測試中取得了令人印象深刻的分?jǐn)?shù)（分別為 64.5 和 35.1），并且其原生分辨率視覺編碼器 MoonViT 能夠清晰地看到和理解超高分辨率視覺輸入，同時在常見任務(wù)中保持較低的計算成本。
推出 Kimi-VL-Thinking 變體：基于 Kimi-VL，通過長鏈推理（CoT）監(jiān)督微調(diào)（SFT）和強化學(xué)習(xí)（RL）開發(fā)了 Kimi-VL-Thinking，該模型僅2.8B激活參數(shù)就在 MMMU、MathVision 和 MathVista 等基準(zhǔn)測試中表現(xiàn)出色。

再來看下突破性的性能表現(xiàn)：

與Qwen2.5-VL、Gemma-3等前沿開源VLM相比，Kimi-VL-Thinking僅使用2.8B激活參數(shù)即可實現(xiàn)強大的多模態(tài)推理。

在一些重要基準(zhǔn)測試中，Kimi新模型“以小博大”，2.8B的參數(shù)激活超越了GPT-4o、Llama-3.2等前沿模型。

下面來詳細(xì)介紹下技術(shù)細(xì)節(jié)：

1、模型架構(gòu)

Kimi-VL 的模型架構(gòu)由三個主要部分組成：原生分辨率視覺編碼器（MoonViT）、MLP 投影器和混合專家（MoE）語言模型。

MoonViT：原生分辨率視覺編碼器

MoonViT 是 Kimi-VL 的視覺編碼器，其核心功能是能夠直接處理不同分辨率的圖像，而無需復(fù)雜的子圖像分割和拼接操作。這種設(shè)計使得模型能夠更自然地處理多樣化的視覺輸入，同時保持高效的計算性能。

實現(xiàn)細(xì)節(jié)：

圖像預(yù)處理：MoonViT 采用 NaViT 的打包方法，將圖像分割為圖塊（patches），展平后按順序拼接成一維序列。這種預(yù)處理方法使得 MoonViT 能夠與語言模型共享相同的核心計算算子和優(yōu)化，例如變長序列注意力機制（如 FlashAttention）。
位置嵌入：MoonViT 基于 SigLIP-SO-400M 初始化并持續(xù)預(yù)訓(xùn)練，該模型原本使用可學(xué)習(xí)的固定尺寸絕對位置嵌入來編碼空間信息。然而，隨著圖像分辨率的提高，這些插值后的嵌入逐漸變得不足。為了解決這一問題，在高度和寬度維度上引入了二維旋轉(zhuǎn)位置嵌入（RoPE），從而改善了細(xì)粒度位置信息的表示，尤其是在高分辨率圖像中。這兩種位置嵌入方法共同為模型編碼空間信息，并與展平和打包流程無縫集成。
輸出特征：生成的連續(xù)圖像特征隨后被傳遞到 MLP 投影器，并最終輸入 MoE 語言模型進行后續(xù)訓(xùn)練階段。

MLP 投影器

MLP 投影器的作用是將視覺編碼器（MoonViT）提取的圖像特征投影到語言模型（LLM）的嵌入維度。這一過程確保了視覺特征能夠被語言模型有效理解和處理。

實現(xiàn)細(xì)節(jié)：

像素混洗操作：首先使用像素混洗操作對 MoonViT 提取的圖像特征進行空間維度壓縮，進行 2×2 下采樣并相應(yīng)擴展通道維度。
兩層 MLP：將像素混洗后的特征輸入兩層 MLP，將其投影到 LLM 嵌入的維度。

混合專家（MoE）語言模型

Kimi-VL 的語言模型采用 Moonlight 模型，一個具有2.8B激活參數(shù)、16B總參數(shù)的 MoE 語言模型，其架構(gòu)與 DeepSeek-V3 相似。MoE 架構(gòu)通過動態(tài)選擇專家模塊來處理輸入，從而在保持高效計算的同時，提升模型的表達(dá)能力和推理能力。

實現(xiàn)細(xì)節(jié)：

初始化：從 Moonlight 預(yù)訓(xùn)練階段的中間檢查點初始化，該檢查點已處理 5.2T 純文本數(shù)據(jù) token 并激活了 8192 token（8K）的上下文長度。
聯(lián)合預(yù)訓(xùn)練：使用總計 2.3T token 的多模態(tài)和純文本數(shù)據(jù)的聯(lián)合配方繼續(xù)預(yù)訓(xùn)練。這一過程確保了模型在語言和多模態(tài)任務(wù)上的全面能力。
專家選擇：MoE 架構(gòu)通過動態(tài)選擇專家模塊來處理輸入，從而在保持高效計算的同時，提升模型的表達(dá)能力和推理能力。

增強版Muon優(yōu)化器

在訓(xùn)練Kimi-VL模型時，優(yōu)化器的選擇對于模型的收斂速度和最終性能至關(guān)重要。本研究中使用了增強版的Muon優(yōu)化器（Muon is Scalable for LLM Training），它在原始Muon優(yōu)化器的基礎(chǔ)上，通過增加權(quán)重衰減、調(diào)整Per-Parameter更新規(guī)模、基于ZeRO-1優(yōu)化策略，開發(fā)了Muon優(yōu)化器的分布式實現(xiàn)等方法進行了改進，以更好地適應(yīng)大規(guī)模訓(xùn)練的需求。

2、預(yù)訓(xùn)練

Kimi-VL的預(yù)訓(xùn)練過程包含四個階段，每個階段都有其特定的目標(biāo)和數(shù)據(jù)組成，旨在逐步提升模型的語言和多模態(tài)能力。

ViT訓(xùn)練階段

這一階段的目標(biāo)是訓(xùn)練一個強大的原生分辨率視覺編碼器（MoonViT），使其能夠高效處理不同分辨率的圖像。

訓(xùn)練數(shù)據(jù)使用圖像-文本對進行訓(xùn)練，其中文本部分包括：圖像替代文本（alt text）、合成標(biāo)題（synthetic captions）、grounding 邊界框（grounding bboxes）、OCR 文本（OCR texts）。

方法：

損失函數(shù)：結(jié)合 SigLIP 損失（一種對比損失變體）和基于輸入圖像的標(biāo)題生成交叉熵?fù)p失。最終損失函數(shù)為：，其中λ=2。
訓(xùn)練策略：圖像和文本編碼器計算對比損失，文本解碼器基于圖像編碼器的特征進行下一 token 預(yù)測（NTP）。為加速訓(xùn)練，使用 SigLIP SO-400M 權(quán)重初始化兩個編碼器，并采用漸進分辨率采樣策略逐步允許更大尺寸的圖像。
對齊階段：在消耗 2T token 的 CoCa 式階段訓(xùn)練 ViT 后，再用 0.1T token 將 MoonViT 與 MoE 語言模型對齊，此階段僅更新 MoonViT 和 MLP 投影器。這一對齊階段顯著降低了語言模型中 MoonViT 嵌入的初始困惑度，為后續(xù)聯(lián)合預(yù)訓(xùn)練階段的平穩(wěn)進行奠定了基礎(chǔ)。

聯(lián)合預(yù)訓(xùn)練階段

這一階段的目標(biāo)是整合語言和視覺能力，提升模型的多模態(tài)理解能力。

訓(xùn)練數(shù)據(jù)使用純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)的組合進行訓(xùn)練。多模態(tài)數(shù)據(jù)包括：圖像-文本對、視頻-文本對、OCR 數(shù)據(jù)、知識數(shù)據(jù)（如幾何圖形、圖表等）

方法：

訓(xùn)練策略：從加載的 LLM 檢查點繼續(xù)訓(xùn)練，采用相同的學(xué)習(xí)率調(diào)度器，額外消耗 1.4T token。初始步驟僅使用語言數(shù)據(jù)，之后逐步增加多模態(tài)數(shù)據(jù)的比例。
漸進方法：通過逐步增加多模態(tài)數(shù)據(jù)的比例，確保模型在保留語言能力的同時，成功整合視覺理解能力。

聯(lián)合冷卻階段

這一階段的目標(biāo)是通過高質(zhì)量的數(shù)據(jù)進一步提升模型的性能，特別是在數(shù)學(xué)推理、知識型任務(wù)和代碼生成方面

訓(xùn)練數(shù)據(jù)使用高質(zhì)量的語言和多模態(tài)數(shù)據(jù)集進行訓(xùn)練，包括：合成數(shù)據(jù)（用于數(shù)學(xué)推理、知識型任務(wù)和代碼生成）、經(jīng)過篩選的學(xué)術(shù)視覺或視覺語言數(shù)據(jù)源

方法：

語言部分：通過實證研究，發(fā)現(xiàn)冷卻階段加入合成數(shù)據(jù)能顯著提升性能，尤其是在數(shù)學(xué)推理、知識型任務(wù)和代碼生成方面。冷卻數(shù)據(jù)集的一般文本部分選自預(yù)訓(xùn)練語料庫的高保真子集。
多模態(tài)部分：除了采用文本冷卻數(shù)據(jù)準(zhǔn)備的兩種策略（即問答合成和高質(zhì)量子集回放）外，還篩選并重寫了多種學(xué)術(shù)視覺或視覺語言數(shù)據(jù)源為 QA 對。
采樣策略：采用混合方法，利用選定的預(yù)訓(xùn)練子集，同時通過專有語言模型生成內(nèi)容進行增強。通過拒絕采樣技術(shù)生成 QA 對，并在整合到冷卻數(shù)據(jù)集前進行全面驗證。

聯(lián)合冷卻階段是模型預(yù)訓(xùn)練過程中的一個重要環(huán)節(jié)，通過使用高質(zhì)量的數(shù)據(jù)集和特定的訓(xùn)練策略，可以幫助模型在多種任務(wù)上表現(xiàn)出色，通過逐步減少數(shù)據(jù)的復(fù)雜性和多樣性，幫助模型在訓(xùn)練過程中更加穩(wěn)定，避免過擬合，進一步提升模型的性能和穩(wěn)定性。

聯(lián)合長上下文激活階段

這一階段的目標(biāo)是擴展模型的上下文長度，使其能夠處理更長的文本和視頻輸入。

訓(xùn)練數(shù)據(jù)使用長文本、長視頻和長文檔等長上下文數(shù)據(jù)進行訓(xùn)練。

方法：

上下文長度擴展：將模型的上下文長度從 8192（8K）擴展到 131072（128K），并將其 RoPE 嵌入的逆頻率從 50,000 重置為 800,000。
分階段擴展：聯(lián)合長上下文階段分為兩個子階段，每個子階段將模型的上下文長度擴展四倍。在每個子階段，將長數(shù)據(jù)的比例過濾并上采樣至 25%，同時用剩余的 75% token 回放前一階段的短數(shù)據(jù)。
數(shù)據(jù)組成：長上下文激活數(shù)據(jù)不僅包含長文本，還包括長多模態(tài)數(shù)據(jù)，如長交錯數(shù)據(jù)、長視頻和長文檔。還合成了一小部分 QA 對以增強長上下文激活的學(xué)習(xí)效率。

經(jīng)過長上下文激活后，模型能夠通過長純文本或長視頻的 NIAH 評估，證明了其多功能的長上下文能力。具體來說，模型在不同上下文長度范圍內(nèi)的 NIAH 召回準(zhǔn)確率如表所示：

3、后訓(xùn)練

在預(yù)訓(xùn)練階段之后，Kimi-VL 進入后訓(xùn)練階段，這一階段的目標(biāo)是通過特定的任務(wù)數(shù)據(jù)進一步微調(diào)模型，以提升其在實際應(yīng)用中的性能。后訓(xùn)練階段主要包括以下幾個部分：聯(lián)合監(jiān)督微調(diào)（SFT）、長鏈推理（CoT）監(jiān)督微調(diào)和強化學(xué)習(xí)（RL）。

聯(lián)合監(jiān)督微調(diào)（SFT）

這一階段，通過基于指令的微調(diào)，增強模型遵循指令和進行對話的能力，最終形成交互式的 Kimi-VL 模型。

訓(xùn)練數(shù)據(jù)使用純文本和視覺語言 SFT 數(shù)據(jù)的混合進行訓(xùn)練。這些數(shù)據(jù)包括指令-響應(yīng)對，覆蓋多種任務(wù)和場景。

長鏈推理（CoT）監(jiān)督微調(diào)

這一階段，通過長鏈推理（CoT）監(jiān)督微調(diào)，提升模型在復(fù)雜推理任務(wù)中的表現(xiàn)。

訓(xùn)練數(shù)據(jù)基于精煉的RL提示集，通過提示工程構(gòu)建了一個高質(zhì)量的長 CoT 預(yù)熱數(shù)據(jù)集，包含針對文本和圖像輸入的經(jīng)過準(zhǔn)確驗證的推理路徑。生成的預(yù)熱數(shù)據(jù)集旨在封裝對人類式推理至關(guān)重要的關(guān)鍵認(rèn)知過程，例如規(guī)劃（模型在執(zhí)行前系統(tǒng)化步驟）、評估（對中間步驟的關(guān)鍵評估）、反思（重新考慮并改進方法）和探索（鼓勵考慮替代解決方案）。

方法：對預(yù)熱數(shù)據(jù)集進行輕量級監(jiān)督微調(diào)，引導(dǎo)模型內(nèi)化這些多模態(tài)推理策略。逐步增加推理路徑的復(fù)雜性，使模型能夠處理更復(fù)雜的推理任務(wù)。