Kimi 16B勝GPT-4o！開源視覺推理模型：MoE架構(gòu)，推理時僅激活2.8B

作者：量子位 2025-04-11 09:10:00

人工智能新聞

開源輕量級視覺語言模型Kimi-VL及其推理版Kimi-VL-Thinking，多模態(tài)和推理雙雙拿捏。

剛剛，Kimi團(tuán)隊上新了！

開源輕量級視覺語言模型Kimi-VL及其推理版Kimi-VL-Thinking，多模態(tài)和推理雙雙拿捏。

按照Kimi官方的說法，其關(guān)鍵亮點(diǎn)如下：

都是基于MoE架構(gòu)，總參數(shù)為16B，但推理時僅激活2.8B；
具備強(qiáng)大的多模態(tài)推理能力（媲美參數(shù)大10倍的模型）和Agent能力；
支持128K上下文窗口；
采用相對較為寬松的MIT許可證。

如圖所示，和Qwen2.5-VL、Gemma-3等前沿開源VLM相比，Kimi-VL-Thinking僅使用2.8B激活參數(shù)即可實(shí)現(xiàn)強(qiáng)大的多模態(tài)推理。

同時在一些重要基準(zhǔn)測試中，Kimi新模型“以小博大”，超越了GPT-4o等規(guī)模更大的模型。

目前兩款模型均已上架Hugging Face，分為Instruct基礎(chǔ)版和Thinking推理版。

網(wǎng)友們紛紛表示，新的標(biāo)桿再次誕生！

多模態(tài)和推理雙雙拿捏

話不多說，我們直接看Kimi新模型的具體玩法和效果。

視覺理解與推理

首先，作為一款通用的VLM模型，Kimi-VL具備強(qiáng)大的視覺理解和推理能力。

給它一份手稿，要求它通過逐步推理來確認(rèn)手稿屬于誰，以及所記錄的內(nèi)容。

可以看到，Kimi-VL通過分析手稿的筆跡、內(nèi)容、語言等特征，推斷出手稿可能屬于愛因斯坦，理由是這些內(nèi)容與引力場方程有關(guān)，這與愛因斯坦對廣義相對論的貢獻(xiàn)有關(guān)。

又或者只提供一張圖片，讓Kimi-VL來判斷城市地標(biāo)建筑、識別游戲場景等。

比如第2個例子中，它成功識別出圖片中的穹頂建筑為多倫多的羅杰斯中心（Rogers Centre），同時描述了其特征和用途。

除此之外，Kimi-VL也能被用來解答高難度幾何數(shù)學(xué)題。

還是僅需一個上傳圖片的動作，它就能將復(fù)雜數(shù)學(xué)公式轉(zhuǎn)換為LaTeX代碼，并以正確格式輸出。

OCR與文本處理

當(dāng)然，Kimi-VL對多模態(tài)數(shù)據(jù)的正確理解還離不開一項關(guān)鍵能力——OCR字符識別。

在OCRBench基準(zhǔn)測試中，其得分為867，屬于SOTA水平。

除了識別數(shù)學(xué)公式，它還能識別金融表格（以Markdown表格格式輸出）和手寫作文。

甚至還能從長達(dá)一小時的視頻課程中捕捉和理解關(guān)鍵細(xì)節(jié)。

比如提供視頻中的某句話“授人以魚不如授人以漁”，要求它找到出處并進(jìn)一步解讀。

智能體任務(wù)與交互

值得關(guān)注的是，Kimi-VL還在多輪Agent交互任務(wù)（例如OSWorld）中表現(xiàn)出色，取得了媲美旗艦?zāi)Ｐ偷腟OTA結(jié)果。

比如在Chrome瀏覽器中，要求它自動啟用“Do Not Track”功能來保護(hù)用戶隱私。

可以看到，通過一步步思考，Kimi-VL對每個屏幕進(jìn)行解讀，識別相關(guān)的用戶界面元素，并通過清晰的思路、操作和API調(diào)用按順序執(zhí)行相應(yīng)的操作。

背后技術(shù)原理

那么接下來的問題是，怎么做到的？

來看Kimi此次公開的技術(shù)報告。

首先，在模型架構(gòu)上，Kimi-VL和Kimi-VL-Thinking主要由三大部分構(gòu)成：

MoE專家混合語言模型（之前發(fā)布的Moonlight-16B-A3B）；
原生分辨率視覺編碼器（MoonViT，基于SigLIP-SO-400M微調(diào)）；
一個多層感知機(jī)（MLP）投影器。

模型具體訓(xùn)練過程如下：

數(shù)據(jù)準(zhǔn)備

這第一步，團(tuán)隊構(gòu)建了三大類別數(shù)據(jù)集：

1、預(yù)訓(xùn)練數(shù)據(jù)。精選來自六個類別的高質(zhì)量數(shù)據(jù)，包括字幕數(shù)據(jù)、圖像文本交織數(shù)據(jù)、OCR數(shù)據(jù)、知識數(shù)據(jù)、視頻數(shù)據(jù)和智能體數(shù)據(jù)。通過過濾、合成和去重等操作，控制數(shù)據(jù)質(zhì)量。

2、指令數(shù)據(jù)。用于增強(qiáng)模型的對話和指令遵循能力。對于非推理任務(wù)，通過人工標(biāo)注構(gòu)建種子數(shù)據(jù)集，訓(xùn)練種子模型后生成并篩選多輪響應(yīng)；對于推理任務(wù)，利用拒絕采樣的方式擴(kuò)展數(shù)據(jù)集，確保數(shù)據(jù)多樣性和準(zhǔn)確性。

3、推理數(shù)據(jù)。通過類似拒絕采樣和提示工程的方法，收集和合成高質(zhì)量的長思維鏈數(shù)據(jù)。