Kimi K2：開源智能體模型的巔峰之作原創

發布于 2025-7-17 08:12

瀏覽

0收藏

Moonshot最近推出新型開源智能體模型 Kimi K2，該模型總參數高達1萬億個，并擁有320億個專家混合（MoE）架構。Kimi K2有兩種變體，在多個基準測試中表現出色。它具有預訓練和訓練后兩種學習方法，還能學習采用工具。Kimi K2的大多數功能免費使用，其響應速度快、功能豐富，為通用人工智能系統的開發和應用鋪平了道路。

今年早些時候，一些開源模型在生成式人工智能（GenAI）領域中涌現。雖然DeepSeek占據了大部分頭條新聞，但Kimi K1.55也是其中的佼佼者。該模型相當出色。7個月后，Moonshot公司攜其新型開源智能體模型Kimi K2卷土重來。Kimi K2的總參數達到1萬億個，并且擁有320億個激活的專家混合（MoE）架構，其性能十分出色。

如上所述，Kimi K2是一款強大的新型開源模型，旨在處理復雜任務。憑借其先進的架構和智能決策能力，它不僅能對提示做出響應，還能采取實際行動。從編程到數據分析，它旨在讓每個人都能使用高級人工智能工具。

Kimi K2有兩種變體：

Kimi-K2-Base：這是一款功能強大的基礎模型，適用于需要全面定制和微調功能的研究人員和開發人員。
Kimi-K2-Instruct：這是一款經過訓練的指令遵循模型，適用于通用聊天和快速響應級別的智能體任務。

基準測試和性能?

Kimi K2：開源智能體模型的巔峰之作-AI.x社區

Kimi K2在以下基準測試中提供了更先進和開源的領先結果：

SWE-bench驗證：65.8%的單次嘗試準確率
SWE-bench多語言數據集：47.3%（在測試模型中表現最佳）
LiveCodeBench v6：53.7%
OJBench：27.1%
Tau2-bench（加權平均值）：66.1%
AceBench（英文）：80.1%
AIME 2025：49.5%
GPQA-Diamond：75.1%

這些分數凸顯了Kimi K2在智能體編程、工具使用和復雜STEM任務方面的優勢，其表現經常超越或與Claude和GPT-4等專有模型相當。

Kimi K2如何學習（預訓練和后訓練）？?

想象一下，如果采用圖書館規模的大量書籍訓練人工智能模型，這種學習方法稱為預訓練。Kimi K2閱讀了15.5萬億個詞元（token），是互聯網訓練數量的許多倍。Kimi K2可以嘗試預測下一個單詞，檢查是否正確，并隨著時間的推移不斷改進。閱讀的單詞越多，表現就越好。

Kimi K2：開源智能體模型的巔峰之作-AI.x社區

但有一點需要注意，人工編寫的數據是有限的。因此，Kimi K2不僅通過閱讀進行學習，還會主動學習。這種學習方法稱為后訓練。它從自己創造的經驗中學習，例如嘗試使用工具或完成任務，并評估自己的表現。

為了確保在學習大量數據時不會出現混淆，Kimi K2使用了一種名為MuonClip的特殊優化器。可以將它想象成為“訓練教練”，負責保持平衡。其他模型在訓練過程中有時會“崩潰”，這意味著它們的內部數學運算變得過于極端。MuonClip通過溫和地控制那些可能失控的部分（查詢/鍵矩陣），來防止這種情況發生，從而保持一切穩定可靠運行。

Kimi K2如何學習使用工具（像開發者一樣）？?

假設想讓人工智能助手預訂航班或編寫代碼。為此，它需要知道如何使用工具。Kimi K2通過模擬來學習使用這些工具。

Kimi K2：開源智能體模型的巔峰之作-AI.x社區

其具體工作流程如下：

從一個目標開始（例如回答一個問題）。
創建一個域（主題或環境）。
添加真實或模擬的工具。
構建數百個嘗試使用工具完成任務的智能體。
模擬與這些智能體交互的用戶。
一位智能人工智能“裁判“檢查它們的工作，并過濾掉不良內容。

這有助于Kimi K2在幫助真正的用戶之前練習數千種不同的工具使用場景。

Kimi K2也采用強化學習，這就像學習一種游戲：正確操作就能得分。對于像數學或編程這樣的任務，它可以檢查自己是否正確。但對于寫作或幫助用戶這樣的任務，沒有“正確”的答案。所以Kimi K2充當自己的評審者。它會評估自己的表現，給自己反饋，并不斷從中學習。它還利用數學等有明確正確答案的任務，來提高對模糊任務的評分能力。

如何訪問？?

可以通過幾種方式訪問Kimi K2，這取決于使用者是普通用戶、開發人員還是基礎設施運營人員：

在線使用Kimi K2

網站：???https://www.kimi.com/???
從模型選擇器中選擇Kimi K2（通常顯示為“Kimi-K2”或“K2”）
無需安裝；直接開始聊天或上傳任務

通過API使用Kimi K2

訪問Moonshot平臺：??https://platform.moonshot.cn??
API與OpenAI/Anthropic兼容
支持工具使用和智能體工作流程
包括端點聊天、文件工具和智能體編排等
在本地或自有服務器上運行Kimi K2
模型權重：即將在??GitHub??和/或Hugging Face上開源

推薦的推理引擎：

a. vLLM

b.SGLang

c.KTransformers

d.TensorRT-LLM

如果用戶正在進行微調、研究或內部擴展，這是理想的選擇。

在下一節中，將使用該模型完成一些任務，并進行分析。

任務1：研究并撰寫報告?

提示：“根據生成式人工智能和智能體人工智能的最新趨勢，請給我一份報告，說明2025年哪些技能與營銷、銀行、社交媒體、產品管理、軟件開發、內容、人力資源和制造業等領域的專業人士相關。”

輸出：?

Kimi K2：開源智能體模型的巔峰之作-AI.x社區

https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/GenAI-Skill-Analysis.mp4" type="video/mp4

分析結果：?

研究部分做得很好，報告中使用的語言感覺很自然，整個對話都具有人情味。然而，它很難以PDF格式生成輸出。

任務2：預訂機票?

提示：“我們公司總部在印度德里，我將于今年8月參加??DataHack峰會??。你能介紹一下峰會的情況，并幫我找到最便宜的航班選項嗎？”

輸出：?

Kimi K2：開源智能體模型的巔峰之作-AI.x社區

???https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/DHS-Plan.mp4??

分析：?

活動細節準確無誤，提供的酒店和航班信息也非常準確。這對行程規劃非常有幫助。最棒的是，這一切都是完全免費的。

結論

Kimi K2回答問題的方式令人印象深刻，感覺就像在和人類交流。Kimi K2與眾不同之處在于，其大多數高級功能都是免費的，而不像Manus、Genspark或OpenAI的Operator等其他平臺需要付費訂閱。Kimi K2響應迅速，并且能夠處理各種任務的能力表明，它確實是一款強大的智能體模型。結合大規模訓練、工具使用和自適應智能，它為能夠思考、行動和適應的通用人工智能系統鋪平了道路。

無論是構建編程智能體、進行現實世界的數據科學研究，還是構建下一代界面，Kimi K2都能提供強大的支持。