Kimi K2:開源智能體模型的巔峰之作 原創
Moonshot最近推出新型開源智能體模型 Kimi K2,該模型總參數高達1萬億個,并擁有320億個專家混合(MoE)架構。Kimi K2有兩種變體,在多個基準測試中表現出色。它具有預訓練和訓練后兩種學習方法,還能學習采用工具。Kimi K2的大多數功能免費使用,其響應速度快、功能豐富,為通用人工智能系統的開發和應用鋪平了道路。
今年早些時候,一些開源模型在生成式人工智能(GenAI)領域中涌現。雖然DeepSeek占據了大部分頭條新聞,但Kimi K1.55也是其中的佼佼者。該模型相當出色。7個月后,Moonshot公司攜其新型開源智能體模型Kimi K2卷土重來。Kimi K2的總參數達到1萬億個,并且擁有320億個激活的專家混合(MoE)架構,其性能十分出色。
如上所述,Kimi K2是一款強大的新型開源模型,旨在處理復雜任務。憑借其先進的架構和智能決策能力,它不僅能對提示做出響應,還能采取實際行動。從編程到數據分析,它旨在讓每個人都能使用高級人工智能工具。
Kimi K2有兩種變體:
- Kimi-K2-Base:這是一款功能強大的基礎模型,適用于需要全面定制和微調功能的研究人員和開發人員。
- Kimi-K2-Instruct:這是一款經過訓練的指令遵循模型,適用于通用聊天和快速響應級別的智能體任務。
基準測試和性能?
Kimi K2在以下基準測試中提供了更先進和開源的領先結果:
- SWE-bench驗證:65.8%的單次嘗試準確率
- SWE-bench多語言數據集:47.3%(在測試模型中表現最佳)
- LiveCodeBench v6:53.7%
- OJBench:27.1%
- Tau2-bench(加權平均值):66.1%
- AceBench(英文):80.1%
- AIME 2025:49.5%
- GPQA-Diamond:75.1%
這些分數凸顯了Kimi K2在智能體編程、工具使用和復雜STEM任務方面的優勢,其表現經常超越或與Claude和GPT-4等專有模型相當。
Kimi K2如何學習(預訓練和后訓練)??
想象一下,如果采用圖書館規模的大量書籍訓練人工智能模型,這種學習方法稱為預訓練。Kimi K2閱讀了15.5萬億個詞元(token),是互聯網訓練數量的許多倍。Kimi K2可以嘗試預測下一個單詞,檢查是否正確,并隨著時間的推移不斷改進。閱讀的單詞越多,表現就越好。
但有一點需要注意,人工編寫的數據是有限的。因此,Kimi K2不僅通過閱讀進行學習,還會主動學習。這種學習方法稱為后訓練。它從自己創造的經驗中學習,例如嘗試使用工具或完成任務,并評估自己的表現。
為了確保在學習大量數據時不會出現混淆,Kimi K2使用了一種名為MuonClip的特殊優化器。可以將它想象成為“訓練教練”,負責保持平衡。其他模型在訓練過程中有時會“崩潰”,這意味著它們的內部數學運算變得過于極端。MuonClip通過溫和地控制那些可能失控的部分(查詢/鍵矩陣),來防止這種情況發生,從而保持一切穩定可靠運行。
Kimi K2如何學習使用工具(像開發者一樣)??
假設想讓人工智能助手預訂航班或編寫代碼。為此,它需要知道如何使用工具。Kimi K2通過模擬來學習使用這些工具。
其具體工作流程如下:
- 從一個目標開始(例如回答一個問題)。
- 創建一個域(主題或環境)。
- 添加真實或模擬的工具。
- 構建數百個嘗試使用工具完成任務的智能體。
- 模擬與這些智能體交互的用戶。
- 一位智能人工智能“裁判“檢查它們的工作,并過濾掉不良內容。
這有助于Kimi K2在幫助真正的用戶之前練習數千種不同的工具使用場景。
Kimi K2也采用強化學習,這就像學習一種游戲:正確操作就能得分。對于像數學或編程這樣的任務,它可以檢查自己是否正確。但對于寫作或幫助用戶這樣的任務,沒有“正確”的答案。所以Kimi K2充當自己的評審者。它會評估自己的表現,給自己反饋,并不斷從中學習。它還利用數學等有明確正確答案的任務,來提高對模糊任務的評分能力。
如何訪問??
可以通過幾種方式訪問Kimi K2,這取決于使用者是普通用戶、開發人員還是基礎設施運營人員:
在線使用Kimi K2
- 網站:???https://www.kimi.com/???
- 從模型選擇器中選擇Kimi K2(通常顯示為“Kimi-K2”或“K2”)
- 無需安裝;直接開始聊天或上傳任務
通過API使用Kimi K2
- 訪問Moonshot平臺:??https://platform.moonshot.cn??
- API與OpenAI/Anthropic兼容
- 支持工具使用和智能體工作流程
- 包括端點聊天、文件工具和智能體編排等
- 在本地或自有服務器上運行Kimi K2
- 模型權重:即將在??GitHub??和/或Hugging Face上開源
推薦的推理引擎:
a. vLLM
b.SGLang
c.KTransformers
d.TensorRT-LLM
如果用戶正在進行微調、研究或內部擴展,這是理想的選擇。
在下一節中,將使用該模型完成一些任務,并進行分析。
任務1:研究并撰寫報告?
提示:“根據生成式人工智能和智能體人工智能的最新趨勢,請給我一份報告,說明2025年哪些技能與營銷、銀行、社交媒體、產品管理、軟件開發、內容、人力資源和制造業等領域的專業人士相關。”
輸出:?
https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/GenAI-Skill-Analysis.mp4" type="video/mp4
分析結果:?
研究部分做得很好,報告中使用的語言感覺很自然,整個對話都具有人情味。然而,它很難以PDF格式生成輸出。
任務2:預訂機票?
提示:“我們公司總部在印度德里,我將于今年8月參加??DataHack峰會??。你能介紹一下峰會的情況,并幫我找到最便宜的航班選項嗎?”
輸出:?
???https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/DHS-Plan.mp4??
分析:?
活動細節準確無誤,提供的酒店和航班信息也非常準確。這對行程規劃非常有幫助。最棒的是,這一切都是完全免費的。
結論
Kimi K2回答問題的方式令人印象深刻,感覺就像在和人類交流。Kimi K2與眾不同之處在于,其大多數高級功能都是免費的,而不像Manus、Genspark或OpenAI的Operator等其他平臺需要付費訂閱。Kimi K2響應迅速,并且能夠處理各種任務的能力表明,它確實是一款強大的智能體模型。結合大規模訓練、工具使用和自適應智能,它為能夠思考、行動和適應的通用人工智能系統鋪平了道路。
無論是構建編程智能體、進行現實世界的數據科學研究,還是構建下一代界面,Kimi K2都能提供強大的支持。
有關Kimi K2的常見問題?
Q1: Kimi K2與其他開源模型有何不同?
答:Kimi K2因其智能體的功能而脫穎而出,這意味著它可以使用工具采取行動,而不僅僅是生成文本。它也是少數具有混合專家架構和開源可用性的模型之一。
Q2:可以免費使用Kimi K2嗎?
答:是的,Kimi K2的許多功能都可以通過其網站和應用程序免費獲得,而提供類似功能的其他平臺則需要收費。
Q3:開發人員可以使用Kimi K2做些什么?
答:開發人員可以使用API將Kimi K2集成到他們的應用程序中,在本地硬件上運行,或者為自定義任務微調基本模型。它與vLLM和TensorRT-LLM等主要推理引擎兼容。
Q4:Kimi K2支持工具使用和編碼任務嗎?
答:當然支持。Kimi K2可以執行shell命令、編輯和部署代碼、構建交互式網站,甚至可以使用游戲引擎。它針對工具交互和軟件開發進行了優化。
原文標題:??Kimi K2: The Most Powerful Open-Source Agentic Model??,作者:Nitika Sharma
