編譯 | 云昭
審校 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
上周末的晚上,月之暗面發布了自己的新模型:K2。
據網友公開的一張截圖顯示,發布當天,Kimi 官網的訪問量從百千萬量級直接暴漲到了36億。
流量暴漲這么猛,當然是有實力在的。
趁著周末,小編仔細讀了Kimi官方賬號的報道。此外,也做幾個平時會用的幾個實戰測試。
今天趁著剛測完的熱乎勁,談一談感受。
Kimi 正在奪回榮耀
首先,這款新型號的模型不少基準方面的表現可以說都超出了小編的預期。
在業界目前卷的最厲害的三個板塊:自主編程、工具調用和數學推理,K2可以說邁出了一大步。
在一眾主流大模型Claude Opus、Deepseek V3、Qwen 23B、OpenAI GPT4.1的對比中,除了SWE-bench 測試取得了兩個第二的成績,以及在一個專門用于評估智能體能力的開源測試基準Ace中輸給了GPT4.1以外,K2在其他五項測試中都取得了第一的成績。
這里還是想強調的是,數學推理一直是Kimi推理模型的優勢,半年過去,Kimi也開始在自主編程、工具調用的方向奪回榮耀。
重要的是,Kimi 上線即開源了這份盛夏的新作品。
讓人上頭的三個關鍵特性
接下來,說說讓自己的一些“上頭”的一些點。
第一個點,萬億參數的模型。相信大家都注意到了,雖然萬億參數模型在我們的概念中已經不新鮮,但對于六小虎而言,萬億參數模型,Kimi是第一家。
同時,雖然模型體量大了,但每次前向推理只激活其中32B,這樣K2的思維就像個大智慧者,但又不會造成你的token“云賬單”爆表。
第二點,K2有點我愿意稱之為“原生智能體”能力。
我不再需要自定義一個編排層,不再需要做一個基于規則的 planner。只需提供工具 schema,提出個目標,K2就會自己調用工具。
一位網友的真實案例:用一個模擬的 “file-edit” 工具測試讓它重構 Swift 包,它不僅寫了修改,還跑了測試,而且在測試失敗后,它還能自動修復再試!
當然,小編還做了一個有趣的“張藝謀電影風格”的工具調用的視頻腳本的測試,稍后給大家看下。
第三點,這一點容易被大家忽略,即這次K2在預訓練階段使用的MuonClip優化器。這一點為什么重要?
因為萬億參數規模下,訓練的穩定性和token的使用效率,關系著生產環境下的用戶體驗,而這一“查詢-鍵重縮放”技巧,能夠將以往容易出現的注意力logits失控的問題,有效緩解甚至遏制住。
據官網介紹,Kimi團隊在超15萬億tokens的預訓練中依舊表現穩定,在網友實際測試中,也確實有效。
此外,在人類高質量數據成為瓶頸的背景下,有效提高Token利用效率,也就意味著找到了新的Scaling空間。
實測下來,有點意外
在展示小編自己的實測前,小編發現,全球網友對于K2模型的新印象出奇地認可。
據網友扒來的一張截圖顯示,K2在 EQ-Bench3 和創意寫作中名列SOTA。
而一位網友的帖子也讓小編重新了解了一種大模型的對話用法。
這位網友表示,“這是迄今為止我用過的最好的創意寫作模型。我建議在文本補全模式下使用它?!?/span>
還有一位網友,對于K2的創造力表示驚訝。
這位甚至認為:K2在補全模式下,編碼/常規任務的表現甚至勝過了Sonnet和Gemini 2.5 Pro。
眼見未必為實。好,話不多說,來看看小編的實測情況。
第一個,為了測試K2工具調用的能力,小編設計了一個“中美網紅文化交流項目執行”的測試。
注意: 要完成這個任務,涉及到:動態調用多步工具 + 概念合成 + Agent 結果反饋鏈路等許多復雜的推理工作。
題目如下:
背景: 中國此前推出“中美網紅互訪活動”
工具定義:
[
{"name": "select_influencers", "description": "根據條件篩選網紅", "parameters":{"min_followers":"int","platform":"string"}},
{"name": "plan_trip", "description": "生成行程安排", "parameters":{"cities":"list","days":"int"}},
{"name": "generate_promo_script", "description": "生成宣傳文案", "parameters":{"trip_plan_id":"string"}}
]
任務:
幫助平臺:
1.選出符合標準的 5 名美國網紅;
2.安排行程覆蓋北京、上海、杭州 7 日游;
3.生成一段 Instagram 宣傳視頻解說腳本。
K2給出的答案非常令人滿意:
它不僅真的從從Instagram、Trip等網站上搜集了五名網紅、挖掘了宣傳視頻解說腳本的做法,還按照任務中定義的工具格式,進行了嚴格的執行,而且反饋鏈路也非常復雜,竟然沒有翻車,這一點非常驚艷。
第二個例子,是小編針對「MuonClip 穩定注意力機制」設計的。這里我從網上找來了金庸老先生的《天龍八部》中最精彩的一段:“燕云十八飛騎 奔騰如虎風煙舉”。
這段是全書三主角對戰群雄頂尖勢力的高光時刻,金老先生用了超過8100多字的筆墨用來描述這樣的大場面。
所以,K2 在這么長的文本理解中注意力究竟如何呢?
小編問道:
幫我找出第一次出現慕容復的段落,并分析其在全文中的作用。
K2順利地找出來了慕容復首次出現的位置,并對金老先生這樣安排的原因做出了解析:推動劇情從圍困走向車輪戰、深化慕容復野心與虛偽的性格、串聯多線沖突。
非常精準。
第三個測試,是一個Agent的模擬測試。既然網上都說K2創意滿滿,小編這次索性讓K2模擬“張藝謀智能導演助理”。
問題如下:
工具定義:
json
[
{"name": "generate_storyboard", "description": "生成分鏡腳本", "parameters":{"scene":"string","style":"string","length":"int"}},
{"name": "render_preview", "description": "生成場景預覽圖", "parameters":{"storyboard_id":"string"}}
]
任務:
以張藝謀導演近期常融入傳統文化的風格為基礎(熱點參考他新片傳聞),請設計開場分鏡,描述“敦煌 + 賽博朋克風格”,并調用上述工具生成腳本與預覽。
這個問題的難度小編認為還是極高的:
以張藝謀導演近期常融入傳統文化的風格為基礎(熱點參考他新片傳聞),請設計開場分鏡,描述“敦煌 + 賽博朋克風格”,并調用上述工具生成腳本與預覽。
這次,小編讓ChatGPT和K2來了一次對決。
先看K2和ChatGPT給到我的分鏡腳本:
K2:
{
"name": "generate_storyboard",
"arguments": {
"scene": "黎明時分的敦煌石窟,千年壁畫在霓虹電路侵蝕下蘇醒。賽博飛天機械臂托舉全息曼陀羅,傳統朱砂顏料與全息投影交織,銅制機械駱駝從黃沙中升起。張藝謀式對稱構圖,金黃大漠與幽藍電路光形成強烈對比,紅紗蒙面舞者手持光束琵琶,在數字飛沙中旋轉。",
"style": "張藝謀式大色塊美學,敦煌壁畫朱砂+群青傳統配色融合賽博霓虹,極致對稱構圖,長鏡頭運動",
"length": 8
}
}
ChatGPT:
{
"name": "generate_storyboard",
"parameters": {
"scene": "開場鏡頭描述:一場沙暴之中,鏡頭穿越風沙,莫高窟巨大的佛像隱約顯現。一尊敦煌飛天從壁畫中剝離,變為半透明的全息投影,緩緩升空,裙擺如數據流般飄散。畫面漸轉,一座布滿LED和霓虹刻文的高塔矗立在沙漠中,遠方飛車穿梭、機械駝隊行進。鏡頭拉近,出現一位機械僧人,面容古樸卻嵌有微光線路,他凝視鏡頭,喃喃低語:‘歸來者,皆有前世因緣?!?,
"style": "敦煌+賽博朋克,融合張藝謀式寫意與色彩美學",
"length": 6
}
}
遺憾地是,這兩款模型出的了腳本,但不能出視頻,所以小編為了讓大家看出成片,索性讓Vidu Q1上場了。
可以說,兩者的意圖捕捉能力、拆解能力是非常棒的。只是,不知道張大導演怎么看?
遇到的幾個坑
這里,K2 也有一些踩坑,分享給大家。
一、輸出太長會截斷(有時,非經常)
它有時候會在輸出 8000+ tokens 后“卡殼”,我不得不給 prompt 加上 “請將回答限制在 3000 tokens 內”。
二、工具名沖突會導致混亂
一位網友表示,自己曾注冊了兩個名為 open_file
的工具,雖然來自不同命名空間,但 K2 有時會亂選,直到其手動改名才恢復正常。
三、內存占用依舊高
雖然只激活320億參數,但還是建議至少使用 48GB 顯存,或者多 GPU 分布。vLLM 的 CPU offloading 雖然能跑,但速度……慢得像蝸牛。
K2 最適合的使用場景
很明顯,這次月之暗面的新模型,開源,大參數規模、快速、穩定,同時劍指 Agentic Agent!
自主調用工具的能力,Kimi K2 可以說名副其實。那么結合Kimi的在數學代碼任務上的優秀表現,建議大家不妨從以下幾個場景上手——
- Agent 化 DevOps: 自動修補測試失敗的持續集成 bot
- 數據重分析: K2 連接數據倉庫,Jupyter 里一邊提問一邊畫圖,還能導出 PDF 報告
- 垂直行業助理: 在企業語料上微調 base 模型,接入公司工具,構建專屬 AI 助理
如果你只是想閑聊或草擬點內容,更小的開源模型延遲會更低。但如果你的 roadmap 包括“推理 + 執行”,選 K2 應該不會讓你失望。