官網飆漲36億！K2究竟能做哪些，有哪些坑？實戰總結來了：實測Kimi模擬張藝謀助理，震撼解析天龍八部慕容復，文本補全模式更絕

原創精選

2025-07-14 21:15:39

人工智能

上周末的晚上，月之暗面發布了自己的新模型：K2。據網友公開的一張截圖顯示，發布當天，Kimi 官網的訪問量從百千萬量級直接暴漲到了36億。

編譯 | 云昭

審校 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

上周末的晚上，月之暗面發布了自己的新模型：K2。

據網友公開的一張截圖顯示，發布當天，Kimi 官網的訪問量從百千萬量級直接暴漲到了36億。

流量暴漲這么猛，當然是有實力在的。

趁著周末，小編仔細讀了Kimi官方賬號的報道。此外，也做幾個平時會用的幾個實戰測試。

今天趁著剛測完的熱乎勁，談一談感受。

Kimi 正在奪回榮耀

首先，這款新型號的模型不少基準方面的表現可以說都超出了小編的預期。

在業界目前卷的最厲害的三個板塊：自主編程、工具調用和數學推理，K2可以說邁出了一大步。

在一眾主流大模型Claude Opus、Deepseek V3、Qwen 23B、OpenAI GPT4.1的對比中，除了SWE-bench 測試取得了兩個第二的成績，以及在一個專門用于評估智能體能力的開源測試基準Ace中輸給了GPT4.1以外，K2在其他五項測試中都取得了第一的成績。

這里還是想強調的是，數學推理一直是Kimi推理模型的優勢，半年過去，Kimi也開始在自主編程、工具調用的方向奪回榮耀。

重要的是，Kimi 上線即開源了這份盛夏的新作品。

讓人上頭的三個關鍵特性

接下來，說說讓自己的一些“上頭”的一些點。

第一個點，萬億參數的模型。相信大家都注意到了，雖然萬億參數模型在我們的概念中已經不新鮮，但對于六小虎而言，萬億參數模型，Kimi是第一家。

同時，雖然模型體量大了，但每次前向推理只激活其中32B，這樣K2的思維就像個大智慧者，但又不會造成你的token“云賬單”爆表。

第二點，K2有點我愿意稱之為“原生智能體”能力。

我不再需要自定義一個編排層，不再需要做一個基于規則的 planner。只需提供工具 schema，提出個目標，K2就會自己調用工具。

一位網友的真實案例：用一個模擬的 “file-edit” 工具測試讓它重構 Swift 包，它不僅寫了修改，還跑了測試，而且在測試失敗后，它還能自動修復再試！

當然，小編還做了一個有趣的“張藝謀電影風格”的工具調用的視頻腳本的測試，稍后給大家看下。

第三點，這一點容易被大家忽略，即這次K2在預訓練階段使用的MuonClip優化器。這一點為什么重要？

因為萬億參數規模下，訓練的穩定性和token的使用效率，關系著生產環境下的用戶體驗，而這一“查詢-鍵重縮放”技巧，能夠將以往容易出現的注意力logits失控的問題，有效緩解甚至遏制住。

據官網介紹，Kimi團隊在超15萬億tokens的預訓練中依舊表現穩定，在網友實際測試中，也確實有效。

此外，在人類高質量數據成為瓶頸的背景下，有效提高Token利用效率，也就意味著找到了新的Scaling空間。

實測下來，有點意外

在展示小編自己的實測前，小編發現，全球網友對于K2模型的新印象出奇地認可。

據網友扒來的一張截圖顯示，K2在 EQ-Bench3 和創意寫作中名列SOTA。

而一位網友的帖子也讓小編重新了解了一種大模型的對話用法。

這位網友表示，“這是迄今為止我用過的最好的創意寫作模型。我建議在文本補全模式下使用它?！?/span>

還有一位網友，對于K2的創造力表示驚訝。

這位甚至認為：K2在補全模式下，編碼/常規任務的表現甚至勝過了Sonnet和Gemini 2.5 Pro。

眼見未必為實。好，話不多說，來看看小編的實測情況。

第一個，為了測試K2工具調用的能力，小編設計了一個“中美網紅文化交流項目執行”的測試。

注意：要完成這個任務，涉及到：動態調用多步工具 + 概念合成 + Agent 結果反饋鏈路等許多復雜的推理工作。

題目如下：

背景： 中國此前推出“中美網紅互訪活動”
工具定義：
[
  {"name": "select_influencers", "description": "根據條件篩選網紅", "parameters":{"min_followers":"int","platform":"string"}},
  {"name": "plan_trip", "description": "生成行程安排", "parameters":{"cities":"list","days":"int"}},
  {"name": "generate_promo_script", "description": "生成宣傳文案", "parameters":{"trip_plan_id":"string"}}
]
任務：
幫助平臺：

1.選出符合標準的 5 名美國網紅；

2.安排行程覆蓋北京、上海、杭州 7 日游；

3.生成一段 Instagram 宣傳視頻解說腳本。

K2給出的答案非常令人滿意：

它不僅真的從從Instagram、Trip等網站上搜集了五名網紅、挖掘了宣傳視頻解說腳本的做法，還按照任務中定義的工具格式，進行了嚴格的執行，而且反饋鏈路也非常復雜，竟然沒有翻車，這一點非常驚艷。

第二個例子，是小編針對「MuonClip 穩定注意力機制」設計的。這里我從網上找來了金庸老先生的《天龍八部》中最精彩的一段：“燕云十八飛騎　奔騰如虎風煙舉”。

這段是全書三主角對戰群雄頂尖勢力的高光時刻，金老先生用了超過8100多字的筆墨用來描述這樣的大場面。

所以，K2 在這么長的文本理解中注意力究竟如何呢？

小編問道：

幫我找出第一次出現慕容復的段落，并分析其在全文中的作用。

K2順利地找出來了慕容復首次出現的位置，并對金老先生這樣安排的原因做出了解析：推動劇情從圍困走向車輪戰、深化慕容復野心與虛偽的性格、串聯多線沖突。

非常精準。

第三個測試，是一個Agent的模擬測試。既然網上都說K2創意滿滿，小編這次索性讓K2模擬“張藝謀智能導演助理”。

問題如下：

工具定義：

json

[
  {"name": "generate_storyboard", "description": "生成分鏡腳本", "parameters":{"scene":"string","style":"string","length":"int"}},
  {"name": "render_preview", "description": "生成場景預覽圖", "parameters":{"storyboard_id":"string"}}
]
任務：
以張藝謀導演近期常融入傳統文化的風格為基礎（熱點參考他新片傳聞），請設計開場分鏡，描述“敦煌 + 賽博朋克風格”，并調用上述工具生成腳本與預覽。

這個問題的難度小編認為還是極高的：

以張藝謀導演近期常融入傳統文化的風格為基礎（熱點參考他新片傳聞），請設計開場分鏡，描述“敦煌 + 賽博朋克風格”，并調用上述工具生成腳本與預覽。

這次，小編讓ChatGPT和K2來了一次對決。

先看K2和ChatGPT給到我的分鏡腳本：

K2：

{
  "name": "generate_storyboard",
  "arguments": {
    "scene": "黎明時分的敦煌石窟，千年壁畫在霓虹電路侵蝕下蘇醒。賽博飛天機械臂托舉全息曼陀羅，傳統朱砂顏料與全息投影交織，銅制機械駱駝從黃沙中升起。張藝謀式對稱構圖，金黃大漠與幽藍電路光形成強烈對比，紅紗蒙面舞者手持光束琵琶，在數字飛沙中旋轉。",
    "style": "張藝謀式大色塊美學，敦煌壁畫朱砂+群青傳統配色融合賽博霓虹，極致對稱構圖，長鏡頭運動",
    "length": 8
  }
}

ChatGPT:

{
  "name": "generate_storyboard",
  "parameters": {
    "scene": "開場鏡頭描述：一場沙暴之中，鏡頭穿越風沙，莫高窟巨大的佛像隱約顯現。一尊敦煌飛天從壁畫中剝離，變為半透明的全息投影，緩緩升空，裙擺如數據流般飄散。畫面漸轉，一座布滿LED和霓虹刻文的高塔矗立在沙漠中，遠方飛車穿梭、機械駝隊行進。鏡頭拉近，出現一位機械僧人，面容古樸卻嵌有微光線路，他凝視鏡頭，喃喃低語：‘歸來者，皆有前世因緣?！?,
    "style": "敦煌+賽博朋克，融合張藝謀式寫意與色彩美學",
    "length": 6
  }
}

遺憾地是，這兩款模型出的了腳本，但不能出視頻，所以小編為了讓大家看出成片，索性讓Vidu Q1上場了。

可以說，兩者的意圖捕捉能力、拆解能力是非常棒的。只是，不知道張大導演怎么看？

遇到的幾個坑

這里，K2 也有一些踩坑，分享給大家。

一、輸出太長會截斷（有時，非經常）

它有時候會在輸出 8000+ tokens 后“卡殼”，我不得不給 prompt 加上 “請將回答限制在 3000 tokens 內”。

二、工具名沖突會導致混亂

一位網友表示，自己曾注冊了兩個名為 open_file 的工具，雖然來自不同命名空間，但 K2 有時會亂選，直到其手動改名才恢復正常。

三、內存占用依舊高

雖然只激活320億參數，但還是建議至少使用 48GB 顯存，或者多 GPU 分布。vLLM 的 CPU offloading 雖然能跑，但速度……慢得像蝸牛。

K2 最適合的使用場景

很明顯，這次月之暗面的新模型，開源，大參數規模、快速、穩定，同時劍指 Agentic Agent！

自主調用工具的能力，Kimi K2 可以說名副其實。那么結合Kimi的在數學代碼任務上的優秀表現，建議大家不妨從以下幾個場景上手——

Agent 化 DevOps： 自動修補測試失敗的持續集成 bot
數據重分析： K2 連接數據倉庫，Jupyter 里一邊提問一邊畫圖，還能導出 PDF 報告
垂直行業助理： 在企業語料上微調 base 模型，接入公司工具，構建專屬 AI 助理

如果你只是想閑聊或草擬點內容，更小的開源模型延遲會更低。但如果你的 roadmap 包括“推理 + 執行”，選 K2 應該不會讓你失望。

責任編輯：龐桂玉來源： 51CTO技術棧

K2 Kimi 大模型人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

官網飆漲36億！K2究竟能做哪些，有哪些坑？實戰總結來了：實測Kimi模擬張藝謀助理，震撼解析天龍八部慕容復，文本補全模式更絕