成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

官網飆漲36億!K2究竟能做哪些,有哪些坑?實戰總結來了:實測Kimi模擬張藝謀助理,震撼解析天龍八部慕容復,文本補全模式更絕

原創 精選
人工智能
上周末的晚上,月之暗面發布了自己的新模型:K2。據網友公開的一張截圖顯示,發布當天,Kimi 官網的訪問量從百千萬量級直接暴漲到了36億。

編譯 | 云昭

審校 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

上周末的晚上,月之暗面發布了自己的新模型:K2。

據網友公開的一張截圖顯示,發布當天,Kimi 官網的訪問量從百千萬量級直接暴漲到了36億。

流量暴漲這么猛,當然是有實力在的。

趁著周末,小編仔細讀了Kimi官方賬號的報道。此外,也做幾個平時會用的幾個實戰測試。

今天趁著剛測完的熱乎勁,談一談感受。

Kimi 正在奪回榮耀

首先,這款新型號的模型不少基準方面的表現可以說都超出了小編的預期。

在業界目前卷的最厲害的三個板塊:自主編程、工具調用和數學推理,K2可以說邁出了一大步。

在一眾主流大模型Claude Opus、Deepseek V3、Qwen 23B、OpenAI GPT4.1的對比中,除了SWE-bench 測試取得了兩個第二的成績,以及在一個專門用于評估智能體能力的開源測試基準Ace中輸給了GPT4.1以外,K2在其他五項測試中都取得了第一的成績。

這里還是想強調的是,數學推理一直是Kimi推理模型的優勢,半年過去,Kimi也開始在自主編程、工具調用的方向奪回榮耀。

重要的是,Kimi 上線即開源了這份盛夏的新作品。

讓人上頭的三個關鍵特性

接下來,說說讓自己的一些“上頭”的一些點。

第一個點,萬億參數的模型。相信大家都注意到了,雖然萬億參數模型在我們的概念中已經不新鮮,但對于六小虎而言,萬億參數模型,Kimi是第一家。

同時,雖然模型體量大了,但每次前向推理只激活其中32B,這樣K2的思維就像個大智慧者,但又不會造成你的token“云賬單”爆表。

第二點,K2有點我愿意稱之為“原生智能體”能力。

我不再需要自定義一個編排層,不再需要做一個基于規則的 planner。只需提供工具 schema,提出個目標,K2就會自己調用工具。

一位網友的真實案例:用一個模擬的 “file-edit” 工具測試讓它重構 Swift 包,它不僅寫了修改,還跑了測試,而且在測試失敗后,它還能自動修復再試!

當然,小編還做了一個有趣的“張藝謀電影風格”的工具調用的視頻腳本的測試,稍后給大家看下。

第三點,這一點容易被大家忽略,即這次K2在預訓練階段使用的MuonClip優化器。這一點為什么重要?

因為萬億參數規模下,訓練的穩定性和token的使用效率,關系著生產環境下的用戶體驗,而這一“查詢-鍵重縮放”技巧,能夠將以往容易出現的注意力logits失控的問題,有效緩解甚至遏制住。

據官網介紹,Kimi團隊在超15萬億tokens的預訓練中依舊表現穩定,在網友實際測試中,也確實有效。

此外,在人類高質量數據成為瓶頸的背景下,有效提高Token利用效率,也就意味著找到了新的Scaling空間。

實測下來,有點意外

在展示小編自己的實測前,小編發現,全球網友對于K2模型的新印象出奇地認可。

據網友扒來的一張截圖顯示,K2在 EQ-Bench3 和創意寫作中名列SOTA。

而一位網友的帖子也讓小編重新了解了一種大模型的對話用法。

這位網友表示,“這是迄今為止我用過的最好的創意寫作模型。我建議在文本補全模式下使用它?!?/span>

還有一位網友,對于K2的創造力表示驚訝。

這位甚至認為:K2在補全模式下,編碼/常規任務的表現甚至勝過了Sonnet和Gemini 2.5 Pro。

眼見未必為實。好,話不多說,來看看小編的實測情況。

第一個,為了測試K2工具調用的能力,小編設計了一個“中美網紅文化交流項目執行”的測試。

注意: 要完成這個任務,涉及到:動態調用多步工具 + 概念合成 + Agent 結果反饋鏈路等許多復雜的推理工作。

題目如下:

背景: 中國此前推出“中美網紅互訪活動”
工具定義:
[
  {"name": "select_influencers", "description": "根據條件篩選網紅", "parameters":{"min_followers":"int","platform":"string"}},
  {"name": "plan_trip", "description": "生成行程安排", "parameters":{"cities":"list","days":"int"}},
  {"name": "generate_promo_script", "description": "生成宣傳文案", "parameters":{"trip_plan_id":"string"}}
]
任務:
幫助平臺:

1.選出符合標準的 5 名美國網紅;

2.安排行程覆蓋北京、上海、杭州 7 日游;

3.生成一段 Instagram 宣傳視頻解說腳本。

K2給出的答案非常令人滿意:

它不僅真的從從Instagram、Trip等網站上搜集了五名網紅、挖掘了宣傳視頻解說腳本的做法,還按照任務中定義的工具格式,進行了嚴格的執行,而且反饋鏈路也非常復雜,竟然沒有翻車,這一點非常驚艷。


第二個例子,是小編針對「MuonClip 穩定注意力機制」設計的。這里我從網上找來了金庸老先生的《天龍八部》中最精彩的一段:“燕云十八飛騎 奔騰如虎風煙舉”。

這段是全書三主角對戰群雄頂尖勢力的高光時刻,金老先生用了超過8100多字的筆墨用來描述這樣的大場面。

所以,K2 在這么長的文本理解中注意力究竟如何呢?

小編問道:

幫我找出第一次出現慕容復的段落,并分析其在全文中的作用。

K2順利地找出來了慕容復首次出現的位置,并對金老先生這樣安排的原因做出了解析:推動劇情從圍困走向車輪戰、深化慕容復野心與虛偽的性格、串聯多線沖突。

非常精準。

第三個測試,是一個Agent的模擬測試。既然網上都說K2創意滿滿,小編這次索性讓K2模擬“張藝謀智能導演助理”。

問題如下:

工具定義:

json

[
  {"name": "generate_storyboard", "description": "生成分鏡腳本", "parameters":{"scene":"string","style":"string","length":"int"}},
  {"name": "render_preview", "description": "生成場景預覽圖", "parameters":{"storyboard_id":"string"}}
]
任務:
以張藝謀導演近期常融入傳統文化的風格為基礎(熱點參考他新片傳聞),請設計開場分鏡,描述“敦煌 + 賽博朋克風格”,并調用上述工具生成腳本與預覽。

這個問題的難度小編認為還是極高的:

以張藝謀導演近期常融入傳統文化的風格為基礎(熱點參考他新片傳聞),請設計開場分鏡,描述“敦煌 + 賽博朋克風格”,并調用上述工具生成腳本與預覽。

這次,小編讓ChatGPT和K2來了一次對決。

先看K2和ChatGPT給到我的分鏡腳本:

K2:

{
  "name": "generate_storyboard",
  "arguments": {
    "scene": "黎明時分的敦煌石窟,千年壁畫在霓虹電路侵蝕下蘇醒。賽博飛天機械臂托舉全息曼陀羅,傳統朱砂顏料與全息投影交織,銅制機械駱駝從黃沙中升起。張藝謀式對稱構圖,金黃大漠與幽藍電路光形成強烈對比,紅紗蒙面舞者手持光束琵琶,在數字飛沙中旋轉。",
    "style": "張藝謀式大色塊美學,敦煌壁畫朱砂+群青傳統配色融合賽博霓虹,極致對稱構圖,長鏡頭運動",
    "length": 8
  }
}

ChatGPT:

{
  "name": "generate_storyboard",
  "parameters": {
    "scene": "開場鏡頭描述:一場沙暴之中,鏡頭穿越風沙,莫高窟巨大的佛像隱約顯現。一尊敦煌飛天從壁畫中剝離,變為半透明的全息投影,緩緩升空,裙擺如數據流般飄散。畫面漸轉,一座布滿LED和霓虹刻文的高塔矗立在沙漠中,遠方飛車穿梭、機械駝隊行進。鏡頭拉近,出現一位機械僧人,面容古樸卻嵌有微光線路,他凝視鏡頭,喃喃低語:‘歸來者,皆有前世因緣?!?,
    "style": "敦煌+賽博朋克,融合張藝謀式寫意與色彩美學",
    "length": 6
  }
}

遺憾地是,這兩款模型出的了腳本,但不能出視頻,所以小編為了讓大家看出成片,索性讓Vidu Q1上場了。

可以說,兩者的意圖捕捉能力、拆解能力是非常棒的。只是,不知道張大導演怎么看?

遇到的幾個坑

這里,K2 也有一些踩坑,分享給大家。

一、輸出太長會截斷(有時,非經常)

它有時候會在輸出 8000+ tokens 后“卡殼”,我不得不給 prompt 加上 “請將回答限制在 3000 tokens 內”。

二、工具名沖突會導致混亂

一位網友表示,自己曾注冊了兩個名為 open_file 的工具,雖然來自不同命名空間,但 K2 有時會亂選,直到其手動改名才恢復正常。

三、內存占用依舊高

雖然只激活320億參數,但還是建議至少使用 48GB 顯存,或者多 GPU 分布。vLLM 的 CPU offloading 雖然能跑,但速度……慢得像蝸牛。

K2 最適合的使用場景

很明顯,這次月之暗面的新模型,開源,大參數規模、快速、穩定,同時劍指 Agentic Agent!

自主調用工具的能力,Kimi K2 可以說名副其實。那么結合Kimi的在數學代碼任務上的優秀表現,建議大家不妨從以下幾個場景上手——

  • Agent 化 DevOps: 自動修補測試失敗的持續集成 bot
  • 數據重分析: K2 連接數據倉庫,Jupyter 里一邊提問一邊畫圖,還能導出 PDF 報告
  • 垂直行業助理: 在企業語料上微調 base 模型,接入公司工具,構建專屬 AI 助理

如果你只是想閑聊或草擬點內容,更小的開源模型延遲會更低。但如果你的 roadmap 包括“推理 + 執行”,選 K2 應該不會讓你失望。

責任編輯:龐桂玉 來源: 51CTO技術棧
相關推薦

2018-12-10 09:45:05

2009-07-17 18:14:58

2010-04-01 18:51:13

用友U8

2014-12-26 15:23:13

游戲

2018-12-17 16:25:58

架構技術棧微信半月刊

2009-06-25 14:32:36

2013-07-04 10:15:40

大數據

2024-04-03 08:47:58

React服務端組件Actions

2019-09-23 12:00:23

人工智能AI

2024-06-14 10:26:30

2024-12-16 16:05:34

2023-02-20 08:08:48

限流算法計數器算法令牌桶算法

2015-10-26 10:29:06

谷歌產品10億用戶

2020-11-17 08:08:34

分庫分表

2021-10-29 09:40:21

設計模式軟件

2010-07-16 09:24:59

Perl模式

2022-03-18 08:46:08

vivo官網APP首頁改版

2025-03-26 01:25:00

MySQL優化事務

2024-03-07 17:21:12

HotSpotJVMHot Code

2013-01-29 10:13:12

2013移動醫療商業模式
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜一区 | 狠狠操狠狠干 | 中文字幕视频在线免费 | 国产午夜精品一区二区三区嫩草 | 欧美精品首页 | 国产日韩欧美电影 | 久久国产精品视频 | 国产女人第一次做爰毛片 | aaaa网站| 欧美一级免费看 | 狠狠的干 | 精品久久久久一区二区国产 | 久久久不卡网国产精品一区 | 热re99久久精品国99热观看 | 成人午夜毛片 | 欧美一级在线 | 午夜激情一区 | 中国免费黄色片 | 日本三级播放 | 中文字幕在线精品 | 亚洲人成免费 | 国产精品久久99 | 久久午夜国产精品www忘忧草 | 欧美h版| 国产高清在线精品 | 精品国产青草久久久久96 | 天天射夜夜操 | 精品国产18久久久久久二百 | 国产aa | 中日韩av | 国产精品欧美一区二区三区 | 国产高潮av | 午夜免费观看网站 | 久久1区 | 亚洲视频在线播放 | 国产精品一区久久久久 | 国产成人精品一区二区在线 | 国产精品极品美女在线观看免费 | 欧美日韩在线看 | 欧美高清一区 | 91精品国产麻豆 |