成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

碾壓DeepSeek V3!開源AI Agent專屬模型,1萬億參數、工具使用能力超強

人工智能 新聞
為了教授模型復雜的工具使用能力,Kimi K2?開發了一個全面的管道,靈感來源于?ACEBench,能夠大規模模擬真實世界的工具使用場景。

國內知名大模型平臺月之暗面(MoonshotAI)開源了最新模型Kimi-K2。

Kimi-K2是一個混合專家模型,總參數1萬億,320億參數處于激活狀態,訓練數據高達15.5Ttoken,有基礎和微調兩種模型。

除了常規的問答功能之外,Kimi-K2特意針對AIAgent進行了大幅度優化,非常擅長使用各種工具,能幫助開發者打造特定不同領域的智能體。

圖片

開源地址:https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

根據月之暗面公布的測試數據顯示,Kimi-K2在SWE-bench的單次測試中達到了65.8分,碾壓了DeepSeek最新開源的V3-0324模型38.8分,以及OpenAI閉源模型GPT-4.1的54.6分。

在多語言測試中,Kimi-K2同樣以47.3的高分超過了V3-0324的25.8分和GPT-4.1的31.5分。

在LiveCodeBenchv6代碼測試中,Kimi-K2以53.7分超過了V3-0324、GPT-4.1、Gemini2.5Flashnon-thinking等所有開閉源模型。

圖片

在工具使用方面,Kimi-K2同樣表現非常出色,以66.1的分數再次超過了V3-0324、GPT-4.1;數學能力方面,Kimi-K2取得了49.5分,超過了V3-0324的46.7和GPT-4.1的37。

圖片

使用Kimi-K2打造的智能體來自動分析一份超復雜的薪資。例如,利用2020–2025年的薪資數據,檢驗遠程工作比例對薪資的影響,并確定這種影響在不同經驗水平初級、中級、高級、專家之間是否存在顯著差異。

也就是說,是否存在交互效應。用統計證據和豐富的可視化圖表支撐你的分析。所有圖表需使用統一、協調的調色板,例如,柔和色調、低飽和度色調。

或者用智能體規劃一下酷玩樂隊2025年演唱會的行程。

當然,Kimi-K2超強的代碼能力,畫一個球在六邊形中彈跳還是相當輕松的。

在模型訓練流程上,Kimi-K2進行了獨特的技術創新。預訓練是智能體智能的關鍵基礎,由于人類數據有限,預訓練期間的token效率成為AI縮放定律中的關鍵因素。

Kimi-K2采用了MuonClip優化器,這是在Muon優化器基礎上改進而來的,通過qk-clip技術解決了訓練中注意力logits爆炸的問題,確保了大規模LLM訓練的穩定性,在15.5Ttoken上完成了預訓練,且過程中沒有出現訓練峰值。

圖片

此外,增強智能體能力主要來自兩個方面,一方面是大規模智能體數據合成,這一方式用于工具使用學習,借鑒 ACEBench 開發了全面的管道,能夠模擬真實世界的工具使用場景,從而生成高質量的訓練數據;另一方面是通用強化學習,這解決了在具有可驗證和不可驗證獎勵的任務上應用 RL 的挑戰,模型通過自我判斷機制為不可驗證任務提供反饋,并利用可驗證獎勵不斷更新評判標準。

圖片

為了教授模型復雜的工具使用能力,Kimi K2 開發了一個全面的管道,靈感來源于 ACEBench,能夠大規模模擬真實世界的工具使用場景。該方法系統地演化了包含數千種工具的數百個領域,包括真實的MCP工具和合成工具,并生成了具有多樣化工具集的數百個智能體。

所有任務都基于評分標準進行評估,智能體與模擬環境和用戶智能體進行交互,創建出真實的多輪工具使用場景。一個 LLM 評委根據任務評分標準評估模擬結果,篩選出高質量的訓練數據。這種可擴展的管道生成了多樣化、高質量的數據,為大規模拒絕采樣和強化學習鋪平了道路。

通用強化學習,將強化學習應用于具有可驗證和不可驗證獎勵的任務是一個關鍵挑戰。典型的可驗證任務包括數學和競賽編程,而撰寫研究報告通常被視為不可驗證任務。Kimi K2 的通用強化學習系統采用自評判機制,模型充當自己的批評者,為不可驗證任務提供可擴展的、基于評分標準的反饋。

同時,使用具有可驗證獎勵的在線策略回放來持續更新批評者,使其能夠不斷提高對最新策略的評估準確性。這可以看作是利用可驗證獎勵來改進不可驗證獎勵估計的一種方式。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-05-16 08:58:09

2024-12-30 20:32:36

2025-04-02 09:21:00

DeepSeekAI開源

2025-03-26 10:38:40

2024-12-30 09:25:00

數據訓練摩擦

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2025-02-17 10:36:00

微軟開源模型

2025-03-03 08:17:00

DeepSeek模型數據

2025-04-07 07:00:00

2025-02-05 12:53:21

2025-05-16 09:02:00

2025-02-13 08:30:00

2025-02-26 11:16:18

2025-02-08 09:15:00

2024-12-26 17:13:17

AI模型訓練

2025-03-13 06:34:49

2025-05-19 08:37:00

2023-06-02 13:55:57

開源AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91av亚洲 | 午夜免费看视频 | 久久免费视频在线 | 在线观看你懂的网站 | 黄网站免费在线 | 国产一区二区三区久久久久久久久 | 亚洲精品国产综合区久久久久久久 | 黄色网址在线免费播放 | 欧美视频三级 | 日韩在线观看中文字幕 | 久久99精品久久久久蜜桃tv | 欧美日韩精品久久久免费观看 | 久久久免费电影 | 国产不卡一区 | 91久久精品一区二区二区 | 亚洲日本欧美日韩高观看 | 呦呦在线视频 | 欧美日韩亚洲一区 | 国产乱码精品一区二区三区忘忧草 | 在线国产一区 | 日本三级网站在线 | 欧美aa在线 | 国产精品国产三级国产aⅴ中文 | 国产日韩一区二区三免费高清 | 亚洲狠狠丁香婷婷综合久久久 | 黄色国产在线播放 | av在线成人 | 国产精品久久久久久久免费大片 | 久久国产日韩欧美 | 久草网址 | 91麻豆精品国产91久久久更新资源速度超快 | 亚洲一二三区在线观看 | 国产成人a亚洲精品 | 国产精品美女视频 | 欧美精品网站 | 欧美一区视频 | 黑人性hd | 黄色免费在线观看 | 午夜免费视频 | 亚洲女人天堂网 | 视频1区|