成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

月之暗面「調(diào)教」出最強(qiáng)Agent,在「人類最后一場考試」拿下最新 SOTA

人工智能 新聞
在「人類最后一場考試」(Humanity's Last Exam) 中,Kimi-Researcher 取得了 26.9% 的 Pass@1 成績,創(chuàng)下最新的 SOTA 水平,Pass@4 準(zhǔn)確率也達(dá)到了 40.17%。

昨天,月之暗面發(fā)了篇博客,介紹了一款名為 Kimi-Researcher 的自主 Agent。

這款 Agent 擅長多輪搜索和推理,平均每項(xiàng)任務(wù)執(zhí)行 23 個(gè)推理步驟,訪問超過 200 個(gè)網(wǎng)址。它是基于 Kimi k 系列模型的內(nèi)部版本構(gòu)建,并完全通過端到端智能體強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,也是國內(nèi)少有的基于自研模型打造的 Agent。

image.png

GitHub 鏈接:https://moonshotai.github.io/Kimi-Researcher/

在「人類最后一場考試」(Humanity's Last Exam) 中,Kimi-Researcher 取得了 26.9% 的 Pass@1 成績,創(chuàng)下最新的 SOTA 水平,Pass@4 準(zhǔn)確率也達(dá)到了 40.17%。

從初始的 8.6% HLE 分?jǐn)?shù)開始,Kimi-Researcher 幾乎完全依靠端到端的強(qiáng)化學(xué)習(xí)訓(xùn)練將成績提升至 26.9%,強(qiáng)有力地證明了端到端智能體強(qiáng)化學(xué)習(xí)在提升 Agent 智能方面的巨大潛力。

Kimi-Researcher 還在多個(gè)復(fù)雜且極具挑戰(zhàn)性的實(shí)際基準(zhǔn)測試中表現(xiàn)出色。在 xbench (一款旨在將 AI 能力與實(shí)際生產(chǎn)力相結(jié)合的全新動(dòng)態(tài)、專業(yè)對(duì)齊套件)上,Kimi-Researcher 在 xbench-DeepSearch 子任務(wù)上平均 pass@1 達(dá)到了 69% 的分?jǐn)?shù)(4 次運(yùn)行的平均值),超越了諸如 o3 等帶有搜索工具的模型。在多輪搜索推理(如 FRAMES、Seal-0)和事實(shí)信息檢索(如 SimpleQA)等基準(zhǔn)測試中,Kimi-Researcher 同樣取得了優(yōu)異成績。

image.png

舉個(gè)例子。我們想找一部外國動(dòng)畫電影,但只記得大概劇情:

我想找一部外國的動(dòng)畫電影,講的是一位公主被許配給一個(gè)強(qiáng)大的巫師。我記得她被關(guān)在塔里,等著結(jié)婚的時(shí)機(jī)。有一次她偷偷溜進(jìn)城里,看人們縫紉之類的事情。總之,有一天幾位王子從世界各地帶來珍貴禮物,她發(fā)現(xiàn)其中一位王子為了得到一顆寶珠作為禮物,曾與當(dāng)?shù)厝思ち医粦?zhàn)。她指責(zé)他是小偷,因?yàn)樗麖乃麄兡莾和底吡耸ノ铩?/span>

隨后,一個(gè)巫師說服國王相信她在撒謊,說她被某種邪靈附體,并承諾要為她“凈化”,作為交換條件是娶她為妻。然后巫師用魔法讓她變成一個(gè)成年女子,并把她帶走。他把她關(guān)進(jìn)地牢,但她有一枚可以許三個(gè)愿望的戒指。

由于被施了魔法,讓她失去了逃跑的意志,她把前兩個(gè)愿望浪費(fèi)在了一些愚蠢的東西上,比如一塊布或者一張床之類的……然后她好像逃出來了……并且耍了那個(gè)巫師一把……她后來還找到了一塊可以生出水的石頭……我記得還有人被變成青蛙……

整部電影發(fā)生在一個(gè)有點(diǎn)后末日設(shè)定的世界里,是一個(gè)古老魔法文明崩塌幾百年之后的背景。如果有人知道這是什么電影,請告訴我。我一直在找這部電影,已經(jīng)找了好久了。

Kimi-Researcher 就會(huì)根據(jù)給定的模糊信息進(jìn)行檢索,最終識(shí)別出該電影為《阿瑞特公主》,并一一找出該電影與劇情描述之間的對(duì)應(yīng)關(guān)系。

此外,它還能進(jìn)行學(xué)術(shù)研究、法律與政策分析、臨床證據(jù)審查、企業(yè)財(cái)報(bào)分析等。

Kimi–Researcher 現(xiàn)已開始逐步向用戶推出,可以在 Kimi 內(nèi)實(shí)現(xiàn)對(duì)任意主題的深入、全面研究。月之暗面也計(jì)劃在接下來的幾個(gè)月內(nèi)開源 Kimi–Researcher 所依賴的基礎(chǔ)預(yù)訓(xùn)練模型及其強(qiáng)化學(xué)習(xí)模型。

端到端的智能體強(qiáng)化學(xué)習(xí)

Kimi–Researcher 是一個(gè)自主的智能體與思維模型,旨在通過多步規(guī)劃、推理和工具使用來解決復(fù)雜問題。它利用了三個(gè)主要工具:一個(gè)并行的實(shí)時(shí)內(nèi)部搜索工具;一個(gè)用于交互式網(wǎng)頁任務(wù)的基于文本的瀏覽器工具;以及一個(gè)用于自動(dòng)執(zhí)行代碼的編碼工具。

傳統(tǒng) agent 開發(fā)存在以下幾個(gè)關(guān)鍵限制:

  • 基于工作流的系統(tǒng):多智能體工作流將角色分配給特定智能體,并使用基于提示的工作流進(jìn)行協(xié)調(diào)。雖然有效,但它們依賴于特定的語言模型版本,并且在模型或環(huán)境發(fā)生變化時(shí)需要頻繁手動(dòng)更新,從而限制了系統(tǒng)的可擴(kuò)展性和靈活性。
  • 帶監(jiān)督微調(diào)的模仿學(xué)習(xí)(SFT):模仿學(xué)習(xí)能使模型很好地對(duì)齊人類演示,但在數(shù)據(jù)標(biāo)注方面存在困難,尤其是在具有長時(shí)間跨度、動(dòng)態(tài)環(huán)境中的智能體任務(wù)中。此外,SFT 數(shù)據(jù)集通常與特定工具版本強(qiáng)耦合,導(dǎo)致隨著工具的演變,其泛化能力會(huì)下降。

端到端的智能體強(qiáng)化學(xué)習(xí)(agentic RL)訓(xùn)練的是一個(gè)能夠整體性解決問題的單一模型:給定一個(gè)查詢,智能體會(huì)探索大量可能的策略,通過獲得正確解答的獎(jiǎng)勵(lì)進(jìn)行學(xué)習(xí),并從整個(gè)決策軌跡中總結(jié)經(jīng)驗(yàn)。與監(jiān)督微調(diào)(SFT)不同,端到端方法天然適應(yīng)長程、基于當(dāng)前策略的推理過程,并能動(dòng)態(tài)適應(yīng)工具與環(huán)境的變化;也不同于模塊化方法,它將規(guī)劃、感知、工具使用等能力融合在一個(gè)模型中統(tǒng)一學(xué)習(xí),無需手工編寫規(guī)則或工作流模板。

OpenAI 的 Deep Research 等先前研究也展示了這種方法的強(qiáng)大性能,但它也帶來了新的挑戰(zhàn):

  • 動(dòng)態(tài)環(huán)境:即使面對(duì)相同的查詢,環(huán)境結(jié)果也可能隨時(shí)間發(fā)生變化,智能體必須具備適應(yīng)不斷變化條件的能力。目標(biāo)是實(shí)現(xiàn)對(duì)分布變化的魯棒泛化能力。
  • 長程任務(wù):Kimi–Researcher 每條軌跡可執(zhí)行超過 70 次搜索查詢,使用的上下文窗口長度甚至達(dá)數(shù)十萬 token。這對(duì)模型的記憶管理能力以及長上下文處理能力提出了極高要求。
  • 數(shù)據(jù)稀缺:高質(zhì)量的用于智能體問答的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集非常稀缺。該研究團(tuán)隊(duì)通過自動(dòng)合成訓(xùn)練數(shù)據(jù)的方式解決這一問題,從而實(shí)現(xiàn)無需人工標(biāo)注的大規(guī)模學(xué)習(xí)。
  • 執(zhí)行效率:多輪推理和頻繁工具調(diào)用可能導(dǎo)致訓(xùn)練效率低下,GPU 資源利用不足。優(yōu)化 rollout 效率是實(shí)現(xiàn)可擴(kuò)展、實(shí)用的智能體強(qiáng)化學(xué)習(xí)訓(xùn)練的關(guān)鍵。

研究方法

Kimi–Researcher 是通過端到端的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的。研究團(tuán)隊(duì)在多個(gè)任務(wù)領(lǐng)域中觀察到了智能體性能的持續(xù)提升。圖 2-a 展示了 Kimi–Researcher 在強(qiáng)化學(xué)習(xí)過程中整體訓(xùn)練準(zhǔn)確率的變化趨勢;圖 2-b 則呈現(xiàn)了模型在若干內(nèi)部數(shù)據(jù)集上的性能表現(xiàn)。

image.png

訓(xùn)練數(shù)據(jù)

為了解決高質(zhì)量智能體數(shù)據(jù)集稀缺的問題,研究團(tuán)隊(duì)在訓(xùn)練語料的構(gòu)建上采取了兩種互補(bǔ)的策略。

首先,他們設(shè)計(jì)了一套具有挑戰(zhàn)性的、以工具使用為核心的任務(wù),旨在促進(jìn)智能體對(duì)工具使用的深入學(xué)習(xí)。這些任務(wù)提示被刻意構(gòu)造為必須調(diào)用特定工具才能解決 —— 從而使得簡單的策略要么根本無法完成任務(wù),要么效率極低。通過將工具依賴性融入任務(wù)設(shè)計(jì)中,智能體不僅學(xué)會(huì)了何時(shí)調(diào)用工具,也學(xué)會(huì)了在復(fù)雜的現(xiàn)實(shí)環(huán)境中如何高效協(xié)同使用多種工具。(圖 3 展示了在這些訓(xùn)練數(shù)據(jù)中,模型對(duì)工具的調(diào)用頻率。)

image.png

其次,他們策劃并整合了一批以推理為核心的任務(wù),旨在強(qiáng)化智能體的核心認(rèn)知能力,以及其將推理與工具使用結(jié)合的能力。該部分進(jìn)一步細(xì)分為以下兩類:

  • 數(shù)學(xué)與代碼推理:任務(wù)聚焦于邏輯推理、算法問題求解和序列計(jì)算。Kimi–Researcher 不僅依賴思維鏈進(jìn)行解題,還能結(jié)合工具集解決這類復(fù)雜問題。
  • 高難度搜索:這類任務(wù)要求智能體在上下文限制下進(jìn)行多輪搜索、信息整合與推理,最終得出有效答案。案例研究表明,這些高難搜索任務(wù)促使模型產(chǎn)生更深層的規(guī)劃能力,以及更健壯、工具增強(qiáng)的推理策略。

為了大規(guī)模構(gòu)建這一多樣化提示集,研究團(tuán)隊(duì)開發(fā)了一條全自動(dòng)數(shù)據(jù)生成與驗(yàn)證流程,可在極少人工干預(yù)下生成大量問答對(duì),同時(shí)保證數(shù)據(jù)的多樣性與準(zhǔn)確性。對(duì)于合成任務(wù)而言,確保「準(zhǔn)確的標(biāo)準(zhǔn)答案(ground truth, GT)」至關(guān)重要,因此他們引入了一種強(qiáng)大的 GT 提取方法,以盡可能確保每個(gè)問題都配有可靠的答案。

此外,他們還設(shè)計(jì)了嚴(yán)格的過濾流程,以剔除歧義、不嚴(yán)謹(jǐn)或無效的問答對(duì);其中引入的 Pass@N 檢查機(jī)制,可確保僅保留具有挑戰(zhàn)性的問題。圖 4 展示了基于兩項(xiàng)實(shí)驗(yàn)結(jié)果的合成任務(wù)效果評(píng)估。

強(qiáng)化學(xué)習(xí)訓(xùn)練

該模型主要采用 REINFORCE 算法進(jìn)行訓(xùn)練。以下因素有助于提升訓(xùn)練過程的穩(wěn)定性:

  • 基于當(dāng)前策略的數(shù)據(jù)生成(On-policy Training):生成嚴(yán)格的 on-policy 數(shù)據(jù)至關(guān)重要。在訓(xùn)練過程中,研究團(tuán)隊(duì)禁用了 LLM 引擎中的工具調(diào)用格式強(qiáng)制機(jī)制,確保每條軌跡完全基于模型自身的概率分布生成。
  • 負(fù)樣本控制(Negative Sample Control):負(fù)樣本會(huì)導(dǎo)致 token 概率下降,從而在訓(xùn)練中增加熵崩塌(entropy collapse)的風(fēng)險(xiǎn)。為應(yīng)對(duì)這一問題,他們策略性地丟棄部分負(fù)樣本,使模型能夠在更長的訓(xùn)練周期中持續(xù)提升表現(xiàn)。

Kimi–Researcher 使用基于最終結(jié)果的獎(jiǎng)勵(lì)機(jī)制進(jìn)行訓(xùn)練,以在動(dòng)態(tài)訓(xùn)練環(huán)境中保持一致的偏好方向。

  • 格式獎(jiǎng)勵(lì)(Format Reward):如果軌跡中包含非法的工具調(diào)用,或上下文 / 迭代次數(shù)超出限制,模型將受到懲罰。
  • 正確性獎(jiǎng)勵(lì)(Correctness Reward):對(duì)于格式合法的軌跡,獎(jiǎng)勵(lì)依據(jù)模型輸出與標(biāo)準(zhǔn)答案(ground truth)之間的匹配程度進(jìn)行評(píng)估。

為了提升訓(xùn)練效率,研究團(tuán)隊(duì)在正確軌跡上引入了 gamma 衰減因子(gamma-decay factor)。該機(jī)制鼓勵(lì)模型尋找更短、更高效的探索路徑。例如,兩條最終結(jié)果相同的正確軌跡,較短的那一條將因其前期行為更高效而獲得更高獎(jiǎng)勵(lì)。

上下文管理

在長程研究任務(wù)中,智能體的觀察上下文可能會(huì)迅速膨脹。如果沒有有效的記憶管理機(jī)制,普通模型在不到 10 次迭代內(nèi)就可能超過上下文限制。為了解決這一問題,研究團(tuán)隊(duì)設(shè)計(jì)了一套上下文管理機(jī)制,使模型能夠保留關(guān)鍵信息,同時(shí)舍棄無用文檔,從而將單條軌跡的迭代次數(shù)擴(kuò)展至 50 次以上。

早期的消融實(shí)驗(yàn)表明,引入上下文管理機(jī)制的模型迭代次數(shù)平均提升了 30%,這使其能夠獲取更多信息,進(jìn)而實(shí)現(xiàn)更優(yōu)的任務(wù)表現(xiàn)。

大規(guī)模智能體RL infra

為應(yīng)對(duì)大規(guī)模智能體強(qiáng)化學(xué)習(xí)在效率與穩(wěn)定性方面的挑戰(zhàn),研究者構(gòu)建了一套具備以下關(guān)鍵特性的基礎(chǔ)設(shè)施體系:

image.png

  • 完全異步的 rollout 系統(tǒng):實(shí)現(xiàn)了一個(gè)具備擴(kuò)展性、類 Gym 接口的全異步 rollout 系統(tǒng)。基于服務(wù)端架構(gòu),該系統(tǒng)能夠高效并行協(xié)調(diào)智能體的軌跡生成、環(huán)境交互與獎(jiǎng)勵(lì)計(jì)算。相較于同步系統(tǒng),這一設(shè)計(jì)通過消除資源空轉(zhuǎn)時(shí)間顯著提升了運(yùn)行效率。
  • 回合級(jí)局部回放(Turn-level Partial Rollout):在 Agent RL 訓(xùn)練中,大多數(shù)任務(wù)可在早期階段完成,但仍有一小部分任務(wù)需要大量迭代。為解決這一長尾問題,研究者設(shè)計(jì)了回合級(jí)局部回放機(jī)制。具體來說,超出時(shí)間預(yù)算的任務(wù)將被保存至 replay buffer,在后續(xù)迭代中以更新后的模型權(quán)重繼續(xù)執(zhí)行剩余部分。配合優(yōu)化算法,該機(jī)制可實(shí)現(xiàn)顯著的 rollout 加速(至少提升 1.5 倍)。

強(qiáng)大的沙盒環(huán)境:研究者構(gòu)建了統(tǒng)一的沙盒架構(gòu),在保持任務(wù)隔離性的同時(shí),消除了容器間通信開銷。基于 Kubernetes 的混合云架構(gòu)實(shí)現(xiàn)了零停機(jī)調(diào)度與動(dòng)態(tài)資源分配。Agent 與工具之間通過 MCP(Model Context Protocol)進(jìn)行通信,支持有狀態(tài)會(huì)話與斷線重連功能。該架構(gòu)支持多副本部署,確保在生產(chǎn)環(huán)境中具備容錯(cuò)能力與高可用性。

智能體能力的涌現(xiàn)

在端到端強(qiáng)化學(xué)習(xí)過程中,研究者觀察到 Kimi–Researcher 出現(xiàn)了一些值得關(guān)注的能力涌現(xiàn)。

  • 面對(duì)多來源信息沖突時(shí),Kimi–Researcher 能通過迭代假設(shè)修正與自我糾錯(cuò)機(jī)制來消除矛盾,逐步推導(dǎo)出一致且合理的結(jié)論。
  • 展現(xiàn)出謹(jǐn)慎與嚴(yán)謹(jǐn)?shù)男袨槟J剑杭幢忝鎸?duì)看似簡單的問題,Kimi–Researcher也會(huì)主動(dòng)進(jìn)行額外搜索,并交叉驗(yàn)證信息后再作答,體現(xiàn)出高度可靠性與信息安全意識(shí)。

更詳細(xì)的內(nèi)容,可參閱原文。


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2017-07-10 11:41:27

人類人工智能未來

2020-04-21 15:59:52

戴爾

2013-01-24 11:03:30

2025-02-24 13:50:00

算力AI開源

2016-10-26 08:36:16

2022-11-06 15:56:50

2021-07-06 12:27:36

混合云多云云計(jì)算

2021-08-01 22:42:57

區(qū)塊鏈互聯(lián)網(wǎng)技術(shù)

2017-03-20 19:40:29

AndroidSwipeRefres下拉刷新

2014-12-15 10:34:14

2018-01-26 09:12:41

技術(shù)沙龍Tech Neo運(yùn)維

2017-05-31 10:07:50

戴爾100天修行

2015-05-26 15:17:44

OpenStack

2013-10-18 13:48:04

Ubuntu消失

2011-03-08 11:42:56

2021-04-22 14:30:20

自動(dòng)駕駛特斯拉智能

2019-06-12 15:27:53

加密貨幣幣市互聯(lián)網(wǎng)

2023-03-20 17:43:35

ChatGPT教育

2023-03-07 17:53:00

NPS調(diào)研

2025-05-13 09:21:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕一区二区三区在线观看 | 蜜桃在线一区二区三区 | 久久久成人网 | 91xx在线观看 | 午夜激情在线 | 久久精彩视频 | 一级做a爰片性色毛片视频停止 | 亚洲综合国产 | 成人在线观看欧美 | 欧美一级一 | 欧美日韩久久久 | 国产精品久久久久一区二区三区 | 激情五月婷婷在线 | 欧美精品首页 | 黄色一级毛片免费看 | 久久久久国产精品一区二区 | 毛片网在线观看 | 天天干天天爱天天 | 福利视频日韩 | 亚洲精品99 | 亚洲福利精品 | 天天干天天玩天天操 | 韩日精品在线观看 | 日本精品久久 | 欧美精品久久久 | 精品国产视频 | av毛片免费 | 国产精品射 | av大片 | 天天插天天操 | 日韩国产精品一区二区三区 | 欧美一区二区在线 | 午夜精品久久久久久久久久久久久 | 天天操天天拍 | 第四色播日韩第一页 | 91最新视频 | 狠狠操av | 日日骚网| 在线观看你懂的网站 | 啪一啪在线视频 | 欧美成人自拍视频 |