成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

200美金,人人可手搓QwQ,清華、螞蟻開源極速RL框架AReaL-boba

人工智能 新聞
本周,螞蟻技術(shù)研究院和清華大學交叉信息院吳翼團隊,聯(lián)合發(fā)布了訓練速度最快最穩(wěn)定的開源強化學習訓練框架 AReaL(Ant Reasoning RL),并公開全部數(shù)據(jù)和完成可復現(xiàn)的訓練腳本。

由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)帶來了新的 post-training scaling law,強化學習(RL,Reinforcement Learning)成為了大語言模型能力提升的新引擎。然而,針對大語言模型的大規(guī)模強化學習訓練門檻一直很高:

  • 流程復雜、涉及模塊多(生成、訓練、獎勵判定等),為實現(xiàn)高效穩(wěn)定的分布式訓練帶來很多挑戰(zhàn);
  • R1/o1 類推理模型的輸出長度很長(超過 10K),并且隨著訓練持續(xù)變化,很容易造成顯存和效率瓶頸;
  • 開源社區(qū)缺乏高質(zhì)量強化學習訓練數(shù)據(jù),以及完整可復現(xiàn)的訓練流程。

本周,螞蟻技術(shù)研究院和清華大學交叉信息院吳翼團隊,聯(lián)合發(fā)布了訓練速度最快最穩(wěn)定的開源強化學習訓練框架 AReaL(Ant Reasoning RL),并公開全部數(shù)據(jù)和完成可復現(xiàn)的訓練腳本。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型數(shù)學推理分數(shù)刷新同尺寸模型 AIME 分數(shù)紀錄,并且僅僅使用 200 條數(shù)據(jù)復刻 QwQ-32B,以不到 200 美金成本實現(xiàn)最強推理訓練效果。

關(guān)于 AReaL-boba

AReaL 源自開源項目 ReaLHF,旨在讓每個人都能用強化學習輕松訓練自己的推理模型和智能體。AReaL 承諾完全開放與可復現(xiàn),團隊將持續(xù)發(fā)布與訓練 LRM 相關(guān)的所有代碼、數(shù)據(jù)集和訓練流程。所有核心組件全部開源,開發(fā)者可無阻礙地使用、驗證和改進 AReaL。

本次最新版本「boba」的命名一方面源自團隊對珍珠奶茶的偏愛,另一面也是希望強化學習技術(shù)能如奶茶成為大眾飲品一般,滲透至 AI 開發(fā)的每個日常場景,普惠整個社區(qū)。

AReaL-boba 發(fā)布亮點

訓練速度最快的開源框架

AReaL-boba 是首個全面擁抱 xAI 公司所采用的 SGLang 推理框架的開源訓練系統(tǒng),對比初代 AReaL 訓練大幅度提升訓練吞吐:通過集成 SGLang 框架及多項工程優(yōu)化,AReaL-boba 可以無縫適配各種計算資源下的強化學習訓練,實現(xiàn)吞吐在 1.5B 模型尺寸上速度提升 35%,在 7B 模型速度提升 60%,32B 模型速度提升 73%。

圖片

圖 1:AreaL-boba 對比初代 AReaL 訓練大幅度提升訓練吞吐

使用 AReaL-boba 即可以 128 張 H800 規(guī)模在 1 天內(nèi)訓練完成 SOTA 1.5B 推理模型,以 256 張 H800 規(guī)模在 2 天內(nèi)完成 SOTA 7B 推理模型訓練。

AReaL 希望讓整個社區(qū)不論單機器,還是大規(guī)模分布式訓練,都可以輕松高效率駕馭強化學習。

7B 模型數(shù)學推理分數(shù)斷崖領(lǐng)先

AReaL 團隊以 Qwen-R1-Distill-7B 模型為基礎(chǔ)模型,通過大規(guī)模強化學習訓練,即可在 2 天內(nèi)取得領(lǐng)域最佳的數(shù)學推理能力,實現(xiàn) AIME 2024 61.9 分、AIME 2025 48.3 分,刷新開源社區(qū)記錄,也大幅超越了 OpenAI o1-preview。相比基礎(chǔ)模型,AReaL-boba 通過強化學習讓模型能力實現(xiàn)躍升 —— 在 AIME 2024 上提升 6.9 分,在 AIME 2025 提升 8.6 分 —— 再次證明了 RL Scaling 的價值。

圖片

表 1: 同類參數(shù)模型的不同基準測試分數(shù)

同時 AReaL-boba 不僅開源了推理模型,也開源所有的訓練數(shù)據(jù) AReaL-boba-106k,以及全部的訓練腳本和評估腳本,確保人人可復現(xiàn)。在項目官方倉庫上,AReaL 團隊也放出了極其詳細的技術(shù)筆記,總結(jié)了大量訓練中的關(guān)鍵點,包括 PPO 超參數(shù)、獎勵函數(shù)設(shè)置、正則化設(shè)置、長度上限設(shè)置等等。 

通過創(chuàng)新性數(shù)據(jù)蒸餾技術(shù),200 條數(shù)據(jù)復現(xiàn) QwQ-32B

在 32B 模型尺寸上,AReaL 團隊進一步精簡訓練數(shù)據(jù)并發(fā)布數(shù)據(jù)集 AReaL-boba-SFT-200 以及相關(guān)訓練腳本。基于 R1-Distill-Qwen-32B,AReaL-boba 使用僅僅 200 條數(shù)據(jù)并以輕量級 SFT 的方式,在 AIME 2024 上復刻了 QwQ-32B 的推理結(jié)果,相當于僅僅使用了 200 美金的計算成本,讓所有人都可以以極低的成本實現(xiàn)最強的推理訓練效果。

圖片

表 2:同類參數(shù)模型的 AIME 2024 分數(shù)

結(jié)語

AReaL 團隊的核心成員均來自于螞蟻研究院強化學習實驗室以及交叉信息研究院吳翼團隊,項目也借鑒了大量優(yōu)秀的開源項目,比如 DeepScaleR、SGLang、QwQ、Open-Reasoner-Zero、OpenRLHF、veRL、Light-R1 和 DAPO。作為國內(nèi)第一個完整開源(數(shù)據(jù)、代碼、模型、腳本全開源)的強化學習項目團隊,AReaL 希望能真正實現(xiàn) AI 訓練的普惠。

AReaL 團隊在項目列表中也列出了團隊后續(xù)的開源計劃和目標,包括異步訓練、訓練吞吐優(yōu)化、數(shù)據(jù)集和算法升級,以及代碼和 Agent 智能體能力支持。讓我們期待 AReaL 團隊的下一個 release,猜猜是哪一款奶茶呢?

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-02 09:00:00

模型開源AI

2025-06-06 09:10:00

模型開源AI

2025-03-19 09:15:00

AI算法模型

2024-07-09 09:36:17

2022-07-05 07:59:00

VSCode開源項目

2009-02-26 18:35:43

2025-03-10 09:20:00

2022-07-05 14:26:36

隱私計算開源

2024-08-01 17:20:55

2011-11-04 15:03:36

照片客戶端人人飛傳

2011-09-27 07:26:33

程序員

2012-04-10 17:37:57

2025-05-28 11:55:56

模型開源框架

2025-06-05 08:40:00

2024-01-29 13:56:55

AI數(shù)據(jù)

2025-06-20 08:40:32

2025-01-23 13:05:42

2015-03-13 11:24:28

開源

2023-04-13 15:32:09

數(shù)據(jù)集開源
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: av超碰 | 久久国产精品久久久久久 | 欧美激情综合 | 美女一级毛片 | 欧美一区中文字幕 | 在线视频91 | 亚洲精品中文在线观看 | 夜夜爽99久久国产综合精品女不卡 | 国产黄色在线观看 | 欧美精品在线免费观看 | av天天操 | 在线免费毛片 | 狠狠狠干 | 国产免费一区二区 | 自拍第1页| 久久久精品网 | 色婷婷精品国产一区二区三区 | 97国产爽爽爽久久久 | 人人射人人插 | 成人欧美一区二区三区在线播放 | 精品九九久久 | 日韩午夜一区二区三区 | 国产一级片一区二区 | 亚洲精品一区中文字幕乱码 | 日韩一区二区三区四区五区 | 久草资源在线 | 91影院 | 在线免费视频一区 | 不用播放器看的av | 欧美日韩亚洲系列 | 美女视频网站久久 | 国产精品揄拍一区二区 | 97超碰站 | 国产一级片一区二区 | 久久神马 | www.精品国产 | 国产精品成人一区二区 | 男女国产视频 | 欧美福利 | 狠狠干网站 | 爱操影视 |