成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

重磅!淘天聯合愛橙開源強化學習訓練框架ROLL,高效支持十億到千億參數大模型訓練

人工智能 新聞
近日,淘天集團攜手愛橙科技正式開源了全新一代強化學習訓練框架?ROLL(Reinforcement Learning?Optimization for?Large-scale?Learning)。ROLL 以用戶體驗為核心設計理念,專為「高效?可擴展?易用」而打造,徹底打通從小模型到 600B+ 超大模型的 RL 訓練落地路徑。

過去幾年,隨著基于人類偏好的強化學習(Reinforcement Learning from Human Feedback,RLHF)的興起,強化學習(Reinforcement Learning,RL)已成為大語言模型(Large Language Model,LLM)后訓練階段的關鍵技術。RL 不僅顯著提升了模型的對齊能力,也拓展了其在推理增強、智能體交互等場景下的應用邊界。圍繞這一核心范式,研究社區不斷演化出多種優化策略和算法變體,如 Agentic RL、RLAIF、GRPO、REINFORCE++ 等。這些新興范式雖然形式各異,但底層需求高度一致:幾乎都涉及多模塊協同(Actor、Critic、Reward、Ref)與多階段流程(生成、推理、訓練)的高效調度。這也對訓練框架提出了更高的要求:不僅要支持大規模模型的高效訓練,還需具備良好的可擴展性與開發友好性。因此,一套真正高效、可擴展且用戶友好的 RL 系統框架,成為業界剛需。

近日,淘天集團攜手愛橙科技正式開源了全新一代強化學習訓練框架 ROLL(Reinforcement Learning Optimization for Large-scale Learning)。ROLL 以用戶體驗為核心設計理念,專為「高效?可擴展?易用」而打造,徹底打通從小模型到 600B+ 超大模型的 RL 訓練落地路徑。

ROLL 在諸如人類偏好對齊、復雜推理和多輪自主交互場景等關鍵領域顯著提升了大語言模型的性能,同時具備超高的訓練效率,目前 ROLL 已成功應用在多個淘天集團內部業務場景, 為業務創新提供了強大的技術支持。

圖片

  • 開源項目:https://github.com/alibaba/ROLL
  • 論文標題:Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library
  • 論文地址:https://arxiv.org/pdf/2506.06122

總體而言,ROLL 具有以下關鍵特性:

  • 多任務強化學習:內置豐富的 RL 任務支持,涵蓋數學、代碼、通用推理、開放式問答、指令遵循等,一套訓練循環即可多領域聯合優化,采樣率與數據權重可靈活動態調整。
  • 智能體強化學習(Agentic RL):原生支持多環境、多角色智能體 - 環境交互(游戲、多輪對話等),并具有靈活的并行化和內置管理功能,可滿足多種任務需求。
  • 算法友好:提供靈活且豐富的 RL 策略配置,包括但不限于多種減小方差的 baseline、不同獎勵標準化方式和 data mask 策略等,同時也開箱即用地支持 PPO、GRPO、Reinforce++ 等算法。
  • 豐富的訓推引擎:靈活支持 vLLM、SGLang、Megatron-Core、DeepSpeed 等主流推理 / 訓練引擎, 參數透傳,無需修改底層代碼直接適配不同版本。
  • 彈性資源調度與分布式并行:基于 Ray 的多角色分布式架構,靈活資源分配,訓練無縫支持 MegatronCore 5D (DP / TP / PP / CP / EP)并行高效利用異構硬件,從單機到千卡集群均能輕松運行。
  • 極致易用與模塊化擴展:Rollout Scheduler、AutoDeviceMapping 等關鍵模塊極大簡化 pipeline 開發和調試,支持按需組合套件,后端推理 / 訓練引擎自由切換。
  • 樣本級調度與動態采樣:樣本級 Rollout 生命周期調度機制,支持異步獎勵計算、動態采樣、按樣本裁剪與 EarlyStopping,顯著提升訓練效率與資源利用率。
  • 可觀察性:集成了 wandb / swandb / tensorboard,支持實時跟蹤每個領域、每個策略、每個獎勵的性能 —— 從高層概況到細粒度診斷。

目前,該項目已經在 GitHub 上收獲了 1000+ star。

圖片

面向用戶友好設計的 ROLL

ROLL 是一款面向用戶友好設計的強化學習框架。具體來說,ROLL 從一開始就考慮了三類用戶訴求,即:技術先驅者、產品開發者和算法研究者。

  • 對于技術先驅者,支持異構大規模 GPU 集群下的彈性擴展與容錯,能夠在上千卡環境下持續穩定地完成 600B+ 大模型訓練,極大降低訓練成本和中斷風險。
  • 對于產品開發者,可靈活配置獎勵函數、環境、采樣比例與數據配比,輕松實現各種任務場景的 RL 訓練落地。
  • 對于算法研究者,單卡 / 少卡資源下也能高效實驗,所有模塊高度抽象,極易實現自定義 RL 算法、獎勵與環境,極大縮短從想法到驗證的周期。

圖片

ROLL 針對三大用戶群體設計

ROLL 的技術細節

那么,ROLL 是如何做到的呢?具體來說以下多項創新:

  • 基于《Hybridflow: A flexible and efficient rlhf framework》中提出的單控制器架構,該團隊引入了定義良好的并行工作器(Parallel Worker)抽象,可實現靈活且模塊化的強化學習訓練流程,從而簡化了新想法的實驗過程。
  • 引入了優化后的并行策略(Parallel Strategy)和數據傳輸(Data Transfer)模塊,從而可以在資源受限設備上執行,還能實現快速、可擴展且容錯的訓練。
  • 為了在生成階段對每個提示詞樣本的生命周期進行細粒度的管理,該團隊提供了 Rollout 調度器,可以簡化響應生成、環境交互和獎勵計算之間的流程編排。
  • 該團隊專門設計了環境(Environment)工作器和獎勵(Reward)工作器,可以提供高效且可擴展的智能體環境交互和獎勵計算。
  • 該團隊還實現了資源池(Resource Pool),并利用了 AutoDeviceMapping 來實現高效的工作器調度和資源的優化分配。

下圖展示了 ROLL 的整體架構。ROLL 接收的輸入是用戶定義的強化學習數據流及其相關配置。基于這些輸入,分布式執行器和調度器可協調管理各類工作節點和調度節點。 而 AutoDeviceMapping 模塊則負責管理已分配資源池中的計算資源,并高效地將工作節點和調度節點綁定到其分配的資源上。

圖片

ROLL 的架構,由用戶輸入層、分布式執行器和調度器、Auto Device Mapping 模塊以及資源池組成。

而在運行時,ROLL 首先會根據提供的設備配置,分配由 GPU 和 CPU 資源組成的資源池。在 RL 數據流的指導下,系統會創建一個 Rollout 調度器和多個并行工作器。其中,Rollout 調度器負責管理生成階段中每個提示詞樣本請求的生命周期。

然后,根據訓練和模型配置,ROLL 會實例化并行策略,以決定每個并行工作器的并行策略和執行后端。一旦并行工作器建立完成,ROLL 將依據用戶指定的設備映射配置,調用 AutoDeviceMapping 模塊,從資源池中為各個并行工作器分配相應的計算資源。如下圖所示:

圖片

ROLL 的運行時設置和訓練工作流程

接下來,進入訓練迭代。在生成階段,首先將一批樣本送入 Rollout 調度器以生成響應。在此過程中,Actor 模型可能會與環境工作器進行交互,以實現智能體強化學習任務中的多輪環境互動。同時,系統也會調用獎勵工作器來計算獎勵信號,從而支持高級采樣技術(例如動態采樣)以提升采樣效率。

在接下來的推理階段,會執行 Critic、Reward 和 Ref 模型(前提是這些模塊已在 RL 數據流圖中啟用)的前向傳播。隨后,遷移協議會對生成階段輸出的響應進行分片,并將其分發給各個活躍的并行工作器。 

在訓練階段,Critic 和 Actor 模型利會用已準備好的獎勵信號更新各自的參數。此外,在下一輪訓練迭代中,Actor 模型還會通過 ModelUpdateGroup 與生成階段同步模型參數,確保訓練與生成過程的一致性。

另外,ROLL 也支持 wandb、swandb、TensorBoard 等實驗可視化方案。更多技術細節請訪問原論文。

ROLL 的實驗表現

在 Qwen2.5-7B-base 與 Qwen3-30B-A3B-base 等模型上,ROLL 取得了顯著的跨領域多任務性能提升。例如,在 RLVR pipeline 訓練下,Qwen2.5-7B-Base 的整體準確率從 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 準確率從 0.27 提升至 0.62(2.30 倍),這兩個模型在 ROLL 的支持下均展現了穩定且一致的準確率提升,且未發生模型崩潰等異常現象,展現了 ROLL 極佳的穩健性和實用性。

圖片

Qwen2.5-7B-base 在不同領域上的準確度表現。

圖片

Qwen3-30B-A3B-base 在不同領域上的準確度表現。

除了標準 RL 流程,ROLL 在智能體交互場景中同樣展現了強大的穩健性。研發團隊在三個典型環境下對 ROLL 的泛化性與適應性進行了實證驗證:

  • Sokoban(推箱子):在經典網格推箱子任務中,模型在訓練集上的成功率從 16.8% 提升至 26.0%,驗證集成功率從 13.3% 提升至 35.2%。表明智能體在多輪決策與空間規劃方面能力顯著增強。此外,該訓練結果具備良好的跨任務遷移能力,能有效泛化至其他環境如 FrozenLake。

圖片

圖片

在 SimpleSokoban 環境訓練的性能變化趨勢,SuccessRate 表示達到目標的成功率 EffectiveActionRate 表示執行有效動作的比例。

  • FrozenLake(冰凍湖): 訓練成功率從 16.8% 提升至 26.0%,有效動作占比從 69.1% 提升至 88.8%;驗證集成功率也從 12.9% 升至 23.8%。

圖片

圖片在 FrozenLake 環境訓練的性能變化趨勢。

  • WebShop(網頁購物):在模擬真實購物任務中,訓練和驗證集上的成功率從 37% 大幅提升至超過 85%。同時,平均每輪交互動作數從 7 降至 4,表明模型在復雜自然語言指令下逐步學會了高效完成目標任務,體現出較佳的操作效率和指令理解能力。

圖片

在 WebShop 環境上的準確度趨勢。

ROLL 仍在進化

ROLL 已在 GitHub 上線,并在短時間內收獲大量 star。項目仍在持續迭代,未來將支持 Qwen2.5 VL Agentic RL、一步式異步 pipeline、FSDP2、DeepSeekV3 等新特性,歡迎關注并參與共建。

  • 項目主頁:https://github.com/alibaba/ROLL
  • 論文介紹:https://arxiv.org/pdf/2506.06122

開源精神是推動技術發展的核心引擎,ROLL 研發團隊期待更多優質人才加入。這里既有技術攻堅的硬核挑戰,也有共創未來的無限可能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-05 08:40:00

2023-05-04 15:53:34

強化學習開發

2021-07-22 15:25:14

開源技術 框架

2021-04-26 15:41:02

計算

2024-11-01 13:30:56

2023-05-05 17:49:23

2025-02-17 10:40:20

2023-09-12 13:43:00

智能技術

2025-01-14 13:20:56

2025-04-02 09:00:00

模型開源AI

2023-08-28 06:52:29

2025-05-28 02:25:00

2025-06-06 09:10:00

模型開源AI

2022-11-02 14:02:02

強化學習訓練

2025-04-01 09:00:00

模型訓練開源

2023-09-25 07:31:19

算力AI框架

2024-12-18 07:20:00

2018-03-09 09:00:00

前端JavaScript機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区电影 | 国产成人99av超碰超爽 | 欧美色综合天天久久综合精品 | 一区二区三区中文 | 看av电影 | 一区观看 | 中文字幕亚洲无线 | 国产精品久久久久久久久免费软件 | 国产精品日产欧美久久久久 | 在线播放中文字幕 | 国产精品久久久久久福利一牛影视 | 精品国产91亚洲一区二区三区www | 久久99精品国产 | 国产成人精品a视频 | 成年人视频在线免费观看 | 日韩精品视频在线观看一区二区三区 | 久久久久黄色 | 成人免费视频一区二区 | 国产日韩欧美在线 | 久久久久久成人 | 91极品尤物在线播放国产 | 视频在线一区二区 | 亚洲不卡在线观看 | 蜜桃毛片| 久久综合狠狠综合久久综合88 | 色婷婷一区二区三区四区 | www久久国产| 精品久久久久久久久久久久久久久久久 | 我想看一级黄色毛片 | 亚洲午夜av久久乱码 | 成人毛片在线视频 | 国产色网站 | 日韩欧美三级 | 午夜精品久久久久久久99黑人 | 国产一区二区三区在线看 | 日韩欧美国产不卡 | 成人国产精品久久久 | 久久久久久久久久久91 | 黄色91在线| 亚洲网一区 | 中文字幕1区2区3区 日韩在线视频免费观看 |