成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RL后訓練步入超節點時代!華為黑科技榨干算力,一張卡干倆活

人工智能 新聞
RL后訓練已成為大模型性能突破的「殺手锏」,而算力浪費和集群效率低成為一大難題。這次,華為團隊祭出兩大黑科技直接破局。不僅在CloudMatrix 384超節點實現MoE大模型訓推共卡,資源利用率翻倍,還打破了同步算法限制,讓訓練速度再提升50%。

在大模型競賽白熱化的當下,「強化學習后訓練」已成為突破LLM性能天花板的核心路徑。

爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后訓練點石成金。

相較于預訓練階段的「廣撒網」式知識獲取,RL 后訓練通過驅動模型與外部環境進行動態交互,直接塑造了LLM在復雜任務中的推理效能。

當前,RL后訓練階段已經吃掉了訓練全流程20%的算力,未來會飆升到50%,直接影響模型的性能和成本。

在傳統RL后訓練中,訓練和推理得排隊干活,也就說大量算力都在「摸魚」。

對此,華為團隊拿出「RL Fusion訓推共卡」和「StaleSync準異步并行」兩大黑科技,把訓練效率和資源利用率拉滿。

· RL Fusion: 讓一張卡同時兼顧訓練和推理兩件事,資源利用率和吞吐翻倍。 

· StaleSync :打破了同步限制,讓集群擴展效率超90%,訓練吞吐再提50%。

CloudMatrix超節點,就像大模型的「超級加速器」,讓百億、甚至千億級模型訓練更快更省。

至此,大模型強化學習訓練正式邁入超節點時代!

RL后訓練「算力黑洞」

如今,強化學習,已成為激活大模型推理思考能力的關鍵buff。

不論是語言模型的對話優化,還是多模態模型的復雜任務適配,RL后訓練都在提升模型精度、泛化性、用戶體驗方面,發揮著不可替代的作用。

然而,這種性能提升的代價是巨大的算力需求。

尤其是在現有主流On-Policy算法下,訓練與推理的嚴格交替導致了資源利用率低下。

總的來說,RL后訓練作為大模型訓練最后沖刺階段,面臨著兩大不容忽視的挑戰。

  • On-Policy算法的同步枷鎖

在大模型后訓練過程中,Actor模型的訓練與推理(生成)過程構成主要負載。

在傳統「訓推分離」架構下,主流的On-Policy策略要求訓練和推理任務交替執行,互相等待,導致大量計算資源處于閑置狀態。

這種「輪流休息」的模式,在小規模集群場景下已然造成顯著浪費,若在千卡/萬卡集群中更是放大為「算力黑洞」,推高了LLM后訓練成本。

因此,訓推共卡技術,成為提升集群資源利用率的核心突破口。

  • 大規模集群的擴展困境

另一方面,隨著MoE模型普及,專家并行(EP)、張量并行(TP)、數據并行(DP)等多模型異構并行策略組合,使得任務調度復雜度呈指數級增長。

而現有框架在大規模集群中,難以讓其實現高效協同,進而導致了擴展效率顯著下降。

如何通過軟硬協同打破資源瓶頸,釋放潛在的紅利,成為華為團隊聚焦突破的關鍵方向。

RL Fusion

一卡干倆活,利用率吞吐翻倍

針對RL后訓練資源利用率低的問題,華為團隊深入剖析異構模型和多任務場景的負載特點,提出了創新性的RL Fusion訓推共卡技術。

簡單來說,就是讓一張卡既做訓練又做推理,效率直接翻倍。

RL Fusion支持訓練推理共卡、全共卡等多種靈活部署模式(如圖1),可實現推理階段資源調度的精細化可控管理。

它還支持張量并行(TP)、數據并行(DP)、流水線并行(PP)等多維并行策略的動態無縫切換,實現計算資源「一箭雙雕」,即在同一計算資源上執行Actor模型生成和訓練2個任務。

圖片

圖1:訓推分離、訓推共卡、全共卡部署計算資源利用情況示意圖

值得一提的是,在小規模場景下,RL Fusion還能把Reference及Reward模型的資源「榨干」,進一步實現「一箭四雕」,效率直接拉滿。

此外,針對大規模高稀疏比MoE模型,華為通過對訓推態內存進行極致分析,首次提出了訓推內存0冗余切換,實現訓推EP動態切換,如圖2所示。

圖片

圖2:MoE大模型訓推EP動態變化示意圖

在訓練態及推理態切換過程中,通過「分桶」管理參數,可消除由于EP變化造成的冗余內存。

同時,推理時把訓練的優化器及梯度,完全卸載到主機側,盡可能將NPU內存留給推理態,保證長序列下推理階段吞吐(如圖3所示)。

圖片

圖3:MoE大模型訓推訓推內存0冗余切換技術示意圖

不僅如此,通過對訓推共卡中權重通信、內存加卸載進行系統性優化后,訓推切換過程優化到秒級,快如閃電。

由此,RL Fusion能讓強化學習后訓練集群利用率倍增,成本省一大截。

StaleSync

水平擴展效率超90%,訓練吞吐再提50%

針對大規模集群擴展性低的問題,華為團隊摒棄全同步迭代方式,設計了準異步機制StaleSync(如圖4所示)。

StaleSync機制能容忍梯度「陳舊性」,讓不同RL階段的任務在「陳舊度閾值」內并行執行。

這使得CloudMatrix 384超節點的水平擴展效率超90%。

圖片

圖4:StaleSync準異步并行技術示意圖

這一創新得益于對RL計算任務的細致分析。

在RL訓練中,研究團隊發現,不同計算任務的算力需求各異。

基于這一特點,新的后訓練系統結合了共置和分離架構的優勢,平衡了各個RL計算任務的資源需求,從而提高了整體硬件資源的利用率。

圖片

圖5:共置/分離架構下同策訓練方案示意圖和缺點

此外,在Actor Rollout過程中,長尾樣本的存在導致了效率的降低。

為了解決此問題,新系統引入了準異步調度機制:

當生成結束的樣本達到一定閾值時,數據立刻流向下一階段的計算任務,允許未完成的推理樣本的訓練存在一定滯后性,從而提高了整體后訓練吞吐。

在保證模型精度的前提下,StaleSync方案使系統整體訓練吞吐量提升了50%。

背后功臣:數據隊列DistQueue

為了滿足StaleSync的數據調度與管理要求,研究團隊專門設計了分布式數據隊列DistQueue。

DistQueue實現了不同計算任務之間數據的拆分、緩存與動態讀取。

為了提高通信效率,DistQueue采取了分層數據傳輸零冗余通信兩項技術,緩解了數據系統壓力。

以Pangu 718B-MoE訓練并行策略為例(TP8,EP4,PP16),引入分層數據傳輸可將DistQueue的負載降低為1/128,從而支持后訓練規模的進一步擴展。

圖片

圖6:分層數據傳輸技術示意圖

在后訓練中,傳統的樣本Padding補齊方案存在大量冗余通信,降低了通信效率。

對此,研究者引入零冗余通信技術,如圖7所示:

首先將各個樣本在序列維度進行拼接;  

在各個進程收到數據后,再根據原始序列長度進行恢復。

這避免了Padding帶來的額外通信,大大提升了通信效率。

在盤古長序列訓練集實測,研究團隊發現上述優化可降低80%以上的通信量,有效支撐大規模集群訓練的擴展效率。

圖片

圖7:DistQueue零冗余數據傳輸

實測

昇騰超節點見證效率躍升

RL Fusion與StaleSync的協同優化,形成了「資源復用+任務并行」的雙重保障體系,顯著提升了效率。

在RL后訓練中,下表1展示了不同加速配置方案對整體性能提升情況。

RL Fusion訓推共卡,能夠消除RL后訓練中模型級空泡,提高資源利用率,單個超節點吞吐提升了78.5%。

再結合StaleSync準異步技術,可以實現35k token/s吞吐效率,整體可提升1.5倍性能。

圖片

表1:單超節點RL后訓練性能分析

表2展示了StaleSync對集群擴展性的提升。

當集群規模從1個超節點擴展至4個超節點時,StaleSync 的吞吐從35k tokens/s提升至127k tokens/s,擴展線性度達91%;而全同步方案在同等規模下吞吐僅從25k tokens/s 增至 85k tokens/s,線性度約為85%。

圖片

表2:RL后訓練性能分析

結語

在AI風起云涌的當下,RL后訓練正成為大模型突圍的關鍵,而效率是決勝的王牌。

昇騰超節點以RL Fusion和StaleSync兩大殺招,攻克算力浪費和集群擴展的瓶頸,帶來了高效、高擴展、高通用性的集群調度與融合方案。

一張卡干倆活、流水線永不停,單節點速度狂飆2.5倍,集群擴展效率突破90%。

它如同一臺「加速引擎」,正為百億、千億級大模型的后訓練注入強勁動力,點燃下一代AI效率革命的火花。


責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-27 12:42:54

2020-08-04 11:03:50

Python內置異常開發

2021-12-02 15:30:55

命令內存Linux

2022-09-05 10:46:46

昇騰

2011-04-28 15:25:35

噴墨打印機墨盒

2009-12-22 13:21:21

服務器

2009-07-21 09:32:16

虛擬化投資回報

2025-03-04 00:35:00

DeepSeek提示詞AI

2021-03-12 15:08:23

服務器性能優化

2022-10-31 13:13:45

2020-05-14 14:21:50

谷歌AI數據

2024-09-29 09:21:46

2022-02-28 10:16:12

算力網絡新基建東數西算

2025-05-20 14:36:53

2022-07-21 14:55:24

算力

2023-07-06 14:52:36

數據分析師SQL

2020-03-24 16:09:43

華為
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 美女久久久久久久 | www.久久艹 | 亚洲一页 | 日韩一区二区av | 国产成人艳妇aa视频在线 | 久久久久久久久久性 | 午夜精品久久久久久久星辰影院 | 福利电影在线 | 日本久久精品视频 | 亚洲一区在线播放 | 天天天天操 | 日韩天堂av | 成人在线播放网址 | www.99久久.com| 亚洲成人免费在线 | 亚洲精品国产电影 | 少妇诱惑av | 91久色| 一区二区三区四区在线 | 一区二区三区免费观看 | h片在线观看网站 | 精品一区二区三区免费视频 | 国产精品高潮呻吟久久aⅴ码 | 久久一区精品 | 国产在线一区二区三区 | 性视频一区 | 91亚洲国产成人久久精品网站 | 亚洲综合色 | 天天天天天天天干 | 中文字幕第一页在线 | 国产精品美女久久久 | 国产精品久久久久久久岛一牛影视 | 正在播放一区二区 | 久久精品国产99国产精品亚洲 | 最近日韩中文字幕 | 免费国产黄网站在线观看视频 | 成人免费观看男女羞羞视频 | 桃色五月 | 中文字幕精品一区二区三区在线 | 国产精品一区二区视频 | 在线观看国产www |