RL后訓練步入超節點時代!華為黑科技榨干算力,一張卡干倆活
在大模型競賽白熱化的當下,「強化學習后訓練」已成為突破LLM性能天花板的核心路徑。
爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后訓練點石成金。
相較于預訓練階段的「廣撒網」式知識獲取,RL 后訓練通過驅動模型與外部環境進行動態交互,直接塑造了LLM在復雜任務中的推理效能。
當前,RL后訓練階段已經吃掉了訓練全流程20%的算力,未來會飆升到50%,直接影響模型的性能和成本。
在傳統RL后訓練中,訓練和推理得排隊干活,也就說大量算力都在「摸魚」。
對此,華為團隊拿出「RL Fusion訓推共卡」和「StaleSync準異步并行」兩大黑科技,把訓練效率和資源利用率拉滿。
· RL Fusion: 讓一張卡同時兼顧訓練和推理兩件事,資源利用率和吞吐翻倍。
· StaleSync :打破了同步限制,讓集群擴展效率超90%,訓練吞吐再提50%。
CloudMatrix超節點,就像大模型的「超級加速器」,讓百億、甚至千億級模型訓練更快更省。
至此,大模型強化學習訓練正式邁入超節點時代!
RL后訓練「算力黑洞」
如今,強化學習,已成為激活大模型推理思考能力的關鍵buff。
不論是語言模型的對話優化,還是多模態模型的復雜任務適配,RL后訓練都在提升模型精度、泛化性、用戶體驗方面,發揮著不可替代的作用。
然而,這種性能提升的代價是巨大的算力需求。
尤其是在現有主流On-Policy算法下,訓練與推理的嚴格交替導致了資源利用率低下。
總的來說,RL后訓練作為大模型訓練最后沖刺階段,面臨著兩大不容忽視的挑戰。
- On-Policy算法的同步枷鎖
在大模型后訓練過程中,Actor模型的訓練與推理(生成)過程構成主要負載。
在傳統「訓推分離」架構下,主流的On-Policy策略要求訓練和推理任務交替執行,互相等待,導致大量計算資源處于閑置狀態。
這種「輪流休息」的模式,在小規模集群場景下已然造成顯著浪費,若在千卡/萬卡集群中更是放大為「算力黑洞」,推高了LLM后訓練成本。
因此,訓推共卡技術,成為提升集群資源利用率的核心突破口。
- 大規模集群的擴展困境
另一方面,隨著MoE模型普及,專家并行(EP)、張量并行(TP)、數據并行(DP)等多模型異構并行策略組合,使得任務調度復雜度呈指數級增長。
而現有框架在大規模集群中,難以讓其實現高效協同,進而導致了擴展效率顯著下降。
如何通過軟硬協同打破資源瓶頸,釋放潛在的紅利,成為華為團隊聚焦突破的關鍵方向。
RL Fusion
一卡干倆活,利用率吞吐翻倍
針對RL后訓練資源利用率低的問題,華為團隊深入剖析異構模型和多任務場景的負載特點,提出了創新性的RL Fusion訓推共卡技術。
簡單來說,就是讓一張卡既做訓練又做推理,效率直接翻倍。
RL Fusion支持訓練推理共卡、全共卡等多種靈活部署模式(如圖1),可實現推理階段資源調度的精細化可控管理。
它還支持張量并行(TP)、數據并行(DP)、流水線并行(PP)等多維并行策略的動態無縫切換,實現計算資源「一箭雙雕」,即在同一計算資源上執行Actor模型生成和訓練2個任務。
圖1:訓推分離、訓推共卡、全共卡部署計算資源利用情況示意圖
值得一提的是,在小規模場景下,RL Fusion還能把Reference及Reward模型的資源「榨干」,進一步實現「一箭四雕」,效率直接拉滿。
此外,針對大規模高稀疏比MoE模型,華為通過對訓推態內存進行極致分析,首次提出了訓推內存0冗余切換,實現訓推EP動態切換,如圖2所示。
圖2:MoE大模型訓推EP動態變化示意圖
在訓練態及推理態切換過程中,通過「分桶」管理參數,可消除由于EP變化造成的冗余內存。
同時,推理時把訓練的優化器及梯度,完全卸載到主機側,盡可能將NPU內存留給推理態,保證長序列下推理階段吞吐(如圖3所示)。
圖3:MoE大模型訓推訓推內存0冗余切換技術示意圖
不僅如此,通過對訓推共卡中權重通信、內存加卸載進行系統性優化后,訓推切換過程優化到秒級,快如閃電。
由此,RL Fusion能讓強化學習后訓練集群利用率倍增,成本省一大截。
StaleSync
水平擴展效率超90%,訓練吞吐再提50%
針對大規模集群擴展性低的問題,華為團隊摒棄全同步迭代方式,設計了準異步機制StaleSync(如圖4所示)。
StaleSync機制能容忍梯度「陳舊性」,讓不同RL階段的任務在「陳舊度閾值」內并行執行。
這使得CloudMatrix 384超節點的水平擴展效率超90%。
圖4:StaleSync準異步并行技術示意圖
這一創新得益于對RL計算任務的細致分析。
在RL訓練中,研究團隊發現,不同計算任務的算力需求各異。
基于這一特點,新的后訓練系統結合了共置和分離架構的優勢,平衡了各個RL計算任務的資源需求,從而提高了整體硬件資源的利用率。
圖5:共置/分離架構下同策訓練方案示意圖和缺點
此外,在Actor Rollout過程中,長尾樣本的存在導致了效率的降低。
為了解決此問題,新系統引入了準異步調度機制:
當生成結束的樣本達到一定閾值時,數據立刻流向下一階段的計算任務,允許未完成的推理樣本的訓練存在一定滯后性,從而提高了整體后訓練吞吐。
在保證模型精度的前提下,StaleSync方案使系統整體訓練吞吐量提升了50%。
背后功臣:數據隊列DistQueue
為了滿足StaleSync的數據調度與管理要求,研究團隊專門設計了分布式數據隊列DistQueue。
DistQueue實現了不同計算任務之間數據的拆分、緩存與動態讀取。
為了提高通信效率,DistQueue采取了分層數據傳輸與零冗余通信兩項技術,緩解了數據系統壓力。
以Pangu 718B-MoE訓練并行策略為例(TP8,EP4,PP16),引入分層數據傳輸可將DistQueue的負載降低為1/128,從而支持后訓練規模的進一步擴展。
圖6:分層數據傳輸技術示意圖
在后訓練中,傳統的樣本Padding補齊方案存在大量冗余通信,降低了通信效率。
對此,研究者引入零冗余通信技術,如圖7所示:
首先將各個樣本在序列維度進行拼接;
在各個進程收到數據后,再根據原始序列長度進行恢復。
這避免了Padding帶來的額外通信,大大提升了通信效率。
在盤古長序列訓練集實測,研究團隊發現上述優化可降低80%以上的通信量,有效支撐大規模集群訓練的擴展效率。
圖7:DistQueue零冗余數據傳輸
實測
昇騰超節點見證效率躍升
RL Fusion與StaleSync的協同優化,形成了「資源復用+任務并行」的雙重保障體系,顯著提升了效率。
在RL后訓練中,下表1展示了不同加速配置方案對整體性能提升情況。
RL Fusion訓推共卡,能夠消除RL后訓練中模型級空泡,提高資源利用率,單個超節點吞吐提升了78.5%。
再結合StaleSync準異步技術,可以實現35k token/s吞吐效率,整體可提升1.5倍性能。
表1:單超節點RL后訓練性能分析
表2展示了StaleSync對集群擴展性的提升。
當集群規模從1個超節點擴展至4個超節點時,StaleSync 的吞吐從35k tokens/s提升至127k tokens/s,擴展線性度達91%;而全同步方案在同等規模下吞吐僅從25k tokens/s 增至 85k tokens/s,線性度約為85%。
表2:RL后訓練性能分析
結語
在AI風起云涌的當下,RL后訓練正成為大模型突圍的關鍵,而效率是決勝的王牌。
昇騰超節點以RL Fusion和StaleSync兩大殺招,攻克算力浪費和集群擴展的瓶頸,帶來了高效、高擴展、高通用性的集群調度與融合方案。
一張卡干倆活、流水線永不停,單節點速度狂飆2.5倍,集群擴展效率突破90%。
它如同一臺「加速引擎」,正為百億、千億級大模型的后訓練注入強勁動力,點燃下一代AI效率革命的火花。