成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<dl id="ceuqm"></dl>

<dl id="ceuqm"></dl>

<dl id="ceuqm"><acronym id="ceuqm"></acronym></dl>

<li id="ceuqm"><source id="ceuqm"></source></li>

<button id="ceuqm"></button>

<dl id="ceuqm"></dl>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

RL后訓練步入超節點時代！華為黑科技榨干算力，一張卡干倆活

2025-06-06 08:55:00

人工智能新聞

RL后訓練已成為大模型性能突破的「殺手锏」，而算力浪費和集群效率低成為一大難題。這次，華為團隊祭出兩大黑科技直接破局。不僅在CloudMatrix 384超節點實現MoE大模型訓推共卡，資源利用率翻倍，還打破了同步算法限制，讓訓練速度再提升50%。

在大模型競賽白熱化的當下，「強化學習后訓練」已成為突破LLM性能天花板的核心路徑。

爆火出圈的OpenAI o1、DeepSeek-R1等模型，背后都是依靠RL后訓練點石成金。

相較于預訓練階段的「廣撒網」式知識獲取，RL 后訓練通過驅動模型與外部環境進行動態交互，直接塑造了LLM在復雜任務中的推理效能。

當前，RL后訓練階段已經吃掉了訓練全流程20%的算力，未來會飆升到50%，直接影響模型的性能和成本。

在傳統RL后訓練中，訓練和推理得排隊干活，也就說大量算力都在「摸魚」。

對此，華為團隊拿出「RL Fusion訓推共卡」和「StaleSync準異步并行」兩大黑科技，把訓練效率和資源利用率拉滿。

· RL Fusion：讓一張卡同時兼顧訓練和推理兩件事，資源利用率和吞吐翻倍。

· StaleSync ：打破了同步限制，讓集群擴展效率超90%，訓練吞吐再提50%。

CloudMatrix超節點，就像大模型的「超級加速器」，讓百億、甚至千億級模型訓練更快更省。

至此，大模型強化學習訓練正式邁入超節點時代！

RL后訓練「算力黑洞」

如今，強化學習，已成為激活大模型推理思考能力的關鍵buff。

不論是語言模型的對話優化，還是多模態模型的復雜任務適配，RL后訓練都在提升模型精度、泛化性、用戶體驗方面，發揮著不可替代的作用。

然而，這種性能提升的代價是巨大的算力需求。

尤其是在現有主流On-Policy算法下，訓練與推理的嚴格交替導致了資源利用率低下。

總的來說，RL后訓練作為大模型訓練最后沖刺階段，面臨著兩大不容忽視的挑戰。

On-Policy算法的同步枷鎖

在大模型后訓練過程中，Actor模型的訓練與推理（生成）過程構成主要負載。

在傳統「訓推分離」架構下，主流的On-Policy策略要求訓練和推理任務交替執行，互相等待，導致大量計算資源處于閑置狀態。

這種「輪流休息」的模式，在小規模集群場景下已然造成顯著浪費，若在千卡/萬卡集群中更是放大為「算力黑洞」，推高了LLM后訓練成本。

因此，訓推共卡技術，成為提升集群資源利用率的核心突破口。

大規模集群的擴展困境

另一方面，隨著MoE模型普及，專家并行（EP）、張量并行（TP）、數據并行（DP）等多模型異構并行策略組合，使得任務調度復雜度呈指數級增長。

而現有框架在大規模集群中，難以讓其實現高效協同，進而導致了擴展效率顯著下降。

如何通過軟硬協同打破資源瓶頸，釋放潛在的紅利，成為華為團隊聚焦突破的關鍵方向。

RL Fusion

一卡干倆活，利用率吞吐翻倍

針對RL后訓練資源利用率低的問題，華為團隊深入剖析異構模型和多任務場景的負載特點，提出了創新性的RL Fusion訓推共卡技術。

簡單來說，就是讓一張卡既做訓練又做推理，效率直接翻倍。

RL Fusion支持訓練推理共卡、全共卡等多種靈活部署模式（如圖1），可實現推理階段資源調度的精細化可控管理。

它還支持張量并行（TP）、數據并行（DP）、流水線并行（PP）等多維并行策略的動態無縫切換，實現計算資源「一箭雙雕」，即在同一計算資源上執行Actor模型生成和訓練2個任務。

圖1：訓推分離、訓推共卡、全共卡部署計算資源利用情況示意圖

值得一提的是，在小規模場景下，RL Fusion還能把Reference及Reward模型的資源「榨干」，進一步實現「一箭四雕」，效率直接拉滿。

此外，針對大規模高稀疏比MoE模型，華為通過對訓推態內存進行極致分析，首次提出了訓推內存0冗余切換，實現訓推EP動態切換，如圖2所示。

圖2：MoE大模型訓推EP動態變化示意圖

在訓練態及推理態切換過程中，通過「分桶」管理參數，可消除由于EP變化造成的冗余內存。

同時，推理時把訓練的優化器及梯度，完全卸載到主機側，盡可能將NPU內存留給推理態，保證長序列下推理階段吞吐（如圖3所示）。

圖3：MoE大模型訓推訓推內存0冗余切換技術示意圖

不僅如此，通過對訓推共卡中權重通信、內存加卸載進行系統性優化后，訓推切換過程優化到秒級，快如閃電。

由此，RL Fusion能讓強化學習后訓練集群利用率倍增，成本省一大截。

StaleSync

水平擴展效率超90%，訓練吞吐再提50%

針對大規模集群擴展性低的問題，華為團隊摒棄全同步迭代方式，設計了準異步機制StaleSync（如圖4所示）。

StaleSync機制能容忍梯度「陳舊性」，讓不同RL階段的任務在「陳舊度閾值」內并行執行。

這使得CloudMatrix 384超節點的水平擴展效率超90%。

圖4：StaleSync準異步并行技術示意圖

這一創新得益于對RL計算任務的細致分析。

在RL訓練中，研究團隊發現，不同計算任務的算力需求各異。

基于這一特點，新的后訓練系統結合了共置和分離架構的優勢，平衡了各個RL計算任務的資源需求，從而提高了整體硬件資源的利用率。

圖5：共置/分離架構下同策訓練方案示意圖和缺點

此外，在Actor Rollout過程中，長尾樣本的存在導致了效率的降低。

為了解決此問題，新系統引入了準異步調度機制：

當生成結束的樣本達到一定閾值時，數據立刻流向下一階段的計算任務，允許未完成的推理樣本的訓練存在一定滯后性，從而提高了整體后訓練吞吐。

在保證模型精度的前提下，StaleSync方案使系統整體訓練吞吐量提升了50%。

背后功臣：數據隊列DistQueue

為了滿足StaleSync的數據調度與管理要求，研究團隊專門設計了分布式數據隊列DistQueue。

DistQueue實現了不同計算任務之間數據的拆分、緩存與動態讀取。

為了提高通信效率，DistQueue采取了分層數據傳輸與零冗余通信兩項技術，緩解了數據系統壓力。

以Pangu 718B-MoE訓練并行策略為例（TP8，EP4，PP16），引入分層數據傳輸可將DistQueue的負載降低為1/128，從而支持后訓練規模的進一步擴展。

圖6：分層數據傳輸技術示意圖

在后訓練中，傳統的樣本Padding補齊方案存在大量冗余通信，降低了通信效率。

對此，研究者引入零冗余通信技術，如圖7所示：

首先將各個樣本在序列維度進行拼接；

在各個進程收到數據后，再根據原始序列長度進行恢復。

這避免了Padding帶來的額外通信，大大提升了通信效率。

在盤古長序列訓練集實測，研究團隊發現上述優化可降低80%以上的通信量，有效支撐大規模集群訓練的擴展效率。

圖7：DistQueue零冗余數據傳輸

實測

昇騰超節點見證效率躍升

RL Fusion與StaleSync的協同優化，形成了「資源復用+任務并行」的雙重保障體系，顯著提升了效率。

在RL后訓練中，下表1展示了不同加速配置方案對整體性能提升情況。

RL Fusion訓推共卡，能夠消除RL后訓練中模型級空泡，提高資源利用率，單個超節點吞吐提升了78.5%。

再結合StaleSync準異步技術，可以實現35k token/s吞吐效率，整體可提升1.5倍性能。

表1：單超節點RL后訓練性能分析

表2展示了StaleSync對集群擴展性的提升。

當集群規模從1個超節點擴展至4個超節點時，StaleSync 的吞吐從35k tokens/s提升至127k tokens/s，擴展線性度達91%；而全同步方案在同等規模下吞吐僅從25k tokens/s 增至 85k tokens/s，線性度約為85%。

表2：RL后訓練性能分析

結語

在AI風起云涌的當下，RL后訓練正成為大模型突圍的關鍵，而效率是決勝的王牌。

昇騰超節點以RL Fusion和StaleSync兩大殺招，攻克算力浪費和集群擴展的瓶頸，帶來了高效、高擴展、高通用性的集群調度與融合方案。

一張卡干倆活、流水線永不停，單節點速度狂飆2.5倍，集群擴展效率突破90%。

它如同一臺「加速引擎」，正為百億、千億級大模型的后訓練注入強勁動力，點燃下一代AI效率革命的火花。

責任編輯：張燕妮來源：新智元

模型訓練算力

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：美女久久久久久久 | www.久久艹 | 亚洲一页 | 日韩一区二区av | 国产成人艳妇aa视频在线 | 久久久久久久久久性 | 午夜精品久久久久久久星辰影院 | 福利电影在线 | 日本久久精品视频 | 亚洲一区在线播放 | 天天天天操 | 日韩天堂av | 成人在线播放网址 | www.99久久.com| 亚洲成人免费在线 | 亚洲精品国产电影 | 少妇诱惑av | 91久色| 一区二区三区四区在线 | 一区二区三区免费观看 | h片在线观看网站 | 精品一区二区三区免费视频 | 国产精品高潮呻吟久久aⅴ码 | 久久一区精品 | 国产在线一区二区三区 | 性视频一区 | 91亚洲国产成人久久精品网站 | 亚洲综合色 | 天天天天天天天干 | 中文字幕第一页在线 | 国产精品美女久久久 | 国产精品久久久久久久岛一牛影视 | 正在播放一区二区 | 久久精品国产99国产精品亚洲 | 最近日韩中文字幕 | 免费国产黄网站在线观看视频 | 成人免费观看男女羞羞视频 | 桃色五月 | 中文字幕精品一区二区三区在线 | 国产精品一区二区视频 | 在线观看国产www |

<code id="ewoie"></code>

<li id="ewoie"><source id="ewoie"></source></li>

<button id="ewoie"></button>

<center id="ewoie"><acronym id="ewoie"></acronym></center>

<rt id="ewoie"></rt>

<button id="ewoie"></button>