成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

阿里 HPN：針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群

發(fā)布于 2024-6-27 15:42

瀏覽

0收藏

一、背景

之前的文章中我們具體介紹了萬卡 GPU 集群中的網(wǎng)絡(luò)拓?fù)湟约霸谌f卡 GPU 集群中進(jìn)行大規(guī)模 LLM 訓(xùn)練面對(duì)的挑戰(zhàn)和解決方案；也進(jìn)一步介紹了阿里云的集合通信調(diào)度框架 C4 和 C4 底層的阿里云新一代智算集群網(wǎng)絡(luò)架構(gòu) HPN 7.0。不過上述 HPN 7.0 的相關(guān)介紹都是基于阿里官網(wǎng)或者之前的公開分享，最近阿里正式公布了 HPN 相應(yīng)的 Paper，與我們之前了解到的稍有不同，此處進(jìn)行相應(yīng)補(bǔ)充。有關(guān)雙上聯(lián)、雙平面介紹這里不再贅述。

對(duì)應(yīng)的論文：??https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf??

上面提到的幾個(gè)介紹可以參考：

??萬卡 GPU 集群互聯(lián)：硬件配置和網(wǎng)絡(luò)設(shè)計(jì)??
??萬卡 GPU 集群實(shí)戰(zhàn)：探索 LLM 預(yù)訓(xùn)練的挑戰(zhàn)??
??阿里 C4：通信驅(qū)動(dòng)加速大規(guī)模并行訓(xùn)練效率??
??剖析大規(guī)模 GPU 集群：針對(duì) LLM 場景的挑戰(zhàn)和優(yōu)化??
??HPN 7.0：阿里云新一代萬卡集群網(wǎng)絡(luò)架構(gòu)??

二、拓?fù)?/h3>
如下圖所示為我們之前介紹的拓?fù)浞绞剑▓D片來自 Revolutionizing Data Center Networks: Alibaba’s SONiC Journey），是一個(gè)完全無收斂的方案。對(duì)于下圖的拓?fù)渲校?/p>
每個(gè) Segment 有 128 個(gè)節(jié)點(diǎn)，共 1024 GPU（單層千卡）。
每個(gè) Pod 有 8 個(gè) Segment，也就是每個(gè) Pod 有 8192 GPU。
總共有 128 個(gè) Pod，也就是可以支持 1,048,576 個(gè) GPU（三層 100 萬）。?
如下圖 Figure 7 所示，在 HPN Paper 中的拓?fù)浞绞脚c我們之前看到的稍有不同（雙上聯(lián)、雙平面等思路都是完全一樣的），我們這里簡單進(jìn)行介紹：
下面的拓?fù)渲邪饲跋蚓W(wǎng)絡(luò)（Frontend Network）和后向網(wǎng)絡(luò)（Backend Network）：
后向網(wǎng)絡(luò)：有收斂，使用每個(gè)節(jié)點(diǎn) 9 個(gè) NIC 中的 NIC1-NIC9 這 8 個(gè)互聯(lián)，主要用于大規(guī)模分布式訓(xùn)練，并且一個(gè) GPU 連接一個(gè) NIC。
前向網(wǎng)絡(luò)：無收斂，使用每個(gè)節(jié)點(diǎn) 9 個(gè) NIC 中的 NIC0 互聯(lián)。為了支持更多的場景，比如訓(xùn)練/推理混部，模型傳輸，數(shù)據(jù)加載等場景。
后向網(wǎng)絡(luò)依然是 3 層：
Segment：依然采用雙上聯(lián)方式，一個(gè) NIC 上有 2 個(gè) 200Gbps 的 Port（PS：沒有采用之前介紹的 2 個(gè) 200 Gbps NIC 的方式），會(huì)連接兩個(gè)不同的 ToR 交換機(jī)。
一個(gè) Segment 里面依然有 16 個(gè) ToR 交換機(jī)，每個(gè)交換機(jī) 128 個(gè) 400Gbps Port，但是有 60 連接 Spine 交換機(jī)，68 個(gè)連接節(jié)點(diǎn)的 NIC。
68 個(gè) 400Gbps Port 可以對(duì)應(yīng) 136 個(gè) 200Gbps NIC Port，也就是一個(gè) Segment 里面 136 個(gè)節(jié)點(diǎn)，共 1388=1104 個(gè) GPU。
實(shí)際上 136 個(gè)節(jié)點(diǎn)中有 8 個(gè)是備份，以便節(jié)點(diǎn)故障（比如 GPU、網(wǎng)卡、硬盤、CPU 等）時(shí)可以快速替換。實(shí)際使用 128 個(gè)節(jié)點(diǎn)，共 1024 GPU，對(duì)應(yīng)的網(wǎng)絡(luò)收斂比為 (1024400)/(6040016)=1.067:1。
Pod：一個(gè) Pod 中的 Segment 從 8 個(gè)變成 15 個(gè)，所以最多能支持 15*1024=15K GPU。
在 Spine（Agg）交換機(jī)上采用 15:1 的收斂比，因此可以有更多的下行 Port 連接 Leaf 交換機(jī)。
具體來說，每個(gè) Spine 交換機(jī)有 120 個(gè) Port 連接 Leaf 交換機(jī)，也就可以連接 120/8=15 個(gè) Segment（每個(gè) Segment 里面同一平面的 8 個(gè) Leaf 交換機(jī)連接到同一個(gè) Spine 交換機(jī)）。
Cluster：一個(gè) Cluster 可以包含多個(gè) Pod，通過 Core 交換機(jī)連接。
Spine（Agg）交換機(jī)有 8 個(gè) Port 連接 Core 交換機(jī)。這個(gè)是為了支持更大規(guī)模的 GPU，比如 8 個(gè) Pod，則可以支持 120K GPU。
在大規(guī)模模型訓(xùn)練時(shí)，可以將 PP（Pipeline Parallelism）中的不同切片放在不同的 Pod，這樣跨 Pod 的通信量比較小，也就不容易出現(xiàn)瓶頸。?

三、附錄

3.1 單 Segment 千卡

如下圖 Figure 6 所示，生產(chǎn)環(huán)境中 96.3% 的訓(xùn)練任務(wù)需要的 GPU 數(shù)都不超過 1024 GPU，也就是都可以放在 1 個(gè) Segment 里，這樣通信是非常高效的，不同 GPU 通信最多只用經(jīng)過 1 跳即可：

阿里 HPN：針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

3.2 多 Pod 互聯(lián)

HPN 中在 Core 交換機(jī)上采用 15:1 的收斂比，也就是有額外 87.5% 的 Port 可以用于同一個(gè) Pod 中的 Segment。所以同一個(gè) Pod 的 Segment 從 8 個(gè)變成 15 個(gè)，GPU 數(shù)從 8192 增加到 15360，可以支持更多的任務(wù)在同一 Pod 內(nèi)執(zhí)行。同一個(gè) Pod 內(nèi)的 GPU 通信最多只用通過 3 跳即可，而如果是 3 Tier 網(wǎng)絡(luò)，則最多可能需要 5 跳。

那么為什么沒有直接搞成 2 Tier 網(wǎng)絡(luò)呢？主要是還需考慮到技術(shù)的演進(jìn)，模型在不斷擴(kuò)大，訓(xùn)練的數(shù)據(jù)也越來越多，相應(yīng)需要的 GPU 也就越來越多，這就很難說是否未來的某一天需要超過 15K GPU 來訓(xùn)練大模型。與此同時(shí)，大模型訓(xùn)練通常會(huì)使用 DP（Data Parallelism）、TP（Tensor Parallelism）和 PP（Pipeline Parallelism）技術(shù)，而 PP 相對(duì) DP 和 TP 的通信量要小得多，如下圖 Table 3 所示（GPT-175B，TP=8，PP=8，DP=512），因此就可以考慮為其提供較低的通信帶寬，比如跨 Pod。

阿里 HPN：針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

3.3 大規(guī)模預(yù)訓(xùn)練對(duì)比

如下圖 Figure 20 所示為作者原來使用的 DCN+ 集群拓?fù)洌捎脽o收斂設(shè)計(jì)。一個(gè) Segment 中只有 16 個(gè)節(jié)點(diǎn)，128 個(gè) GPU，一個(gè) Pod 只有 512 個(gè) GPU：

阿里 HPN：針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

作者用一個(gè)相同的 LLM 預(yù)訓(xùn)練任務(wù)進(jìn)行了對(duì)比，該任務(wù)需要 2300+ GPU，共 288+ 個(gè)節(jié)點(diǎn)，訓(xùn)練幾個(gè)月。在 DCN+ 中需要至少 5 個(gè) Pod，19 個(gè) Segment，而在 HPN 中只需要 3 個(gè) Segment。如下圖 Figure 15所示:

15a：端到端訓(xùn)練吞吐提升 14.9%。
15b：跨 Segment 流量平均降低 37%。
15c：Agg 交換機(jī)下行隊(duì)列長度大幅降低。

?

阿里 HPN：針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

四、參考鏈接

??https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf??
??https://sonicfoundation.dev/revolutionizing-data-center-networks-alibabas-sonic-journey/??

本文轉(zhuǎn)載自 ??AI閑談??，作者： AI閑談

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

阿里 C4：通信驅(qū)動(dòng)加速大規(guī)模并行訓(xùn)練效率

amei2000go ? 7692瀏覽 ? 0回復(fù)
【LLM】提升大規(guī)模并行訓(xùn)練效率的方法

sbf_2000 ? 4279瀏覽 ? 0回復(fù)
剖析大規(guī)模 GPU 集群：針對(duì) LLM 場景的挑戰(zhàn)和優(yōu)化

amei2000go ? 5786瀏覽 ? 0回復(fù)
LLaMA 3 背后的大規(guī)模 GPU 集群 RoCE 網(wǎng)絡(luò)建設(shè)

amei2000go ? 4970瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓(xùn)練—張量并行

amei2000go ? 3577瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓(xùn)練系列——流水線并行

amei2000go ? 4307瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓(xùn)練系列—專家并行

amei2000go ? 1.1w瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2471瀏覽 ? 0回復(fù)
幻方 AI DeepSeek 模型背后的萬卡集群建設(shè)

amei2000go ? 9940瀏覽 ? 0回復(fù)
阿里國際發(fā)布首個(gè)大規(guī)模商用翻譯大模型Marco，效果超Google、DeepL等，全球開放！

51CTO技術(shù)棧 ? 3715瀏覽 ? 0回復(fù)
大模型訓(xùn)練集群的存儲(chǔ)設(shè)計(jì)

夜行神魚 ? 3342瀏覽 ? 0回復(fù)
國產(chǎn)萬卡系統(tǒng)究竟怎么樣了？中國工程院院士鄭緯民：國產(chǎn)萬卡很重要，但也很難，異地卡聯(lián)合訓(xùn)練不太可行

51CTO技術(shù)棧 ? 2892瀏覽 ? 0回復(fù)
大規(guī)模情感分析：將NLP應(yīng)用于多語言和特定領(lǐng)域的文本

51CTO內(nèi)容精選 ? 2544瀏覽 ? 0回復(fù)
大規(guī)模相似性搜索：原理、技術(shù)與 Faiss 實(shí)踐

柏企閱文 ? 2684瀏覽 ? 0回復(fù)
OpenAI 發(fā)布GPT-4.5：更大規(guī)模、更知識(shí)淵博的模型，預(yù)訓(xùn)練的巔峰之作，COT升級(jí)為COD

Syrupup ? 3582瀏覽 ? 0回復(fù)
軟件開發(fā)賽道正大規(guī)模應(yīng)用AI：Anthropic 400萬對(duì)話大數(shù)據(jù)研究的啟示

凝固的雨_1 ? 1702瀏覽 ? 0回復(fù)
萬字綜述 LLM 訓(xùn)練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案

amei2000go ? 2019瀏覽 ? 0回復(fù)
百度的底氣，李彥宏的決心：3萬卡國產(chǎn)自研集群；一口氣九個(gè)重磅發(fā)布，全方位支持MCP

51CTO技術(shù)棧 ? 1335瀏覽 ? 0回復(fù)
FineWeb：大規(guī)模篩選網(wǎng)絡(luò)，獲取最優(yōu)質(zhì)（LLM預(yù)訓(xùn)練）文本數(shù)據(jù)

AIRoobt ? 4445瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM Inference 中的低精度陷阱：數(shù)值穩(wěn)定性和可復(fù)現(xiàn)性 6天前發(fā)布
NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實(shí)踐 2025-06-13 06:57:47發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：剖析大規(guī)模 GPU 集群：針對(duì) LLM 場景的挑戰(zhàn)和優(yōu)化

下一篇： LLM 預(yù)訓(xùn)練加速的新方法：八種模型增長方案總結(jié)

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：亚洲成人福利在线观看 | 无吗视频 | 美女久久久久久久 | 高清18麻豆 | 国内毛片毛片毛片毛片 | 性欧美精品一区二区三区在线播放 | 福利视频一区二区 | 国产一区中文 | 久久久亚洲综合 | www.日韩av.com| 成人免费视频观看 | 国产亚洲精品综合一区 | 在线欧美亚洲 | 国产亚洲一区二区三区 | 久久精品视频一区二区三区 | av片毛片 | 亚洲国产网站 | a免费视频 | 日日干综合 | 久久精品亚洲精品国产欧美kt∨ | 日韩在线播放av | 亚洲一区二区免费视频 | 亚洲男人天堂2024 | 欧美国产一区二区三区 | 久久综合久 | 黄色免费在线观看 | 成人免费视频网站在线看 | 一级做a| 日韩中文字幕 | 国产成人精品一区二区三区四区 | a级大片免费观看 | 国产三级精品三级在线观看四季网 | 99精品一级欧美片免费播放 | 日韩aⅴ在线观看 | 久久久一区二区 | ririsao久久精品一区 | 成人在线精品 | 国产在线观看不卡一区二区三区 | 欧美成人高清视频 | 国产精品一区二 | 欧美a∨ |