成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群

發(fā)布于 2024-6-27 15:42
瀏覽
0收藏

一、背景

之前的文章中我們具體介紹了萬卡 GPU 集群中的網(wǎng)絡(luò)拓?fù)湟约霸谌f卡 GPU 集群中進(jìn)行大規(guī)模 LLM 訓(xùn)練面對(duì)的挑戰(zhàn)和解決方案;也進(jìn)一步介紹了阿里云的集合通信調(diào)度框架 C4 和 C4 底層的阿里云新一代智算集群網(wǎng)絡(luò)架構(gòu) HPN 7.0。不過上述 HPN 7.0 的相關(guān)介紹都是基于阿里官網(wǎng)或者之前的公開分享,最近阿里正式公布了 HPN 相應(yīng)的 Paper,與我們之前了解到的稍有不同,此處進(jìn)行相應(yīng)補(bǔ)充。有關(guān)雙上聯(lián)、雙平面介紹這里不再贅述。

對(duì)應(yīng)的論文:??https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf??

上面提到的幾個(gè)介紹可以參考:

二、拓?fù)?/h3>

如下圖所示為我們之前介紹的拓?fù)浞绞剑▓D片來自 Revolutionizing Data Center Networks: Alibaba’s SONiC Journey),是一個(gè)完全無收斂的方案。對(duì)于下圖的拓?fù)渲校?/p>

  • 每個(gè) Segment 有 128 個(gè)節(jié)點(diǎn),共 1024 GPU(單層千卡)。
  • 每個(gè) Pod 有 8 個(gè) Segment,也就是每個(gè) Pod 有 8192 GPU。
  • 總共有 128 個(gè) Pod,也就是可以支持 1,048,576 個(gè) GPU(三層 100 萬)。?

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

如下圖 Figure 7 所示,在 HPN Paper 中的拓?fù)浞绞脚c我們之前看到的稍有不同(雙上聯(lián)、雙平面等思路都是完全一樣的),我們這里簡單進(jìn)行介紹:

  • 下面的拓?fù)渲邪饲跋蚓W(wǎng)絡(luò)(Frontend Network)和后向網(wǎng)絡(luò)(Backend Network):

后向網(wǎng)絡(luò):有收斂,使用每個(gè)節(jié)點(diǎn) 9 個(gè) NIC 中的 NIC1-NIC9 這 8 個(gè)互聯(lián),主要用于大規(guī)模分布式訓(xùn)練,并且一個(gè) GPU 連接一個(gè) NIC。

前向網(wǎng)絡(luò):無收斂,使用每個(gè)節(jié)點(diǎn) 9 個(gè) NIC 中的 NIC0 互聯(lián)。為了支持更多的場景,比如訓(xùn)練/推理混部,模型傳輸,數(shù)據(jù)加載等場景。

  • 后向網(wǎng)絡(luò)依然是 3 層:
  • Segment:依然采用雙上聯(lián)方式,一個(gè) NIC 上有 2 個(gè) 200Gbps 的 Port(PS:沒有采用之前介紹的 2 個(gè) 200 Gbps NIC 的方式),會(huì)連接兩個(gè)不同的 ToR 交換機(jī)。

一個(gè) Segment 里面依然有 16 個(gè) ToR 交換機(jī),每個(gè)交換機(jī) 128 個(gè) 400Gbps Port,但是有 60 連接 Spine 交換機(jī),68 個(gè)連接節(jié)點(diǎn)的 NIC。

68 個(gè) 400Gbps Port 可以對(duì)應(yīng) 136 個(gè) 200Gbps NIC Port,也就是一個(gè) Segment 里面 136 個(gè)節(jié)點(diǎn),共 138*8=1104 個(gè) GPU。

實(shí)際上 136 個(gè)節(jié)點(diǎn)中有 8 個(gè)是備份,以便節(jié)點(diǎn)故障(比如 GPU、網(wǎng)卡、硬盤、CPU 等)時(shí)可以快速替換。實(shí)際使用 128 個(gè)節(jié)點(diǎn),共 1024 GPU,對(duì)應(yīng)的網(wǎng)絡(luò)收斂比為 (1024*400)/(60*400*16)=1.067:1。

Pod:一個(gè) Pod 中的 Segment 從 8 個(gè)變成 15 個(gè),所以最多能支持 15*1024=15K GPU。

  • 在 Spine(Agg)交換機(jī)上采用 15:1 的收斂比,因此可以有更多的下行 Port 連接 Leaf 交換機(jī)。
  • 具體來說,每個(gè) Spine 交換機(jī)有 120 個(gè) Port 連接 Leaf 交換機(jī),也就可以連接 120/8=15 個(gè) Segment(每個(gè) Segment 里面同一平面的 8 個(gè) Leaf 交換機(jī)連接到同一個(gè) Spine 交換機(jī))。
  • Cluster:一個(gè) Cluster 可以包含多個(gè) Pod,通過 Core 交換機(jī)連接。
  • Spine(Agg) 交換機(jī)有 8 個(gè) Port 連接 Core 交換機(jī)。這個(gè)是為了支持更大規(guī)模的 GPU,比如 8 個(gè) Pod,則可以支持 120K GPU。
  • 在大規(guī)模模型訓(xùn)練時(shí),可以將 PP(Pipeline Parallelism)中的不同切片放在不同的 Pod,這樣跨 Pod 的通信量比較小,也就不容易出現(xiàn)瓶頸。?

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

三、附錄

3.1 單 Segment 千卡

如下圖 Figure 6 所示,生產(chǎn)環(huán)境中 96.3% 的訓(xùn)練任務(wù)需要的 GPU 數(shù)都不超過 1024 GPU,也就是都可以放在 1 個(gè) Segment 里,這樣通信是非常高效的,不同 GPU 通信最多只用經(jīng)過 1 跳即可:

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

3.2 多 Pod 互聯(lián)

HPN 中在 Core 交換機(jī)上采用 15:1 的收斂比,也就是有額外 87.5% 的 Port 可以用于同一個(gè) Pod 中的 Segment。所以同一個(gè) Pod 的 Segment 從 8 個(gè)變成 15 個(gè),GPU 數(shù)從 8192 增加到 15360,可以支持更多的任務(wù)在同一 Pod 內(nèi)執(zhí)行。同一個(gè) Pod 內(nèi)的 GPU 通信最多只用通過 3 跳即可,而如果是 3 Tier 網(wǎng)絡(luò),則最多可能需要 5 跳。

那么為什么沒有直接搞成 2 Tier 網(wǎng)絡(luò)呢?主要是還需考慮到技術(shù)的演進(jìn),模型在不斷擴(kuò)大,訓(xùn)練的數(shù)據(jù)也越來越多,相應(yīng)需要的 GPU 也就越來越多,這就很難說是否未來的某一天需要超過 15K GPU 來訓(xùn)練大模型。與此同時(shí),大模型訓(xùn)練通常會(huì)使用 DP(Data Parallelism)、TP(Tensor Parallelism)和 PP(Pipeline Parallelism)技術(shù),而 PP 相對(duì) DP 和 TP 的通信量要小得多,如下圖 Table 3 所示(GPT-175B,TP=8,PP=8,DP=512),因此就可以考慮為其提供較低的通信帶寬,比如跨 Pod。

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

3.3 大規(guī)模預(yù)訓(xùn)練對(duì)比

如下圖 Figure 20 所示為作者原來使用的 DCN+ 集群拓?fù)洌捎脽o收斂設(shè)計(jì)。一個(gè) Segment 中只有 16 個(gè)節(jié)點(diǎn),128 個(gè) GPU,一個(gè) Pod 只有 512 個(gè) GPU:

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

作者用一個(gè)相同的 LLM 預(yù)訓(xùn)練任務(wù)進(jìn)行了對(duì)比,該任務(wù)需要 2300+ GPU,共 288+ 個(gè)節(jié)點(diǎn),訓(xùn)練幾個(gè)月。在 DCN+ 中需要至少 5 個(gè) Pod,19 個(gè) Segment,而在 HPN 中只需要 3 個(gè) Segment。如下圖 Figure 15所示:

  • 15a:端到端訓(xùn)練吞吐提升 14.9%。
  • 15b:跨 Segment 流量平均降低 37%。
  • 15c:Agg 交換機(jī)下行隊(duì)列長度大幅降低。

?

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬卡集群-AI.x社區(qū)

四、參考鏈接

  1. ??https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf??
  2. ??https://sonicfoundation.dev/revolutionizing-data-center-networks-alibabas-sonic-journey/??

本文轉(zhuǎn)載自 ??AI閑談??,作者: AI閑談

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲成人福利在线观看 | 无吗视频 | 美女久久久久久久 | 高清18麻豆 | 国内毛片毛片毛片毛片 | 性欧美精品一区二区三区在线播放 | 福利视频一区二区 | 国产一区中文 | 久久久亚洲综合 | www.日韩av.com| 成人免费视频观看 | 国产亚洲精品综合一区 | 在线欧美亚洲 | 国产亚洲一区二区三区 | 久久精品视频一区二区三区 | av片毛片 | 亚洲国产网站 | a免费视频 | 日日干综合 | 久久精品亚洲精品国产欧美kt∨ | 日韩在线播放av | 亚洲一区二区免费视频 | 亚洲男人天堂2024 | 欧美国产一区二区三区 | 久久综合久 | 黄色免费在线观看 | 成人免费视频网站在线看 | 一级做a| 日韩中文字幕 | 国产成人精品一区二区三区四区 | a级大片免费观看 | 国产三级精品三级在线观看四季网 | 99精品一级欧美片免费播放 | 日韩aⅴ在线观看 | 久久久一区二区 | ririsao久久精品一区 | 成人在线精品 | 国产在线观看不卡一区二区三区 | 欧美成人高清视频 | 国产精品一区二 | 欧美a∨ |