成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

有錢買卡還不夠,10萬卡H100集群有多難搭?一文解析算力集群技術要點

人工智能 新聞
在英偉達市值猛漲、各家科技巨頭囤芯片的熱潮中,我們往往會忽視GPU芯片是如何轉變為數據中心算力的。最近,一篇SemiAnalysis的技術文章就深入解讀了10萬卡H100集群的構建過程。

如火如荼的AI競爭中,「算力之戰」同樣熱火朝天。

包括但不限于OpenAI、微軟、xAI和Meta在內的多個頭部公司都在爭相建立超過10萬卡的GPU集群,在這個規模上,僅僅是服務器的成本就超過40億美元,還要受到數據中心容量和電力不足等多項因素的限制。

我們可以做一個簡單的估算,一個10萬卡集群每年耗電量約為1.59太瓦時(terawatt·h,即10e9千瓦時),按照美國電力的標準費率0.78美元/千瓦時,每年的用電成本就達到了1.24億美元。

圖片

為了說明10萬個GPU集群的強大計算能力,OpenAI在訓練GPT-4時使用了大約2.15e25 BF16 FLOP(21.5百萬億ExaFLOP),在大約2萬個A100上進行了90到100天的訓練,峰值吞吐量只有6.28 ExaFLOPS。

若使用10萬個H100代替A100,峰值將飆升至198/99 FP8/FP16 ExaFLOPS,增加了31.5倍。

在H100上,AI實驗室在訓練萬億參數模型時,FP8模型FLOP利用率(MFU)最高可達35%,FP16 MFU則為40%。

MFU全稱為model full utilization,是衡量潛在FLOP的有效吞吐量和利用率峰值的指標,考慮了功率限制、通信不穩定、重新計算、滯后和低效內核等各種瓶頸。

使用FP8,一個10萬卡H100的集群只需4天就能訓練GPT-4。如果進行100天的訓練,你可以實現大約6e26(600百萬億ExaFLOP)的有效FP8 FLOP。不過,硬件的低可靠性會顯著降低MFU。

圖片

很多人認為,AI的三大基礎設施:數據、算法、算力中,門檻最低的就是算力。只要有錢有資源,買到足夠多的芯片,算力短缺就不是問題。

但是,SemiAnalysis最近的一篇文章指出,事實絕非如此。構建算力集群,絕對比一擲千金要復雜得多。

GPT-4發布以來,似乎還沒有出現下一代能力更強的LLM,很重要的原因就是幾乎沒有組織能夠大規模增加專用于單個模型的計算量。

Gemini Ultra、Nemotron 340B和Llama 3這些模型與GPT-4的訓練計算量相近(約為2e25 FLOP),甚至更高,但使用了較差的集群架構,導致它們無法進一步釋放能力。

圖片

那么,在巨頭們部署10萬卡GPU集群的過程中,究竟面臨哪些障礙?

電力挑戰

10萬卡集群所需的關鍵IT部件的總功率約為150MW,相比之下,美國最大的國家實驗室超算El Capitan的關鍵IT功率只有30MW,約為五分之一,可謂是相形見絀。

在如此龐大的功率中,GPU本身的耗電實際上只有不到一半。

根據官方參數,每張H100的功率為700W,但服務器上還有CPU、網卡(NIC)、供電單元(power supply unit)等設備,功率約為575W。

除了H100服務器,集群中還需要部署一系列的存儲服務器、網絡交換機、CPU節點、光纖收發器和許多其他設備,約占IT功耗的10%。

目前沒有任何一座數據中心的大樓有能力部署150MW功率的設備。因此,已建成的10萬GPU集群通常是分布在一整個園區中,而非單座大樓。

由于可用的數據中心有限,xAI甚至選擇將田納西州孟菲斯的一家舊工廠改造為數據中心。

因為服務器分布在整個園區而非單棟大樓內,聯網成本就會無形增高,因為光纖收發器的成本與傳輸距離成正比。

「多?!筍R和AOC收發器僅支持最長約50m的傳輸距離,顯然不可用。長距離「單模」DR和FR收發器能可靠地在500m~2km范圍內傳輸信號,但成本是前者的2.5倍。

此外,園區級別的800相干光收發器的傳輸距離可以超過2km,但價格更貴,要高出10倍以上。

圖片

H100的小型集群通常只使用多模收發器,通過一層或兩層的交換機,以400G的速度將每個GPU連接在一起。如果是大型集群,則需要增加更多層的交換機,光纖設備也會極其昂貴。

在大型集群的園區中,每棟大樓包含一個或多個pod,由多模收發器(或者較為廉價的銅纜)相連,形成一個「計算島」。每個計算島之間再通過長距離收發器互連,島內帶寬較高,島間帶寬較低。

圖片

并行化方案

數據并行

在較大參數的訓練中,一般有3種不同類型的并行化——數據并行(data parallelism)、張量并行(tensor parallelism)與流水線并行(pipeline parallelism)。

數據并行是其中最簡單的并行方式:每個GPU擁有模型權重的全部副本,并分別保存一部分數據。

前向計算過程中每個GPU獨自工作,梯度更新時將所有GPU計算出的梯度相加,再一起更新,因此在三種方式中,數據并行對GPU間通信的要求最低。

然而,這種方案要求每個GPU都有足夠內存來存儲整個模型的權重、激活函數和優化器狀態。像GPT-4這種級別的LLM,參數規??梢赃_到1.8萬億,需要占據10.8TB內存,顯然無法全部塞到一個GPU中。

圖片

張量并行

為了克服內存的限制,就有人提出了張量并行:神經網絡中每一層的權重和計算都分布在多個GPU上,一般會覆蓋全部隱藏層。在每一層的自注意力、前饋網絡和層歸一化等操作中,都需要設備間進行多次歸約。

可以想象成,在每一層的前向計算中,所有GPU都在協同工作,仿佛組成了一個巨型GPU。

目前在NVLink上通常使用8個張量并行等級,相當于每個GPU的內存消耗降低到了原來的八分之一。

由于這種方式中設備間需要頻繁通信,因此要求高帶寬、低延遲的網絡環境。

圖片

流水線并行

除了張量并行,GPU內存不足的另一種解決方案就是流水線并行。

顧名思義,這種方案是將前向計算看成一個流水線,每個GPU負責其中一環,也就是網絡中的一層或幾層,完成計算后將結果傳遞給下一個GPU。

流水線并行對跨設備通信的要求也很高,但沒有張量并行那么苛刻。

圖片

為了最大限度地提高模型FLOP利用率,三種并行模式通常結合使用,形成3D并行。

張量并行對通信要求最高,因此應用于同一服務器內的多個GPU, 再在同一計算島內的節點間使用管道并行。

由于數據并行的通信量最小,而且島與島之間的聯網速度較慢,因此跨計算島時使用數據并行。

圖片

網絡設計

拓撲結構

進行網絡拓撲設計時需要同時考慮到所用的并行化方案。

如果采用胖樹拓撲結構(fat-tree topology),每兩個GPU之間都用最大帶寬相連,就需要4層交換,成本十分高昂。

圖片

論文《Adaptive Load Balancing Scheme For Data Center Networks Using Software Defined Network》

因此,沒有大型GPU集群會部署全胖樹架構。取而代之的方案是,制造具有全胖樹架構的計算島,同時減少島間的帶寬。

比如,Meta的上一代GPU集群架構使用了3.2萬張芯片,總共有8個計算島,島與島之間部署全速帶寬,然后在頂部另加一個7:1的收斂比(oversubscription)的交換層,于是島與島之間的聯網速度就是島內的七分之一。

圖片

網絡設備部署

GPU部署有多種網絡,包括前端網絡、后端網絡和擴展網絡(NVLink),每個網絡中運行不同的并行方案。

對于張量并行的帶寬要求而言, NVLink網絡可能是唯一足夠快的網絡。后端網絡通常可以輕松處理大多數其他類型的并行,但如果存在「收斂比」,通常只能采用數據并行。

此外,有些數據中心甚至沒有在頂層設置「收斂比」帶寬的孤島。相反,他們將后端網絡遷移到前端網絡。

一家大型公司利用前端以太網在多個InfiniBand計算島上進行訓練。這是因為前端聯網的成本要低得多,而且可以利用樓宇間現有的數據中心園區網絡和區域路由。

圖片

遺憾的是,由于采用了MoE等稀疏技術,模型尺寸增長速度加快,前端網絡需要處理的通信量也隨之增加。

這種權衡必須仔細優化,否則最終會出現兩種方案網絡成本趨同的情況,因為前端網絡帶寬最終會增長到與后端網絡帶寬相匹配的程度。

值得注意的是,谷歌在多TPU pod訓練運行中只使用前端網絡。他們被稱為ICI的「計算結構」最多只能擴展到8960個芯片,每個包含64個TPU的水冷機架之間需要使用昂貴的800G光纖和光路交換機進行連接。

因此,谷歌必須使TPU前端網絡比大多數GPU前端網絡更強大,以彌補這一不足。

圖片

在訓練過程中使用前端網絡時,全局歸約操作必須能夠依據各計算島之間的網絡拓撲結構。

首先,每個pod或計算島將在內部的InfiniBand或ICI網絡中執行局部的規約-分散操作,使每個GPU/TPU擁有梯度的一部分總和。

接下來,將使用前端以太網絡在每個主機等級之間執行跨pod歸約,最后每個pod將執行pod級全收集。

前端網絡還負責加載數據。隨著多模態圖像和視頻訓練數據的發展,對前端網絡的要求將呈指數級增長。

在這種情況下,加載大型視頻文件和歸約這兩種操作之間將爭奪前端網絡帶寬。

此外,由于存儲網絡流量不規則,會導致整個歸約過程變慢,無法進行預測建模,從而增加了滯后問題。

另一種方法是使用4層InfiniBand網絡, 采用 7:1的收斂比,4個pod, 每個pod有24576個H100,采用無阻塞3層系統。

與使用前端網絡相比,這為將來增加帶寬提供了更大的靈活性,因為與升級集群中每個機箱的前端網絡網卡相比,在兩個大樓的交換機之間添加更多光纖收發器要容易得多。

圖片

這樣可以創建一個更穩定的網絡模式,因為前端網絡可以只專注于加載數據和檢查點,而后端網絡可以只專注于GPU間通信。但遺憾的是,由于需要額外的交換機和收發器,4層Infiniband網絡非常昂貴。

軌道優化與中間架

為了提高可維護性并增加銅纜網絡(<3米)和多模網絡(<50米)的使用,一些客戶選擇放棄英偉達推薦的軌道優化設計(rail optimized design),轉而采用中間架設計(Middle of Rack design)。

圖片

軌道優化是一種技術,可讓每臺H100服務器連接到8個不同的葉交換機(而不是全部連接到同一個機架中的交換機),這樣每個GPU只需跳一次交換機就能與更遠的GPU通信,提高全對全集體通信(all-to-all collective communication)性能。

比如在混合專家(MoE)并行中,就大量使用了全對全集體通信。

圖片

軌道優化設計的缺點則是,必須連接到不同距離的不同葉交換機,而不是將一個機架中間的交換機靠近服務器中的所有8個GPU。

當交換機位于同一機架時,可以使用無源直連電纜(DAC)和有源電纜(AEC),但在軌道優化設計中,交換機不一定位于同一機架,因此必須使用光學器件。

此外,葉交換機到骨架交換機的距離可能大于50米,因此必須使用單模光收發器。

如果采用非軌道優化設計,則可以用廉價的直連銅纜取代連接GPU和葉交換機的98304個光纖收發器,從而使您 GPU鏈路中銅纜占比達到 25-33% 。

從下面的機架圖中可以看到,每個GPU與板上交換機的連接不再是先連接到電纜托架,然后再從側面穿過9個機架連接到專用的軌道優化板上的交換機機架,而是將板上交換機放在機架中間,讓每個GPU都能使用DAC銅纜。

圖片

與光纜相比, DAC銅纜運行溫度更低、耗電更少、成本更低,且可靠性更高,因此這種設計就減少了網絡鏈路間歇性癱瘓和故障,而這正是所有使用光學器件的高速互連所面臨的主要問題。

在使用DAC銅纜時,Quantum-2IB骨架交換機的耗電量為747瓦。使用多模光纖收發器時,功耗會增加到1500瓦。

圖片

此外,軌道優化設計的初始布線對于數據中心技術人員來說非常耗時,因為每個鏈路的兩端距離長達50米,而且不在同一個機架上。

而在中間機架設計中,葉交換機與連接到葉交換機的所有GPU位于同一機架上,甚至設計完成之前,可以在集成工廠測試計算節點到葉交換機的鏈路,因為所有鏈路都在同一個機架上。

圖片

可靠性與恢復

由于當前的模型訓練都是同步進行,可靠性就成為了巨型集群最重要的運行問題之一。最常見的可靠性問題包括GPU HBM ECC錯誤、GPU驅動器卡死、光纖收發器故障、網卡過熱等。

為了保持較短的平均故障恢復時間,數據中心必須在現場保留熱備用節點和冷備用組件。發生故障時,最好的辦法不是直接停止訓練,而是換上已經開啟的備用節點繼續訓練。

事實上,大部分服務器宕機的情況都可以通過重啟修復,但有些時候則需要技術人員對設備進行現場診斷和更換。

在最好的情況下,數據中心技術人員只需幾個小時就能修復損壞的GPU服務器,但很多情況下,損壞的節點可能需要幾天時間才能重新投入使用。

在訓練模型時,需要經常將檢查點存儲到到CPU內存或NAND SSD, 以防出現HBM ECC等錯誤。發生錯誤時,必須重新加載模型和優化器的權重,再繼續訓練。

容錯訓練技術(如Oobleck))可用于提供用戶級應用驅動方法,以處理GPU和網絡故障。

遺憾的是,頻繁地備份檢查點和容錯訓練技術會損害系統的整體MFU,因為集群需要不斷暫停,將當前權重保存到持久內存或CPU內存中。

此外,通常每100次迭代才保存一次檢查點,這意味著每次重新加載時你最多會丟失99步有用的工作。在一個10萬卡集群上,如果每次迭代耗時2秒,那么在第99次迭代失敗時,最多會損失229個GPU日的工作。

故障恢復的另一種方法是讓備用節點通過后端結構從其他GPU進行 RDMA復制。后端GPU的速度約為400Gbps, 每個 GPU有80GB的HBM內存,因此復制權重大約需要1.6秒。

采用這種方法,最多只能損失1個步驟(因為更多GPU HBM將擁有最新的權重副本),因此只需2.3個GPU日的計算時間,再加上從其他GPU HBM內存RDMA復制權重的1.85個GPU日。

大多數領先的人工智能實驗室都采用了這一技術,但許多小型公司仍堅持使用繁重、緩慢、低效的技術,即從檢查點重新啟動處理所有故障。通過內存重構實現故障恢復可為大型訓練運行的MFU提升好幾個百分點。

圖片

網絡故障方面,最常見問題之一是Infiniband/RoCE鏈路故障。由于收發器數量較多,即使每個網卡到最底層交換機鏈路的平均故障率為5年,在一個全新的、正常運行的集群上發生第一次作業故障也只需要26.28分鐘。

如果不通過內存重建進行故障恢復,那么在10萬卡的GPU集群中,由于光纖故障而重新啟動運行所花費的時間,將比模型實質進行計算所花費的時間更多。

圖片

由于每個GPU都直接連接到ConnectX-7網卡(通過PCIe交換機),在網絡架構層面沒有容錯能力,因此故障必須在用戶訓練代碼中處理,增加了代碼庫的復雜性。

這是當前英偉達和AMD的GPU網絡結構的主要挑戰之一,即使一個網卡故障,該GPU無法與其他GPU通信。

由于大語言模型(LLM)在節點內使用張量并行,如果一個網卡、一個收發器或一個GPU故障,整個服務器就會宕機。

目前有很多工作正在進行,以使網絡可重配置,減少節點的脆弱性。這項工作至關重要,因為現狀意味著整個GB200 NVL72僅因一個GPU或光學故障就會宕機。

顯然,一個價值數百萬美元的72 GPU機架宕機比一個價值幾十萬美元的8 GPU服務器宕機更具災難性。

英偉達已經注意到這個重大問題,并增加了一個專用的RAS(可靠性、可用性和可維護性)引擎。

其中,RAS引擎通過分析芯片級數據,如溫度、恢復的ECC重試次數、時鐘速度、電壓等指標,來預測芯片可能的故障并提醒數據中心技術人員。

這將使技術人員能夠進行主動維護,例如使用更高的風扇速度配置來保持可靠性,并在以后的維護窗口期中將服務器從運行隊列中撤出進行進一步的物理檢查。

此外,在開始訓練任務之前,每個芯片的RAS引擎將執行全面的自檢,例如運行已知結果的矩陣乘法以檢測靜默數據損壞(SDC)。

成本優化

Cedar-7

一些客戶如微軟和OpenAI正在使用Cedar Fever-7網絡模塊,而不是8個PCIe形式的ConnectX-7網絡卡。

使用Cedar Fever模塊的主要好處是,它僅需4個OSFP插槽而非8個,并允許在計算節點端使用雙端口2x400G收發器。

這將每個H100節點連接到葉交換機的收發器數量從8個減少到4個;計算節點端連接GPU到葉交換機的收發器總數從98304減少到49152。

圖片

由于GPU到葉交換機的鏈接減少了一半,這也有助于延長首次作業失敗的時間。

根據估計,每個雙端口2x400G鏈接的平均故障時間為4年(相比單端口400G鏈接的5年),這將使首次作業失敗的估計時間從26.28分鐘延長至42.05分鐘。

圖片

Spectrum-X

InfiniBand的優勢在于,以太網并不支持SHARP網絡內縮減。

而SHARP能將每個GPU需要進行的發送和寫入次數減少2倍,因此它的理論網絡帶寬也增加了2倍。

但InfiniBand NDR Quantum-2交換機只有64個400G端口,而每個Spectrum-X以太網的SN5600交換機有128個400G端口,Broadcom的Tomahawk 5交換機ASIC也支持128個400G端口。

由于Quantum-2交換機的端口容量較低,在一個擁有10萬節點的集群中,完全互聯的GPU數量最多只能達到65,536個H100。

不過,下一代InfiniBand交換機——Quantum-X800,將通過144個800G端口解決這個問題,但從「144」這個數字可以看出,這是為NVL72和NVL36系統設計的,不太可能在B200或B100集群中廣泛使用。

圖片

Spectrum-X的主要優勢在于其得到了NVIDIA庫如NCCL的一級支持——老黃會將你推到他們新產品線的首批客戶隊列中。

相比之下,如果你使用的是Tomahawk 5芯片,就需要大量的內部工程努力來優化網絡以實現最大吞吐量。

然而,如果采用Spectrum-X,就必須加價購買Nvidia LinkX產品線中的收發器,因為其他收發器可能無法正常工作或者通不過英偉達的驗證。

此外,英偉達在第一代400G Spectrum-X中,使用了Bluefield-3來代替ConnectX-7作為臨時解決方案。(ConnectX-8預計能夠與800G Spectrum-X完美配合)

在超大規模的數據中心中,Bluefield-3和ConnectX-7的價格差異約為300美元ASP,但前者要多耗電50瓦。因此,每個節點需要額外的400瓦功率,降低了整體訓練服務器的「每皮焦爾智能度」。

現在,將Spectrum-X放入數據中心需要額外的5MW功率來部署10萬個GPU,而使用相同網絡架構的Broadcom Tomahawk 5則不需要。

圖片

Tomahawk 5

為了避免給英偉達支付高昂的費用,許多客戶選擇部署基于Broadcom Tomahawk 5的交換機。

每個基于Tomahawk 5的交換機與Spectrum-X SN5600交換機一樣,擁有128個400G端口,如果公司有優秀的網絡工程師,可以實現類似的性能。此外,你可以從任何供應商購買通用的收發器和銅纜,并進行混合使用。

大多數客戶直接與ODM合作,如Celestica的交換機,以及與Innolight和Eoptolink的收發器。

基于交換機和通用收發器的成本,Tomahawk 5相比Nvidia InfiniBand便宜得多,相比Nvidia Spectrum-X也更具成本效益。

不幸的是,你需要足夠的工程能力來為Tomahawk 5修補和優化NCCL通信集群。畢竟,雖然后者開箱即用,但僅針對Nvidia Spectrum-X和Nvidia InfiniBand進行了優化。

好消息是,如果你有40億美元用于10萬個集群,就應該也有足夠的工程能力來修補NCCL并進行優化。

當然,軟件開發是困難的,但Semianalysis認為,每個超大規模數據中心都會進行這些優化并拋棄InfiniBand。

圖片

物料清單

每10萬個H100集群的總資本支出約為40億美元,但具體金額會因所選擇的網絡類型而有所不同。

具體來說,可以分為四種:

1. 4層InfiniBand網絡,包含32,768個GPU集群,軌道優化,7:1收斂比

2. 3層Spectrum X網絡,包含32,768個GPU集群,軌道優化,7:1收斂比

3. 3層InfiniBand網絡,包含24,576個GPU集群,非軌道優化,用于前端網絡的集群間連接

4. 3層Broadcom Tomahawk 5以太網網絡,包含32,768個GPU集群,軌道優化,7:1收斂比

圖片

可以看到,選項1比其他選項貴了1.3到1.6倍;選項2雖然提供了更大的集群、更高的集群間帶寬和相似的成本,但需要更多的電力;而選項3則會嚴重降低并行方案的靈活性。

綜上,基于Broadcom Tomahawk 5的32k集群,搭配7:1的收斂比是最具成本效益的選項,這也是多家公司選擇構建類似網絡的原因。

平面布局

最后,在集群的設計上,還需要優化機架布局。

從圖中可以看到,有些行的葉交換機并不在同一排,這其實是為了優化使用50米多模光纖。

因為如果將多模收發器放在行的末端,中間的主干交換機將超出距離范圍。

圖片

使用軌道優化的Spectrum-X / Tomahawk 5的32k集群平面圖

在這個微軟開發集群中,每個機架支持高達40kW的功率密度,每個機架容納四個H100節點。

圖片

目前,這個擁有10萬個節點的集群的4棟建筑中,有3棟已經建成

而從H100服務器到葉交換機的連接則使用多模AOC光纖,通過藍色電纜識別。

圖片

展望未來,隨著博通幾乎主導了所有超大規模集群,他們的網絡收入將繼續飆升。

與此同時,由于眾多新興云服務和企業傾向于選擇英偉達的參考設計,這家巨頭在網絡方面也將繼續增長。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-08-29 13:51:00

AI數據

2024-03-14 14:49:34

Meta人工智能

2024-09-05 13:30:00

2025-02-17 09:06:00

AI算力模型

2024-10-31 13:39:47

2024-07-29 14:27:38

2009-12-24 14:02:57

Linux集群技術

2012-07-06 15:23:28

Linux集群

2024-07-16 13:29:52

2024-03-15 09:00:00

2025-06-10 16:36:29

AI算力技術

2024-07-23 13:10:20

2022-08-09 09:10:43

Kubernetes容器

2024-05-27 00:50:00

2019-07-03 15:32:26

路由器網絡系統

2021-08-27 10:14:16

Thanos監控開源

2021-08-09 10:20:04

Thanos監控架構

2024-01-19 12:34:39

2022-02-09 17:08:57

卡頓App 流暢性用戶
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费观看www | 亚洲欧美日韩国产综合 | 欧美日韩在线一区二区三区 | 麻豆久久久9性大片 | 欧美区在线 | 亚洲国产精品视频 | 日韩精品视频在线 | 欧美日韩精品免费 | 国内自拍视频在线观看 | 亚洲欧美中文日韩在线v日本 | 日韩一区二区在线观看视频 | 中文精品视频 | 欧美激情精品久久久久久变态 | 久久av一区| 超碰人人人人 | 日韩在线视频播放 | 日本久久精 | 色橹橹欧美在线观看视频高清 | 久久一区二区三区四区 | 操皮视频 | 96国产精品久久久久aⅴ四区 | 亚洲天堂一区 | 国产精品久久一区二区三区 | 欧美中文字幕一区二区 | 成人视屏在线观看 | 日韩精品专区在线影院重磅 | 国产在线视频三区 | 久久精品女人天堂av | 成人精品国产免费网站 | 日韩无 | 黄色免费三级 | 免费久久精品视频 | 免费日韩av网站 | 国产精品久久久久久久久久 | 久久国内精品 | 天天综合网91 | 日本在线中文 | 男人的天堂中文字幕 | 欧美日韩一区二区三区四区 | 亚洲欧美激情国产综合久久久 | 久久亚洲国产精品 |