市場動態 | 人工智能推動光連接需求激增
隨著全球數字經濟的快速發展,云計算提高了人們對數據傳輸速度的期望,但人工智能(AI)工作負載給帶寬以更快、更可靠地傳輸數據帶來了更大的壓力。
雖然像Compute Express Link(CXL)這樣的協議有助于優化數據存儲位置,使其更接近需要的位置,但連接對于盡可能快地移動數據仍然至關重要。在采用率下降之后,亞馬遜和谷歌等公司在數據中心擴展人工智能的光收發器技術有所增加,而連接性則與硬件和軟件一起融入到全棧系統中。
光通信市場研究公司LightCounting在其2023年7月的大型數據中心光學報告中表示,光收發器銷量的增加與GPU和基于GPU的AI集群系統銷量的大幅增長相關。該公司預測,未來五年用于人工智能集群應用的以太網光收發器銷售額將達到176億美元,而同期以太網收發器的所有其他應用合計將產生285億美元的銷售額。
支持人工智能集群的部署抵消了云計算公司因預計經濟衰退尚未實現而削減的支出。
對人工智能連接的需求比最近炒作的ChatGTP早了幾年,谷歌在2019年至2020年期間在其人工智能集群中部署的光學器件比其數據中心基礎設施的其他部分還要多。據LightCounting估計,到2022年,部署在AI集群中的光收發器已占整個市場的25%。
LightCounting首席執行官Vlad Kozlov在接受采訪時表示,在2022年底,生產需求有所放緩,這意味著今年第一季度光模塊銷售將出現下滑。但是,到今年4月,英偉達在人工智能領域的業務明顯活躍起來,這也推高了LightCounting的預測。“這也提醒了所有正在建設人工智能基礎設施的競爭對手。”
對人工智能更廣泛的興趣推動了簡化基礎設施部署的需求
Kozlov表示,英偉達在人工智能基礎設施市場的關鍵優勢在于,它開發了包括光連接、硬件和軟件的全棧系統。“如果你看看谷歌和亞馬遜正在做的事情,就會發現他們正在內部開發人工智能硬件和軟件。”
他說,這些公司和微軟等其他公司已經從人工智能應用中賺錢有一段時間了,但ChatGPT的出現,讓人們認為人工智能可以在不同行業更廣泛地使用,以提高工人的生產力。“除了非常大的公司之外,許多其他公司也開始關注人工智能。”
Kozlov表示,全棧解決方案很有吸引力,因為許多公司不具備構建軟件和硬件的專業知識,因此轉向Nvidia可以更輕松地開始構建人工智能基礎設施。
在連接方面,光收發器的優勢在于能夠在更長的距離上支持更高的數據速率。雖然銅的彈性比預期更強,但距離隨著數據速率的提高而縮短。“與此同時,人工智能集群正在變得越來越大。”Kozlov表示,谷歌正在討論在其陣列中擁有數萬個GPU。“當系統變得那么大時,顯然距離也會變大。你需要使用更多的光學器件。”
Kozlov表示,除了能夠長距離高速傳輸信號之外,光轉換的吸引力還在于它們可以更輕松地重新配置連接——當GPU跨數據中心的不同部分時,靈活性非常有用,有助于提高可擴展性和可靠性,因為可以快速繞過有問題的節點以保持模型運行。
光收發器與協議無關,這意味著它們可以很好地與以太網和InfiniBand配合使用。也沒有光纖連接器——全是電氣的。
Kozlov表示,一個顯著的趨勢是從光纜轉向可插拔光學器件。“它只是一個插入服務器的小型設備。”
他表示,英偉達是最新光學熱潮的推動者之一,由于其解決方案的高連接密度,英偉達正在轉向可插拔收發器。LightCounting報告稱,英偉達2023年4月的財報電話會議暗示了人工智能基礎設施的總體資金規模,盡管實際數字尚不清楚。Nvidia2023年第二季度的收入預計將環比增長50%,這主要是由用于AI集群的GPU和基于GPU的系統的銷售推動的,這使得一些財務分析師估計未來五年用于AI的累積收發器收入將達到1000億美元或更多單獨的應用程序。
工作負載定義數據中心設計
Nvidia網絡高級副總裁GiladShainer在接受媒體采訪時表示,整個數據中心的設計需要有針對性,其中包括人工智能工作負載及其所需的連接。“一切都必須以平衡的方式進行。”
他說,人工智能工作負載分布在數據中心的不同連接設備之間。“定義數據中心功能的元素是網絡。將所有內容連接在一起的方式決定了您將能夠運行什么樣的工作負載。”
Shainer表示,一旦這些元素就位,就可以創建進入數據中心的必要芯片和ASIC。
InfiniBand在Nvidia的AI數據中心解決方案中發揮著關鍵作用。該公司的Quantum InfiniBand網內計算平臺專為高性能計算(HPC)、人工智能和超大規模云基礎設施而設計。但Nvidia也有自己的NVLink,這是一種基于有線的串行多通道近距離通信鏈路。它使用專有的高速信號互連(NVHS),與PCIExpress不同,一個設備可以由多個NVLink組成,并且設備使用網狀網絡而不是中央集線器進行通信。
Shainer表示,NVLink的作用是共享內存訪問,并與InfiniBand一起允許橫向擴展整個平臺。
他補充說,平臺本身的目的很重要。“你想運行什么樣的工作負載?你想解決什么樣的問題?”Shainer表示,一旦確定了數據中心的用途,就可以在其中安裝適當的網絡,包括InfiniBand和NVLink,以獲得必要的數據吞吐量,這是更困難的部分,同時還需要大量帶寬快點。“你需要快速完成它的原因是因為你正在處理分布式計算。”
Shainer表示,重要的是網絡在大規模滿負載下的能力,最慢的鏈路決定了系統的整體性能。為傳統云計算構建的數據中心并非旨在提供人工智能工作負載所需的性能,這可能需要數千個GPU以極低的延遲工作。“這是一個非常復雜的過程,你需要同步,”他說。
施耐德電氣創新和數據中心副總裁SteveCarlini表示,人工智能工作負載已經徹底改變了IT和物理基礎設施,而不僅僅是從網絡角度來看。在接受媒體采訪時,他表示,近年來,各種規模的公司都在瘋狂爭奪建設支持人工智能的基礎設施。“它不再部署標準套接字X86服務器。”
Carlini表示,人工智能數據中心擁有CPU、GPU、加速器和DPU,需要一個架構來移入和移出數據。“每個GPU加速器都有一個網絡端口,并且它們都同步運行。”
Carlini說,人工智能數據中心與傳統數據中心的另一個顯著區別是,它們一直在運行工作負載,這會改變設計參數。“這是令人難以置信的熱量。”
Carlini表示,將10000個GPU集中在一起并將它們放入服務器機架中確實面臨物理限制,其中最重要的是熱量。除了各種冷卻選項之外,解決方案是將所有部件分開。“實現這一目標的障礙在于網絡。”他表示,盡管光收發器成本已大幅下降并且可以覆蓋更遠的距離,但運行400gig InfiniBand并不便宜。“最大的猶豫實際上是網絡成本,因為每個GPU都有自己的網絡連接。”
連接速度較慢也有其用武之地
并非所有連接都需要是像InfiniBand這樣的快速光纖連接。Carlini表示,有一些基于銅纜的創新,例如Broadcom的Jericho3,它專為AI集群而設計,運行速度可達800GB。“這似乎是很多人都在等待的解決方案。”
Carlini表示,快速、可擴展的連接以及銅纜的可靠性和低成本是圣杯,但任何數據中心都將擁有包括光纖、銅纜和無線在內的解決方案層次結構。
Carlini表示,將要攝取的數據可以通過銅線傳輸到數據中心,而WiFi足以滿足管理功能。他說,實時關鍵任務人工智能需要光學連接,特別是當模型開始攝取更多視頻和圖像而不僅僅是文本時。
Lightcounting的Koslov表示,光學連接的下一個前沿是可插拔的——它將與GPU和ASIC共同封裝。“你不必擔心插入收發器。電子芯片將會產生光學器件。”
他表示,光學的基本優勢不會消失。“我們看不到任何替代方案。”
然而,Koslov表示,盡管存在局限性,但銅仍在繼續尋找改進的方法。“光與銅將共存。”
資料來源:https://www.fierceelectronics.com/electronics/ai-boosts-optical-connectivity-demand