騰訊星脈網絡2.0升級 支持十萬卡超級集群
原創隨著人工智能技術的飛速發展,模型規模的不斷膨脹對底層算力提出了前所未有的挑戰。為了支撐AIGC領域中海量數據的大規模訓練,大量服務器通過高速網絡組成大規模算力集群,互聯互通,共同完成訓練任務。
然而,集群規模的擴大也伴隨著通信開銷的激增,成為制約計算效率的關鍵因素。在模型訓練過程中,GPU頻繁地在計算與等待數據同步之間切換,造成了寶貴計算資源的閑置。只有把提升通信的效率不斷提升、把通信成本占到降到最低,才能充分利用計算資源。因此,要充分發揮GPU計算資源的強大算力,必須構建一個全新的高性能網絡底座,用高速網絡的大帶寬來助推整個集群計算的高效率。
2023年,騰訊云首次公開展示了其自研的星脈高性能計算網絡,全面提升企業大模型的訓練效率,在云上加速大模型技術的迭代升級和落地應用。一年后,星脈高性能計算網絡全面升級,升級后的星脈網絡2.0搭載全自研的網絡設備與AI算力網卡,支持超10萬卡大規模組網,網絡通信效率比上一代提升60%,讓大模型訓練效率提升20%。
騰訊云副總裁王亞晨形象地比喻道,AI大模型就像是一場F1比賽,騰訊云專門設計了星脈高性能算力網絡“賽道”,并自研了TiTa和TCCL網絡協議作為“道路控制系統與專業車隊”,共同讓“騰訊云高性能計算集群HCC的GPU服務器”這臺馬力強大的F1賽車發揮最大的算力性能,助力客戶在AI大模型的競爭中遙遙領先。同時配備了專業的搶修隊,一旦故障發生,快速定位和搶救,讓賽事快速恢復運行。
騰訊云副總裁王亞晨
此次星脈網絡2.0就針對自研網絡設備、通信協議、通信庫以及運營系統四大關鍵組件進行了全面升級。
賽道升級-自研網絡硬件
通過自研網絡硬件設備,星脈網絡“賽道”也進行了全新升級。自研交換機容量從25.6T升級到51.2T,光模塊的速率從200G升級到了400G,讓網絡延遲降低40%,整體組網規模翻倍,同一訓練集群最大可支持超過10萬卡。同時支持可插拔控制卡,全面降低了低功耗與運維成本。
值得注意的是,星脈網絡2.0搭載了騰訊自研的全新算力網卡CNIC,這是公用云業內首款為AI訓練設計的網卡,網卡采用最新一代 FPGA 芯片,整卡帶寬可達400Gbps,具備業界最高的3.2T整機通信帶寬。
指揮中心升級-自研通信協議TiTA
自研TITA協議相當于指揮中心,分配車流量,避免單一車道擁堵,釋放賽車速度極限。相比起上一代,TiTa協議2.0從部署在交換機轉移到了端側的網卡上,協議算法也從原來的被動擁塞算法升級到了更為智能的主動擁塞控制算法,可主動調整數據包發送速率,從而避免網絡擁堵;并通過擁堵智能調度,實現網絡擁塞快速自愈。這讓MoE訓練下網絡通信性能相比1.0提升30%,帶來訓練效率10%的提升。
車隊升級-集合通信庫TCCL
星脈網絡1.0的通信庫TCCL相當于智能導航系統,縮短到達路徑。而星脈網絡2.0的TCCL通信庫就像一支更專業的車隊,原來只給車加了導航,現在可以根據不同的場景,對賽車本身進行改裝,讓賽車時刻處于最佳性能。TCCL 2.0 階段,騰訊云通過NVLINK+NET異構并行通信、Auto-Tune Network Expert自適應算法等通信庫的升級,在MoE模型訓練下,給星脈網絡帶來了30%的通信效率提升,讓模型訓練效率提升10%。
搶修隊升級-運營系統GOM&GOA
運營系統是搶修隊,全棧網絡運營系統保障了道路的可用性,出現異常后第一時間搶修,讓網絡盡快恢復訓練。運營系統2.0新增靈境仿真平臺,通過收集訓練過程中的日志記錄與GPU相關信息,通過仿真模擬還原訓練任務的空間關系和通信的時序關系,定位大模型訓練的卡死和性能抖動類故障,定位效率從傳統手段的天級別縮短到10分鐘以內。
面對GPU性能的暴增,網絡成為了集群算力的瓶頸。騰訊正在規劃星脈3.0,將基于以太網技術構建開放、彈性的ETH-X超節點系統,以突破集群算力的瓶頸,降低集群成本,為AI技術的進一步發展提供更強大的支持。