Mellanox解決方案
公司名稱: Mellanox
公司介紹:
Mellanox公司(NASDAQ: MLNX)是一家***的面向服務器、存儲和超融合系統的以太網和InfiniBand端到端智能網絡產品的提供商,通過提供高帶寬、低延遲和各種先進的網絡加速功能,Mellanox智能網絡產品可以讓數據中心中的數據移動更快捷,讓應用得到更高的性能。Mellanox的智能網絡產品包括網絡設備芯片、卡、交換機、線纜、光模塊、基于SOC的智能網卡以及各種應用加速軟件,可以加速各種應用提升用戶的投資回報率。目標市場包括高性能計算、人工智能、數據中心、企業級客戶、云計算、存儲、網絡安全、電信及金融等各個行業。
解決方案介紹:
高性能計算和人工智能解決方案
Mellanox高性能智能網絡端到端解決方案可以實現在數據傳輸的過程中進行計算(網絡計算),通過和CPU和GPU的協同計算,解決目前數據中心、計算中心和云計算中心由于通信模式而產生的網絡和計算瓶頸問題,大幅提升系統的整體應用性能。如RDMA技術、GPU Direct RDMA技術和SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技術、NVMe Over Fabric Target Offload技術等共同構成了網絡計算的核心。
Mellanox和IBM、Nvidia一起合作共同為美國橡樹嶺國家實驗室構建的Summit CORAL超級計算機,是目前世界上最快的超級計算機以及人工智能機器。在這個機器中,用到了IBM Power 9 CPU、Mellanox EDR InfiniBand智能端到端網絡和Nvidia GPU,可以達到187PetaFlops的峰值計算性能。在這臺機器中,就用到了網絡計算技術,通過網絡計算 + CPU計算 + GPU計算的整合,可以***化地利用所有的資源,減少計算和通信的瓶頸,實現了***的效率。
Mellanox ConnectX-5 and ConnectX-6系列全面支持PCIe Gen4與Power9 CPU 互聯,可提供高達200Gb/s的網絡吞吐量。Mellanox 作為OpenCAPI組織的核心成員之一,一直關注CAPI(Coherent Acceleration Processor Interface)技術在網絡層面的應用和優化。數據處理已經成為數據中心的核心,越來越多的應用已經不滿足于單臺服務器性能的提升,如何提升整體數據中心集群的性能至關重要。CAPI的高性能可以讓服務器性能***化,CAPI+ Mellanox的網絡計算技術可以讓數據中心的性能***化。服務器總線技術和網絡技術能做***整合,實現數據中心性能***化。
Mellanox的全新智能網卡Innova2集成了ConnectX-5和FPGA可編程加速器功能,支持基于Power9芯片的CAPI2.0及OpenCAPI接口,其數據傳輸帶寬分別可達16GB/s和25GB/s。在異構計算領域提供了更好的計算性能和成本優勢方案。
解決方案優勢/帶給客戶的好處:
Summit CORAL超級計算機相比較橡樹嶺國家實驗室的前一臺機器Titan來言,性能提升了5到10倍,節點數降低到了四分之一,單節點性能提升了越30倍,網絡通信帶寬提升了14倍,延遲降低到了十五分之一,Barrier延遲降到了二十三分之一,總體功耗僅提高了50%。
在Summit CORAL的設計中,每臺服務器采用了2顆Power 9 CPU、6顆Nvidia V100 GPU和兩片EDR InfiniBand網卡,通過Mellanox獨特的Socket Direct技術實現了兩個CPU和6個GPU共享一片EDR卡,兩片卡可以同時工作在Active和Active狀態,實現了性能和冗余的雙保險。同時在網絡拓撲上使用了傳統的Fat-Tree拓撲,實現了全網絡的冗余。
為了提升這臺系統的性能,用到了網絡計算中的GPU Direct RDMA技術和SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技術,GPU和GPU在通信的時候有直接的通道,不需要和CPU有任何溝通,在通信過程中的Collective相關操作,有交換機代替了CPU來操作,解決了Collective相關操作帶來的網絡瓶頸問題,同時CPU得到了更多的資源來做計算。為了提升整體系統的健壯性,用到了動態路由技術和SHIELD(Self-Healing Technology)技術,數據可以根據網絡的擁塞狀況自動調整路徑,或者遇到鏈路問題的時候自動改變路徑,大大降低了網絡問題對于應用的影響。
解決方案使用場景和案例:
CORAL超級計算機和人工智能系統主要面向科學技術可人工智能兩個市場,并不是針對特定的市場,可以被設計成各種規模來滿足不同應用的需求。
Innova2智能網卡在網絡數據安全,流量分析等方面提供了更好的異構方案。使主機CPU可以更專注于應用處理,提升整機性能。同時OpenCAPI技術有助于縮短流量處理過程中和FPGA和CPU交互數據的延遲,非常適用于數據監控內容實時性要求很高的流量分析場景。