是德科技推出全新KAI解決方案,助力人工智能領域破局產業困境
原創1939年,惠普于一個車庫誕生。1999年,惠普將盈利強勁的醫療和測量儀器部門分拆出來,成立獨立的安捷倫公司。2014年,安捷倫再度分拆,是德科技在此過程中正式獨立。在過去的十年間,是德科技推動了眾多變革,成功轉型為以軟件為核心的測試解決方案供應商。
隨著人工智能時代的到來,是德科技在與眾多技術公司共拓人工智能市場的過程中,敏銳地洞察到技術發展趨勢,同時也發覺構建人工智能網絡仍會面臨許多困難。
近日,是德科技召開了媒體溝通會。會上,是德科技大中華區市場總經理鄭紀峰以及是德科技大中華區高速數字市場部經理李堅,分享了是德科技對人工智能技術趨勢的洞察和市場客戶痛點的見解,并重磅推出了KAI(Keysight AI)系列解決方案,主要涵蓋三大新產品矩陣。
是德科技大中華區市場總經理鄭紀峰
是德科技大中華區高速數字市場部經理李堅
大模型與大算力時代的挑戰
隨著技術不斷進步,早期人工智能應用主要依靠小算力和模型。如今,我們已進入大模型與大算力時代。實現大算力需大帶寬和海量數據交換能力,這對算力中心性能提出很高要求。
算力中心底層算力架構依賴以太網、存儲、PCIe以及銅纜光纜等基礎設施。是德科技預計,未來3-5年,以太網帶寬將從400/800G提升至1.6/3.2T;存儲方面,DDR技術將升級至DDR6或DDR7,HBM超寬帶存儲應用也將普及。PCIe技術則將從PCIe5(32 GT/s)演進至PCIe6甚至PCIe7(128 GT/s)。而技術迭代通常伴隨著帶寬翻倍增長。
但帶寬提升也帶來諸多問題。一方面,功耗增加、溫度變化影響器件性能,部分器件對溫度敏感,微小波動也會改變性能,器件間干擾也更明顯。另一方面,PCB板在高速率場景下因信號損耗和干擾過大難以為繼。
網絡規模擴大還易導致效率降低。由于人工智能數據中心與傳統數據中心的差異較大,人工智能算法,尤其是基于神經元網絡的算法,要求各節點之間進行大量的數據交互。在這樣的網絡架構下,若一個節點出現故障,整個網絡的效率都將受到影響,這與以往主要依賴南北通信的模式截然不同。
另外,GPU的使用效率也是問題。在訓練大模型時,企業至少需要“萬卡集群”,否則將面臨訓練精度低和可靠性不足的問題。眾所周知,GPU的成本極高,但在實際訓練中,GPU處于高效工作狀態的時間僅為三分之一,其余時間則因等待數據傳輸而處于閑置狀態。由此可見,如果數據中心的網絡架構設計不合理,GPU的使用效率將大打折扣。
此外,發生故障的概率也不容忽視。故障產生的原因多種多樣,一方面,許多器件在接近物理極限性能或超負荷運行時會導致穩定性變差,從而出現各種故障;另一方面,硬件問題頻發,存儲、計算以及互連部件等都可能出現無法預測的故障。
總之,人工智能發展對大模型、算力和網絡有迫切需求。基于對這些趨勢和痛點的洞察,是德科技憑借自身經驗,開發出一系列針對性解決方案。
全新解決方案涵蓋三大新品矩陣助力AI產業發展
是德科技秉持著打造全棧方案的基礎理念,致力于提供全生命周期的解決方案,貫穿客戶的預研、仿真、設計、初級樣品測試、生產制造以及維護等各個環節。
基于此,是德科技推出KAI(Keysight AI)解決方案,這是一系列端到端的方案,旨在助力客戶借助真實世界的AI工作負載仿真,驗證AI集群組件,進而拓展數據中心的AI處理能力。
KAI解決方案主要由計算、互連、網絡和能效四個部分構成,全面覆蓋了數據中心的主要應用場景。而本次發布的三款新品,主要聚焦互連部分和網絡部分,分別是224 Gbps/通道的DCA-M采樣示波器、互連與網絡性能分析儀和KAI數據中心構建器。
224G/通道的DCA-M采樣示波器具備超大帶寬,可提供高達224 Gbps每通道的高速光信號分析;同時具備低抖動、低噪聲和全集成的特點。
值得一提的是,224 Gbps/通道的DCA-M采樣示波器采用了時鐘恢復模塊(CDR)。以往的時鐘恢復模塊需借助外部獨立模塊實現,而是德科技則將時鐘完全集成于儀表內部,使客戶能夠直接投入使用224 Gbps/通道采樣示波器,無需外接其他時鐘模塊。
互連與網絡性能分析儀的亮點之一是不僅局限于物理層,更延伸至網絡層。當前市場上的1.6T產品大多只能進行物理層的誤碼率測試,而是德科技的互連與網絡性能分析儀則能實現前向糾錯(FEC)和流量管控與流量協議的測試。
不僅如此,互連與網絡性能分析儀在保持高性能的同時還實現了較高的集成度,具備小巧的外形尺寸。它還能夠同時對兩個光模塊進行測試,并為光模塊供電,每個模塊可提供高達40W的電力。
此外,互連與網絡性能分析儀配備了是德科技的互連測試軟件(ITS),為光模塊和電模塊的驗證提供了強大的支持。很顯然,若想全面評估光模塊或電模塊性能,則需要對各種參數進行組合分析,并繪制性能曲線,從而確定模塊在什么條件下才能達到最佳工作狀態。配備互連測試軟件以后,客戶便能精準地標定被測對象在不同場景下的性能表現,無需每次連接模塊進行測試,為互連網絡的構建和優化提供了極大的便利。
第三個新品是KAI數據中心構建器,包括集合通訊組件、壓力測試組件在內的一系列組件,能夠模擬數據中心內真實的通訊工作環境及流量環境,從而對網絡進行測試。
AI算力中心所面臨的挑戰在于單機性能無法體現網絡的實際性能,因此需要模擬真實的AI網絡,并按照實際的計算方式進行運算,從而實現對網絡性能的準確仿真。
AI網絡有兩個關鍵特征,其一是超級節點內部的神經元之間、GPU之間都要進行大規模且頻繁的數據交互。在數據傳遞的過程中,不僅要確保數據有效傳輸,還要關注大量的網卡、交換機是否會構成性能瓶頸。
另一個重要特征是“突發”(Burst)。當向AI網絡輸入海量數據時,不論計算時間的長短,計算完成后均需進行數據交換,同時還需兼顧計算任務。在這種短時間內數據交換量極大的情況下,若數據傳輸不及時,就會出現“等待”現象,這也是GPU大多處于等待的原因之一。因此需要模仿“脈沖式壓力”,從而檢驗交換機和網絡是否能在巨大壓力下仍保持正常運行。
是德科技運用軟件部分來仿真數據中心的流量與通信特征,從而提升GPU和網絡的利用效率。而軟件是一套具有相應規范的腳本,實際實施還是依托于數據中心構建器。數據中心構建器的核心是一塊超大規模的自研ASIC,其性能強大,可支持16個端口以及多設備級聯,每個端口至少能仿真一個GPU,有時甚至可合成多個GPU的數據,以此滿足仿真需求。
結語
在人工智能技術飛速發展的當下,是德科技憑借對行業痛點的深度洞察,構建起貫穿AI基礎設施全生命周期的解決方案體系,致力于從物理層到網絡層全方位助力AI產業。同時,是德科技也期待與產業界各方繼續深化合作,共同攻克技術難題,攜手開創人工智能產業的美好明天。