從人工智能到云原生 NVIDIA正在布局超算領域
日前,在本周SC21高性能計算大會上最新發布的TOP500榜單上,NVIDIA技術為355套超級計算機系統提供加速,占榜單的70%以上,而新增系統中90% 以上都采用了NVIDIA 的技術。對比6月份發布的TOP500榜單上342個系統(占榜單68%)使用NVIDIA技術,增長趨勢明顯。
NVIDIA在全球最節能系統Green500榜單上也繼續保持領先優勢,占據了榜單排名前25名系統中的23套,與6月份持平。平均來看,采用NVIDIA GPU的系統能耗效率比非GPU系統高3.5倍。
除此之外,NVIDIA在本屆SC21高性能計算大會上還有不少發布,下面我們一起關注一下。
人工智能助力科學領域
另外,人工智能正帶來一場科學計算的革命。近年來,研究高性能計算和機器學習的論文數量激增,從2018年的約600篇增長到2020年的近5000篇。
HPL-AI、MLPerf HPC等新基準也強調了高性能計算和AI工作負載的持續融合。
作為一個融合了高性能計算和人工智能工作負載的新基準,HPL-AI使用了深度學習和許多科學與商業工作的基礎——混合精度計算,同時還提供高性能計算基準傳統的標準標尺——雙精度計算的高度準確性。
MLPerf HPC基準適用于通過AI實現超級計算機模擬加速和增強的計算方式,主要被用來測試高性能計算中心天體物理學、天氣和分子動力學三大關鍵工作負載的性能表現。
NVIDIA通過GPU加速處理、智能網絡、GPU優化應用程序和支持AI和高性能計算融合的庫來解決整個堆棧的問題。這一方法提升了工作負載的性能表現,并推動了科學突破。
GPU的并行處理能力再加上超過2500個GPU優化應用程序,在多數情況下可以讓用戶把高性能計算任務的時間從幾周減少到幾小時。加上NVIDIA持續優化CUDA-X庫和GPU加速應用程序,用戶GPU架構性能還會有進一步提升。
通過全棧創新,NVIDIA可助力超級計算機在科學應用程序上實現高達16倍的性能提升。
NVIDIA通過NGC目錄中的容器提供最新版本的人工智能和高性能計算軟件。用戶只需在數據中心或云端的超級計算機上拖拽并運行應用程序,即可實現性能的快速提升。
云原生超級計算
NVIDIA還在SC21大會發布了最新云計算原生超級計算機,能夠兼顧運算性能與多租戶使用的需求,在不犧牲性能的前提下完成多人同時使用的應用方式。
NVIDIA在SC21超級電大會的演說中提到,隨著通過GPU進行加速運算,以及Scale Up、Scale Out等擴展,以及導入機器學習,都大幅提升模擬運算的性能。然而這類高性能計算大多以裸機運算的形式進行,不像云計算原生能夠以虛擬化、容器化的方式簡化管理并滿足多租戶的使用需求。
NVIDIA通過由Quantum-2交換機、ConnectX-7網卡、BlueField-3資料處理器(DPU)及DOCA軟件組成的Quantum-2 400Gbps InfiniBand網絡平臺,將網絡與資料吞吐相關的工作轉移至DPU,讓運行于云計算原生環境的程序也能完全發揮性能。
在SC21的演說中,NVIDIA也提到了先前在GTC 21秋季展發布的Earth-2超級計算機與地球數字孿生,但并沒有提供更多詳細信息。
與Atos成立卓越人工智能實驗室
人工智能在高性能計算中的應用能幫助研究人員加快模擬速度,同時保持傳統模擬方法的準確性。
在此背景下,Atos和NVIDIA宣布成立卓越人工智能實驗室(Excellence AI Lab,簡稱EXAIL),該實驗室將匯聚一批科學家和研究人員,助力推進歐洲計算技術、教育和研究的發展。
該實驗室的首批研究項目將集中在高性能計算和AI的進步所推動的五大關鍵領域:氣候研究、醫療和基因組學、與量子計算的結合、邊緣人工智能/計算機視覺以及網絡安全。
Atos公司將利用NVIDIA基于Arm架構的Grace CPU、NVIDIA下一代GPU、Atos BXI E級互聯技術和NVIDIA Quantum-2 InfiniBand網絡平臺,開發一臺E級計算級別的BullSequana X超級計算機。
一、預測和解決氣候變化問題
為了更準確地預測氣候變化,來自Atos和NVIDIA的研究人員將在歐洲最快的超級計算機——Jülich超級計算中心上,運行新的AI和深度學習模型。這種巨型模型可用于預測極端天氣事件的演變、及其隨全球變暖而發生的變化,而這些將極大地受益于E級計算。
JUWELS Booster系統基于Atos的BullSequana XH2000平臺,擁有近2.5 exaflops的AI性能,搭載3744個NVIDIA A100 Tensor Core GPU,并采用NVIDIA Quantum InfiniBand網絡,將有助于更深入地了解氣候變化,并對颶風、極端降水、炎熱和寒潮等事件進行更準確的長期預測。
二、利用高性能計算、量子和AI加速醫學研究
利用計算基因組學助力實現醫學突破,正在徹底改變藥物研發和醫療領域。Atos生命科學卓越中心已經與40家領先機構合作,利用高性能計算、量子計算和AI來推進醫學成像、基因組學和制藥領域的發展。NVIDIA Clara 醫療應用框架可為基因組學、醫學成像和計算化學應用提供超級計算性能。
EXAIL將利用Atos的先進計算解決方案和NVIDIA Clara,幫助醫療研究人員和供應商利用嵌入式、邊緣、數據中心和云平臺,加速藥物研發并設計先進的診斷解決方案。
三、推進量子研究
量子計算有望解決藥物研發、氣候研究、機器學習、物流和金融等領域的復雜問題。但在量子計算機變得可行之前,還有很多研究工作需要開展。
Atos的量子機器學習是為即將到來的量子計算機時代開發的量子軟件開發和模擬設備,使研究人員和工程師能夠開發和實驗量子軟件。它將使用NVIDIA GPU助力大幅提高量子模擬的速度和規模。這將加速量子算法、量子信息科學、新的量子處理器架構以及量子-GPU混合系統架構的研究。
四、加速計算機視覺
利用Atos的邊緣設備,例如其在NVIDIA BlueField DPU上運行的BullSequana Edge,EXAIL的研究團隊將協力加速計算機視覺和5G無線基礎設施。Atos全球六個專門研究計算機視覺的實驗室將配備最新NVIDIA Fleet Command技術,用于在分布式邊緣基礎設施上安全地部署和管理AI應用。
寫在最后
在SC21高性能計算大會上可以看出,從科學模擬、數據分析再到機器學習、深度學習等技術的發展和應用,正在推動超級計算中心、云服務提供商和企業重新思考他們的計算架構。有一點值得注意的是,超算不僅被用在科研,也開始在產業應用上取得進展。而NVIDIA在全棧計算方面的布局,使其開始發揮出更廣泛的價值。