微軟英偉達牽手,想打造世界上最強大的AI超級計算機
微軟正在為人工智能訓練和深度學習應用開發由微軟Azure云平臺托管的新型超級計算機,與英偉達的合作意味著微軟是首批大規模接受NVIDIA H100的公司之一。而在此之前,微軟公司和OpenAI公司在2019年達成了合作關系,并在微軟Azure云平臺上開發了第一臺超級計算機。
H100是英偉達針對服務器實現的旗艦版加速GPU,提供更高的功耗和速度,與之前基于Ampere架構的A100相比要快6倍。
極客網了解到,H100和A100 GPU將是微軟新構想的超級計算機的核心,此外還有NVIDIA Quantum-2 400Gb/s InfiniBand網絡和NVIDIA AI Enterprise軟件套件。這項新業務還將利用微軟的云計算基礎設施(Azure)和虛擬機(ND和NC系列)。
據悉,通過這次合作,英偉達希望在無監督(也可以是半監督)算法學習方面取得更大的進展,允許機器創建文本、代碼、數字圖像、視頻或音頻等內容。該領域被廣泛稱為生成式人工智能。英偉達將利用Megatron Turing NLG 530B(它對OpenAI GPT-3的回應)來實現這一目標。
微軟將通過其開發的開源庫DeepSpeed來滿足人工智能和深度學習工作負載優化。DeepSpeed可以幫助最小化網絡基礎設施的需求。該合作還確保Azure客戶將能夠訪問NVIDIA的企業級人工智能和數據分析工具、軟件和框架的云原生套件,即NVIDIA AI Enterprise軟件套件。
英偉達企業計算副總裁Manuvir Das表示:“我們與微軟公司的合作將為研究人員和企業提供最先進的人工智能基礎設施和軟件,以利用人工智能的變革力量。”
英偉達目前擁有一臺Selene超級計算機,這是新冠疫情期間建造的。它基于A100, 人工智能峰值性能達到2.8 exaflops,在HPL上達到petaFLOPS。它被用于機器學習、人工智能數據分析和高性能計算(HPC),以及用于訓練人工智能模型GauGAN2。與OpenAI的GLIDE和DALL-E一樣,GauGAN2可以將草圖和文字合成為像照片一樣逼真的圖像。
此外英偉達還有為先進的氣候科學研究、數字生物學和人工智能的未來而建造的NVIDIA Eos,它有576個DGX H100系統和4608個DGX H100 GPU,將提供18.4 exaflops的人工智能計算性能和275 petaflops的常規科學計算性能(HPL),比日本的Fugaku(目前在Top500榜單上排名第二)快4倍。
然而,英偉達對Selene(Top500榜單第9名)和正在開發中的Eos生成式人工智能超級計算機都不看好。微軟云計算和人工智能業務執行副總裁Scott Guthrie解釋稱:“我們與英偉達的合作將構建世界上最具擴展性的超級計算機平臺,為微軟Azure云平臺上的每個用戶提供最先進的人工智能功能。”
從本質上來說,這兩家公司的合作旨在實現生成式人工智能超級計算的可擴展性,而不僅僅是純粹的能力提升。
英偉達企業計算副總裁Manuvir Das表示:“客戶可以在單個集群中部署署數千個GPU,以訓練最大規模的大型語言模型,大規模構建最復雜的推薦系統,并大規模實現生成人工智能。”
英偉達還在通過Omniverse Cloud工具和服務套件擴展3D內容、設計和模擬。使用Omniverse Cloud,開發3D內容的工具甚至可以在沒有采用GeForce或NVIDIARTX硬件或任何其他高性能的傳統計算機上運行。
Das強調,“人工智能技術的進步和行業采用正在加速,而基礎模型的突破引發了研究浪潮,培育了新的創業公司,并開發了新的企業應用。”