「奇點」AI計算平臺細節曝光!竟是微軟四年前老項目重生
AI服務平臺的成本和效率問題,是各大服務提供商一直著力解決和改進的難題。
具體而言,就是如何在滿足客戶需求的同時,盡量降低整個系統資源的消耗,以及如何通過提高深度學習工作負載的利用率來降低成本。
近日,微軟 Azure 研究團隊合作構建了一個新的 AI 基礎設施服務,代號為「Singularity」。用研究人員的話說,這是「一個全新的人工智能平臺服務,將成為微軟內部和外部人工智能的主要驅動力?!?/span>
Singularity 服務旨在為數據科學家和 AI 從業者提供一種在微軟專為 AI 構建的分布式基礎架構服務上構建、擴展、試驗和迭代其模型的方法。
論文地址:
??https://arxiv.org/pdf/2202.07848.pdf
在一篇系統介紹Singularity 服務的論文中,研究人員表示:
「Singularity 的核心是一種新穎的、可以感知工作負載的調度程序,可以透明地搶占和彈性擴展深度學習工作負載,在不影響正確性和性能的情況下,提高全球范圍內的 AI 加速器(例如 GPU、FPGA)的利用率。」
據介紹,使用Singularity服務,活動作業負載可以動態且透明地占用并遷移到一組不同的節點、集群、數據中心或區域,并準確執行,還能夠在給定類型的一組不同的加速器上調整大小(即彈性縮放)。
Singularity平臺架構示意圖
用戶無須對代碼進行任何更改,也不需要使用任何可能限制靈活性的自定義庫。微軟表示,這種方法顯著提高了深度學習工作負載的可靠性。
這篇論文的作者包括 Azure 首席技術官 Mark Russinovich;合作伙伴架構師 Rimma Nehme,他曾在 Azure Cosmos DB 工作,直到 2019 年轉到 Azure 從事人工智能和深度學習工作;以及技術研究員 Dharma Shukla等。
和今天使用的彈性負載調度機制相比,Singularity調度程序可以將每個 worker 一對一映射到物理 GPU,或者使用多對一映射,將物理 GPU 虛擬化并跨多個 worker 進行時間切片,world-size不變。
相比之下,目前的彈性機制調度程序會將工作從上一個檢查點重新啟動,world-size減小至四分之一,導致資源浪費(比如自上一個檢查點以來的初始化和迭代需要重做)。
測試結果顯示,在不同模型上,使用Singularity服務(DP)相對基線水平(B)獲得的性能提升。
在透明彈性負載調度性能上,Singularity則取得了7%的平均優勢。
研究人員表示,Singularity在調度深度學習工作負載方面實現了重大突破,將諸如彈性等小眾特征轉化為主流特征,并在此基礎上實現了對深度學習工作負載的調度。
Singularity實現了前所未有的工作負載可替換性水平。工作負載能夠利用全球分布的機群中的任何地方的空閑資源。
Singularity提供簡單的用戶體驗:用戶只需要關注機器學習任務本身,而不需要考慮檢查點或彈性負載問題。這些基礎設施的優化對用戶是完全透明的。
四年前的老項目「重生」?
ZD Net報道稱,Singularity 可能是將微軟此前推出的 Brainwave 項目推向商業化的下一個階段。
微軟此前曾討論過將 FPGA 或現場可編程門陣列作為服務提供給客戶的計劃。
2018 年,微軟公開了其旨在 Azure 中提供快速 AI 處理和計算能力的「Brainwave」項目。
當時,微軟在云端提供了由 Brainwave 提供支持的 Azure 機器學習硬件加速模型的預覽——一個向客戶提供面向 AI 工作負載的 FPGA 處理平臺。
Brainwave 由高性能分布式系統架構組成;運行在可定制芯片(FPGA)上的硬件深度神經網絡引擎,用于部署訓練模型的編譯器。
實際上,這不是微軟在自家平臺上第一次使用Singularity這個詞了。微軟之前就曾將 Singularity 用來命名微內核操作系統,以及一組完全以托管代碼開發的相關工具和資源庫。
Singularity 最終催生和/或影響了微軟的其他幾個云平臺和操作系統項目,對 Barrelfish、 Helios、 Midori和 Drawbridge等項目均產生了不小的影響。
AI計算平臺,大廠爭相布局
值得注意的是,在人工智能高性能計算和加速計算平臺的構建上,微軟早就開始布局了。
2019年,微軟在OpenAI上投資了10億美元,并在一年后宣布,他們已經與OpenAI合作并專門為OpenAI建造了第五強大的公開記錄超級計算機。
雖然微軟與OpenAI合作建造的AI超級計算機專門用于OpenAI,但微軟一直表示,他們計劃通過Azure AI服務和GitHub,想更多的用戶提供大型AI模型和訓練優化工具。
微軟還在其「Azure AI」旗下向不需要專用超級計算機的客戶提供各種加速計算服務。
2021年11月,微軟宣布將在Azure中使用 80GB NVIDIA A100 GPU,以擴大其AI超級計算機陣容。
而且,微軟并不是唯一一家試圖在內部和客戶中提供人工智能超級計算功能的科技公司。Meta也在做同樣的事情,如無意外,Meta已經將這項工作定位為解鎖元宇宙的關鍵。