騰訊發布超大預訓練系統派大星,性能優于微軟DeepSpeed
近日,騰訊微信AI團隊聯合Tencent NLP Oteam于GitHub上發布開源項目派大星“PatrickStar”。該開源項目將聚焦解決GPT、BERT等超大模型訓練時產生的“GPU內存墻”問題,使用更為創新的異構內存管理方法,讓相同配置的機器能夠訓練更大的模型,以更節能環保的方式讓預訓練模型普惠每位NLP社區用戶。經測試結果顯示,派大星性能表現優于微軟DeepSpeed,在不到5000元價位的個人游戲電腦上,即可訓練一個7億參數的GPT模型。
以GPT、BERT為代表的預訓練模型(PTM)是自然語言處理(NLP)領域的核心技術,但由于GPU硬件的存儲空間有限,PTM的可訓練規模難以突破,專業人員稱之為"GPU內存墻",同時, PTM預訓練的過程具備高耗能、高成本、高碳等弊端——往往訓練一次萬億級別的預訓練模型要燒掉154萬人民幣,消耗的電能制釋相當于數十輛小汽車從出廠到報廢的碳排放總和。
為攻克該痛點,騰訊微信AI團隊聯合TencentNLP Oteam從頭搭建了派大星。它通過細粒度的方式管理模型數據,更有效使用了異構內存空間,進一步突破PTM模型規模的極限。同時,派大星的設計比同類方法占用更低內存使用,減少了CPU和GPU之間數據搬移開銷,從而顯著提升了計算資源的利用率。并且,派大星可以和多種并行訓練方式正交使用。比如,派大星使用微軟提出的零冗余優化器來實現單機多卡的數據并行。
實驗結果表明,派大星將模型規模上限在目前最佳方案DeepSpeed的基礎上提升了 1.5 倍,并且展現了明顯高于DeepSpeed的計算效率。這將極大降低了PTM訓練過程中的碳排放,以技術優化的方式助力低碳環保事業。
目前,派大星已參與到微信搜一搜、微信對話開放平臺、小微智能音響等產品研發工作中,助力降低GPU卡使用數量,提升機器的利用率,減少數據中心的碳排放規模。接下來,微信AI團隊也將持續深化開源技術的研發及應用,以創新促進行業發展及生態建設。