最高優化529.22倍!豆包大模型團隊&港大新成果ByteCheckpoint為LLM萬卡訓練提效
近日,字節跳動豆包大模型團隊與香港大學聯合提出了ByteCheckpoint大模型Checkpointing系統,旨在提升大模型訓練效率、減少訓練進度損失。
隨著訓練規模與模型大小的日益增長,克服軟硬件故障,提高訓練效率成為大模型迭代的重要影響要素。近期,Meta官方報告中披露的一組大模型萬卡集群訓練故障率數據引起業內廣泛關注,數據顯示:在 16384 塊 H100 80GB 訓練集群上進行 Llama3 405B 訓練的故障率——短短 54 天,發生 419 次中斷,平均每三小時崩潰一次。該報告同時提到,為了對抗高故障率,需要在訓練過程中頻繁地進行 Checkpoint ,保存訓練中的模型、優化器、數據讀取器狀態,減少訓練進度損失。可以說Checkpoint 已成為訓練提效關鍵。
然而,現有的 Checkpoint 相關技術存在諸多問題,如系統設計缺陷導致額外的 I/O 開銷增加、不同訓練框架的 Checkpoint 模塊相互割裂等。
豆包大模型團隊和香港大學此次聯合提出的ByteCheckpoint能有效解決上述問題。ByteCheckpoint為PyTorch 原生,能兼容多個訓練框架,支持Checkpoint的高效讀寫和自動重新切分。與基線方法相比,ByteCheckpoint 在 Checkpoint 保存上性能提升高達 529.22 倍,在加載上,性能提升高達 3.51 倍。極簡的用戶接口和 Checkpoint 自動重新切分功能,顯著降低了用戶上手和使用成本,提高了系統的易用性。目前論文成果已公開:
·ByteCheckpoint: A Unified Checkpointing System for LLM Development
·論文鏈接:https://team.doubao.com/zh/publication/bytecheckpoint-a-unified-checkpointing-system-for-llm-development?view_from=research
字節跳動豆包大模型團隊成立于2023年,致力于開發業界最先進的AI大模型技術,成為世界一流的研究團隊,為科技和社會發展作出貢獻。目前,豆包大模型團隊正在持續吸引優秀人才加入,希望與具備創新精神、責任心的技術人才一起,推進大模型訓練提效工作取得更多進展和成果。
據了解,豆包大模型于2024年5月正式發布,現已通過字節跳動旗下云服務平臺火山引擎面向企業提供服務。截至7月,豆包大模型日均Tokens使用量已超5000億,外部企業客戶日均Tokens使用量較5月15日模型發布時期增長22倍。基于豆包大模型打造的同名AI智能助手豆包,在各大應用商店AI類產品的下載量排名第一。