INTELLECT-1:全球首個去中心化訓練的 10B 參數大模型
近日,Prime Intellect 團隊發布了全球首個由全球協作訓練的 10B 參數語言模型——INTELLECT-1 。這一突破性成果不僅標志著大規模模型訓練不再局限于大型企業,而是可以通過分布式、社區驅動的方式實現,為未來的 AI 發展開辟了新的道路。
項目亮點
INTELLECT-1 的成功訓練涉及五大洲、五個國家,同時使用了 112 臺H100 GPU,由全球 30 位貢獻者共同完成。這一壯舉不僅展示了分布式訓練的巨大潛力,還實現了高計算利用率:在美國境內達到 96%,跨洋訓練也有 83%的效率,整個訓練過程僅耗時 42 天。
技術細節
INTELLECT-1 基于 Llama-3 架構,擁有 42 層、 4,096 個隱藏維度、 32 個注意力頭和 8,192 的序列長度。模型訓練使用了 1萬億個 token 的數據集,包括 FineWeb-Edu 、Stack v2 等多種數據源。
Prime Intellect 團隊開發的 PRIME 框架是這一項目的核心。該框架包括ElasticDeviceMesh,用于動態管理全球和本地進程組,確保通信的容錯性;還實現了 live checkpoint recovery 和hybrid DiLoCo-FSDP2,大幅降低了通信帶寬需求。
同時,Prime Intellect 慷慨的開源了所有相關資源:
- 詳細技術報告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
- INTELLECT-1 基礎模型、檢查點和后訓練模型:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
在線聊天體驗:https://chat.primeintellect.ai/,
- 預訓練數據集:https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407
- 后訓練數據集:https://huggingface.co/datasets/arcee-ai/EvolKit-75K
- PRIME 框架:https://github.com/PrimeIntellect-ai/prime
小結
開放、去中心是模型民主化的最重要的一步,INTELLECT-1 已經做到了。我們期待Prime Intellect 能夠進一步優化分布式訓練架構,跟上主流模型的模型性能表現,更早落地應用。
本文轉載自AI工程化,作者: ully ????
