DeepSeek發布最新論文,5大殺手锏讓大模型訓練、推理暴漲
昨天,全球著名開源大模型平臺DeepSeek在Huggingface發布了,超強開源模型V3的論文。
主要從硬件架構和模型設計的雙視角探討如何在不犧牲性能的前提下實現更高效的大規模訓練和推理以突破硬件瓶頸。
其中,DeepSeek-MoE和多頭潛在注意力、FP8混合精度訓練以及多標記預測等成為關鍵創新技術。
論文地址:https://huggingface.co/papers/2505.09343。
隨著OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等前沿模型的出現,對硬件、算力資源的需求快速上升。在內存方面,大模型對內存資源的需求每年增長超過1000%,但高速內存容量的增長速度卻極為緩慢,每年通常不到50%。
這一內存供需失衡的問題嚴重制約了大模型的進一步發展。在計算效率上,傳統的計算架構難以滿足大規模模型訓練和推理的高效需求。
在互連帶寬方面,現有網絡架構在處理大規模數據傳輸時也面臨著帶寬不足和延遲過高等難題,而DeepSeek-V3通過軟件、硬件創新解決了這些難題。
DeepSeek-MoE和多頭潛在注意力
DeepSeek-MoE充分挖掘了混合專家(MoE)架構的潛力,其優勢主要體現在兩方面。其一,在訓練過程中,通過選擇性地激活專家參數的子集,MoE模型能夠在大幅增加總參數數量的同時保持相對適度的計算需求。
例如,DeepSeek-V2擁有2360億參數,但每個token僅激活210億參數;而DeepSeek-V3擴展到了6710億參數,幾乎是V2的三倍,可每個token的激活量僅為370億。相比之下,像Qwen2.5-720億和LLaMA3.1-4050億等密集模型在訓練期間則需要激活所有參數。
數據顯示,DeepSeekV3的總計算成本約為每token 250 GFLOPS,而720億參數的密集模型需要394 GFLOPS,4050億參數的密集模型更是需要2448 GFLOPS。這表明MoE模型在計算資源消耗量少一個數量級的情況下,能夠實現與密集模型相當甚至更優的性能。
在個人使用和本地部署場景中,MoE模型同樣展現出獨特優勢。由于每個請求僅激活一小部分參數,內存和計算需求大幅降低。
例如,搭載AISoC芯片的個人電腦,在運行DeepSeek-V2(2360億參數)時,推理過程中僅激活210億參數,就能達到近每秒20個Token甚至更高的速度,這對于個人使用來說已經綽綽有余。而類似能力(如700億參數)的密集模型在相同硬件條件下,通常只能達到個位數的TPS。
多頭潛在注意力(MLA)架構則通過壓縮鍵值(KV)緩存顯著降低了內存消耗。它利用投影矩陣將所有注意力頭的KV表示壓縮成一個更小的潛在向量,并與模型聯合訓練。在推理過程中,只需要緩存該潛在向量,與存儲所有注意力頭的KV緩存相比,大大減少了內存占用。
通過采用MLA,DeepSeek-V3顯著減少了KV緩存大小,每個token僅需70KB,遠低于LLaMA-3.1 4050億參數模型的516KB和Qwen-2.5 720億參數模型的327KB。
此外,為進一步減小KV緩存的大小,DeepSeek還提出了多種方法。例如共享KV,即多個注意力頭共享一組KV配對,以顯著壓縮KV存儲,代表性方法包括GQA和MQA;
窗口KV,對于長序列,僅在緩存中保留KV配對的滑動窗口;量化壓縮,使用low-bit存儲KV配對,進一步減少內存使用。
FP8混合精度訓練方法
在訓練技術方面,DeepSeek-V3引入了FP8混合精度訓練技術,這在保證模型質量的同時大幅降低了計算成本,使得大規模訓練更加經濟可行。雖然GPTQ和AWQ等量化技術已將位寬減少到8位、4位甚至更低,但這些技術主要應用于推理階段以節省內存,在訓練階段的應用相對較少。在DeepSeek-V3之前,幾乎沒有利用FP8進行訓練的開源大型模型。
DeepSeek通過基礎設施和算法團隊之間的深度合作,為MoE模型開發了與FP8兼容的訓練框架,在訓練管道中使用FP8精度的前向和后向過程計算組件。然而,要充分發揮FP8在加速訓練方面的巨大潛力,還需要解決一些硬件限制。
例如,FP8在Tensor Core中使用約束累加精度,這會影響訓練大型模型的穩定性;細粒度量化在傳輸部分結果時會引入大量的反量化開銷,導致頻繁的數據移動,降低計算效率并使硬件利用率復雜化。
針對這些問題,DeepSeek也對未來硬件設計提出了相應建議。在提高累積精度方面,硬件應改進并調整Accumulation Register精度到適當的值(如FP32),或支持可配置的Accumulation Precision;
在對原生細粒度量化的支持方面,硬件應支持原生細粒度量化,使Tensor Core能夠接收縮放因子并通過組縮放實現矩陣乘法,避免頻繁的數據移動以減少去量化開銷。
在網絡通信環節,DeepSeek-V3架構采用低精度壓縮進行網絡通信。在EP并行期間,使用細粒度的FP8量化來調度令牌,與BF16相比,通信量減少了50%,顯著縮短了通信時間。DeepSeek建議,為FP8或自定義精度格式定制的壓縮和解壓縮單元提供本機支持,是未來硬件的可行發展方向,這有助于最大限度地減少帶寬需求并簡化通信管道,大幅提升MoE訓練等帶寬密集型任務的效率。
多標記預測
在傳統的自回歸語言模型中,推理過程是逐個生成標記的。每次生成一個標記后,模型需要根據已生成的上下文信息來預測下一個標記。這種順序生成的方式雖然能夠保證生成的連貫性和準確性,但其推理速度受限于每個標記的生成時間。隨著模型規模的增大和上下文長度的增加,這種順序生成的方式會顯著降低推理效率,尤其是在需要快速生成長文本的場景中。
為了克服這一瓶頸,DeepSeek-V3引入了多標記預測(MTP)框架。該框架允許模型在每個推理步驟中同時生成多個候選標記,而不是僅僅生成一個標記,這些候選標記可以并行計算和驗證,從而顯著減少了生成整個序列所需的時間。
MTP框架通過引入多個輕量級的預測模塊來實現這一目標,每個預測模塊負責生成一個特定位置的標記。例如,在生成當前標記的同時,MTP模塊可以預測下一個標記、下下個標記等,這些預測模塊共享模型的上下文信息,但各自獨立生成標記。通過這種方式,模型能夠在一次推理步驟中生成多個標記,而不是逐個生成。
生成多個候選標記后,MTP框架會通過并行驗證來確定哪些候選標記是合理的。這一過程利用了模型的上下文信息和已生成的標記,通過一系列的驗證步驟來評估每個候選標記的合理性,最終模型會選擇最合適的標記作為輸出。
實驗數據顯示,MTP模塊在預測下一個標記時的接受率高達80%至90%,這意味著大多數情況下,模型能夠準確預測下一個標記,從而顯著提高了推理速度。
多平面雙層胖樹網絡降低算力集群成本
在AI基礎設施方面,DeepSeek為了降低集群網絡成本,使用多平面雙層胖樹網絡,取代了傳統的三層胖樹拓撲結構。
在DeepSeek-V3的訓練過程中,部署了一個多平面胖樹(MPFT)橫向擴展網絡。每個節點配備8臺GPU和8個IB網卡,每個GPU-網卡對分配到不同的網絡平面。此外,每個節點還配備一個400 Gbps以太網RoCE網卡,連接到單獨的存儲網絡平面,用于訪問3FS分布式文件系統。
在橫向擴展網絡中,使用了64端口400G IB交換機,該拓撲理論上最多可支持16,384臺GPU,同時保留了雙層網絡的成本和延遲優勢,但受政策和監管限制,最終部署的GPU數量為2048臺。
由于IB ConnectX-7目前存在局限性,DeepSeek部署的MPFT網絡未能完全實現預期架構。理想情況下,每個網卡(NIC)應具有多個物理端口,每個端口連接到單獨的網絡平面,但通過端口綁定,共同作為單個邏輯接口向用戶公開。
從用戶角度看,單個隊列對(QP)可以在所有可用端口之間無縫地發送和接收消息,類似于數據包噴射。因此,來自同一QP的數據包可能會穿越不同的網絡路徑,并以無序方式到達接收方,這就需要網卡內原生支持無序布局,以保證消息一致性并保留正確的排序語義。
例如,InfiniBand ConnectX-8原生支持四平面。若未來的網卡能夠完全支持高級多平面功能,雙層胖樹網絡將能更有效地擴展到更大的AI集群。總體而言,多平面架構在故障隔離、穩健性、負載均衡和大規模系統可擴展性方面具有顯著優勢。
低延遲網絡設計優化
在模型推理過程中,大規模EP嚴重依賴all-to-all通信,而這種通信對帶寬和延遲都極為敏感。例如,在50GB/s的網絡帶寬下,理想情況下數據傳輸大約需要120微秒,因此,微秒級的固有網絡延遲會對系統性能產生嚴重影響,不容忽視。
為降低網絡通信延遲,DeepSeek選用了InfiniBand GPUDirect Async(IBGDA)。傳統網絡通信需要創建CPU代理線程:GPU準備好數據后,需通知CPU代理,然后CPU代理填充工作請求(WR)的控制信息,并通過門鈴機制向NIC發出信號以啟動數據傳輸,這一過程會帶來額外的通信開銷。
而IBGDA允許GPU直接填充WR內容并寫入RDMA門鈴MMIO地址,通過在GPU內部管理整個控制平面,消除了與GPU-CPU通信相關的顯著延遲開銷。此外,在發送大量小數據包時,控制平面處理器容易成為瓶頸,而GPU具有多個并行線程,發送方可以利用這些線程分配工作負載,從而避免此類瓶頸。
包括DeepSeek的DeepEP在內的一系列工作都利用了IBGDA,并報告取得了顯著的性能提升,因此,DeepSeek提倡在各種加速器設備上廣泛支持此類功能。
雖然IB在延遲性能上優于基于融合以太網的RDMA(RoCE),是分布式訓練和推理等延遲敏感型工作負載的首選,但它也存在成本較高和擴展性方面的問題。RoCE雖有可能成為IB的經濟高效替代方案,但其目前在延遲和可擴展性方面的限制,使其尚無法完全滿足大規模AI系統的需求。
為此,DeepSeek給出了一些改進RoCE的具體建議,包括使用專用低延遲RoCE交換機、優化路由策略、改進流量隔離或擁塞控制機制等。