DeepSeek全面開源V3/R1推理系統(tǒng)!成本利潤率高達(dá)545%
就在剛剛,當(dāng)大家以為開源周已經(jīng)結(jié)束的時候,真「Open AI」DeepSeek帶來了壓軸大戲——DeepSeek-V3/R1推理系統(tǒng),全面揭秘!
吞吐量和延遲優(yōu)化:
- 跨節(jié)點高效并行(EP)驅(qū)動的批處理擴(kuò)展
- 計算與通信并行處理
- 智能負(fù)載均衡
在線服務(wù)性能數(shù)據(jù):
- 每個H800節(jié)點每秒處理73,700/14,800輸入/輸出token
- 成本利潤率高達(dá)545%
DeepSeek表示,希望本周分享的技術(shù)見解能為開源社區(qū)帶來價值,共同推進(jìn)通用人工智能的發(fā)展目標(biāo)。
看到這里,網(wǎng)友都驚了!
所以,基本免費的DeepSeek成本利潤率高達(dá)545%,而堪稱世界最貴的OpenAI卻在虧損?
系統(tǒng)設(shè)計原則
簡單來說,DeepSeek-V3/R1推理服務(wù)的優(yōu)化目標(biāo)是:提高吞吐量和降低延遲。
為了實現(xiàn)這兩個目標(biāo),團(tuán)隊采用了跨節(jié)點專家并行(Expert Parallelism,EP)技術(shù)。
首先,EP顯著擴(kuò)大了批處理規(guī)模,提高了GPU矩陣計算效率,從而提升吞吐量。
其次,EP將專家模塊分布在不同GPU上,每個GPU僅處理少量專家模塊(減少內(nèi)存訪問需求),從而降低延遲。
然而,EP也增加了系統(tǒng)復(fù)雜度,主要體現(xiàn)在兩個方面:
- EP引入了跨節(jié)點通信。為了優(yōu)化吞吐量,需要設(shè)計合理的計算工作流,使通信過程與計算過程能夠并行進(jìn)行。
- EP涉及多個節(jié)點,因此必然需要數(shù)據(jù)并行(Data Parallelism,DP),并要求在不同DP實例之間進(jìn)行負(fù)載均衡。
為此,DeepSeek通過以下方式應(yīng)對這些挑戰(zhàn):
- 利用EP技術(shù)擴(kuò)展批處理規(guī)模
- 將通信延遲與計算過程重疊處理
- 實現(xiàn)有效的負(fù)載均衡
大規(guī)模跨節(jié)點專家并行(EP)
DeepSeek-V3/R1中包含大量專家模塊:每層256個專家中僅激活8個,所以模型的高稀疏性特點要求采用極大的整體批處理規(guī)模。
這樣才能確保每個專家模塊獲得足夠的批處理量,從而實現(xiàn)更高的吞吐量和更低的延遲。因此,大規(guī)模跨節(jié)點EP技術(shù)成為必不可少的選擇。
DeepSeek采用了預(yù)填充-解碼解耦架構(gòu)(prefill-decode disaggregation architecture),在預(yù)填充和解碼階段分別采用不同程度的并行策略:
- 預(yù)填充階段「路由專家EP32,MLA/共享專家DP32」:每個部署單元跨越4個節(jié)點,配置32個冗余路由專家,每個GPU負(fù)責(zé)處理9個路由專家和1個共享專家。
- 解碼階段「路由專家EP144,MLA/共享專家DP144」:每個部署單元跨越18個節(jié)點,配置32個冗余路由專家,每個GPU管理2個路由專家和1個共享專家。
計算-通信重疊處理
大規(guī)模跨節(jié)點EP技術(shù)引入了顯著的通信開銷。
為了緩解這一問題,采用dual-batch重疊策略,將同一批請求分割為兩個microbatch,以隱藏通信成本并提高整體吞吐量。
在預(yù)填充階段,兩個microbatch交替執(zhí)行,一個microbatch的通信開銷被另一個microbatch的計算過程所掩蓋。
在解碼階段,各執(zhí)行階段的時長存在不平衡現(xiàn)象。
為此,需要將注意力層細(xì)分為兩個步驟,并采用五階段流水線(5-stage pipeline)技術(shù),實現(xiàn)計算與通信的無縫重疊。
實現(xiàn)最優(yōu)負(fù)載均衡
大規(guī)模并行(包括數(shù)據(jù)并行DP和專家并行EP)帶來了一個關(guān)鍵挑戰(zhàn):如果單個GPU在計算或通信方面過載,它將成為整個系統(tǒng)的性能瓶頸,導(dǎo)致系統(tǒng)速度下降,同時造成其他GPU資源閑置。
為了最大限度地提高資源利用率,DeepSeek的目標(biāo)是在所有GPU上實現(xiàn)計算和通信負(fù)載的平衡。
1. 預(yù)填充階段負(fù)載平衡器
- 關(guān)鍵問題:不同數(shù)據(jù)并行實例之間的請求數(shù)量和序列長度差異導(dǎo)致核心注意力計算和分發(fā)發(fā)送負(fù)載不平衡。
- 優(yōu)化目標(biāo):
- 平衡各GPU之間的核心注意力計算(核心注意力計算負(fù)載均衡);
- 均衡每個GPU處理的輸入token數(shù)量(分發(fā)發(fā)送負(fù)載均衡),避免特定GPU出現(xiàn)處理延遲。
2. 解碼階段負(fù)載平衡器
- 關(guān)鍵問題:數(shù)據(jù)并行實例之間請求數(shù)量和序列長度不均導(dǎo)致核心注意力計算(與KV緩存使用相關(guān))和分發(fā)發(fā)送負(fù)載的差異。
- 優(yōu)化目標(biāo):
- 平衡各GPU之間的KV緩存(KVCache)使用(核心注意力計算負(fù)載均衡);
- 均衡每個GPU的請求處理數(shù)量(分發(fā)發(fā)送負(fù)載均衡)。
3. 專家并行負(fù)載平衡器
- 關(guān)鍵問題:在混合專家模型(Mixture of Experts,MoE)中,存在天然的高負(fù)載專家,導(dǎo)致不同GPU上的專家計算工作負(fù)載不平衡。
- 優(yōu)化目標(biāo):
- 平衡每個GPU上的專家計算工作量(即最小化所有GPU中的最大分發(fā)接收負(fù)載)。
DeepSeek在線推理系統(tǒng)圖示
DeepSeek在線服務(wù)統(tǒng)計數(shù)據(jù)
所有DeepSeek-V3/R1推理服務(wù)均在H800 GPU上運行,精度與訓(xùn)練保持一致。
具體而言,矩陣乘法和分發(fā)傳輸采用與訓(xùn)練一致的FP8格式,而核心MLA計算和組合傳輸使用BF16格式,確保最佳的服務(wù)性能。
此外,由于白天服務(wù)負(fù)載高而夜間負(fù)載低,團(tuán)隊采取了一種創(chuàng)新的機(jī)制:
在白天高峰時段,所有節(jié)點都部署推理服務(wù);
在夜間低負(fù)載時段,減少推理節(jié)點并將資源分配給研究和訓(xùn)練。
在過去24小時內(nèi)(02月27日中午12:00至02月28日中午12:00),V3和R1推理服務(wù)的合計峰值節(jié)點占用達(dá)到278個,平均占用226.75個節(jié)點(每個節(jié)點包含8個H800 GPU)。
假設(shè)租賃一個H800 GPU的成本為每小時2美元,每日總成本為87,072美元。
在24小時統(tǒng)計期內(nèi),V3和R1:
- 總輸入token:6080億,其中3420億token(56.3%)命中磁盤上的KV緩存。
- 總輸出token:1680億。平均輸出速度為每秒20-22個token,每個輸出token的平均KV緩存長度為4,989個token。
- 每個H800節(jié)點在預(yù)填充階段提供平均約7.37萬token/秒的輸入吞吐量(包括緩存命中),或在解碼階段提供約1.48萬token/秒的輸出吞吐量。
上述統(tǒng)計數(shù)據(jù)包括來自網(wǎng)頁、APP和API的所有用戶請求。
如果所有token都按照下列DeepSeek-R1的定價計費,每日總收入將達(dá)到562,027美元,利潤率為545%。
R1定價:輸入token(緩存命中)每百萬0.14美元,輸入token(緩存未命中)每百萬0.55美元,輸出token每百萬2.19美元。
然而,實際收入大幅低于此數(shù)字,原因如下:
- DeepSeek-V3的定價顯著低于R1
- 只有部分服務(wù)實現(xiàn)了商業(yè)化(網(wǎng)頁和APP訪問仍然免費)
- 在非高峰時段自動應(yīng)用夜間折扣