成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek今日連開3源!針對優化的并行策略,梁文鋒本人參與開發

人工智能 開源
DualPipe從時間上優化了計算與通信的調度,EPLB從空間上平衡利用計算資源,Profiling Data則提供了前兩者在實際應用中效果的可視化證據。

按時整活!

DeepSeek開源周第四天,直接痛快「1日3連發」,且全都圍繞一個主題:

優化并行策略

  • DualPipe:一種創新的雙向流水線并行算法,能夠完全重疊前向和后向計算-通信階段,并減少“流水線氣泡”。它通過對稱的微批次調度,優化了并行計算效率。
  • Expert Parallelism Load Balancer (EPLB):用于MoE的負載均衡算法,通過復制高負載專家并智能地分配專家到不同GPU上,確保計算資源的均衡利用。它包含兩種政策:層次化負載均衡和全局負載均衡。
  • Profiling Data:訓練和推理框架的性能分析數據,展示了通信-計算重疊策略和底層實現細節。

這三者中,DualPipe從時間上優化了計算與通信的調度,EPLB從空間上平衡利用計算資源,Profiling Data則提供了前兩者在實際應用中效果的可視化證據。

DualPipe的開發團隊中包括梁文鋒本人

發布后10分鐘不到,3者在GitHub上的星標已經破300了,且其中DualPipe的星標飆升最快。

而DeepSeek一發推,網友的留言也排山倒海一般撲面而來,幾乎都是不吝溢美之詞:

好活!令人興奮!
優化策略可以重新定義行業的性能。

Day 4,直接1日3連發

DualPipe

DualPipe是在DeepSeek-V3中首次出現雙向流水線并行算法,現在代碼完全開源。

它實現了前向與后向計算-通信階段的完全重疊,還減少了流水線氣泡(即某些設備在某些時刻空閑等待)

DualPipe采用了雙向微批次調度策略,其核心特點是:

  • 對稱設計:反向方向的微批次與前向方向對稱排列,形成一種幾何平衡的調度結構
  • 計算-通信重疊:兩個共享黑色邊框的單元格表示相互重疊的計算和通信過程
  • 雙向并行:同時在兩個方向上推進微批次,最大化硬件利用率

傳統流水線并行方法如1F1B(one-forward-one-backward)在處理多GPU場景時會產生大量氣泡。

DualPipe通過重新安排微批次執行順序,和對稱結構緩解這個問題。

EPLB

EPLB適用于V3/R1的專家并行負載均衡器,解決MoE模型在分布式訓練和推理中的負載不平衡問題。

在MoE架構中,不同的輸入會激活不同的專家,可能導致某些專家過載,進一步造成不同GPU的利用率不平衡。

EPLB采用“redundant experts”(冗余專家)策略

識別高負載專家→復制多個副本分配到不同GPU→在推理時動態分配輸入到負載較輕的專家副本。

并帶有兩種普通的策略:

  • 分層負載平衡,專家并行較小的預填充階段使用。
  • 全局負載平衡,在專家并行規模較大的解碼階段采用。

V3/R1中的計算通信重疊分析數據

開源第四彈的part 3,DeepSeek公開分享了來自訓練和推理框架的分析數據,以幫助社區更好地了解通信計算重疊策略和低級實現細節

GitHub上注明,分析數據是使用PyTorch Profiler捕獲的。

下載后,開發者可以通過導航到Chrome瀏覽器中的chrome://tracing(或Edge瀏覽器中的edge://tracing)將它進行可視化。

Attention please——DeepSeek模擬了一個絕對平衡的MoE路由策略進行分析。

首先,訓練階段。

訓練配置文件數據演示了DeepSeek在DualPipe中,對一對單獨的向前和向后數據塊的重疊策略。

每個數據塊包含4個MoE 層。

并行配置與DeepSeek-V3預訓練設置一致EP64、TP1具有4K序列長度。

為簡單起見,在profilng期間不包括PP通信。

其次,推理階段。

1)預填充。

對于預填充,配置文件使用EP32和TP1(與DeepSeek V3/R1的實際在線部署一致),提示長度設置為4K,每個GPU的批量大小為16Ktokens。

在預填充階段,DeepSeek利用兩個微批次來重疊計算和多對多通信,同時確保注意力計算負載在兩個微批次之間平衡

——這意味著相同的提示可以在它們之間分配。

2)解碼。

(注:相關數據尚未準備就緒,將于稍后發布)

解碼方面,該配置文件采用了EP128、TP1和4K的提示長度(與實際在線部署配置非常匹配),每個GPU的批量大小為128個請求。

與預填充類似,解碼還利用兩個微批處理進行重疊計算和多對多通信。

但與預填充不同的是,解碼期間的all-to-all通信不會占用GPU SM:

發出RDMA消息后,所有GPU SM都會被釋放,系統在計算完成后等待all-to-all通信完成。

有關all-to-all實現的更多信息,請參考開源周第二彈DeepEP。

One More Thing

“大放異彩!”

對于第四彈的開源內容,網友是這么感慨的。

目前看來,DeepSeek開源周的前4天,都挺令追更群眾們滿意。

尤其是這次開源周全部瞄準大模型的Infra層。

追更看客們表示:

更好的團隊合作不僅是團隊管理優化的一部分,更是實現頂級AI性能的秘訣。
DeepSeek正在創建新的標準,大規模訓練的未來就在咱們眼前!

好了,DeepSeek開源周,明天就是最后一天了,不知道會有什么壓軸登場?

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-16 09:02:00

2025-05-19 09:12:16

2025-02-19 09:18:04

2025-02-27 12:06:45

2025-03-12 10:36:32

2025-02-19 15:01:09

2020-11-29 18:42:21

AI 數據人工智能

2025-01-26 08:00:00

模型AI數據

2013-10-09 10:33:43

創業技術合伙人

2025-03-03 09:00:00

DeepSeekAI人工智能

2010-05-05 11:48:27

Oracle設計開發階

2019-05-30 10:21:37

IEEE華為人美國

2023-09-04 07:21:36

PawSQLMybatis

2022-06-07 19:49:34

Web3NFT互聯網

2025-02-12 08:30:18

2017-08-09 15:39:53

互聯網

2013-12-18 14:41:06

蘋果開發者iOS 7

2014-12-23 17:16:18

NBA

2013-09-16 15:33:28

Android優化界面UI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩视频 | 91亚洲国产成人精品一区二三 | 日韩国产中文字幕 | 午夜视频在线观看一区二区 | 国产精品免费看 | 亚洲欧美日韩一区 | 中文字幕在线视频精品 | 欧美xxxx做受欧美 | 日本网站免费在线观看 | 欧美一级免费看 | 亚洲精品一区二区三区在线观看 | 欧美亚洲视频 | h视频在线播放 | 国产精品久久久久久久久久久久久 | 99热.com | 毛片一区二区三区 | 亚洲国产成人久久综合一区,久久久国产99 | 99爱视频| 欧美成人在线免费 | 综合久久一区 | 欧美成人免费在线视频 | 日本一区二区视频 | 天天夜夜操 | www.久久精品视频 | 99久久免费精品国产免费高清 | 日韩在线欧美 | 亚洲色图图片 | 久久久久精| 欧美三级三级三级爽爽爽 | 青青久久 | 欧美一级片免费看 | 夫妻午夜影院 | 亚洲欧美国产一区二区三区 | 欧洲亚洲一区 | 99视频在线播放 | 久久精品国产一区 | 国产成人午夜精品影院游乐网 | 国产成人免费视频网站高清观看视频 | 国产欧美日韩精品一区 | 污免费网站 | av在线成人|