成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<strike id="acyyg"><acronym id="acyyg"></acronym></strike>

<tfoot id="acyyg"></tfoot>

<button id="acyyg"><tbody id="acyyg"></tbody></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

DeepSeek NSA & Moonshot MoBA 的見解

發布于 2025-2-24 11:18

瀏覽

0收藏

一、背景

最近幾天 DeepSeek 的 NSA 以及 Moonshot 的 MoBA 受到廣泛關注，我也在第一時間看了相關論文。由于最近 DeepSeek 的火爆，各大平臺上也出現了非常多對這兩篇文章的介紹，這里不再贅述其襲擊，只是簡單陳述一下我的一些思考和看法。

在看這兩篇論文的時候，我們可以發現其很多觀點和手段都似曾相識，其他在之前的 Quest、SeerAttention（之前也分享過）等論文都有相關介紹。不過，其在工業落地方面提供了更多的可能性，比如 Moonshot 已經將 MoBA 應用到其生產系統中。

二、關鍵結論

首先，它們在很大程度上解決了我們在之前分享的 Token 稀疏化文章中提到的問題：

以前的很多方案往往針對特定場景，不夠通用。比如，RaaS 受限于特定的 Long Reasoning 場景。
實現不夠高效，工業落地存在挑戰。很多方案采用 Token 粒度的稀疏化方式，難以充分發揮 GPU 的算力；也有些工作，比如 RaaS 雖然也采用了 Block 粒度的稀疏化方式，但是并沒有進行高效的實現。

除此之外，這幾篇論文也進一步促進了一些共識：

在長序列場景（Long Prefill 或 Long Decoding），Attention 是高度稀疏化的，也是高度動態化的。
固定 Pattern 的稀疏化方式往往很難保持精度，可學習 Sparse Pattern 會是通用化且高精度的有效方案。
Token 粒度的稀疏化很難充分發揮 GPU 算力，Block 粒度稀疏化是精度和性能（稀疏度、計算量）的良好平衡，基于此的高效 Block Sparse Attention 也成為標配，類似 GitHub - mit-han-lab/Block-Sparse-Attention [4]。
當前常見的 LLM 通常會采用 GQA，也要充分結合 GQA 的特性來設計稀疏化方案，不然可能會影響整體的稀疏化程度。
在進行 Block 選擇時并不需要使用 Block 內所有的 KV Cache，選擇一個代表性的“聚類中心”即可，比如取 Avg 或者 Max，MoBA 中使用 Mean Pooling，在 SeerAttention 中也有相應消融實驗。
不要隨意永久性丟棄 Token，由于 LLM 的自回歸特性，很難推測在后續的生成中是不是一定不需要某個 Token。這也就是為什么在 NSA 和 MOBA 中并不會節約 KV Cache 的存儲空間。

三、對訓練的影響

最后，這幾個文章都是非常好的工作，對于 Inference 的成本（長序列）節約非常有幫助；但其對于 Training 成本節約非常有限。主要是因為當前 Training 的主要成本是在 PreTraining 階段，而 PreTraining 階段的序列不會很長，常見的還是 4K。此時稀疏度不會很高，Attention 的占比也并不大，可能不到 10%。如下圖 Table 1 所示，DeepSeek V3 Training 成本中 PreTraining 占到了 95% 以上：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區

雖然 DeepSeek NSA 中進行了 PreTraining 實驗，并且 Loss 甚至低于 Full Attention，但其中的訓練速度實際對比的是長序列下 Attention Kernel 的速度，并不是 PreTraining 端到端的速度，如下圖 Figure 6：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區

而 Moonshot 的 MoBA 中也是聚焦在 SFT 階段：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區

我們會發現，Block 粒度的稀疏化執行的是 Block Sparse Attention，而我們之前介紹的一系列 Sample Packing 的方案也是 Block Sparse Attention，只不過 Sample Packing 中可以根據輸入數據預先知道 Block 的位置。基于這個思路，可以把 PreTraining 中的 Sample Packing 看成是 Block 粒度稀疏化的特例。如下圖所示，每種顏色的 Block 代表一個 Sample：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區

直觀感覺，在 PreTraining 中采用 Sample Packing 對應的 Block Sparse Attention 很有必要也很高效，然而實際的 PreTraining 中卻比較少采用。一方面是 PreTraining 中 Attention 占比不高，另一方面是負載均衡問題進一步降低性能收益；此外，也有多個工作驗證 Sample Packing 對預訓練的效果影響也很小，比如 LLaMA 3 的技術報告有介紹，忽略 Sample Packing 中的 Sparse Attention Mask，對效果沒什么影響。

當然，如果是長序列的 PreTraining 也許上述 Block Sparse Attention 能帶來一些收益，但長序列的 PreTraining 是否有必要也另當別論。

四、參考鏈接

??https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf??
??https://arxiv.org/abs/2502.11089??
??https://arxiv.org/pdf/2410.13276??
??https://github.com/mit-han-lab/Block-Sparse-Attention??

本文轉載自 ??AI閑談??，作者： AI閑談

標簽

贊

收藏

回復

舉報

回復

相關推薦

DeepSeek AI發布DeepSeek-V2.5-1210：DeepSeek-V2.5的更新版本，模型性能顯著提升

Halo咯咯 ? 1.5w瀏覽 ? 0回復
DeepSeek的V3，爆火了

51CTO技術棧 ? 7331瀏覽 ? 0回復
“大模型+知識圖譜”雙輪驅動的見解、技術和評估 - 英偉達的GraphRAG

知識圖譜科技 ? 3174瀏覽 ? 0回復
DeepSeek-AI 發布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4239瀏覽 ? 0回復
DeepSeek：AI浪潮中的創新先鋒

parson2000 ? 2515瀏覽 ? 0回復
被 DeepSeek 帶火的蒸餾到底是啥

芝士AI吃魚 ? 5710瀏覽 ? 0回復
DeepSeek：教育變革的催化劑

風云2002_1 ? 2129瀏覽 ? 0回復
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術，為何震動了全球 AI 圈

玄姐聊AGI ? 8016瀏覽 ? 1回復
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。。?/a>

玄姐聊AGI ? 7363瀏覽 ? 0回復
聊聊DeepSeek大模型對AI Agent的影響

王吉偉自頻道 ? 2397瀏覽 ? 0回復
10個超級實用的DeepSeek提問技巧

數師兄 ? 1922瀏覽 ? 0回復
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 2310瀏覽 ? 0回復
DeepSeek全新注意力機制NSA發布，超快速長文訓練與推理

PaperAgent ? 2737瀏覽 ? 0回復
KIMI 月之暗面提出（MoBA）大模型長文本處理新解法：塊注意力混合

AI論文解讀 ? 3696瀏覽 ? 0回復
100多條DeepSeek寫論文的經典指令

數師兄 ? 2645瀏覽 ? 0回復
DeepSeek的三種接入使用方法

一起AI技術 ? 4198瀏覽 ? 0回復
DeepSeek 模型架構的特殊選擇

amei2000go ? 2039瀏覽 ? 0回復
10個讓DeepSeek變強大的指令模型

數師兄 ? 2257瀏覽 ? 0回復
基于DeepSeek推理的文本聚類

51CTO內容精選 ? 1463瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

LLM Inference 中的低精度陷阱：數值穩定性和可復現性 7天前發布
NVIDIA：Blackwell GPU MXFP8 預訓練最佳實踐 2025-06-13 06:57:47發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關鍵結論

下一篇：綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關鍵技術

社區精華內容

目錄

主站蜘蛛池模板：久久久久国产精品午夜一区 | 中文字幕国产高清 | 精品欧美一区二区三区久久久小说 | 亚洲高清视频在线 | 欧美成人性生活 | 精品综合网| 久草免费福利 | 成人国内精品久久久久一区 | 国产午夜精品理论片a大结局 | 国产永久免费 | 国产精品1区2区 | 亚洲国产一区视频 | 午夜天堂精品久久久久 | 欧美一区二区三区在线观看视频 | 国产精品成av人在线视午夜片 | 亚洲精品久久久久久宅男 | 欧美精产国品一二三区 | 国产精品久久久久久婷婷天堂 | 99视频免费 | 久久机热| 国产十日韩十欧美 | 亚洲一区二区三区视频免费观看 | 欧美久久一区二区 | 亚洲国产一区在线 | 欧美电影在线观看网站 | 久久久国产一区 | 亚洲一区国产精品 | 国产资源一区二区三区 | 国产精品久久久久久久久久免费 | 精品国产乱码一区二区三区 | 成人精品鲁一区一区二区 | 日韩欧美一区二区在线播放 | 欧美xxxx色视频在线观看免费 | 91天堂网 | 99视频免费播放 | 91精品国产色综合久久 | 久久九九色 | 天天曰天天曰 | 99精品国产一区二区三区 | 午夜av一区二区 | 在线色网 |

<abbr id="skkai"><source id="skkai"></source></abbr>

<cite id="skkai"></cite>

<table id="skkai"><tr id="skkai"></tr></table>

<rt id="skkai"></rt>

<li id="skkai"></li>

<li id="skkai"></li>