DeepSeek新注意力機(jī)制引熱議！梁文鋒親自提交預(yù)印本，目標(biāo)明確降低計算成本

作者：量子位 2025-02-19 15:01:09

那邊馬斯克瘋狂燒了20萬張卡訓(xùn)出Grok 3，這廂DeepSeek重點關(guān)注的依然是壓縮計算和推理成本。

DeepSeek新注意力機(jī)制論文一出，再次引爆討論熱度。

依然是熟悉的畫風(fēng)，熟悉的味道——

那邊馬斯克瘋狂燒了20萬張卡訓(xùn)出Grok 3，這廂DeepSeek重點關(guān)注的依然是壓縮計算和推理成本。

具體來說，新論文提出了一種可原生訓(xùn)練的稀疏注意力機(jī)制，名為NSA（Native Sparse Attention）。

目的很明確：解決大模型上下文建模中，標(biāo)準(zhǔn)注意力機(jī)制造成的計算成本高昂的問題。

效果也很明顯：

實驗表明，在解碼64k上下文時，基于softmax架構(gòu)的注意力計算占到總延遲的70%-80%。而在不影響性能的前提下，NSA在64k上下文的解碼、前向傳播和反向傳播中均實現(xiàn)了顯著加速。

其中前向傳播速度最高可提升9倍，反向傳播速度最高可提升6倍，解碼速度提升可達(dá)11.6倍。

正如不少網(wǎng)友提到的，NSA意味著DeepSeek找到了優(yōu)化注意力的方法，可以用更少的算力更加高效地訓(xùn)練大模型，并且，他們還把這些“秘籍”公開了出來。

剛剛加入OpenAI不久的ViT核心作者Lucas Beyer也不禁開麥：粉了粉了。

另一點受到關(guān)注的是，這篇論文的作者可以說是DeepSeek系列大模型原班人馬，梁文鋒本人亦在其列——

論文還是梁文鋒親自傳上arXiv的。

實現(xiàn)超快速長上下文訓(xùn)練推理

來看論文細(xì)節(jié)。

NSA的核心方法包括：

整體框架上，NSA是用更緊湊的鍵值對替代原始注意力中的鍵值對，通過壓縮、選擇和滑動窗口（sliding window）三種映射策略得到優(yōu)化注意力輸出，保持高稀疏率。

采取分層設(shè)計的好處是：

具體到算法設(shè)計上，粗粒度Token壓縮通過將連續(xù)的Token聚合成塊級表示，可以捕獲全局語義信息，同時減少注意力的計算負(fù)擔(dān)。

細(xì)粒度Token選擇從序列中選擇最重要的Token，保留關(guān)鍵的局部信息。

滑動窗口則避免了局部模式的過度優(yōu)勢——在注意力機(jī)制中，局部模式往往會主導(dǎo)學(xué)習(xí)過程，阻止模型有效地從壓縮和選擇Token中學(xué)習(xí)。

為了實現(xiàn)以上創(chuàng)新，DeepSeek官方還強(qiáng)調(diào)了兩方面的關(guān)鍵工作：

研究人員用27B參數(shù)規(guī)模的模型進(jìn)行了實驗，結(jié)果顯示，全注意力機(jī)制和NSA在預(yù)訓(xùn)練損失方面，都表現(xiàn)出了穩(wěn)定的收斂性，并且NSA實現(xiàn)了更低的損失值。

在包含知識、推理和編碼能力的多個通用基準(zhǔn)測試中，與全注意力模型相比，NSA模型性能不降反超，在推理任務(wù)DROP中提升尤為明顯。

長上下文方面，64k上下文的“大海撈針”測試?yán)铮琋SA完美過關(guān)。

在需要復(fù)雜長下文推理的各項任務(wù)中，NSA的表現(xiàn)也基本超過了包括全注意力模型在內(nèi)的基線模型。

而在思維鏈推理評估中，通過知識蒸餾和監(jiān)督微調(diào)，在8k和16k上下文設(shè)置下，AIME任務(wù)中NSA-R的得分均超過了全注意力模型。

這表明，NSA預(yù)訓(xùn)練的稀疏注意力模式能有效捕捉長距離邏輯依賴，且其硬件對齊設(shè)計可支持不斷增加的推理深度。

效率方面，在8-GPU A100系統(tǒng)上，NSA的訓(xùn)練加速效果會隨上下文長度的增加而增強(qiáng)。在64k上下文長度時，前向傳播速度最高可提升9倍，反向傳播速度最高可提升6倍，解碼速度提升可達(dá)11.6倍。

有意思的是，在馬斯克推出Grok 3炸場之時，不少人感慨：“大力出奇跡”在大模型訓(xùn)練里仍然奏效——

在Grok 3成為大模型競技場首個突破1400分模型的背后，是驚人的10萬卡（后來擴(kuò)展到20萬）H100集群。

但現(xiàn)在，DeepSeek為代表的效率派們顯然在引發(fā)另一種方向上的思考：通往AGI的路，可以更高效，更本地化，更人人可用。

責(zé)任編輯：張燕妮來源：量子位