成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek新注意力機(jī)制引熱議!梁文鋒親自提交預(yù)印本,目標(biāo)明確降低計算成本

人工智能 新聞
那邊馬斯克瘋狂燒了20萬張卡訓(xùn)出Grok 3,這廂DeepSeek重點關(guān)注的依然是壓縮計算和推理成本。

DeepSeek新注意力機(jī)制論文一出,再次引爆討論熱度。

依然是熟悉的畫風(fēng),熟悉的味道——

那邊馬斯克瘋狂燒了20萬張卡訓(xùn)出Grok 3,這廂DeepSeek重點關(guān)注的依然是壓縮計算和推理成本

具體來說,新論文提出了一種可原生訓(xùn)練的稀疏注意力機(jī)制,名為NSA(Native Sparse Attention)。

目的很明確:解決大模型上下文建模中,標(biāo)準(zhǔn)注意力機(jī)制造成的計算成本高昂的問題。

效果也很明顯:

實驗表明,在解碼64k上下文時,基于softmax架構(gòu)的注意力計算占到總延遲的70%-80%。而在不影響性能的前提下,NSA在64k上下文的解碼、前向傳播和反向傳播中均實現(xiàn)了顯著加速。

其中前向傳播速度最高可提升9倍,反向傳播速度最高可提升6倍,解碼速度提升可達(dá)11.6倍

正如不少網(wǎng)友提到的,NSA意味著DeepSeek找到了優(yōu)化注意力的方法,可以用更少的算力更加高效地訓(xùn)練大模型,并且,他們還把這些“秘籍”公開了出來。

剛剛加入OpenAI不久的ViT核心作者Lucas Beyer也不禁開麥:粉了粉了。

另一點受到關(guān)注的是,這篇論文的作者可以說是DeepSeek系列大模型原班人馬,梁文鋒本人亦在其列——

論文還是梁文鋒親自傳上arXiv的。

實現(xiàn)超快速長上下文訓(xùn)練推理

來看論文細(xì)節(jié)。

NSA的核心方法包括:

  • 動態(tài)分層稀疏策略
  • 粗粒度Token壓縮
  • 細(xì)粒度Token選擇

整體框架上,NSA是用更緊湊的鍵值對替代原始注意力中的鍵值對,通過壓縮、選擇和滑動窗口(sliding window)三種映射策略得到優(yōu)化注意力輸出,保持高稀疏率。

采取分層設(shè)計的好處是:

  • 減少計算量的同時,能有效避免信息丟失,是模型在處理長序列時既高效又精準(zhǔn)。
  • 能夠在保證全局上下文感知的同時,精確捕捉局部信息,提升模型的表現(xiàn)。
  • 可根據(jù)任務(wù)需求和上下文動態(tài)調(diào)整稀疏程度

具體到算法設(shè)計上,粗粒度Token壓縮通過將連續(xù)的Token聚合成塊級表示,可以捕獲全局語義信息,同時減少注意力的計算負(fù)擔(dān)。

細(xì)粒度Token選擇從序列中選擇最重要的Token,保留關(guān)鍵的局部信息。

滑動窗口則避免了局部模式的過度優(yōu)勢——在注意力機(jī)制中,局部模式往往會主導(dǎo)學(xué)習(xí)過程,阻止模型有效地從壓縮和選擇Token中學(xué)習(xí)。

為了實現(xiàn)以上創(chuàng)新,DeepSeek官方還強(qiáng)調(diào)了兩方面的關(guān)鍵工作:

  • 硬件對齊系統(tǒng):針對張量核心利用率和內(nèi)存訪問優(yōu)化塊級稀疏注意力,確保均衡的算術(shù)強(qiáng)度。
  • 訓(xùn)練感知設(shè)計:通過高效算法和向后運(yùn)算符實現(xiàn)穩(wěn)定的端到端訓(xùn)練。

研究人員用27B參數(shù)規(guī)模的模型進(jìn)行了實驗,結(jié)果顯示,全注意力機(jī)制和NSA在預(yù)訓(xùn)練損失方面,都表現(xiàn)出了穩(wěn)定的收斂性,并且NSA實現(xiàn)了更低的損失值。

在包含知識、推理和編碼能力的多個通用基準(zhǔn)測試中,與全注意力模型相比,NSA模型性能不降反超,在推理任務(wù)DROP中提升尤為明顯。

長上下文方面,64k上下文的“大海撈針”測試?yán)铮琋SA完美過關(guān)。

在需要復(fù)雜長下文推理的各項任務(wù)中,NSA的表現(xiàn)也基本超過了包括全注意力模型在內(nèi)的基線模型。

而在思維鏈推理評估中,通過知識蒸餾和監(jiān)督微調(diào),在8k和16k上下文設(shè)置下,AIME任務(wù)中NSA-R的得分均超過了全注意力模型。

這表明,NSA預(yù)訓(xùn)練的稀疏注意力模式能有效捕捉長距離邏輯依賴,且其硬件對齊設(shè)計可支持不斷增加的推理深度。

效率方面,在8-GPU A100系統(tǒng)上,NSA的訓(xùn)練加速效果會隨上下文長度的增加而增強(qiáng)。在64k上下文長度時,前向傳播速度最高可提升9倍,反向傳播速度最高可提升6倍,解碼速度提升可達(dá)11.6倍。

有意思的是,在馬斯克推出Grok 3炸場之時,不少人感慨:“大力出奇跡”在大模型訓(xùn)練里仍然奏效——

在Grok 3成為大模型競技場首個突破1400分模型的背后,是驚人的10萬卡(后來擴(kuò)展到20萬)H100集群。

但現(xiàn)在,DeepSeek為代表的效率派們顯然在引發(fā)另一種方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。

論文地址:https://arxiv.org/abs/2502.11089

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-19 09:18:04

2024-12-25 16:42:18

2010-05-14 09:02:03

云計算成本

2022-05-23 14:55:40

云計算工具成本

2022-02-18 13:46:05

云計算混合云技巧

2020-06-09 11:16:42

云計算云平臺工具

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2024-09-19 10:07:41

2025-05-19 09:12:16

2025-02-19 15:30:00

模型訓(xùn)練數(shù)據(jù)

2021-05-08 13:36:13

云計算AWS云平臺

2024-11-04 10:40:00

AI模型

2013-04-24 09:44:19

云計算成本模式云計算成本云計算成本分析

2024-11-25 14:23:36

2025-02-10 00:00:55

MHAValue向量

2013-01-18 14:00:59

VMware

2025-06-03 08:43:00

2025-02-14 11:22:34

2023-11-24 12:36:00

模型訓(xùn)練

2020-04-20 10:33:07

云計算托管服務(wù)成本
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 四虎影院免费在线播放 | 欧美在线观看一区 | 中文字幕日韩在线观看 | 超碰综合| 欧美亚洲高清 | 久久91精品久久久久久9鸭 | 国产成人精品综合 | 精品日韩一区 | 久久精品一区 | 欧美一级特黄aaa大片在线观看 | 日韩一区二区不卡 | 无吗视频| 午夜视频在线观看网址 | 国产一二区免费视频 | 日韩视频在线免费观看 | 国产精品久久久久久久久 | 日韩在线欧美 | 97国产成人| 亚洲字幕在线观看 | 久www| 日韩精品一区二区在线 | 亚洲国产成人精品久久久国产成人一区 | 日韩中文字幕在线 | 男人天堂午夜 | 亚洲福利一区 | 日韩av一区二区在线观看 | 成人影院网站ww555久久精品 | 国产永久免费 | 久久在线免费 | 日本在线网站 | 美女日批免费视频 | 日韩欧美精品一区 | 在线色网 | 国产一级视频在线观看 | 亚洲国产精品一区二区第一页 | 中文字幕1区 | 日韩三级免费观看 | 翔田千里一区二区 | 日本一道本| 极情综合网 | 伊人伊人伊人 |