成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多虧Transformer,Mamba更強了!僅用1%計算量達新SOTA

人工智能
去年,他和FlashAttention作者Tri Dao一起提出了Mamba,成為第一個真正實現匹配Transformer性能的線性時間序列模型。

Attention is all you need.

至少在矩陣這兒是。

Mamba架構最新進展:僅需1%計算量,新模型性能達SOTA。

能做到這一點,還多虧了Transformer。

圖片圖片

通過將Transformer模型中的知識有效遷移到Mamba等替代架構中,模型能在保持較低計算成本的同時,性能更好。

這就是由Mamba主創之一Albert Gu領銜的最新成果。

值得一提的是,這種方法還適用于Mamba以外的非Transformer架構。

從Transformer到SSMs

Transformer由于依賴二次自注意力機制,所需計算量很大。

二次自注意力機制能讓模型在處理序列數據時有效捕捉序列內部的長距離依賴關系,但是由于二次時間復雜度(如果輸入規模翻倍,模型計算所需時間增加4倍),導致處理長序列的計算成本很高。

為了解決這個問題,學界提出了很多新架構,比如Mamba、RWKV等,它們的微調和推理成本更低。

考慮到Transformer模型預訓練已經投入了大量計算資源,研究人員想到,為什么不能在此基礎上進行提升?

所以在本項研究中,他們提出了一種蒸餾方法MOHAWK,利用Transformer預訓練模型來訓練SSMs模型。

其核心在于注意力機制、線性注意力、Mamba的結構化掩碼注意力SMA等,都是跨輸入長度維度的序列轉換。因此它們都有各自的矩陣混合器,比如softmax。

圖片圖片

通過將注意力和SSMs視為通過應用不同類別的矩陣來混合不同token嵌入的序列變換,序列模型架構可以分解為獨立序列混合和通道混合塊。

比如Transformer由注意力(序列混合器)和MLP(通道混合器)塊組成,使用這種分解可以蒸餾模型的每個元素。

具體蒸餾分為三個階段:

第一階段:矩陣對齊(Matrix Orientation)。對齊序列變換矩陣本身。

第二階段:隱藏狀態對齊(Hidden-State Alignment)。對齊網絡每個單獨層的隱藏狀態表示,且不犧牲預先學習的表示。

第三階段:權重轉移和知識蒸餾(Weight-Transfer and Knowledge Distillation)。通過一個端到端訓練階段,將權重轉移,最終使用只有一小部分訓練數據來蒸餾網絡的最終輸出。

利用這個方法來實際修改一個模型,比如Phi-Mamba。

圖片圖片

它結合了Mamba-2和Phi-1.5。

通過MOHAWK方法,該模型從預訓練的Transformer模型中學習,同時作為狀態空間模型,它在處理長序列上比傳統Transformer架構更高效。

該模型僅使用3B token進行蒸餾,數據量為從頭訓練模型的1%,但是性能達到開源非Transformer架構中的SOTA。

圖片圖片

實驗發現,隱藏狀態對齊更好,可以提高后續階段的性能。

圖片圖片

研究團隊也發布了混合Phi-Mamba-1.5B,通過5B token蒸餾,模型與類似混合模型表現相當,但是注意力層只用了4層。

圖片圖片

值得一提的是,這種蒸餾方法不止適用于Mamba。

圖片圖片

該研究由CUM助理教授、Cartesia AI聯合創始人及首席科學家Albert Gu領銜。

去年,他和FlashAttention作者Tri Dao一起提出了Mamba,成為第一個真正實現匹配Transformer性能的線性時間序列模型。

論文地址:https://arxiv.org/abs/2408.10189

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-03-10 08:47:00

模型AI訓練

2023-10-30 09:16:00

模型訓練

2025-02-07 14:01:20

2025-02-17 07:00:00

蘋果模型

2024-05-13 10:38:08

2024-03-04 08:20:00

谷歌架構AI

2025-04-21 09:07:00

2024-03-25 13:06:00

數據訓練

2024-08-13 12:49:29

2025-05-29 09:20:00

模型研究推理

2023-05-29 13:53:46

開源模型

2024-01-23 12:57:00

模型數據

2025-03-24 13:04:12

2023-11-05 15:05:15

AI論文

2024-08-19 13:21:14

2023-12-29 08:02:17

大模型人工智能AI

2023-12-05 13:38:11

架構模型

2023-12-25 09:41:37

點云訓練

2025-06-05 02:15:00

Mamba視覺網絡

2022-09-15 09:59:55

火山語音語音建模
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人免费精品 | 久久99视频免费观看 | 亚洲精品一区二区网址 | 日本在线你懂的 | 99久久精品国产毛片 | 日韩一区二区三区四区五区六区 | 中文字幕一区在线观看视频 | 欧美成人高清视频 | 欧美男人天堂 | 欧美激情一区二区三区 | www.47久久青青| 一区二区三区视频在线免费观看 | 午夜精品久久久 | 国产黄色网址在线观看 | 成人av电影免费在线观看 | 黄色播放| 午夜国产羞羞视频免费网站 | 亚洲精品888 | 在线观看成人小视频 | 欧美日韩精品在线免费观看 | 91在线精品视频 | 精品中文字幕在线 | 国产精品区二区三区日本 | 国产午夜精品一区二区三区四区 | 久久久999成人 | 久久久久国产精品人 | 日日噜噜噜夜夜爽爽狠狠视频, | 国产精品视频久久久 | 精品人伦一区二区三区蜜桃网站 | 亚洲一区二区三区欧美 | 国产亚洲精品一区二区三区 | 日日夜夜精品免费视频 | 国产精品1区 | 中文字幕在线观看视频一区 | 亚洲综合无码一区二区 | 亚洲视频三 | 天堂国产 | 国产成人小视频 | 国产一区二区免费在线 | 丝袜 亚洲 欧美 日韩 综合 | 欧美日韩一区二区三区四区 |