成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

時空壓縮!劍橋大學(xué)提出注意力機(jī)制MTLA:推理加速5倍,顯存減至1/8

人工智能 新聞
劍橋大學(xué)機(jī)器智能實(shí)驗(yàn)室最新提出了 Multi-head Temporal Latent Attention(MTLA),首次將時序壓縮與隱空間壓縮相結(jié)合,在 KV 緩存的兩個維度上同時施加時空壓縮策略。

相鄰的 KV 緩存將合并為一個。在生成第一個字符時,KV 緩存長度為 1;生成第二個字符后,新生成的 KV 與前一個被合并,KV 緩存長度仍然保持為 1。這種動態(tài)合并機(jī)制有效壓縮了時間維度上的冗余信息。

然而,這也帶來了并行訓(xùn)練上的挑戰(zhàn):雖然兩個時間步的 KV 緩存長度相同,但它們所包含的信息不同,若不加以區(qū)分,容易導(dǎo)致訓(xùn)練與推理行為不一致。

MTLA 通過一種優(yōu)雅的方式解決了這一問題。正如下圖所示,在訓(xùn)練階段,MTLA 保留了所有中間狀態(tài)的 KV 表達(dá),并引入了步幅感知因果掩碼(stride-aware causal mask),確保每個 query 在訓(xùn)練時訪問到與推理階段一致的 KV 區(qū)域,從而準(zhǔn)確模擬增量推理中的注意力行為。

得益于這一設(shè)計,MTLA 能夠像標(biāo)準(zhǔn)注意力機(jī)制一樣通過矩陣乘法實(shí)現(xiàn)高效并行計算,在保持訓(xùn)練效率的同時完成對時間維度的壓縮。

圖片

此外,MTLA 還引入了解耦的旋轉(zhuǎn)位置編碼(decoupled RoPE)來建模位置信息,并對其進(jìn)行了時間維度上的壓縮,進(jìn)一步提升了整體效率。

值得強(qiáng)調(diào)的是,MTLA 不僅是一種更高效的自注意力機(jī)制,它還具備極強(qiáng)的靈活性與可調(diào)性。例如,當(dāng)將時間壓縮率 s 設(shè)置得足夠大時,MTLA 在推理過程中幾乎只保留一個 KV 緩存,這種形式本質(zhì)上就退化為一種線性序列建模方法。換句話說,線性序列建模可以被視為 MTLA 的極端情況,MTLA 在注意力機(jī)制與線性模型之間架起了一座橋梁。

然而,在許多復(fù)雜任務(wù)中,傳統(tǒng)注意力機(jī)制所具備的二次計算復(fù)雜度雖然代價高昂,卻提供了更強(qiáng)的建模能力。因此,MTLA 所引入的 “可調(diào)時間壓縮率 s” 這一設(shè)計思路,恰恰為模型提供了一個在效率與性能之間靈活權(quán)衡的可能空間。

MTLA 的卓越性能

MTLA 在一系列任務(wù)中展現(xiàn)了出色的性能,包括語音翻譯,文本摘要生成,語音識別和口語理解。例如在語音翻譯中,MTLA 在保持與標(biāo)準(zhǔn) MHA 相當(dāng)?shù)姆g質(zhì)量的同時,實(shí)現(xiàn)了超過 5 倍的推理速度提升,并將推理過程中的 GPU 顯存占用降低了超過 8 倍。

值得注意的是,僅當(dāng)時間壓縮率 s=2 時,MTLA 對 KV 緩存的壓縮程度就已經(jīng)與 MQA 相當(dāng),且在模型性能上更具優(yōu)勢。而相比之下,MQA 所采用的減少 KV 頭數(shù)量的方法已達(dá)上限,而 MTLA 還有進(jìn)一步的空間。

圖片

未來發(fā)展

MTLA 具備在大規(guī)模場景中部署的顯著潛力,尤其是在大語言模型參數(shù)規(guī)模不斷擴(kuò)大、以及思維鏈等技術(shù)推動下生成序列日益增長的背景下,對 KV 緩存進(jìn)行時空壓縮正是緩解推理開銷的關(guān)鍵手段。在這樣的趨勢下,MTLA 有望成為未來大語言模型中自注意力模塊的重要替代方案。

當(dāng)然,與 DeepSeek 提出的 MLA 類似,MTLA 相較于 GQA 和 MQA,在工程落地方面的改動不再是簡單的一兩行代碼可以實(shí)現(xiàn)的優(yōu)化。這也意味著要將其大規(guī)模應(yīng)用到現(xiàn)有 LLM 框架中,還需要來自社區(qū)的持續(xù)推動與協(xié)同開發(fā)。

為促進(jìn)這一過程,MTLA 的實(shí)現(xiàn)代碼已全面開源,希望能夠?yàn)檠芯空吲c工程實(shí)踐者提供便利,共同推動高效注意力機(jī)制在大模型時代的落地與普及。


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-30 08:42:00

模型訓(xùn)練AI

2013-03-22 10:07:33

劍橋大學(xué)大數(shù)據(jù)

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2025-02-25 10:21:15

2024-11-08 15:00:00

AI模型

2023-11-24 12:36:00

模型訓(xùn)練

2024-09-19 10:07:41

2025-06-03 08:43:00

2013-04-01 09:33:03

個人隱私數(shù)字文件Facebook

2025-01-02 13:50:35

2022-05-12 13:39:48

AI研究模型

2024-08-12 12:27:03

2025-06-11 09:06:00

視覺生成AI

2009-06-14 08:51:11

蓋茨夫婦劍橋大學(xué)博士學(xué)位

2015-10-16 10:03:36

安卓設(shè)備安全終端安全

2020-06-16 16:49:47

戴爾

2024-10-31 10:00:39

注意力機(jī)制核心組件

2024-06-28 08:04:43

語言模型應(yīng)用

2017-08-03 11:06:52

2024-02-01 12:43:16

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产亚洲精品精品国产亚洲综合 | 一道本不卡视频 | 国产精品69久久久久水密桃 | 亚洲一区二区三区福利 | 丝袜 亚洲 另类 欧美 综合 | 91国内产香蕉 | 日韩国产中文字幕 | 成人午夜网 | 男人久久天堂 | 一级在线观看 | 亚洲成av人片在线观看 | cao在线| 97色综合| 综合久久av | 欧美一级黄 | 99re66在线观看精品热 | 成年人黄色一级片 | 在线视频国产一区 | 午夜爽爽男女免费观看hd | 亚洲精品成人免费 | av男人的天堂在线 | 欧美激情精品久久久久久 | 自拍在线| 亚洲精品中文字幕av | 久久免费精品 | 亚洲一区av在线 | 亚洲国产精品区 | 欧美国产精品 | 国产精品久久国产精品 | 中文字幕av一区二区三区 | 亚洲国产精品激情在线观看 | 久久久久久高潮国产精品视 | 亚洲精品一区二区三区中文字幕 | 黑人巨大精品欧美一区二区免费 | 国产精品精品视频一区二区三区 | 国产亚洲一区二区三区 | 91www在线观看 | 精品九九久久 | 精品乱子伦一区二区三区 | 黄色片视频免费 | 日韩亚洲一区二区 |