成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

厲害了!大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)

發(fā)布于 2025-7-1 23:48
瀏覽
0收藏

今日分享一篇羅格斯大學(xué)團隊發(fā)現(xiàn)了大語言模型注意力機制的查詢(Q)和鍵(K)表示中存在非常集中的大值,并探討了這些極大值的應(yīng)用以及來源,該研究已經(jīng)被機器學(xué)習(xí)三大頂會之一ICML收錄.。

厲害了!大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)

這項研究揭示了大型語言模型中一個重要現(xiàn)象:在注意力機制的查詢(Q)和鍵(K)表示中存在集中的大值,而在值(V)表示中卻沒有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼(RoPE)的現(xiàn)代Transformer模型中普遍存在。??

厲害了!大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)

四大核心發(fā)現(xiàn)

1. 極大值在Q和K中的特定區(qū)域高度集中: 研究發(fā)現(xiàn)這些大值在每個注意力頭的相似位置上聚集,LLM內(nèi)部每個head運算是獨立的,但是現(xiàn)在卻很集中,非常反常識。這一現(xiàn)象在沒有使用RoPE的模型(如GPT-2和OPT)中不存在。

2. Q和K中的大值對理解上下文知識至關(guān)重要: 這些大值主要影響模型處理當(dāng)前上下文窗口中的信息的能力,而非從參數(shù)中提取的知識。破壞這些大值會顯著降低模型在需要上下文理解的任務(wù)上(比如大海撈針)的表現(xiàn)。但是對于只需要記憶的任務(wù)(中國首都是哪里),破壞極大值缺不會有什么影響

3. 破壞極大值缺不會有什么影響針對大值的量化技術(shù)能更好地保存上下文知識: 實驗表明,如AWQ和SmoothQuant等專門處理大值的量化方法能有效維持模型的上下文理解能力,而未特別處理大值的方法則會導(dǎo)致性能明顯下降。

4. 極大值集中現(xiàn)象由RoPE引起,并在早期層就已出現(xiàn): 分析表明,這一現(xiàn)象源于RoPE機制,它使Q和K中的低頻區(qū)域受位置信息影響較小,大值集中現(xiàn)象從最初的層就開始顯現(xiàn)。因為Rope只作用于QK,所以也只有QK有集中地極大值?? 

研究意義這項研究深入剖析了LLM內(nèi)部機制,特別是注意力模塊中Q和K組件的獨特結(jié)構(gòu)特性。通過揭示大值在處理上下文知識中的關(guān)鍵作用,為模型設(shè)計和優(yōu)化提供了實用見解,尤其是在量化策略方面。

該研究代碼已在GitHub上開源:https://github.com/MingyuJ666/Rope_with_LLM

Arxiv Link: ??https://arxiv.org/pdf/2502.01563 ??

實驗:

研究結(jié)果顯示,大值對不同類型的知識任務(wù)有截然不同的影響:

1.參數(shù)知識檢索任務(wù)的韌性

當(dāng)大值被破壞時,城市類任務(wù)仍然保持76%-88%的準(zhǔn)確率,僅下降15-20%

體育、藝術(shù)和技術(shù)類別任務(wù)保持在65%-75%的表現(xiàn)

名人類別表現(xiàn)尤其穩(wěn)定,各模型均保持70%以上的準(zhǔn)確率

2.上下文知識理解任務(wù)的崩潰

數(shù)學(xué)推理任務(wù)出現(xiàn)災(zāi)難性下降:

  • GSM8K: 從81.30%降至15.10%
  • Llama3-8B: 從76.90%降至4.00%
  • Qwen2.5-7B: 從86.60%降至16.10%

密鑰檢索任務(wù)(Passkey Retrieval)準(zhǔn)確率從100%直接崩潰至接近0%

IMDB情感分析從94%以上下降至個位數(shù)

3. 非大值破壞的對照實驗

當(dāng)僅破壞非大值部分時,所有任務(wù)的表現(xiàn)保持穩(wěn)定,變化通常小于±1%

這一對比凸顯了大值在上下文知識理解中的關(guān)鍵作用

厲害了!大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)圖片

三種量化方法的比較分析

研究者評估了三種廣泛使用的量化方法:

  • AWQ (Lin et al., 2024)

通過在量化過程中選擇性地保護"重要"權(quán)重來維持大值

在所有任務(wù)上保持較強的性能表現(xiàn)

  • SmoothQuant (Xiao et al., 2023)
  • 使用平滑因子(S)通過數(shù)學(xué)等價變換重新分配激活中的大值
  • 同樣在各類任務(wù)中表現(xiàn)良好
  • GPTQ (Frantar et al., 2022)

不特別保護大值的量化方法

在上下文知識理解任務(wù)上表現(xiàn)顯著下降

厲害了!大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)

實驗結(jié)果揭示的關(guān)鍵模式

圖清晰展示了這三種方法在不同基準(zhǔn)測試上的表現(xiàn)差異:

  • 參數(shù)知識檢索任務(wù)(城市、體育、名人):

所有量化方法都能保持良好表現(xiàn)

GPTQ雖然不保護大值,但在這些任務(wù)上表現(xiàn)幾乎與其他方法相當(dāng)

  • 上下文知識理解任務(wù)(GSM8K和AQUA):

AWQ和SmoothQuant保持接近原始性能的高準(zhǔn)確率

GPTQ表現(xiàn)顯著下降,準(zhǔn)確率降至約75%(歸一化后)

這一差異特別有啟發(fā)性,它明確表明:保護大值是維持上下文理解能力的關(guān)鍵

研究意義與應(yīng)用價值

這些結(jié)果為研究者提出的假設(shè)提供了額外的實證支持:大值在大型語言模型的上下文知識理解能力中扮演著至關(guān)重要的角色。對于實際應(yīng)用,這些發(fā)現(xiàn)具有以下意義:

  • 量化策略優(yōu)化指導(dǎo):

設(shè)計新的量化方法時應(yīng)重點考慮保護Q和K中的大值

對于優(yōu)先保持上下文理解能力的應(yīng)用場景,AWQ和SmoothQuant等方法更為合適

  • 模型能力與壓縮的權(quán)衡:

明確了在模型壓縮過程中應(yīng)當(dāng)保留的關(guān)鍵結(jié)構(gòu)

為開發(fā)更高效的模型壓縮技術(shù)提供了理論基礎(chǔ)

這部分研究不僅驗證了大值在模型行為中的重要性,也為優(yōu)化大型語言模型的量化策略提供了具體指導(dǎo),具有顯著的實用價值。通過保護這些關(guān)鍵的大值,可以在顯著降低模型大小和計算需求的同時,保持模型處理上下文信息的核心能力。

厲害了!大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)

本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily

已于2025-7-2 14:26:14修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成人深夜小视频 | 亚洲黄色视屏 | 九九久久久 | 精品欧美一区二区三区精品久久 | 中文字幕在线视频精品 | 毛片在线看看 | 特一级黄色毛片 | 久久一起草| 99视频免费在线观看 | 免费看日韩视频 | 国产高清在线观看 | 国产一级视频在线播放 | 欧美一区二区三区在线播放 | 国产视频中文字幕 | 美女视频h | 欧美精品一区二区三区蜜桃视频 | 国产在线二区 | 日韩欧美亚洲 | 一级欧美视频 | 91一区二区| 一级毛片视频在线 | 久久成人一区 | 亚洲精品国产成人 | www.97国产| 成人在线一区二区三区 | www.国产日本 | 午夜一区二区三区视频 | 成人在线精品 | 欧美乱码精品一区二区三区 | 视频一区二区三区中文字幕 | 视频在线亚洲 | 日韩午夜电影在线观看 | 日韩精品一区二区三区高清免费 | 亚洲三级在线 | 日韩精品久久一区 | 蜜桃在线一区二区三区 | 国产午夜视频 | 精品视频一区二区三区在线观看 | 日韩色图视频 | 91极品尤物在线播放国产 | 中文字幕在线三区 |