成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 | 注意力機制中的極大值:破解大語言模型上下文理解的關鍵

人工智能 新聞
近日,一項來自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型語言模型中一個重要現象。

大型語言模型(LLMs)在上下文知識理解方面取得了令人矚目的成功。

近日,一項來自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型語言模型中一個重要現象:在注意力機制的查詢 (Q) 和鍵 (K) 表示中存在非常集中的極大值,而在值 (V) 表示中卻沒有這種模式。這一現象在使用旋轉位置編碼 (RoPE) 的現代 Transformer 模型中普遍存在,對我們理解 LLM 內部工作機制具有重要意義。

本研究由羅格斯大學張永鋒教授的團隊完成,一作為金明宇,羅格斯大學博士生,在 ACL、ICML、AAAI、NAACL、COLM、ICLR、EMNLP、COLING 等頂級會議上發表過論文。

圖片

  • 論文標題:Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
  • arXiv 鏈接:https://arxiv.org/pdf/2502.01563
  • 代碼鏈接:https://github.com/MingyuJ666/Rope_with_LLM

研究亮點

極大值如何影響模型性能

當我們談論大型語言模型的理解能力時,通常將其知識分為兩類:參數知識(存儲在模型權重中的事實和信息)和上下文知識(從當前輸入文本中獲取的信息)。本研究通過一系列精心設計的實驗,揭示了自注意力模塊中極大值的存在與上下文知識理解之間的關鍵聯系。

四大核心發現

1. 極大值在 Q 和 K 中高度集中分布

研究發現,這些極大值在每個注意力頭的特定區域高度集中。這一現象非常反常識,因為 LLM 內部每個注意力頭的運算理論上應該是獨立的,但這些極大值的分布卻顯示出驚人的一致性。研究團隊通過可視化方法清晰地展示了這一分布特征,橫跨多個層和頭,這種規律性模式與傳統認知形成鮮明對比。

圖片

更引人注目的是,這一極大值現象僅存在于使用 RoPE(旋轉位置編碼)的模型中,如 LLaMA、Qwen 和 Gemma 等主流模型。而在未使用 RoPE 的模型(如 GPT-2 和 OPT)中不存在這種模式。這一發現將極大值現象直接與位置編碼機制建立了聯系。

2. Q 和 K 中的極大值對理解上下文知識至關重要

圖片

通過設計「破壞性實驗」,研究團隊將極大值重置為平均值,觀察模型性能變化。結果表明,這些極大值主要影響模型處理當前上下文窗口中的信息的能力,而非影響從參數中提取的知識。在需要上下文理解的任務上,破壞極大值會導致性能的災難性下降。

例如,在「大海撈針」類型的任務中,模型需要從大量文本中檢索特定信息。當極大值被破壞時,模型在此類任務上的表現幾乎完全崩潰。這直接說明了極大值對上下文理解的關鍵作用。

相比之下,對于只需要參數知識的任務(如「中國首都是哪里」),破壞極大值對性能影響有限。這種對比鮮明的結果表明,極大值特別與上下文信息處理相關,而非參數知識檢索。

3. 特定量化技術能更好地保存上下文知識理解能力

圖片

隨著大型語言模型的普及,量化技術成為降低計算和存儲需求的關鍵手段。然而,不同的量化方法對模型性能的影響各異。研究發現,專門處理極大值的量化方法(如 AWQ 和 SmoothQuant)能有效維持模型的上下文理解能力,而未特別處理極大值的方法則會導致性能明顯下降(GMS8K 和 AQUA 數據集)。

這一發現為量化技術的設計和選擇提供了重要指導,特別是對保留模型的上下文理解能力至關重要的應用場景。設計新的量化方法時應重點考慮保護 Q 和 K 中的大值,對于優先保持上下文理解能力的應用場景,AWQ 和 SmoothQuant 等方法更為合適。

4. 極大值集中現象由 RoPE 引起,并在早期層就已出現

研究通過深入分析發現,RoPE 位置編碼使 Q 和 K 中的低頻區域受位置信息影響較小,從而導致極大值集中現象。這種現象從模型的最初層就開始顯現,并隨著層數增加而變得更加明顯。

由于 RoPE 只作用于 QK,而不作用于 V,這也解釋了為什么只有 QK 存在極大值集中現象。這一發現不僅解釋了極大值的來源,也揭示了 RoPE 在大型語言模型中的工作機制。并且我們檢查了有 rope 的模型和沒有 rope 的模型,結果如圖所示,llama,qwen 都有集中的極大值;相反 gpt-2,jamba,opt 就沒有。

圖片

實驗結果

極大值對不同知識任務的差異化影響

研究團隊設計了一系列實驗,系統評估極大值對不同類型知識任務的影響。結果顯示出明顯的差異化效應:

A. 參數知識檢索任務的韌性

當大值被破壞時:

  1. 城市類任務仍然保持 76%-88% 的準確率,僅下降 15-20%
  2. 體育、藝術和技術類別任務保持在 65%-75% 的表現
  3. 名人類別表現尤其穩定,各模型均保持 70% 以上的準確率

這些結果表明,參數知識檢索主要依賴于模型權重中存儲的知識,受極大值破壞的影響相對較小。

B. 上下文知識理解任務的災難性下降

相比之下,依賴上下文理解的任務在極大值被破壞后表現災難性下降:

1. 數學推理任務出現嚴重退化

  • GSM8K: 從 81.30% 降至 15.10%
  • Llama3-8B: 從 76.90% 降至 4.00%
  • Qwen2.5-7B: 從 86.60% 降至 16.10%

2. 密鑰檢索任務 (Passkey Retrieval) 準確率從 100% 直接崩潰至接近 0%

3. IMDB 情感分析從 94% 以上下降至個位數

這些對比鮮明的結果強有力地證明了極大值在上下文知識理解中的關鍵作用。

C. 非大值破壞的對照實驗

為驗證研究發現的可靠性,研究團隊還設計了對照實驗:當僅破壞非極大值部分時,所有任務的表現保持穩定,變化通常小于 ±1%。這進一步確認了極大值在上下文知識理解中的特殊重要性。

研究意義與影響

這項研究首次揭示了大型語言模型內部自注意力機制中極大值的存在及其功能,為理解模型如何處理上下文信息提供了新視角。研究結果對 LLM 的設計、優化和量化都具有重要啟示:

  1. 模型設計方面:突顯了位置編碼機制(尤其是 RoPE)對模型理解上下文能力的影響,為未來模型架構設計提供了新思路。
  2. 模型優化方面:識別出極大值是上下文理解的關鍵組件,為針對性地提升模型上下文理解能力提供了可能路徑。
  3. 模型量化方面:強調了保護極大值在模型壓縮過程中的重要性,為開發更高效的量化方法提供了方向。

未來方向

該研究打開了多個值得進一步探索的方向:

  1. 探索是否可以通過特殊設計增強或調整極大值分布,從而提升模型的上下文理解能力。
  2. 研究極大值現象在不同架構、不同規模模型中的普遍性和特異性。
  3. 設計更有針對性的量化方法,專門保護與上下文理解相關的極大值。
  4. 探索極大值與模型其他特性(如對抗穩健性、推理能力等)之間的潛在聯系。

這項研究不僅加深了我們對大型語言模型內部工作機制的理解,也為未來更高效、更強大的模型開發鋪平了道路。通過揭示極大值的關鍵作用,研究者們為我們提供了解鎖大語言模型上下文理解能力的一把新鑰匙。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-28 08:04:43

語言模型應用

2024-04-17 12:55:05

谷歌模型注意力

2024-03-14 08:11:45

模型RoPELlama

2025-03-18 09:23:22

2025-04-07 01:02:00

GoAPI語言

2023-11-13 18:19:54

模型訓練

2020-09-17 12:40:54

神經網絡CNN機器學習

2023-05-05 13:11:16

2024-12-17 14:39:16

2017-05-11 14:00:02

Flask請求上下文應用上下文

2012-07-18 11:39:18

ibmdw

2025-06-09 09:23:05

2024-12-09 00:00:10

2024-06-03 10:56:53

2024-04-03 14:31:08

大型語言模型PytorchGQA

2024-10-31 10:00:39

注意力機制核心組件

2020-07-24 10:00:00

JavaScript執行上下文前端

2024-12-05 09:06:14

ORM框架.NET

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-02-06 10:21:51

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕综合 | 一级毛片免费 | 91福利在线观看 | 日韩av成人| 黄瓜av| 欧美二区三区 | 国产精品久久a | 精品香蕉一区二区三区 | 国产亚洲一区二区三区 | 日韩爱爱网站 | 欧美午夜一区 | 国产免费自拍 | 免费一区二区三区 | 午夜影院普通用户体验区 | 欧美不卡在线 | 水蜜桃久久夜色精品一区 | 欧美黑人国产人伦爽爽爽 | 中文字幕一区在线观看视频 | 午夜欧美一区二区三区在线播放 | 97av视频 | 九九精品在线 | 亚洲高清电影 | 精品在线看 | 欧美日韩精品一区二区 | 免费av观看 | 欧美日韩高清在线一区 | 亚洲精品电影网在线观看 | 久久精品国产久精国产 | 一区二区三区视频 | 国产精品高清一区二区 | 亚洲高清视频在线观看 | 日韩在线观看网站 | 99精品一区二区 | 日韩在线播放网址 | 午夜精品一区 | 欧美一区二区三区精品免费 | 欧美手机在线 | 国产一区二区激情视频 | 中文字幕成人免费视频 | 国产精品一区在线播放 | 日日天天 |