成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

給Transformer降降秩,移除特定層90%以上組件,LLM性能不減

人工智能 新聞
MIT、微軟聯合研究:不需要額外訓練,也能增強大語言模型的任務性能并降低其大小。

在大模型時代,Transformer 憑一己之力撐起了整個科研領域。自發布以來,基于 Transformer 的 LLM 在各種任務上表現出卓越的性能,其底層的 Transformer 架構已成為自然語言建模和推理的最先進技術,并在計算機視覺和強化學習等領域顯示出強有力的前景。

然而,當前 Transformer 架構非常龐大,通常需要大量計算資源來進行訓練和推理。 

這是有意為之的,因為經過更多參數或數據訓練的 Transformer 顯然比其他模型更有能力。盡管如此,越來越多的工作表明,基于 Transformer 的模型以及神經網絡不需要所有擬合參數來保留其學到的假設。 

一般來講,在訓練模型時大規模過度參數化似乎很有幫助,但這些模型可以在推理之前進行大幅剪枝;有研究表明神經網絡通常可以去除 90% 以上的權重,而性能不會出現任何顯著下降。這種現象促使研究者開始轉向有助于模型推理的剪枝策略研究。

來自 MIT、微軟的研究者在論文《 The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 》中提出了一個令人驚訝的發現,即在 Transformer 模型的特定層上進行仔細的剪枝可以顯著提高模型在某些任務的性能。

圖片

  • 論文地址:https://arxiv.org/pdf/2312.13558.pdf
  • 論文主頁:https://pratyushasharma.github.io/laser/

該研究將這種簡單的干預措施稱之為 LASER( LAyer SElective Rank reduction ,層選擇性降秩),通過奇異值分解來選擇性地減少 Transformer 模型中特定層的學習權重矩陣的高階分量,從而顯著提高 LLM 的性能,這種操作可以在模型訓練完成后進行,并且不需要額外的參數或數據。

操作過程中,權重的減少是在模型特定權重矩陣和層中執行的,該研究還發現許多類似矩陣都可以顯著減少權重,并且在完全刪除 90% 以上的組件之前通常不會觀察到性能下降。

該研究還發現這些減少可以顯著提高準確率,這一發現似乎不僅限于自然語言,在強化學習中也發現了性能提升。

此外,該研究嘗試推斷出高階組件中存儲的內容是什么,以便進行刪除從而提高性能。該研究發現經過 LASER 回答正確的問題,但在干預之前,原始模型主要用高頻詞 (如 “the”、“of” 等) 來回應,這些詞甚至與正確答案的語義類型都不相同,也就是說這些成分在未經干預的情況下會導致模型生成一些不相干的高頻詞匯。

然而,通過進行一定程度的降秩后,模型的回答可以轉變為正確的。

為了理解這一點,該研究還探索了其余組件各自編碼的內容,他們僅使用其高階奇異向量來近似權重矩陣。結果發現這些組件描述了與正確答案相同語義類別的不同響應或通用高頻詞。

這些結果表明,當嘈雜的高階分量與低階分量組合時,它們相互沖突的響應會產生一種平均答案,這可能是不正確的。圖 1 直觀地展示了 Transformer 架構和 LASER 遵循的程序。在這里,特定層的多層感知器(MLP)的權重矩陣被替換為其低秩近似。

LASER 概覽 

研究者詳細介紹了 LASER 干預。單步 LASER 干預由包含參數 τ、層數?和降秩 ρ 的三元組 (τ, ?, ρ) 定義。這些值共同描述了哪個矩陣會被它們的低秩近似所替代以及近似的嚴格程度。研究者依賴參數類型對他們將要干預的矩陣類型進行分類。

研究者重點關注 W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩陣,它由 MLP 和注意力層中的矩陣組成。層數表示了研究者干預的層(第一層從 0 開始索引)。例如 Llama-2 有 32 層,因此 ? ∈ {0, 1, 2,???31}。

最終,ρ ∈ [0, 1) 描述了在做低秩近似時應該保留最大秩的哪一部分。例如設圖片,則該矩陣的最大秩為 d。研究者將它替換為?ρ?d?- 近似。

下圖 1 為 LASER 示例,該圖中,τ = U_in 和? = L 表示在 L^th 層的 Transformer 塊中來更新 MLP 第一層的權重矩陣。另一個參數控制 rank-k 近似中的 k。

圖片

LASER 可以限制網絡中某些信息的流動,并出乎意料地產生顯著的性能優勢。這些干預也可以很容易組合起來,比如以任何順序來應用一組干預

LASER 方法只是對這類干預進行簡單的搜索,并修改以帶來最大收益。不過,還有很多其他方法可以將這些干預組合起來,這是研究者未來工作的方向。

實驗結果

在實驗部分,研究者使用了在 PILE 數據集上預訓練的 GPT-J 模型,該模型的層數為 27,參數為 60 億。然后在 CounterFact 數據集上評估模型的行為,該數據集包含(主題、關系和答案)三元組的樣本,每個問題提供了三個釋義 prompt。

首先是 CounterFact 數據集上對 GPT-J 模型的分析。下圖 2 展示了在 Transformer 架構中為每個矩陣應用不同數量降秩的結果對數據集分類損失的影響。其中每個 Transformer 層都由一個兩層的小型 MLP 組成,輸入和輸出矩陣分別顯示。不同的顏色表示移除組件的不同百分比。

關于提升釋義的準確度和穩健性,如上圖 2 和下表 1 所示,研究者發現,當在單層上進行降秩時,GPT-J 模型在 CounterFact 數據集上的事實準確度從 13.1% 增加到了 24.0%。需要注意一點,這些改進只是降秩的結果,并不涉及對模型的任何進一步訓練或微調。

圖片

數據集中的哪些事實會通過降秩恢復呢?研究者發現,通過降秩恢復的事實極大可能很少出現在數據中,如下圖 3 所示。

圖片

高階組件存儲什么呢?研究者使用高階組件近似最終的權重矩陣(而不像 LASER 那樣使用低階組件來近似),如下圖 5 (a) 所示。當使用不同數量的高階組件來近似矩陣時,他們測量了真實答案相對于預測答案的平均余弦相似度,如下圖 5 (b) 所示。

圖片

最后,研究者評估了自身發現對 3 種不同的 LLM 在多項語言理解任務上的普遍性。對于每項任務,他們通過生成準確度、分類準確度和損失三種指標來評估模型的性能。如上表 1 所示,即使降秩很大也不會導致模型準確度下降,卻可以提升模型性能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-04-12 08:23:11

提速降費網絡互聯網

2025-01-17 13:20:00

2009-07-09 09:14:01

中國軟件

2024-10-22 18:44:48

2020-04-07 08:19:44

CPU計算機運算

2023-06-01 17:44:52

ChatGPTOpenAI性能

2023-07-10 06:47:00

CPU游戲性能

2023-09-20 08:52:57

Google模型

2018-03-29 03:14:41

2023-02-03 14:49:38

2011-05-25 20:36:11

網站權重

2025-04-02 09:19:00

2021-04-20 05:55:12

工信部提速降費精準降費

2020-10-23 10:53:06

iPhone 12蘋果降價

2011-07-12 18:20:45

降權

2017-11-01 12:08:40

網絡提速降費運營商

2013-11-18 14:18:43

辦公

2022-08-27 13:35:39

L4級自動駕駛輔助駕駛自動駕駛

2015-06-19 13:43:48

2022-04-26 06:15:34

降維算法Python
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产伦一区二区三区观看说明 | 欧美一区二区视频 | 久久久久免费 | 国产一区二区精品在线 | 日韩在线中文字幕 | 青娱乐一区二区 | 日日夜夜天天干 | 久久av网| 啪啪精品 | 久久久日韩精品一区二区三区 | 日韩一区二区在线视频 | 久久久久国产一区二区三区 | 中文字幕亚洲区一区二 | 91中文 | 成人免费在线 | 国产激情99 | 亚洲视频网 | 亚洲精品在线观看视频 | 成人二区| 精品一区二区视频 | 黄色一级免费 | 91亚洲国产成人久久精品网站 | 日韩精品在线免费观看 | 亚洲欧美精品在线观看 | 亚洲欧美日韩成人在线 | 国产欧美一区二区三区免费 | 国产精品成av人在线视午夜片 | 四色永久| 亚洲精品乱码久久久久久久久久 | 久久影院一区 | 日韩欧美国产精品 | 国产99久久精品一区二区永久免费 | 国产一级片在线播放 | 99re6热在线精品视频播放 | 北条麻妃99精品青青久久主播 | 成人在线激情 | 久久成人一区 | 国内自拍偷拍 | 精品九九久久 | 精品视频在线一区 | 91精品国产91久久久久久三级 |