成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

單GPU就能壓縮模型,性能不變參數少25%!微軟提出模型稀疏化新方法

人工智能 新聞
今天要介紹的SliceGPT,則可以實現模型的事后稀疏。也就是說,在一個模型訓練完了以后再進行稀疏化操作。

眾所周知,對于大語言模型來說,規模越大,所需的算力越大,自然占用的資源也就越多。

研究人員于是乎把目光轉到了這片領域,即模型的稀疏化(Sparsification)。

今天要介紹的SliceGPT,則可以實現模型的事后稀疏。也就是說,在一個模型訓練完了以后再進行稀疏化操作。

該模型由微軟研究院和蘇黎世聯邦理工學院聯合發表在了arXiv上。

目前主流的稀疏化技術面臨著挺多挑戰和困難。比方說,需要額外的數據結構,而且在當下的硬件條件下,速度有限。

SliceGPT就能很好的解決這些問題——它能用一個較小的矩陣來替換每個權重矩陣,從而降低網絡的嵌入維度。

而實際結果也是非常不錯的,在LLAMA-2 70B、OPT 66B和Phi-2模型上,SliceGPT去除了多達25%的模型參數,還保證了模型本身99%、99%以及90%的零樣本任務的性能。

此外,SliceGPT還可以在更少的GPU上運行,無需額外的代碼優化。

在24GB的消費級GPU上,SliceGPT可以將LLAMA-2 70B總的推理計算量減少到密集模型的64%。

而在40GB的A100 GPU上,這個數字達到了66%。

而在SliceGPT背后的,則是Transformer網絡中的計算不變性。

下面,就讓我們走進論文來一探究竟。

優勢所在

大語言模型(LLM)是擁有數十億個參數的神經網絡,以數萬億詞庫為基礎進行訓練。

這種過高的成本就導致人們會轉向在多個任務中重復使用預先訓練好的模型,我們稱為基礎模型范式。

LLM的規模越來越大,這使得部署預訓練模型成為一項昂貴的工作。許多模型需要多個GPU才能計算出預測結果,而且由于模型是自回歸的,因此需要神經網絡的多次前向傳遞才能生成文本響應。

因此,降低這些模型的計算要求就大有市場了。

目前,大多數主流的模型壓縮技術分為四類:蒸餾(distillation)、張量分解(tensor decomposition,包括低階因式分解)、剪枝(pruning)和量化(quantization)。

研究人員表示,雖然剪枝方法已經存在了一段時間,但許多方法需要在剪枝后進行恢復微調(RFT)以保持性能,這使得整個過程成本十分高昂,且難以進行擴展。

有了SliceGPT,開發人員現在只需幾個小時就能使用單個GPU來壓縮大型模型,即使沒有RFT的幫助,也能在生成和下游任務中繼續保持有競爭力的性能。

剪枝方法的工作原理是將LLM中權重矩陣的某些元素設置為零,并更新矩陣的周圍元素以進行補償。

結果就是,形成了稀疏模式,意味著在神經網絡前向傳遞所需的矩陣乘法中,可以跳過一些浮點運算。運算速度的相對提升取決于稀疏程度和稀疏模式。

與其他剪枝方法不同,SliceGPT會徹底剪掉(slice的由來)權重矩陣的整行或整列。在切分之前,研究人員會對網絡進行一次轉換,使預測結果保持不變,因此切分只會產生很小的影響。

結果就是權重矩陣變小了,神經網絡塊之間傳遞的信號也變小了,成功降低神經網絡的嵌入維度。

下圖比較了SliceGPT和現有的稀疏性方法之間的優勢,主要體現在以下四個方面:

1. 引入了計算不變性的概念:證明了可以對Transformer中的每個權重矩陣進行正交矩陣變換,而無需改變模型。

2. 利用這一點來編輯Transformer架構中的每個區塊,從而將區塊間的信號矩陣1投影到其自身上,之后移除變換后權重矩陣的列或行,以減小模型的大小。

3. 研究人員在OPT和LLAMA-2等模型上進行了多次實驗,最終結果表明,SliceGPT能夠將這些模型壓縮到高達30%。此外,在下游任務中,研究人員還對Phi-2模型進行了實驗,結果表明所有模型的壓縮率最高可達30%,同時還能保持 90%以上的密集性能。

計算不變性

SliceGPT依賴Transformer架構中所固有的計算不變性(computational invariance)。

意思就是,研究人員可以對一個組件的輸出進行正交變換,只要在下一個組件中撤銷即可。

在網絡區塊之間執行的 RMSNorm操作不會影響變換,原因在于這些操作是相通的。

首先,研究人員介紹了在RMSNorm連接的Transformer網絡中,是如何實現不變性的。然后說明如何將使用 LayerNorm連接訓練的網絡轉換為RMSNorm。

研究人員引入了主成分分析法(PCA)計算各層變換的方法,從而將區塊間的信號投射到其主成分上。

最后,再講講刪除次要主成分和剪掉修改后網絡的行或列是如何對應上的。

第一,假設Q是一個正交矩陣,那么有:

圖片

而用向量x乘以Q并不會改變向量的常模,因為:

圖片

這里,Q的尺寸總是與Transformer D的嵌入尺寸相匹配。

現在假設X?是Transformer一個區塊的輸出,經過RMSNorm的處理后,以RMSNorm(X?)的形式輸入到下一個區塊。

如果在RMSNorm之前插入具有正交矩陣Q的線性層,并在RMSNorm之后插入Q?,網絡將保持不變,因為信號矩陣的每一行都要乘以Q,然后進行歸一化處理,再乘以Q?。就有:

現在,由于網絡中的每個注意力(attention)或FFN模塊都對輸入和輸出進行了線性運算,我們可以將額外的運算 Q吸收到模塊的線性層中。

由于網絡包含殘差連接,此時還必須將Q應用于所有前層(一直到嵌入)和所有后續層(一直到LM Head)的輸出。

不變函數是指輸入變換不會導致輸出改變的函數。

在舉例中,研究人員可以對transformer的權重應用任何正交變換Q而不改變其結果,因此計算可以在任何變換狀態下進行。

這就是所謂的計算不變性,如下圖定理所示。

接下來,由于transformer網絡的計算不變性僅適用于RMSNorm連接的網絡,因此在處理LayerNorm網絡之前,研究人員先將LayerNorm的線性塊吸收到相鄰塊中,從而將網絡轉換為RMSNorm。

下圖表示了transformer網絡的這種轉換。

在每個區塊中,研究人員將輸出矩陣W(out)與均值減法矩陣M相乘,后者考慮了后續LayerNorm中的均值減法。

輸入矩陣W(in)被前一個LayerNorm塊的比例預乘。嵌入矩陣W(embd)必須進行均值減法,而W(head)必須按最后一個LayerNorm的比例重新縮放。

這里只是操作順序的簡單改變,不會影響輸出。

現在transformer中的每個LayerNorm都轉換為了RMSNorm,研究人員就可以選擇任意的Q來修改模型。

他們需要在每個區塊應用不同的正交矩陣Q?。

此外,殘差連接和區塊的輸出必須具有相同的旋轉(rotation)。為了解決這個問題,研究人員通過對殘差進行線性變換Q? ?-1Q?來修改殘差連接。

下圖顯示了如何通過對殘差連接進行額外的線性運算,對不同的區塊進行不同的旋轉。

與權重矩陣的修改不同,這些附加運算無法預先計算。

盡管如此,研究人員還是需要這些操作來對模型進行切分,而且可以看到整體速度確實加快了。

為了計算矩陣Q?,研究人員使用了PCA。首先從訓練集中選擇一個校準數據集,通過模型運行該數據集(在將LayerNorm運算轉換為RMSNorm 之后),并提取層的正交矩陣。

研究人員使用轉換后的網絡輸出來計算下一層的正交矩陣。

舉例來說,如果X?,i是校準數據集中第i個序列的第?個RMSNorm塊的輸出,那么:

圖片

然后再將Q?設為C?的特征向量,按特征值遞減排序。

主成分分析的目標通常是獲取數據矩陣X,并計算其低維表示Z和X的近似重構。

其中第二個等式的左半部分,即代表X的近似重構。

其中Q是X?X的特征向量,D是一個D×D(small)的刪除矩陣,用于刪除矩陣左邊的一些列。

下圖算式的最小化的線性映射是QD。

圖片

從這個意義上說,重構L(2)是最佳的。

而當對區塊間的信號矩陣X應用PCA時,研究人員從未將N×D信號矩陣具體化,而是將刪除矩陣D,應用于構建該矩陣之前和之后的運算。

這些運算在上述運算中已乘以Q。

之后研究人員刪除W(in)的行以及W(out)和 W(embd)的列,同時還刪除了插入到剩余連接中的矩陣的行和列,矩陣如下所示:

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-07-25 10:27:06

谷歌模型

2021-02-20 16:07:27

神經網絡AI算法

2022-12-08 13:00:10

AI性別偏見

2020-04-28 15:16:14

Facebook AI模型

2024-09-03 14:10:00

模型測試

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2023-09-25 10:04:37

模型AI

2024-09-29 10:40:00

數據模型

2023-12-13 12:55:39

模型數據

2022-07-04 15:09:55

超大數據集數據分析瘦身

2023-04-27 13:06:46

AI手機模型

2023-11-23 15:05:02

玻璃歸檔存儲微軟

2024-09-02 14:37:50

2010-06-18 09:48:22

2025-04-10 09:38:37

2025-02-06 07:26:35

2015-07-20 11:49:56

Wi-Fi

2021-11-26 18:37:39

技術人工智能計算機

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2023-09-06 13:34:31

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久婷婷 | 午夜激情在线 | 日日操操 | 免费成人国产 | 成人做爰www免费看视频网站 | 天天干天天玩天天操 | 国产高清一区二区三区 | 国产成人综合网 | 91久久久精品国产一区二区蜜臀 | 九九爱这里只有精品 | 九九99久久 | 国产一级电影在线观看 | 一区不卡在线观看 | 精品综合网 | 久久久成人网 | 精品视频免费在线 | 自拍视频在线观看 | 在线观看成人 | 91高清视频在线 | 成年人在线视频 | 日本精品视频一区二区三区四区 | 国产福利在线免费观看 | 亚洲精品久 | 黄视频网址 | 欧美日韩在线成人 | 欧美日韩综合精品 | 国产精品美女久久久久aⅴ国产馆 | 欧美在线视频一区 | 国产伦精品一区二区三毛 | 久久亚洲一区二区 | 日韩中文字幕在线 | 国产精品国产精品国产专区不片 | 91看片在线观看 | 亚洲精品久久久久久久久久久久久 | 成人教育av | 男女在线网站 | 亚洲高清在线观看 | 9色视频在线 | 在线看av的网址 | 嫩草懂你的影院入口 | 成人毛片在线视频 |