成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟1bit LLM新研究:原生4bit激活值量化,可充分利用新一代GPU對4bit計算的原生支持

人工智能 新聞
研究發現注意力層和前饋網絡層的輸入激活值分布還比較接近高斯分布,量化起來相對容易。

微軟又有“1 bit LLM”新成果了——

發布BitNet v2框架,為1 bit LLM實現了原生4 bit激活值量化,由此可充分利用新一代GPU(如GB200)對4 bit計算的原生支持能力。

同時減少內存帶寬&提升計算效率。

圖片

之前,微軟持續研究BitNet b1.58,把LLM的權重量化到1.58-bit,顯著降低延遲、內存占用等推理成本。

然鵝BitNet b1.58激活值還是8-bit,這就導致沒辦法充分利用新一代硬件的4 bit計算能力,計算環節出現效率瓶頸。

還有個問題也很關鍵:

研究發現注意力層和前饋網絡層的輸入激活值分布還比較接近高斯分布,量化起來相對容易。

但中間狀態的激活值有很多異常值,這就給低bit量化帶來了很大阻礙。

此前的BitNet a4.8相關研究,嘗試過用4 bit量化輸入,8 bit稀疏化處理中間狀態。

這種方法雖然性能損失不大,可稀疏化在批量推理場景里不太適合用來提高吞吐量,因為硬件更適合密集計算。

圖片

這次,團隊最新推出了BitNet v2,通過引入H-BitLinear模,該模塊在激活量化前應用Hadamard變換。

研究中能有效將注意力層和前饋網絡中尖銳的激活分布重塑為更接近高斯分布的形式,顯著減少異常通道,使4 bit激活量化成為可能。

圖片

下面來看看究竟是怎么做的。

引入H-BitLinear模塊

對于權重量化,根據團隊此前研究,使用per-tensor absmean函數將權重量化為三元值{-1, 0, 1}:

圖片

對于低bit激活,團隊引入了H-BitLinear。

H-BitLinear被用于注意力層的權重矩陣Wo和前饋網絡(FFN)層的Wdown中,這兩處正是激活值異常值最為集中的位置。

圖片

該模塊在激活值量化前應用Hadamard變換,滿足以下條件:

圖片

通過Hadamard變換,中間狀態分布更接近高斯分布,顯著減少了異常值數量,使其更適合INT4量化。

圖片

對于8 bit和4 bit激活,分別采用per-token absmax和absmean函數,激活量化可以表示為:

圖片

最終,H-BitLinear的矩陣乘法運算可形式化表示為:

圖片

其中LN表示層歸一化(layer normalization)操作。

另外,訓練策略方面,研究人員用了STE來近似梯度,還采用混合精度訓練更新參數。在反向傳播的時候,會繞過量化里那些不可微函數,并且利用Hadamard變換矩陣的正交性,對梯度也進行變換。

團隊還表示,4 bit激活的BitNet v2可以從8 bit激活的版本接著訓練,用少量數據微調就行,性能損失基本可以忽略不計,優化器的狀態還能接著用。

4bit激活版本相比8bit激活性能幾乎不降

實驗階段,研究者將BitNet v2與BitNet b1.58、BitNet a4.8在不同模型規模(400M、1.3B、3B和7B)上進行了對比,所有模型都使用1.58bit權重訓練。

主要實驗結果顯示,引入Hadamard變換的BitNet v2(8 bit激活)相比BitNet b1.58在各規模模型上都有所提升,在7B規模上,平均準確率提高了0.61%。

圖片

當降至4 bit激活時,BitNet v2的困惑度與BitNet a4.8相當,下游任務表現甚至更優。

研究者還對BitNet v2進行了低bit注意力狀態的詳細實驗,采用后RoPE量化處理QKV狀態。采用3 bit KV緩存的BitNet v2在3B、7B模型上達到了與全精度KV緩存版本相當的準確率:

圖片

與后訓練量化方法SpinQuant、QuaRot相比較,BitNet v2表現更優:

圖片

消融實驗則進一步驗證了Hadamard變換對低bit激活的關鍵作用,沒有旋轉變換則模型會發散。

圖片

更多研究細節,感興趣的童鞋可以查看原論文。

論文鏈接:https://arxiv.org/pdf/2504.18415


責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-03 08:49:00

2024-12-06 07:17:07

2024-11-08 10:00:00

AI模型

2023-11-17 22:55:09

量化模型

2013-01-18 14:02:46

VDI存儲IOPS

2025-01-23 08:30:00

2013-03-22 10:30:16

IT主管ITM云計算

2020-09-28 20:44:44

機器學習開源工具編程語言

2015-06-04 09:12:05

云安全

2009-08-30 14:53:29

Linux平臺原生64bitChrome

2024-04-23 13:10:41

數據訓練

2010-05-06 12:44:13

Unix系統

2024-02-29 11:56:48

2024-04-12 14:46:33

人工智能醫療保健

2024-10-28 15:14:53

2023-10-23 16:11:14

2017-01-04 15:42:43

運營商SDN服務保障

2009-05-21 09:08:52

接口C++面向對象

2019-06-13 19:20:38

云平臺遷移云計算

2020-09-07 11:29:06

云計算數據倉庫云端
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩精品一区二区天天拍 | japanhd美女动| 久久99视频这里只有精品 | 免费一级欧美在线观看视频 | 欧美成人精品一区二区三区 | 亚洲精品乱码久久久久久蜜桃91 | 99亚洲精品 | 欧美一区二区在线观看 | 91精品久久久久久久久中文字幕 | 国产精品久久久久久久一区探花 | av香蕉 | 一级毛片视频 | 久久亚洲美女 | 亚洲精品第一国产综合野 | 狠狠干天天干 | 人人种亚洲 | 欧洲妇女成人淫片aaa视频 | 亚洲视频免费观看 | 亚洲字幕在线观看 | 日本在线免费看最新的电影 | 这里精品| 日韩精品一| 国产91精品在线 | 欧美黄色一区 | 99久久免费观看 | 欧美精品乱码99久久影院 | 羞羞视频在线观看网站 | 欧美午夜精品久久久久免费视 | 欧美aⅴ| 亚洲成人在线视频播放 | 日韩成人一区 | 欧美日韩在线精品 | caoporn国产精品免费公开 | 亚洲精品黄色 | 亚洲欧美日韩精品久久亚洲区 | 国产羞羞视频在线观看 | 尤物在线视频 | 日韩欧美视频在线 | 天天爽天天操 | 欧美一区二区在线观看 | 亚洲国产二区 |