CPU推理僅29ms,微軟開源第一個原生 1 bit 大模型,內存只需Qwen 1.5B的1/15
微軟研究院發布了第一個開源的、原生的 1 bit 大型語言模型(LLM):BitNet b1.58 2B4T:
- 內存占用:BitNet b1.58 2B4T 的非嵌入層內存占用僅為0.4GB,遠低于其他全精度模型。
- 能耗:估計的解碼能耗為0.028焦耳,遠低于其他模型。
- 解碼延遲:在CPU上,BitNet b1.58 2B4T 的平均延遲為29ms,遠低于其他模型。
BitNet b1.58 2B4T參數規模達到20億,在包含4T tokens的語料庫上進行訓練,并在多個基準測試中表現出與同規模的領先全精度模型(LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B等)相當的性能。
選擇了一個領先的全精度模型Qwen2.5 1.5B,并對其應用了兩種標準的INT4量化方法:GPTQ和AWQ。
- 內存占用:BitNet b1.58 2B4T的非嵌入層內存占用僅為0.4GB,遠低于Qwen2.5 1.5B的2.6GB(即使在INT4量化后,Qwen2.5 1.5B的內存占用仍為0.7GB)。
- 性能:盡管INT4量化顯著減少了Qwen2.5 1.5B的內存占用,但BitNet b1.58 2B4T在大多數基準測試中保持了更強的性能。
模型權重已通過 Hugging Face 公開發布,沖上熱榜Top1,并提供了針對 GPU 和 CPU 架構的開源推理實現。
現有的1bit模型要么是基于全精度模型的后訓練量化(PTQ),導致性能顯著下降;要么是規模較小的原生1bit模型;BitNet b1.58 2B4T 模型完全從頭開始訓練,核心創新是用自定義的 BitLinear 層替換了標準的全精度線性層。這些 BitLinear 層包括:
- 權重量化:在前向傳播中,模型權重被量化為1.58bit,使用絕對均值(absmean)量化方案將權重映射到三元值{-1, 0, +1}。
- 激活量化:線性投影中的激活被量化為8bit整數,使用絕對最大值(absmax)量化策略,按token應用。
- 歸一化:引入子層歸一化(subln)以增強訓練穩定性。
除了 BitLinear 層外,還集成了多種已建立的 LLM 技術以增強性能和穩定性,包括在前饋網絡(FFN)子層中使用 ReLU2 激活函數、RoPE 以及去除所有線性層和歸一化層的偏置項。
BitNet b1.58 2B4T 的訓練過程包括三個階段:
- 預訓練:目標是賦予模型廣泛的世界知識和基礎語言能力。使用了兩階段學習率計劃和權重衰減策略,以及包含公共文本和代碼數據集的預訓練語料庫。
- 監督微調(SFT):通過多樣化的指令跟隨和對話數據集增強模型的指令跟隨能力和對話交互格式的性能。
- 直接偏好優化(DPO):進一步使模型的行為與人類對有用性和安全性的偏好對齊,直接優化語言模型以使用偏好數據,避免了訓練單獨的獎勵模型。
https://arxiv.org/pdf/2504.12285
https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4T
BitNet b1.58 2B4T Technical Report
本文轉載自??PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦