成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<strike id="riouf"><optgroup id="riouf"></optgroup></strike>

<strike id="riouf"><optgroup id="riouf"><thead id="riouf"></thead></optgroup></strike>

<pre id="riouf"><acronym id="riouf"></acronym></pre>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Llama 3低比特量化性能下降顯著！全面評估結果來了 | 港大&北航&ETH

發布于 2024-4-28 09:45

瀏覽

0收藏

大模型力大磚飛，讓LLaMA3演繹出了新高度：

超15T Token數據上的超大規模預訓練，既實現了令人印象深刻的性能提升，也因遠超Chinchilla推薦量再次引爆開源社區討論。

Llama 3低比特量化性能下降顯著！全面評估結果來了 | 港大&北航Ð-AI.x社區

與此同時，在實際應用層面上，另一個熱點話題也浮出水面：

資源有限場景下，LLaMA3的量化表現又會如何？

香港大學、北京航空航天大學、蘇黎世聯邦理工學院聯合推出了一項實證研究，全面揭示了LLaMA3的低比特量化性能。

Llama 3低比特量化性能下降顯著！全面評估結果來了 | 港大&北航Ð-AI.x社區

研究人員使用現有的10種訓練后量化和LoRA微調方法，評估了LLaMA3在1-8比特和各種評估數據集上的結果。他們發現：

盡管性能令人印象深刻，LLaMA3在低比特量化下仍然遭受了不可忽視的退化，特別是在超低位寬上。

Llama 3低比特量化性能下降顯著！全面評估結果來了 | 港大&北航Ð-AI.x社區

項目已在GitHub上開源，量化模型也已登陸HuggingFace。

具體來看實證結果。

軌道1：訓練后量化

表1和表2中分別提供了LLaMA3-8B和LLaMA3-70B在8種不同的PTQ方法下的低比特性能表現，覆蓋了從1比特到8比特的廣泛比特寬度。

1.低比特權重

其中，Round-To-Nearest (RTN) 是一種基本的舍入量化方法。

GPTQ是當前最有效率和有效的僅限權重的量化方法之一，它利用量化中的誤差補償。但在2-3比特下，當量化LLaMA3時，GPTQ會導致嚴重的準確性崩潰。

AWQ采用異常通道抑制方法來降低權重量化的難度，而QuIP通過優化矩陣計算來確保權重和Hessian之間的不一致性。它們都能保持LLaMA3在3比特時的能力，甚至將2比特量化推向有希望的水平。

2.超低比特權重

最近出現的二值化LLM量化方法實現了超低比特寬度LLM權重壓縮。

PB-LLM采用混合精度量化策略，保留一小部分重要權重的全精度，同時將大部分權重量化為1比特。

DB-LLM通過雙重二值化權重分割實現高效的LLM壓縮，并提出偏差感知蒸餾策略以進一步增強2比特LLM性能。

BiLLM通過顯著權重的殘差逼近和非顯著權重的分組量化，進一步將LLM量化邊界推低至1.1比特。這些為超低比特寬度專門設計的LLM量化方法可以實現更高精度的量化LLaMA3-8B，在?2比特時遠遠超過如GPTQ、AWQ和QuIP等方法，在2比特（甚至在某些情況下3比特）下的表現。

3.低比特量化激活

還通過SmoothQuant對量化激活進行了LLaMA3評估，SmoothQuant將量化難度從激活轉移到權重，以平滑激活異常值。評估顯示，SmoothQuant可以在8比特和6比特的權重和激活下保留LLaMA3的準確性，但在4比特時面臨崩潰。

Llama 3低比特量化性能下降顯著！全面評估結果來了 | 港大&北航Ð-AI.x社區

Llama 3低比特量化性能下降顯著！全面評估結果來了 | 港大&北航Ð-AI.x社區

軌道2：LoRA微調量化

在MMLU數據集上，對于LoRA-FT量化下的LLaMA3-8B，最顯著的觀察是，在Alpaca數據集上低秩微調不僅不能補償量化引入的錯誤，甚至使性能下降更加嚴重。

具體來說，各種LoRA-FT量化方法在4比特下獲得的量化LLaMA3性能，比沒有使用LoRA-FT的4比特對應版本要差。這與LLaMA1和LLaMA2上的類似現象形成鮮明對比，在LLAMA1和LLAMA2中，4比特低秩微調量化版本甚至能輕松超過MMLU上的原始FP16對應版本。

根據直觀分析，這一現象的主要原因是由于LLaMA3強大的性能得益于其大規模的預訓練，這意味著原始模型量化后的性能損失不能通過在一小部分低秩參數數據上進行微調來補償（這可以被視為原始模型的一個子集）。

盡管量化導致的顯著下降不能通過微調來補償，但4比特LoRA-FT量化的LLaMA3-8B在各種量化方法下顯著優于LLaMA1-7B和LLaMA2-7B。例如，使用QLoRA方法，4比特LLaMA3-8B的平均準確率為57.0（FP16: 64.8），超過4比特LLaMA1-7B的38.4（FP16: 34.6）18.6，超過4比特LLaMA2-7B的43.9（FP16: 45.5）13.1。這表明在LLaMA3時代需要一種新的LoRA-FT量化范式。

在CommonSenseQA基準測試中也出現了類似的現象。與沒有使用LoRA-FT的4比特對應版本相比，使用QLoRA和IR-QLoRA微調的模型性能也有所下降（例如，QLoRA平均下降2.8% vs IR-QLoRA平均下降2.4%）。這進一步展示了在LLaMA3中使用高質量數據集的優勢，而且通用數據集Alpaca并沒有對模型在其他任務中的性能作出貢獻。

結論

這篇論文全面評估了LLaMA3在各種低比特量化技術（包括訓練后量化和LoRA微調量化）中的性能。

此研究發現表明，盡管LLaMA3在量化后仍然展現出優越的性能，但與量化相關的性能下降是顯著的，甚至在許多情況下可以導致更大的下降。

這一發現突顯了在資源受限環境中部署LLaMA3可能面臨的潛在挑戰，并強調了在低比特量化背景下增長和改進的充足空間。通過解決低比特量化引起的性能下降，預期后續的量化范式將使LLMs在較低的計算成本下實現更強的能力，最終推動代表性的生成式人工智能達到新的高度。

論文鏈接：
???https://arxiv.org/abs/2404.14047??

項目鏈接：
???https://github.com/Macaronlin/LLaMA3-Quantization??https://huggingface.co/LLMQ

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/ou-mX9AoQTX7tWL6CWXiaQ??

標簽

贊

收藏

回復

舉報

回復

相關推薦

語言模型安全評估新標桿：SALAD-Bench全面安全評估新基準

kcoufee ? 5243瀏覽 ? 0回復
CVPR 2024 | 北航聯合港大發布全新文本引導矢量圖形合成方法SVGDreamer

zhangyannni ? 3566瀏覽 ? 0回復
谷歌開源專業代碼模型：對硬件要求低，性能超強！

Aceryt ? 3623瀏覽 ? 0回復
低比特量化的LLAMA3模型有多好？ | 香港大學&北航最新研究發布

angel ? 6897瀏覽 ? 0回復
大模型競技場全面測評結果出爐：Llama3 70B成開源模型中最強王者！

AIGC最前線 ? 6237瀏覽 ? 0回復
Llama-3的競爭對手來了——可運行在iPhone上的小體量高性能LLM模型Phi-3

51CTO內容精選 ? 3512瀏覽 ? 0回復
32專家MoE大模型免費商用！性能全面對標Llama3，單token推理消耗僅5.28%

Crystalcxt ? 2962瀏覽 ? 0回復
LLM 評估匯總：真的吊打 LLaMA-3，媲美 GPT-4 嗎？

amei2000go ? 7051瀏覽 ? 0回復
量化大模型退化嚴重？ETH北航字節推出LoRA新范式 | ICML 2024

Crystalcxt ? 2737瀏覽 ? 0回復
Llama-2 vs. Llama-3：利用微型基準測試（井字游戲）評估大模型

Baihai_IDP ? 3059瀏覽 ? 0回復
3D版"裁縫"開源來襲！Tailor3D:自定義3D編輯和資產生成（港大&上海AI-Lab&港中文）

angel ? 2817瀏覽 ? 0回復
性能超Llama 3，可商用！開源大模型Falcon 2

Aceryt ? 3463瀏覽 ? 0回復
如何評估大語言模型生成結果的多樣性

sbf_2000 ? 3532瀏覽 ? 1回復
英偉達發布超強小模型，性能、速率、緩存全面超越Llama3.2！

51CTO技術棧 ? 2257瀏覽 ? 0回復
微軟 Phi-4 震撼發布：14B 參數模型性能超越一眾大模型，數學推理性能提升顯著

Syrupup ? 3092瀏覽 ? 0回復
為什么某些 batch size 會突然導致性能下降？

Baihai_IDP ? 2735瀏覽 ? 0回復
如何全面評估多模態大模型能力？MLLM評測任務與指標總結

shizhi02 ? 7978瀏覽 ? 0回復
分布式訓練通信優化，重疊通信，參數子集同步，低精度外梯度量化

AI研究前瞻 ? 2577瀏覽 ? 0回復
Mistral殺回來了！Small 3.1開源發布，性能完勝Gemma 3，RTX 4090就能跑

老蛀蟲 ? 2689瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成 2025-02-26 11:59:41發布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：大模型一對一戰斗75萬輪，GPT-4奪冠，Llama 3位列第五

下一篇：字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

社區精華內容

目錄

主站蜘蛛池模板： 99久久99| 国产精品欧美一区二区三区 | 亚洲视频一 | 怡红院怡春院一级毛片 | 欧美一级电影免费 | 国产亚洲一区二区三区 | 国产精品精品久久久久久 | 欧美综合一区二区三区 | 国产精品精品视频一区二区三区 | 欧美激情一区二区三级高清视频 | 国产成人精品一区二区三区视频 | 精品久久久久久亚洲精品 | 欧美综合一区二区 | 欧美精品三区 | 国产无套一区二区三区久久 | 国产欧美精品一区二区 | 91黄在线观看 | 91视频在线| 91久久久久| 狠狠操你 | 91在线观看视频 | 国产精品不卡 | 日韩成人精品在线观看 | 中文字幕亚洲一区 | 亚洲日本一区二区三区四区 | 成年女人免费v片 | 精久久久久 | 国产精品视频中文字幕 | 日韩欧美一区二区三区免费看 | 欧美精品乱码99久久影院 | 亚洲天堂影院 | 亚洲天天| 久久久久久国 | 日本一区二区三区四区 | 一个色在线| 日韩国产一区二区三区 | 亚洲欧美一区二区三区1000 | 亚洲精品视频一区 | 99福利| 在线免费亚洲视频 | 国产欧美精品一区二区 |

<kbd id="xpbvr"></kbd>