Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56% 原創(chuàng)

發(fā)布于 2024-10-28 11:21

瀏覽

0收藏

01 概述

在人工智能的世界里，大型語(yǔ)言模型（LLMs）的飛速發(fā)展無(wú)疑為各行各業(yè)帶來(lái)了翻天覆地的變化。然而，這些模型的龐大身軀和對(duì)計(jì)算資源的渴求也給實(shí)際應(yīng)用帶來(lái)了不小的挑戰(zhàn)。高昂的能源成本、漫長(zhǎng)的訓(xùn)練周期以及對(duì)昂貴硬件的需求，都成了阻礙許多組織和研究者利用AI能力的門檻。這些挑戰(zhàn)不僅對(duì)環(huán)境造成了影響，也在科技巨頭與小型實(shí)體之間劃出了一道鴻溝。

02 Meta AI的量化Llama 3.2模型（1B和3B）

最近，Meta AI發(fā)布了量化版本的Llama 3.2模型（1B和3B），這是將尖端AI技術(shù)普及給更廣泛用戶群體的重要一步。這些模型是首批輕量級(jí)的量化Llama模型，它們的體積小到足以在許多流行的移動(dòng)設(shè)備上運(yùn)行。研究團(tuán)隊(duì)采用了兩種不同的技術(shù)來(lái)量化這些模型：一種是以準(zhǔn)確性為優(yōu)先的量化感知訓(xùn)練（QAT）與LoRA適配器，另一種是專注于便攜性的先進(jìn)后訓(xùn)練量化方法SpinQuant。這兩個(gè)版本都可以在這次發(fā)布中下載。這些模型代表了原始Llama 3系列的量化版本，旨在優(yōu)化計(jì)算效率，并顯著減少運(yùn)行它們的硬件足跡。通過(guò)這樣做，Meta AI旨在在減少部署所需的計(jì)算資源的同時(shí)，增強(qiáng)大型模型的性能。這使得研究人員和企業(yè)能夠在不需要專門的、昂貴的基礎(chǔ)設(shè)施的情況下利用強(qiáng)大的AI模型，從而實(shí)現(xiàn)尖端AI技術(shù)的民主化。

Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%-AI.x社區(qū)

Meta AI之所以能夠提供這些量化模型，得益于其對(duì)廣泛的計(jì)算資源、訓(xùn)練數(shù)據(jù)、全面評(píng)估以及對(duì)安全的重視。這些模型在保持與原始Llama 3模型相同的質(zhì)量和安全要求的同時(shí)，實(shí)現(xiàn)了顯著的2-4倍速度提升。與原始的BF16格式相比，它們還實(shí)現(xiàn)了平均56%的模型大小減少和41%的平均內(nèi)存使用減少。這些令人印象深刻的優(yōu)化是Meta在保持高性能和安全標(biāo)準(zhǔn)的同時(shí)，使先進(jìn)AI更加易于獲取的努力的一部分。

03 技術(shù)細(xì)節(jié)和優(yōu)勢(shì)

量化Llama 3.2的核心是基于量化技術(shù)，該技術(shù)將模型的權(quán)重和激活的精度從32位浮點(diǎn)數(shù)降低到更低位的表示。具體來(lái)說(shuō)，Meta AI采用了8位甚至4位的量化策略，這使得模型能夠在顯著減少內(nèi)存和計(jì)算能力的情況下有效運(yùn)行。這種量化方法保留了Llama 3的關(guān)鍵特性和能力，如執(zhí)行高級(jí)自然語(yǔ)言處理（NLP）任務(wù)的能力，同時(shí)使模型更加輕量化。好處是顯而易見的：量化Llama 3.2可以在不那么強(qiáng)大的硬件上運(yùn)行，例如消費(fèi)級(jí)GPU甚至CPU，而不會(huì)顯著損失性能。這也使得這些模型更適合實(shí)時(shí)應(yīng)用，因?yàn)檩^低的計(jì)算需求導(dǎo)致更快的推理時(shí)間。

兩種量化技術(shù)的推理都支持在Llama Stack參考實(shí)現(xiàn)中通過(guò)PyTorch的ExecuTorch框架進(jìn)行。此外，Meta AI還與行業(yè)領(lǐng)先的合作伙伴合作，使這些模型可以在配備Arm CPU的高通和聯(lián)發(fā)科系統(tǒng)級(jí)芯片（SoC）上高效部署。這種合作確保了模型可以在包括流行移動(dòng)平臺(tái)在內(nèi)的廣泛設(shè)備上部署，進(jìn)一步擴(kuò)大了Llama 3.2的覆蓋范圍和影響力。

Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%-AI.x社區(qū)

04 重要性和早期結(jié)果

量化Llama 3.2之所以重要，是因?yàn)樗苯咏鉀Q了與LLMs相關(guān)的可擴(kuò)展性問(wèn)題。通過(guò)在保持高性能的同時(shí)減少模型大小，Meta AI使這些模型更適合邊緣計(jì)算環(huán)境，其中計(jì)算資源是有限的。早期的基準(zhǔn)測(cè)試結(jié)果表明，量化Llama 3.2在關(guān)鍵NLP基準(zhǔn)測(cè)試中的性能大約是完整Llama 3模型的95%，但內(nèi)存使用減少了近60%。這種效率對(duì)于希望在不投資高端基礎(chǔ)設(shè)施的情況下實(shí)施AI的企業(yè)和研究人員至關(guān)重要。此外，能夠在普通硬件上部署這些模型也符合當(dāng)前可持續(xù)AI的趨勢(shì)，減少了訓(xùn)練和部署LLMs的環(huán)境影響。

Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%-AI.x社區(qū)

05 結(jié)語(yǔ)

Meta AI發(fā)布量化Llama 3.2標(biāo)志著高效AI模型發(fā)展的重要一步。通過(guò)專注于量化，Meta提供了一個(gè)平衡性能與可訪問(wèn)性的解決方案，使更廣泛的受眾能夠從高級(jí)NLP能力中受益。這些量化模型解決了采用LLMs的關(guān)鍵障礙，如成本、能源消耗和基礎(chǔ)設(shè)施要求。這項(xiàng)技術(shù)的更廣泛影響可能導(dǎo)致對(duì)AI的更公平獲取，促進(jìn)了以前對(duì)小型企業(yè)和研究人員來(lái)說(shuō)遙不可及的領(lǐng)域的創(chuàng)新。Meta AI推動(dòng)高效AI建模的界限的努力突顯了對(duì)可持續(xù)、包容性AI發(fā)展的日益重視——這一趨勢(shì)肯定會(huì)塑造AI研究和應(yīng)用的未來(lái)。

參考：