成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56% 原創(chuàng)

發(fā)布于 2024-10-28 11:21
瀏覽
0收藏

01 概述

在人工智能的世界里,大型語(yǔ)言模型(LLMs)的飛速發(fā)展無(wú)疑為各行各業(yè)帶來(lái)了翻天覆地的變化。然而,這些模型的龐大身軀和對(duì)計(jì)算資源的渴求也給實(shí)際應(yīng)用帶來(lái)了不小的挑戰(zhàn)。高昂的能源成本、漫長(zhǎng)的訓(xùn)練周期以及對(duì)昂貴硬件的需求,都成了阻礙許多組織和研究者利用AI能力的門檻。這些挑戰(zhàn)不僅對(duì)環(huán)境造成了影響,也在科技巨頭與小型實(shí)體之間劃出了一道鴻溝。

02 Meta AI的量化Llama 3.2模型(1B和3B)

最近,Meta AI發(fā)布了量化版本的Llama 3.2模型(1B和3B),這是將尖端AI技術(shù)普及給更廣泛用戶群體的重要一步。這些模型是首批輕量級(jí)的量化Llama模型,它們的體積小到足以在許多流行的移動(dòng)設(shè)備上運(yùn)行。研究團(tuán)隊(duì)采用了兩種不同的技術(shù)來(lái)量化這些模型:一種是以準(zhǔn)確性為優(yōu)先的量化感知訓(xùn)練(QAT)與LoRA適配器,另一種是專注于便攜性的先進(jìn)后訓(xùn)練量化方法SpinQuant。這兩個(gè)版本都可以在這次發(fā)布中下載。這些模型代表了原始Llama 3系列的量化版本,旨在優(yōu)化計(jì)算效率,并顯著減少運(yùn)行它們的硬件足跡。通過(guò)這樣做,Meta AI旨在在減少部署所需的計(jì)算資源的同時(shí),增強(qiáng)大型模型的性能。這使得研究人員和企業(yè)能夠在不需要專門的、昂貴的基礎(chǔ)設(shè)施的情況下利用強(qiáng)大的AI模型,從而實(shí)現(xiàn)尖端AI技術(shù)的民主化。

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

Meta AI之所以能夠提供這些量化模型,得益于其對(duì)廣泛的計(jì)算資源、訓(xùn)練數(shù)據(jù)、全面評(píng)估以及對(duì)安全的重視。這些模型在保持與原始Llama 3模型相同的質(zhì)量和安全要求的同時(shí),實(shí)現(xiàn)了顯著的2-4倍速度提升。與原始的BF16格式相比,它們還實(shí)現(xiàn)了平均56%的模型大小減少和41%的平均內(nèi)存使用減少。這些令人印象深刻的優(yōu)化是Meta在保持高性能和安全標(biāo)準(zhǔn)的同時(shí),使先進(jìn)AI更加易于獲取的努力的一部分。

03 技術(shù)細(xì)節(jié)和優(yōu)勢(shì)

量化Llama 3.2的核心是基于量化技術(shù),該技術(shù)將模型的權(quán)重和激活的精度從32位浮點(diǎn)數(shù)降低到更低位的表示。具體來(lái)說(shuō),Meta AI采用了8位甚至4位的量化策略,這使得模型能夠在顯著減少內(nèi)存和計(jì)算能力的情況下有效運(yùn)行。這種量化方法保留了Llama 3的關(guān)鍵特性和能力,如執(zhí)行高級(jí)自然語(yǔ)言處理(NLP)任務(wù)的能力,同時(shí)使模型更加輕量化。好處是顯而易見的:量化Llama 3.2可以在不那么強(qiáng)大的硬件上運(yùn)行,例如消費(fèi)級(jí)GPU甚至CPU,而不會(huì)顯著損失性能。這也使得這些模型更適合實(shí)時(shí)應(yīng)用,因?yàn)檩^低的計(jì)算需求導(dǎo)致更快的推理時(shí)間。

兩種量化技術(shù)的推理都支持在Llama Stack參考實(shí)現(xiàn)中通過(guò)PyTorch的ExecuTorch框架進(jìn)行。此外,Meta AI還與行業(yè)領(lǐng)先的合作伙伴合作,使這些模型可以在配備Arm CPU的高通和聯(lián)發(fā)科系統(tǒng)級(jí)芯片(SoC)上高效部署。這種合作確保了模型可以在包括流行移動(dòng)平臺(tái)在內(nèi)的廣泛設(shè)備上部署,進(jìn)一步擴(kuò)大了Llama 3.2的覆蓋范圍和影響力。

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

04 重要性和早期結(jié)果

量化Llama 3.2之所以重要,是因?yàn)樗苯咏鉀Q了與LLMs相關(guān)的可擴(kuò)展性問(wèn)題。通過(guò)在保持高性能的同時(shí)減少模型大小,Meta AI使這些模型更適合邊緣計(jì)算環(huán)境,其中計(jì)算資源是有限的。早期的基準(zhǔn)測(cè)試結(jié)果表明,量化Llama 3.2在關(guān)鍵NLP基準(zhǔn)測(cè)試中的性能大約是完整Llama 3模型的95%,但內(nèi)存使用減少了近60%。這種效率對(duì)于希望在不投資高端基礎(chǔ)設(shè)施的情況下實(shí)施AI的企業(yè)和研究人員至關(guān)重要。此外,能夠在普通硬件上部署這些模型也符合當(dāng)前可持續(xù)AI的趨勢(shì),減少了訓(xùn)練和部署LLMs的環(huán)境影響。

Meta AI發(fā)布全新量化版本Llama 3.2(1B & 3B):推理速度提升2-4倍,模型大小減少56%-AI.x社區(qū)

05 結(jié)語(yǔ)

Meta AI發(fā)布量化Llama 3.2標(biāo)志著高效AI模型發(fā)展的重要一步。通過(guò)專注于量化,Meta提供了一個(gè)平衡性能與可訪問(wèn)性的解決方案,使更廣泛的受眾能夠從高級(jí)NLP能力中受益。這些量化模型解決了采用LLMs的關(guān)鍵障礙,如成本、能源消耗和基礎(chǔ)設(shè)施要求。這項(xiàng)技術(shù)的更廣泛影響可能導(dǎo)致對(duì)AI的更公平獲取,促進(jìn)了以前對(duì)小型企業(yè)和研究人員來(lái)說(shuō)遙不可及的領(lǐng)域的創(chuàng)新。Meta AI推動(dòng)高效AI建模的界限的努力突顯了對(duì)可持續(xù)、包容性AI發(fā)展的日益重視——這一趨勢(shì)肯定會(huì)塑造AI研究和應(yīng)用的未來(lái)。

參考:

  1. ??https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/??
  2. ??https://www.llama.com/??

?

本文轉(zhuǎn)載自公眾號(hào)Halo咯咯  作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/ccIxhzciFXRFAV3O5RzrwA???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 黄色在线免费网站 | 欧洲尺码日本国产精品 | 欧美1区2区 | 欧美成人精品一区二区男人看 | 欧洲视频一区 | www.日本国产 | 亚洲一区视频在线 | 欧美性久久 | 97视频人人澡人人爽 | 亚洲精品视频一区 | 日韩欧美视频在线 | 一区二区视频在线观看 | 91精品国产91综合久久蜜臀 | 国产美女一区二区 | 成年人在线观看视频 | 日日夜夜天天久久 | 欧美日日| 成人在线观看免费 | 97色伦网 | 久久国产精品视频 | 一区二区小视频 | 精品欧美二区 | 日韩av电影在线观看 | 成人在线中文字幕 | 亚洲综合久久精品 | 欧美成年黄网站色视频 | 麻豆一区二区三区 | 日韩国产欧美在线观看 | 欧美啪啪网站 | 99久久精品免费看国产四区 | 欧美视频中文字幕 | 欧美日韩亚洲系列 | 久久午夜精品 | 中文字幕一区二区三区四区五区 | 男女网站免费观看 | 午夜电影网站 | 久久国 | 99精品在线免费观看 | 精品91久久| 欧美一级视频 | 欧美日韩精品 |