成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

蘋果芯跑大模型不用降計(jì)算精度,投機(jī)采樣殺瘋了,GPT-4也在用

人工智能
原本需要4個(gè)高端GPU才能搞定的活現(xiàn)在用只有800GB/s帶寬的M2 Ultra就夠了,代碼寫起來嗖嗖快。老哥隨后公布了秘訣,答案很簡單,就是投機(jī)采樣(speculative sampling/decoding)。

專攻代碼的Code Llama一出,大家伙都盼著誰來后續(xù)量化瘦身一下,好在本地也能運(yùn)行。

果然是llama.cpp作者Georgi Gerganov出手了,但他這回不按套路出牌:

不量化,就用FP16精度也讓34B的Code LLama跑在蘋果電腦上,推理速度超過每秒20個(gè)token。

圖片圖片

原本需要4個(gè)高端GPU才能搞定的活現(xiàn)在用只有800GB/s帶寬的M2 Ultra就夠了,代碼寫起來嗖嗖快。

老哥隨后公布了秘訣,答案很簡單,就是投機(jī)采樣(speculative sampling/decoding)。

圖片圖片

此舉引來眾多大佬圍觀。

OpenAI創(chuàng)始成員Andrej Karpathy評價(jià)這是一種非常出色的推理時(shí)優(yōu)化,并給出了更多技術(shù)解讀。

英偉達(dá)科學(xué)家范麟熙也認(rèn)為,這是每個(gè)大模型從業(yè)者都應(yīng)該熟悉的技巧。

圖片圖片

GPT-4也在用的方法

其實(shí)不光想在本地跑大模型的人在用投機(jī)采樣,谷歌OpenAI這樣的超級巨頭也在用。

根據(jù)之前泄露的資料,GPT-4就用了這個(gè)方法來降低推理成本,不然根本承受不起這么燒錢。

圖片圖片

而最新爆料表示谷歌DeepMind聯(lián)手開發(fā)的下一代大模型Gemini很可能也會(huì)用。

雖然OpenAI的具體方法都保密,但谷歌團(tuán)隊(duì)已經(jīng)把論文發(fā)出來了,并且入選ICML 2023 Oral。

圖片圖片

方法很簡單,先訓(xùn)練一個(gè)與大模型近似、更便宜的小模型,讓小模型先生成K個(gè)token,然后讓大模型去做評判。

大模型接受的部分就可以直接用,大模型不接受的部分再由大模型修改。

在原始論文中使用T5-XXL模型演示,在生成結(jié)果不變的情況下獲得了2-3倍的推理加速。

圖片圖片

Andjrey Karpathy把這個(gè)方法比喻成“先讓小模型打草稿”。

他解釋這個(gè)方法有效的關(guān)鍵之處在于,給大模型一次輸入一個(gè)token和一次輸入一批token,預(yù)測下一個(gè)token所需時(shí)間是差不多的。

但每一個(gè)token都依賴前一個(gè)token,所以正常情況無法一次對多個(gè)token進(jìn)行采樣。

小模型雖然能力較差,但實(shí)際生成一個(gè)句子時(shí)有很多部分是非常簡單的,小模型也能勝任,只有遇到困難的部分再讓大模型上就好了。

原論文認(rèn)為,這樣做無需改變大模型的結(jié)構(gòu),也無需重新訓(xùn)練,就可以直接加速已有的現(xiàn)成模型。

對于不會(huì)降低精度這一點(diǎn),在論文附錄部分也給出了數(shù)學(xué)論證。

圖片圖片

了解了原理,再來看Georgi Gerganov這次的具體設(shè)置。

他使用4bit量化的7B模型作為“草稿”模型,每秒約能生成80個(gè)token。

而FP16精度的34B模型單獨(dú)使用每秒只能生成10個(gè)token。

使用投機(jī)采樣方法后獲得了2倍的加速,與原論文數(shù)據(jù)相符。

圖片圖片

他額外表示,速度可能會(huì)根據(jù)生成的內(nèi)容而有所不同,但在代碼生成上非常有效,草稿模型能猜對大多數(shù)token。

圖片圖片

最后,他還建議Meta以后在發(fā)布模型時(shí)直接把小的草稿模型附帶上吧,受到大伙好評。

圖片圖片

作者已創(chuàng)業(yè)

作者Georgi Gerganov,今年三月LlaMA剛出一代的時(shí)候就移植到了C++上,開源項(xiàng)目llama.cpp獲星已接近4萬。

圖片圖片

最開始他搞這個(gè)只是當(dāng)成一個(gè)業(yè)余興趣,但因?yàn)榉错憻崃遥?月份他直接宣布創(chuàng)業(yè)。

新公司ggml.ai,主打llama.cpp背后的C語言機(jī)器學(xué)習(xí)框架,致力于在邊緣設(shè)備上運(yùn)行AI。

圖片圖片

創(chuàng)業(yè)時(shí)獲得來自GitHub前CEONat Friedman、Y Combinator合伙人Daniel Gross的種子前投資。

LlaMA2發(fā)布后他也很活躍,最狠的一次直接把大模型塞進(jìn)了瀏覽器里。

圖片圖片

谷歌投機(jī)采樣論文:https://arxiv.org/abs/2211.17192

參考鏈接:[1]https://x.com/ggerganov/status/1697262700165013689[2]https://x.com/karpathy/status/1697318534555336961


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-05-20 08:28:10

2023-06-14 14:57:38

模型AI

2023-06-19 08:19:50

2023-12-26 08:17:23

微軟GPT-4

2023-06-05 12:32:48

模型論文

2025-04-16 09:35:03

2024-05-29 13:17:57

2024-04-02 11:17:18

2023-12-04 12:56:08

AI數(shù)據(jù)

2023-05-29 09:29:52

GPT-4語言模型

2023-04-09 16:17:05

ChatGPT人工智能

2025-05-30 07:40:56

2023-06-21 13:37:41

模型研究

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-09-11 15:57:16

人工智能模型GPT-4

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-07-05 09:57:11

2023-06-08 08:09:43

2023-11-15 09:23:00

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久免费小视频 | 国产成人精品久久 | 亚洲一区二区在线电影 | 超碰在线人人 | 91夜色在线观看 | 亚洲国产成人精品女人久久久 | 欧美 中文字幕 | 婷婷综合色 | 黄色大片免费网站 | 亚洲成人一区 | 精品免费国产一区二区三区四区 | 精品久久久久久亚洲精品 | 久久国产视频网 | 国产专区在线 | 国产日韩一区二区三免费高清 | 欧美 日韩 综合 | chengrenzaixian| 在线观看av网站 | 久久av一区二区三区 | 一区二区三区四区免费视频 | 97色在线视频 | 中文精品久久 | 国产精品欧美一区喷水 | 日韩一三区| 午夜一区二区三区在线观看 | 欧美毛片免费观看 | 国产精品免费小视频 | 国产精品1区2区3区 国产在线观看一区 | 日韩一区二区三区在线 | 人人干天天干 | 自拍 亚洲 欧美 老师 丝袜 | avhd101在线成人播放 | 成人精品视频在线观看 | 午夜久草 | 久久国产精品网 | 国产精品1区2区3区 国产在线观看一区 | 欧美在线一级 | 色婷婷综合久久久中字幕精品久久 | 精品国产一区二区三区在线观看 | 成人在线视频网站 | 综合精品久久久 |