成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最火AI角色扮演流量已達(dá)谷歌搜索20%!每秒處理2萬推理請(qǐng)求,Transformer作者公開優(yōu)化秘訣

人工智能 新聞
大模型的一大痛點(diǎn)是顯存占用高,導(dǎo)致無法支持大批量推理。Attention 層中的 Key-Value(KV)緩存便是罪魁禍?zhǔn)字弧?/div>

什么AI應(yīng)用每秒處理20000個(gè)AI推理請(qǐng)求,達(dá)到2024年谷歌搜索流量的1/5?

答案是獨(dú)角獸Character.ai,由Transformer作者Noam Shazeer(后面簡(jiǎn)稱沙哥)創(chuàng)辦。

剛剛,沙哥公布了推理優(yōu)化獨(dú)門秘訣,迅速引起業(yè)界熱議。

圖片

具體來說Character.ai在整個(gè)服務(wù)堆棧中實(shí)現(xiàn)了如下成績(jī):

  • 內(nèi)存高效架構(gòu)設(shè)計(jì):將KV緩存大小減少20倍以上,而不會(huì)降低質(zhì)量
  • Attention狀態(tài)緩存:95%請(qǐng)求無需重算
  • 直接用in8精度量化訓(xùn)練:推理零損失還省顯存

Character.AI通過以上種種優(yōu)化,已經(jīng)把推理成本降低到最初的1/33,如果用市場(chǎng)上最好的商業(yè)API來支撐這種級(jí)別的流量,成本會(huì)比現(xiàn)在高出13.5倍!

眾多公布的方法中,原生int8訓(xùn)練是最受關(guān)注的。

圖片

雖然大多數(shù)技巧都來自公開研究,但是正如網(wǎng)友所說,知道如何把它們高效整合在一起實(shí)現(xiàn)的團(tuán)隊(duì)才是真正的護(hù)城河。

圖片

秘訣1:高效利用顯存,attention 參數(shù)量降低20倍

大模型的一大痛點(diǎn)是顯存占用高,導(dǎo)致無法支持大批量推理。Attention 層中的 Key-Value(KV)緩存便是罪魁禍?zhǔn)字弧?/p>

為了降低顯存占用,Character.AI在Attention層大動(dòng)手術(shù):

  • 全面采用MQA(Multi-Query Attention)

與大多數(shù)開源模型中采用的GQA(Grouped-Query Attention)相比,將KV緩存大小減少了 8 倍。

而MQA正是沙哥本人2019年在谷歌期間提出的,有網(wǎng)友評(píng)價(jià)“當(dāng)一個(gè)人能在生產(chǎn)環(huán)境中引用自己的論文,就達(dá)到了一個(gè)新的高度”。

圖片

  • 混合注意力視野

將局部注意力與全局注意力層交織在一起,使用滑動(dòng)窗口訓(xùn)練局部注意力,將復(fù)雜度從 O(length^2 ) 降低到 O(length)。

團(tuán)隊(duì)發(fā)現(xiàn),將大多數(shù)注意力層的注意力范圍減少到1024不會(huì)對(duì)評(píng)估指標(biāo)產(chǎn)生重大影響,包括長上下文大海撈針基準(zhǔn)。在Character.ai生產(chǎn)模型中,每6層中只有1層使用全局注意力。

  • 跨層KV共享

團(tuán)隊(duì)將KV緩存綁定在相鄰的注意力層上,這進(jìn)一步將 KV緩存大小減少了 2-3 倍。

對(duì)于全局注意力,跨塊綁定多個(gè)全局層的KV緩存,因?yàn)槿肿⒁饬釉陂L上下文用例中主導(dǎo)KV緩存大小,團(tuán)隊(duì)發(fā)現(xiàn)跨層共享KV不會(huì)降低質(zhì)量。

下圖中左半部分是標(biāo)準(zhǔn)Transformer設(shè)計(jì),每個(gè)注意力都是全局注意力。右半部分為Character.ai的設(shè)計(jì),藍(lán)色框表示全局注意力,綠色框表示局部注意力,連線表示KV共享。

圖片

這一套組合拳下來,KV緩存大小減少20倍以上,顯存再也不是瓶頸了。

秘訣2:巧用狀態(tài)緩存,95%請(qǐng)求無需重算

Character.AI還有一招神來之筆,就是在不同對(duì)話之間緩存Attention狀態(tài)。

作為聊天機(jī)器人角色扮演服務(wù),Character.AI上大部分對(duì)話都是連續(xù)多輪的,平均每個(gè)對(duì)話包含180條消息。如果每次都要重新計(jì)算前面的狀態(tài),成本可想而知。

于是團(tuán)隊(duì)設(shè)計(jì)了一個(gè)緩存機(jī)制,把每個(gè)對(duì)話的Prefix和生成的消息都緩存在內(nèi)存中,供后續(xù)調(diào)用。

借鑒RadixAttention的思路,樹狀結(jié)構(gòu)的LRU緩存組織緩存的KV張量。緩存的KV值由前綴token的Rolling Hash速檢索最長匹配的緩存,即使前綴只有部分匹配也能命中。

更妙的是,他們還用會(huì)話保持(Sticky Session)把同一對(duì)話路由到同一個(gè)服務(wù)器,進(jìn)一步提高緩存命中率。最終做到95%的請(qǐng)求都能復(fù)用已有緩存,大幅降低了計(jì)算成本。

下圖中,藍(lán)色框表示主機(jī)內(nèi)存上的緩存張量。綠色和黃色框表示CUDA內(nèi)存上的KV緩存。當(dāng)新查詢到達(dá)時(shí),它檢索最長匹配前綴的KV緩存,Rolling Hash系統(tǒng)允許檢索部分匹配消息的緩存。

圖片

秘訣3:直接量化訓(xùn)練,推理零損失還省顯存

最后一招,Character.AI沒有采用常見的“訓(xùn)練后量化”,而是直接用Int8精度訓(xùn)練模型

這種格式雖然表達(dá)精度降低,但通過精心設(shè)計(jì)定制的矩陣乘和 Attention 內(nèi)核,不僅把訓(xùn)練效率提高了好幾倍,而且還能無損用于推理。

不過沙哥在這里暫時(shí)留了一手,表示“量化訓(xùn)練本身就是一個(gè)復(fù)雜的話題,將在以后的文章中繼續(xù)討論?!?/p>

沙哥其人

最后再來介紹一下傳奇人物Noam Shazeer本人。

圖片

他1994年拿了信息學(xué)奧賽IOI金牌,后來畢業(yè)于杜克大學(xué)。

2000年加入谷歌,當(dāng)時(shí)全公司只有200人左右,他參與了谷歌搜索的拼寫糾正功能,后來也負(fù)責(zé)過早期廣告系統(tǒng)。

據(jù)知情人透露,在當(dāng)初面試谷歌時(shí),沙哥就被問到如何實(shí)現(xiàn)拼寫糾正。他描述了一種根據(jù)其他用戶的輸入輸入記錄,進(jìn)行統(tǒng)計(jì)驗(yàn)證的方法。

面試官Gmail之父Paul Buchheit意識(shí)到,沙哥的方案比谷歌當(dāng)時(shí)使用的要好。沙哥成功入職之后就把他的面試方案寫出來了。

圖片

在Transformer開山之作《Attention is All You Need》研究中,沙哥最后一個(gè)加入團(tuán)隊(duì),一來就負(fù)責(zé)重新編寫了整個(gè)代碼。

在沙哥出手之前,Transformer早期原型性能并沒有超越當(dāng)時(shí)流行的LSTM方案,是他把早期設(shè)計(jì)中的卷積等模塊都拿掉,給出了一個(gè)極簡(jiǎn)主義方案。最終破了BLEU測(cè)試的記錄,同時(shí)計(jì)算效率也更高。

隊(duì)友用“他是一個(gè)巫師”來評(píng)價(jià)他的工程和代碼能力。

除此之外,沙哥還有驚人的遠(yuǎn)見。在Transformer架構(gòu)問世不久,他就給谷歌高層寫信,提議公司放棄整個(gè)搜索索引,并用Transformer架構(gòu)訓(xùn)練一個(gè)巨大的神經(jīng)網(wǎng)絡(luò)替代。

2021年,沙哥離開谷歌后創(chuàng)辦了Character.AI,讓玩家簡(jiǎn)單自創(chuàng)個(gè)性化AI陪聊,目前估值約50億美元。

圖片

最近有消息稱,Meta與馬斯克的??都在爭(zhēng)取與他們合作,把聊天機(jī)器人引入社交平臺(tái)。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2011-06-28 10:11:41

Top Girl應(yīng)用

2023-04-18 08:01:30

AI寫作時(shí)間

2024-01-02 12:59:06

AI技術(shù)

2024-11-05 12:42:35

2023-09-12 14:47:09

AI模型

2021-02-06 06:55:33

AI物聯(lián)網(wǎng)人工智能

2024-07-01 10:16:44

2024-12-27 13:30:00

2023-11-20 07:29:32

大模型人工智能

2017-04-24 14:39:01

PythonHTTP語言

2020-05-27 11:31:43

Python 開發(fā)程序員

2018-02-24 16:15:03

PythonHTTP

2024-12-09 14:30:00

2020-03-24 15:08:07

AI 數(shù)據(jù)人工智能

2025-01-16 08:30:00

LLMAI訓(xùn)練

2013-09-25 15:28:42

Storm流式處理框架框架

2024-07-08 08:50:00

2024-08-23 11:53:24

2024-11-04 09:35:00

2014-06-11 09:27:08

Docker云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 老妇激情毛片免费 | 欧美精品一区二区在线观看 | 亚洲综合精品 | 免费看国产精品视频 | 国产精品资源在线观看 | 亚洲久久在线 | 国产福利网站 | 亚洲精品18 | 女人牲交视频一级毛片 | 天天干天天想 | 免费黄色的视频 | avtt国产 | 免费黄色在线观看 | 奇米视频777 | 夜夜操操操 | 在线色网| 国产精品二区三区在线观看 | 91中文字幕在线 | 天堂av中文在线 | 国产精品久久久久久福利一牛影视 | 狠狠操狠狠色 | 成av在线| 九九久久精品 | 国产一极毛片 | 欧美aⅴ在线观看 | 99re视频 | 亚洲精品在线国产 | 亚洲欧美激情精品一区二区 | 一级a性色生活片久久毛片波多野 | 视频一区 亚洲 | 日韩免费福利视频 | 成人福利在线观看 | 中文一级片 | 国产成人免费视频网站高清观看视频 | 色啪网 | 亚洲精品一区二区网址 | 亚洲三级在线观看 | 日韩欧美国产精品一区 | 精品视频在线观看 | av一区二区三区在线观看 | 一区中文字幕 |