成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

新聞 人工智能
最近,NLP明星公司Hugging Face發布了一個叫做Infinity的產品,可以以1ms延時完成Transformer的推理,性能相當高了。

 [[443226]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

最近,NLP明星公司Hugging Face發布了一個叫做Infinity的產品,可以以1ms延時完成Transformer的推理,性能相當高了。

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

但是,厲害歸厲害,還是有點貴——1年至少要十幾萬塊 (2萬美元)。

那有沒有什么平替的方法呢?

有的!還是開源的、“不費吹灰之力”就可以達到Infinity一些公共基準的那種。

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

并且現在,通過在該方法上施加一個小trick,將Transformer的推理速度提高4.5倍

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

△ 帖子發布不到一天就收獲了250+熱度

那么,一個“平替”到底為什么能達到“付費”的效果呢?

一個trick讓Transformer推理速度提高4.5倍

先來認識一下這個方法:Transformer-deploy

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

它可以用一行命令優化和部署Hugging Face上的Transformer模型,并支持大多數基于Transformer編碼器的模型,比如Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert等。

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

Transformer-deploy推理服務器用的是Nvidia Triton。

推理引擎為Microsoft ONNX Runtime(用于CPU和GPU推理)和Nvidia TensorRT(僅限 GPU)。

如果想在GPU上獲得一流的性能,Nvidia Triton+Nvidia TensorRT這樣的組合無疑是最佳選擇。

雖然TensorRT用起來有點難,但它確實能比用Pytorch快5~10倍。

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

在實際性能測試中,Transformer-deploy在batch size為1、token分別為16和128的輸入序列中的推理速度,都比付費的Hugging Face Infinity要快:

Transformer-deploy在token為16時要1.52ms,Infinity則需要1.7ms;token為128時需要1.99ms,Infinity則需要2.5ms。

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

那前面說的能讓Transformer的推理性能進一步提高的小trick是什么呢?

GPU量化(quantization)。

作者表示:

據我所知,目前任何OOS云服務都還沒用到過這個方法。

不過執行GPU量化需要修改模型源代碼(需在矩陣乘法等代價高昂的操作上添加一些叫做QDQ的特定節點),既容易出錯,又很無聊,并且還需自己維護修改后的代碼。

因此作者已經為多個基于Transformer的模型手動完成了這項工作。

后來,他們又發現似乎只需修補模型模塊的抽象語法樹 (AST)也可以自動完成。

在用戶端,在GPU上執行模型的基本量化類似這樣:

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

最終,該方法在Roberta-base模型和MNLI數據集(分類任務)上實現了4.53倍的推理速度。

讓Transformer的推理速度提高4.5倍,這個trick還能給你省十幾萬

當然這也犧牲了0.4個點的精度;如果一點不犧牲的話,也可以加速3.2倍左右。

作者表示,與Transformer-deploy原來的版本相比,這已經是一個很大的改進了,畢竟原版本的加速成本需要超過1個點的精確度。

最終他們用Albert、Bert(包括miniLM)、Distilbert、Roberta(包括 Camembert、XLM-R、DistilRoberta等)、Electra測試了該trick。

結果是對于任何可以導出為ONNX格式的Transformer模型,都可以“開箱即用”。

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2019-02-25 10:28:53

滴滴員工互聯網

2021-03-11 23:38:23

程序員副業兼職

2022-04-27 09:24:22

前端代碼速度

2021-12-31 09:34:22

PyTorchtransformer模型

2023-01-08 13:22:03

模型

2025-04-21 09:07:00

2025-01-13 12:30:00

C++開發編譯

2024-08-12 12:27:03

2025-06-11 14:39:50

AILLMMistral

2018-09-19 15:46:51

編程語言Python編譯器

2009-03-30 14:12:38

LinuxUnladenSwallow

2018-10-07 05:27:03

Python代碼機器學習

2020-07-03 15:02:59

芯片半導體技術

2021-05-12 11:19:08

DevTools堆棧追蹤

2021-07-21 17:03:35

Chrome網絡釣魚瀏覽器

2021-03-18 15:29:10

人工智能機器學習技術

2021-11-08 09:50:47

AI 模型人工智能

2023-07-18 14:19:00

模型AI

2023-12-05 13:25:00

數據訓練

2023-05-04 07:34:37

Rust代碼CPU
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区av | 欧美a在线| 亚洲视频欧美视频 | 久久精品一区二区三区四区 | www.黄色片视频| 欧美在线a| 羞羞视频免费在线观看 | 午夜精品一区二区三区在线观看 | 欧美激情综合色综合啪啪五月 | 国产色片 | 99久久99久久精品国产片果冰 | 中文字幕不卡在线观看 | 国产精品久久久久久久久久三级 | 免费一二区 | 涩涩视频在线观看免费 | 日韩喷潮 | 欧美一级二级三级视频 | 久久亚洲一区二区三区四区 | 综合色久 | 久久免费高清视频 | 国产丝袜一区二区三区免费视频 | 国产高清一区二区三区 | 久久久久99 | 国产成人精品一区二 | 亚洲一区国产 | 国产va| 成人一区二区在线 | 久久久久国产一区二区三区四区 | 亚洲在线视频 | 亚洲精品乱码久久久久久按摩 | 一区二区三区精品在线视频 | 日日操操 | 国产精品久久久久久久一区探花 | 午夜色婷婷 | 国产精品成人一区二区三区夜夜夜 | 精品国产乱码一区二区三区a | 久久久久久免费毛片精品 | 一区二区免费高清视频 | 中文字幕日韩av | 日本91av视频 | 亚洲精品一区二区三区中文字幕 |