成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型到底需要消耗多少GPU顯存?公式和工具全都有

發(fā)布于 2024-8-21 09:40
瀏覽
0收藏

如何計(jì)算大模型到底需要多少顯存,是常常被問起的問題。

現(xiàn)從實(shí)用角度再介紹一個(gè)簡(jiǎn)單公式和一個(gè)工具方便大家工作中使用。

1)估算公式(該公式來自于Sam Stoelinga簡(jiǎn)化[1])

大模型到底需要消耗多少GPU顯存?公式和工具全都有-AI.x社區(qū)

符號(hào)

描述

M

用千兆字節(jié) (GB) 表示的 GPU 內(nèi)存

P

模型中的參數(shù)數(shù)量。例如,一個(gè) 7B 模型有 7 億參數(shù)。

4B

4 字節(jié),即每個(gè)參數(shù)使用的字節(jié)數(shù)

32

4 字節(jié)中有 32 位

Q

加載模型時(shí)應(yīng)使用的位數(shù),例如 16 位、8 位或 4 位。

1.2

表示在 GPU 內(nèi)存中加載額外內(nèi)容的 20% 開銷。

注意:該公式只是為了簡(jiǎn)化計(jì)算的估計(jì),并未包含kvcache所需顯存以及context大小的影響。

下面以運(yùn)行16位精度的 Llama 70B 模型所需的 GPU 內(nèi)存為例套用公式:

該模型有 700 億參數(shù)。

M = (70 ? 4) / (32 / 16) ? 1.2 ≈ 168GB

由此可見,模型所需的 GPU 內(nèi)存相當(dāng)大。單個(gè) 80GB 的 A100 GPU 不足以滿足需求,需要多個(gè)A100 GPU才能跑的起來。

如何進(jìn)一步減少 Llama 2 70B 所需的 GPU 內(nèi)存?

量化(Quantization)是一種減少內(nèi)存占用的方法。通過將模型參數(shù)的精度從浮點(diǎn)數(shù)降低到低位表示(如 8 位整數(shù)),量化顯著降低了內(nèi)存和計(jì)算需求,使模型在資源有限的設(shè)備上更高效地部署。然而,這需要仔細(xì)管理以保持模型的性能,因?yàn)榻档途瓤赡軙?huì)影響輸出的準(zhǔn)確性。

通常認(rèn)為 8 位量化能實(shí)現(xiàn)與 16 位精度相似的性能。而 4 位量化可能會(huì)顯著影響模型的性能。

讓我們?cè)倥e一個(gè) 4 位量化的 Llama 2 70B 的例子:

M = (70 ? 4) / (32 / 4) ? 1.2 ≈ 42GB

這意味著你可以使用 2 個(gè) 24GB 的 L4 GPU 來運(yùn)行這個(gè)模型。

2)評(píng)估工具:

大模型到底需要消耗多少GPU顯存?公式和工具全都有-AI.x社區(qū)

在此基礎(chǔ)上,介紹一個(gè)能夠自動(dòng)計(jì)算顯存能載入運(yùn)行多大參數(shù)量模型的程序[2],它的輸入如下:

  • 可用的 RAM(以 GB 為單位)
  • 估計(jì)操作系統(tǒng) RAM 使用量(以 GB 為單位)
  • 上下文窗口大小(Token 數(shù)量)
  • 量化級(jí)別(Quantization level,每個(gè)參數(shù)的比特?cái)?shù))

計(jì)算過程:

  1. 將可用的 RAM 和操作系統(tǒng)的開銷從 GB 轉(zhuǎn)換為字節(jié)數(shù)。
  2. 通過將 Token 數(shù)量乘以 0.5 MB 并轉(zhuǎn)換為字節(jié)數(shù)來計(jì)算上下文窗口所需的內(nèi)存。
  3. 通過從總可用 RAM 中減去操作系統(tǒng)開銷和上下文窗口內(nèi)存,計(jì)算出可用的 RAM(以字節(jié)為單位)。
  4. 將量化級(jí)別從比特轉(zhuǎn)換為每個(gè)參數(shù)的字節(jié)數(shù)。
  5. 通過將可用 RAM 除以每個(gè)參數(shù)的字節(jié)數(shù)來計(jì)算最大參數(shù)數(shù)量。
  6. 將結(jié)果從參數(shù)轉(zhuǎn)換為以十億為單位的參數(shù)數(shù)量進(jìn)行顯示。

確定上述輸入后就能直接看到能夠支持的最大參數(shù)量,如果計(jì)算出的最大參數(shù)量為負(fù)值,這表示上下文窗口大小對(duì)于可用的 RAM 來說太大了。在這種情況下,程序會(huì)顯示一個(gè)錯(cuò)誤信息,建議用戶減少上下文窗口大小或增加可用的 RAM。

參考: 

[1]https://www.substratus.ai/blog/calculating-gpu-memory-for-llm

[2]??https://github.com/RayFernando1337/LLM-Calc??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
1條回復(fù)
按時(shí)間正序
/
按時(shí)間倒序
多一度想念
多一度想念

模型中的參數(shù)數(shù)量。例如,一個(gè) 7B 模型有 70 億參數(shù)。

回復(fù)
2024-12-19 17:37:58
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 2019中文字幕视频 | 精品国产乱码久久久久久图片 | 久久91精品国产一区二区三区 | 久草免费在线视频 | 国产精品福利在线观看 | 欧美一级全黄 | 久久久www成人免费无遮挡大片 | 一区二区三区亚洲 | 国产观看| av网站在线播放 | 欧美在线视频免费 | 亚洲国产精品视频 | 在线免费观看毛片 | 欧美国产日韩在线观看成人 | 久久综合入口 | 7777奇米影视| 午夜a区| 99看片网| 日韩高清中文字幕 | 国产在线1区 | 精品蜜桃一区二区三区 | 91久久久久久久久 | 欧美日韩国产精品一区 | 国产在线a视频 | 一区二区三区视频在线免费观看 | 欧美一级大片 | 三级黄色网址 | 国产精品久久7777777 | 狠狠色综合久久婷婷 | 精品毛片| 国产毛片久久久 | 中国一级特黄毛片大片 | 成人免费在线视频 | 91精品国产综合久久福利软件 | 毛片黄片免费看 | 欧美激情一区二区三级高清视频 | 日韩欧美二区 | 亚洲一区久久久 | 91传媒在线观看 | 中文字幕精品一区久久久久 | 草久久 |