成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型參數(shù)量都是7B,13B和65B等背后的原因是什么?

發(fā)布于 2024-4-18 12:57
瀏覽
1收藏

不知道大家有沒有注意到現(xiàn)在大模型百花齊放,但是模型參數(shù)大小卻非常一致,基本都是7B,13B,65B等。那么,為什么被設計成這么大呢?

網絡上有很多解釋,筆者結合自己的理解,分享其中可能的原因。

最直接的就是歷史傳承,因為最初OpenAI在gpt-3就是這么干的,然后,Meta借鑒了OpenAI的做法,推出了llama的7B,13B,33B,65B四個尺寸。由于llama在開源領域的地位,其他模型廠商都基本遵守了這樣的約定,形成了當下的局面。

適配推理設備。特別是對于一些參數(shù)量小的模型是為了適配不同級別的GPU顯存,常見的顯寸大小從4G到80G不等,我們知道顯存占用的公式:


模型空間大小 = 參數(shù)量 *參數(shù)精度


這使得能夠很方便地在單卡上部署推理,降低使用的門檻。以chatGLM2-6B為例,它有62億參數(shù),權重參數(shù)文件采用BF16精度存儲,實際顯存占用大概為12.5GB,一個英偉達T4顯卡(16GB)就能跑起來。

大模型參數(shù)量都是7B,13B和65B等背后的原因是什么?-AI.x社區(qū)

模型結構上的設計。從模型結構上看,當前大模型都是采用的transfomer模型的decoder-only結構(未遮蓋部分)。其參數(shù)量受到隱藏層維度,層數(shù),注意力頭數(shù)等影響,而這些參數(shù)取值既參考GPT-3,也是結合。下面是llama和gpt系列模型的參數(shù)量統(tǒng)計:

實際參數(shù)量P

隱藏層維度d_model

層數(shù)N

注意力頭數(shù)h

估算參數(shù)量

6.7B

4096

32

32

6590300160

13.0B

5120

40

40

12730761216

32.5B

6656

60

52

32045531136

65.2B

8192

80

64

64572358656

llama

大模型參數(shù)量都是7B,13B和65B等背后的原因是什么?-AI.x社區(qū)

性能、成本與訓練時間的綜合平衡。根據(jù)一文探秘LLM應用開發(fā)(12)-模型部署與推理(大模型相關參數(shù)計算及性能分析),模型訓練時間可以估算:6TP/(n*X*u),其中X是計算顯卡的峰值FLOPS,n為卡的數(shù)量,u為利用率。以LLaMA-65B為例,在2048張80GB顯存的A100上,在1.4TB tokens的數(shù)據(jù)上訓練了65B參數(shù)量的模型。80GB顯存A100的峰值性能為624TFLOPS,設GPU利用率為0.3,則所需要的訓練時間為:

大模型參數(shù)量都是7B,13B和65B等背后的原因是什么?-AI.x社區(qū)

大模型參數(shù)量都是7B,13B和65B等背后的原因是什么?-AI.x社區(qū)

本文轉載自 ??AI工程化??,作者: ully

收藏 1
回復
舉報
回復
相關推薦
主站蜘蛛池模板: avav在线看 | 午夜午夜精品一区二区三区文 | 国产一区二区高清在线 | 蜜桃日韩| 亚洲精品在线免费看 | 99精品视频一区二区三区 | 精品99久久 | 欧美一区二区在线观看 | 国产成人精品一区二区三区 | 亚洲第1页 | 日韩欧美手机在线 | 国产精品视频久久久久久 | 国产在线精品一区二区 | 啪啪免费网| www.久草 | 成人在线亚洲 | 91欧美激情一区二区三区成人 | 另类亚洲视频 | 国产精品久久久久久亚洲调教 | 亚洲国产精品久久久 | 自拍偷拍亚洲欧美 | 亚洲视频免费观看 | 日韩中文字幕 | 琪琪午夜伦伦电影福利片 | 午夜无码国产理论在线 | 人人看人人搞 | 日韩精品一区二区三区高清免费 | 可以免费观看的av片 | 天天狠狠 | 国产最好的av国产大片 | 久久综合久久综合久久综合 | 在线观看国产wwwa级羞羞视频 | 欧美一级艳情片免费观看 | 亚洲国产二区 | 天天综合网7799精品 | 国产成人精品福利 | 午夜视频在线免费观看 | 黄免费观看视频 | 亚洲热在线视频 | 另类亚洲视频 | 不卡视频一区二区三区 |