成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

萬萬沒想到,ChatGPT參數(shù)只有200億?

人工智能 新聞
微軟一篇題為《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的論文,在做對比的時候透露出了重要信息:ChatGPT 是個「只有」20B(200 億)參數(shù)的模型,這件事引起了廣泛關(guān)注。

誰都沒有想到,ChatGPT 的核心秘密是由這種方式,被微軟透露出來的。

昨天晚上,很多討論 AI 的微信群都被一篇 EMNLP 論文和其中的截圖突然炸醒。

微軟一篇題為《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的論文,在做對比的時候透露出了重要信息:ChatGPT 是個「只有」20B(200 億)參數(shù)的模型,這件事引起了廣泛關(guān)注。

圖片

距 ChatGPT 發(fā)布已經(jīng)快一年了,但 OpenAI 一直未透露 ChatGPT 的技術(shù)細節(jié)。由于其強大的模型性能,人們對 ChatGPT 的參數(shù)量、訓練數(shù)據(jù)等信息抱有諸多疑問和猜測。

作為行業(yè)一直以來的標桿,ChatGPT 性能強大,可以解決各種各樣的問題。它的前身 GPT-3 參數(shù)量就達到了 1750 億,實用化以后的大模型居然被 OpenAI 瘦身了快 9 倍,這合理嗎?

「如何看待這篇論文」的話題立刻沖上了知乎熱榜。

圖片

論文鏈接:https://arxiv.org/abs/2310.17680

具體來說,微軟這篇論文提出了一種預訓練的擴散代碼生成模型 ——CodeFusion。CodeFusion 的參數(shù)量是 75M。在實驗比較部分,論文的表 1 將 ChatGPT 的參數(shù)量明確標成了 20B。

眾所周知,微軟和 OpenAI 是合作已久的一對伙伴,并且這是一篇 EMNLP 2023 論文,因此大家推測這個數(shù)據(jù)很有可能是真實的。

然而,關(guān)于 ChatGPT 參數(shù)量的猜測,人們一直認為是一個龐大的數(shù)字,畢竟 GPT-3 的參數(shù)量就已經(jīng)達到了 175B(1750 億)。掀起大型語言模型(LLM)浪潮的 ChatGPT,難道就只有 20B 參數(shù)?

大家怎么看?

這個數(shù)據(jù)被扒出來之后,在知乎和 Twitter 已經(jīng)引起了廣泛討論。畢竟,200 億參數(shù)達到這樣的效果十分驚人。再則,國內(nèi)追趕出的大模型動則就是數(shù)百億、上千億。

那么這個數(shù)據(jù)保不保真?大家都有什么看法呢?

NLP 知名博主、新浪微博新技術(shù)研發(fā)負責人張俊林「盲猜」分析了一波,引起了大家廣泛贊同:

不負責任猜測一波:GPT 4 是去年 8 月做好的,ChatGPT 估計是 OpenAI 應(yīng)對 Anthropic 要推出的 Claude 專門做的,那時候 GPT 4 應(yīng)該價值觀還沒對齊,OpenAI 不太敢放出來,所以臨時做了 ChatGPT 來搶先發(fā)優(yōu)勢。OpenAI 在 2020 年推出 Scaling law 的文章,Deepmind 在 2022 年推出的改進版本 chinchilla law。OpenAI 做大模型肯定會遵循科學做法的,不會拍腦袋,那么就有兩種可能:

可能性一:OpenAI 已經(jīng)看到 Chinchilla 的論文,模型是按照龍貓法則做的,我們假設(shè) ChatGPT 的訓練數(shù)據(jù)量不低于 2.5T token 數(shù)量(為啥這樣后面分析),那么按照龍貓法則倒推,一般訓練數(shù)據(jù)量除以 20 就應(yīng)該是最優(yōu)參數(shù)量。于是我們可以推出:這種情況 ChatGPT 模型的大小約在 120B 左右。

可能性二:OpenAI 在做 ChatGPT 的時候還沒看到 Chinchilla 的論文,于是仍然按照 OpenAI 自己推導的 Scaling law 來設(shè)計訓練數(shù)據(jù)量和模型大小,推算起來訓練數(shù)據(jù)量除以 12.5 左右對應(yīng)模型最優(yōu)參數(shù),他們自己的 Scaling law 更傾向把模型推大。假設(shè)訓練數(shù)據(jù)量是 2.5T 左右,那么這種情況 ChatGPT 的模型大小應(yīng)該在 190 到 200B 左右。

大概率第一個版本 ChatGPT 推出的時候在 200B 左右,所以剛出來的時候大家還是覺得速度慢,價格也高。3 月份 OpenAI 做過一次大升級,價格降低為原先的十分之一。如果僅僅靠量化是不太可能壓縮這么猛的,目前的結(jié)論是大模型量化壓縮到 4 到 6bit 模型效果是能保持住不怎么下降的。

所以很可能 OpenAI 這次升級從自己的 Scaling law 升級到了 Chinchilla 的 Scaling law,這樣模型大小就壓縮了 120B 左右,接近一半(也有可能遠小于 120B,如果按照 chinchilla law,llama 2 最大的模型應(yīng)該是 100B 左右,此時算力分配最優(yōu),也就是說成本收益最合算。但是實際最大的 llama2 模型才 70B,而且更小的模型比如 7B 模型也用超大數(shù)據(jù)集。

llama1 65B 基本是符合 chinchilla law 的,llama2 最大模型已經(jīng)打破 chinchilla law 開始懟數(shù)據(jù)了。就是說目前大家做大模型的趨勢是盡管不是算力分配最優(yōu),但是都傾向于增加數(shù)據(jù)減小模型規(guī)模,這樣盡管訓練成本不合算,但是推理合算,而訓練畢竟是一次性的,推理則并發(fā)高次數(shù)多,所以這么配置很明顯總體是更合算的),再加上比如 4bit 量化,這樣推理模型的大小可以壓縮 4 倍,速度大約可提升 8 倍左右,如果是采取繼續(xù)增加訓練數(shù)據(jù)減小模型規(guī)模,再加上其它技術(shù)優(yōu)化是完全有可能把推理價格打到十分之一的。

后續(xù)在 6 月份和 8 月份各自又價格下調(diào)了 25%,最終可能通過反復加數(shù)據(jù)減小規(guī)模逐漸把模型壓縮到 20B 左右。

這里解釋下為何 ChatGPT 的訓練數(shù)據(jù)量不太可能比 2.5T 低,LLaMA 2 的訓練數(shù)據(jù)量是 2T,效果應(yīng)該稍弱于 ChatGPT,所以這里假設(shè)最少 2.5T 的訓練數(shù)據(jù)。目前研究結(jié)論是當模型規(guī)模固定住,只要持續(xù)增加訓練數(shù)據(jù)量,模型效果就會直接增長,mistral 7B 效果炸裂,歸根結(jié)底是訓練數(shù)據(jù)量達到了 8 個 T,所以導致基礎(chǔ)模型效果特別強。以 ChatGPT 的效果來說,它使用的數(shù)據(jù)量不太可能低于 2.5T。

當然,還有另外一種可能,就是 ChatGPT 在后期優(yōu)化(比如第一次大升級或者后續(xù)的升級中,開始版本不太可能走的這條路)的時候也不管 scaling law 了,走的是類似 mistral 的路線,就是模型大小固定在 20B,瘋狂增加訓練數(shù)據(jù),如果又構(gòu)造出合適的 instruct 數(shù)據(jù),效果也可能有保障。

不論怎么講,對于 6B 到 13B 左右比較適合應(yīng)用落地的模型,強烈呼吁中文開源模型模仿 mistral,固定住一個最適合使用的模型大小,然后瘋狂增加訓練數(shù)據(jù),再加上好的 instruct 策略,是有可能作出小規(guī)模效果體驗足夠好的模型的。我個人認為對于開源模型來說,7B-13B 左右大小的模型應(yīng)該是兵家必爭之地。有心氣做開源的可以再努把力,把訓練數(shù)據(jù)往上再努力懟一懟。

早在 OpenAI 開放 ChatGPT API 時,0.002 美元 / 1k token 的定價就令人們意外,這個價格只有 GPT-3.5 的 1/10。彼時就有人推測:「ChatGPT 是百億(~10B)參數(shù)的模型」,并且「ChatGPT 使用的獎勵模型(reward model)可能是千億級模型」。該推測來源于清華大學 NLP 在讀博士鄭楚杰的知乎回答。

原回答鏈接:https://www.zhihu.com/question/587083296/answer/2918080518

而國內(nèi)外許多網(wǎng)友也都認為,200 億的參數(shù),是完全合理的。

也有知乎網(wǎng)友從價格上分析,這個數(shù)據(jù)也應(yīng)該是對的。

當然,也有網(wǎng)友認為這可能是個「拼寫錯誤」,或許實際是 120B(1200 億),至少 120B 和 GPT-3(175B)是一個數(shù)量級。

但所有這些都是猜測,由于 OpenAI 對參數(shù)量、訓練數(shù)據(jù)、方法等核心信息一直諱莫如深,因此 20B 這個數(shù)據(jù)到底是不是真的根本無法求證。如果是真的,那么大型語言模型未來的改進方向還會是增加參數(shù)量嗎?

再過幾天,就是 OpenAI 的開發(fā)者大會了,也許我們能夠了解到更多有用的信息,讓我們拭目以待吧。

圖片

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-11-29 05:37:24

Windows Def操作系統(tǒng)微軟

2021-08-12 06:52:02

谷歌面試ArrayList

2015-07-15 13:00:31

英特爾開源

2018-06-27 14:23:38

機器學習人工智能入門方法

2017-12-12 11:09:39

顯卡散熱CPU

2021-02-21 17:14:27

程序員技能開發(fā)者

2024-01-04 12:33:17

ChatGPTAI視頻

2018-05-02 09:38:02

程序員代碼互聯(lián)網(wǎng)

2021-08-31 09:35:01

TCPIP漏洞

2021-01-27 18:13:35

日志nginx信息

2021-07-21 05:38:20

中國聯(lián)通攜號轉(zhuǎn)網(wǎng)移動

2019-08-19 09:21:36

程序員Bug代碼

2023-10-31 19:11:11

2019-10-12 08:53:26

Redis多線程版本

2019-04-28 14:14:48

爬蟲網(wǎng)絡(luò)特價機票

2017-12-26 15:41:26

2018-01-26 23:23:23

JDBC MySQL數(shù)據(jù)庫

2018-12-10 09:45:05

2024-01-12 10:25:02

蓋茨ChatGPT

2019-12-09 10:13:20

HashMap選擇容量
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美一区二区小视频 | 久久亚洲一区二区三区四区 | 免费久久精品 | 逼逼网 | 国产精品成人国产乱 | 国产传媒| 日本一卡精品视频免费 | 国产清纯白嫩初高生视频在线观看 | 国产精品一级 | 一区二区三区四区不卡视频 | 欧美激情亚洲激情 | 国产日韩欧美一区二区 | 黑人精品xxx一区一二区 | 国产精品国产三级国产aⅴ浪潮 | 看一级毛片视频 | 999精品网| 一级黄色片免费在线观看 | 人人99 | 日韩欧美在线视频观看 | 国产探花在线精品一区二区 | 久久久久久电影 | 亚洲人在线观看视频 | 日本一二三区电影 | www亚洲精品 | 欧美一级免费 | 日韩中文字幕在线观看视频 | 亚洲国产aⅴ精品一区二区 免费观看av | 精品亚洲一区二区 | 免费a级毛片在线播放 | 国产一区二区电影 | 99久久久久久久久 | 人人做人人澡人人爽欧美 | 免费成人国产 | 性国产xxxx乳高跟 | 福利片在线观看 | 欧美视频在线一区 | 欧美最猛性xxxxx亚洲精品 | 国产午夜精品一区二区三区嫩草 | 伊人免费网 | 亚洲大片 | 二区av|