成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)! 原創(chuàng)

發(fā)布于 2024-12-9 17:19
瀏覽
0收藏

整理 | 伊風(fēng)

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

Scaling Law會(huì)失效嗎?

雖然 OpenAI CEO 奧特曼擲地有聲地說“這里沒有墻”。但是,OpenAI的最近的發(fā)布也沒有那么炸了,尤其是 o1 Pro 比滿血版在編程能力上僅高出一分,似乎更讓人相信了“墻”的存在。

是時(shí)候跳出Scaling Law了!

清華NLP實(shí)驗(yàn)室劉知遠(yuǎn)教授團(tuán)隊(duì),提出的Densing Law(密度定律),給了我們一個(gè)全新的視角!

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

不同于Scaling Law,認(rèn)為隨著模型規(guī)模(如參數(shù)數(shù)量)、訓(xùn)練數(shù)據(jù)集大小等參數(shù)的增長,模型性能會(huì)按照一定的冪律進(jìn)行可預(yù)測的提高。

大模型的密度定律的表達(dá),與摩爾定律相似,重點(diǎn)討論了能力如何隨著時(shí)間而增強(qiáng)。

簡而言之:大模型能力密度約100天翻一倍!

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

什么是能力密度呢?

研究團(tuán)隊(duì)將其定義為模型的“有效參數(shù)量”與實(shí)際參數(shù)量的比值,是一種衡量 LLM(Large Language Model)訓(xùn)練質(zhì)量的新指標(biāo)。

舉個(gè)論文中的例子:2024年2月1日發(fā)布的MiniCPM-1-2.4B,其性能可以與2023年9月27日發(fā)布的Mistral-7B相媲美甚至更優(yōu)。換句話說,4個(gè)月后,只需要使用參數(shù)量為35%的LLM,即可獲得大致相當(dāng)?shù)男阅堋?/strong>

論文的第一作者說,用該定律推算,到明年年底,一個(gè)8B的小模型就可以實(shí)現(xiàn)GPT-4那么強(qiáng)悍的效果了。

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

此外,研究團(tuán)隊(duì)發(fā)現(xiàn),AI時(shí)代的三大核心引擎同樣遵守密度定律,電力、算力與智力(AI),都有各自的倍增周期。其中,電池能量密度倍增時(shí)間為10年,芯片電路密度的倍增時(shí)間則為18個(gè)月。

在論文的主要發(fā)現(xiàn)部分,研究團(tuán)隊(duì)還發(fā)現(xiàn)了5個(gè)重要的推論,讓我們展開講講:

1.模型的推理開銷隨時(shí)間呈指數(shù)級下降

根據(jù)密度定律(Densing Law),每三個(gè)月后,我們就可以用參數(shù)減半的模型,達(dá)到與以前相當(dāng)?shù)男阅苄Ч?/p>

因此,在實(shí)現(xiàn)相同任務(wù)性能的情況下,推理成本正以指數(shù)速度下降。

團(tuán)隊(duì)發(fā)現(xiàn),從2023年1月到現(xiàn)在,GPT-3.5級別模型的推理成本已降低了266.7倍。

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

2.大模型能力密度呈加速增強(qiáng)趨勢

團(tuán)隊(duì)比較了 ChatGPT 發(fā)布前后 LLM 密度的增長趨勢,發(fā)現(xiàn)在這一節(jié)點(diǎn)后,LLM 密度的增長速度提高了 50%!

這個(gè)結(jié)論不意外——可以說這波AI熱就是從ChatGPT發(fā)布掀起的。

無論我們怎么吐槽OpenAI的封閉生態(tài),其對AI發(fā)展的巨大推動(dòng)是不可磨滅的。

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

3.模型小型化揭示端側(cè)智能巨大潛力

摩爾定律(Moore, 1965)指出,相同面積的芯片上集成的電路數(shù)量呈指數(shù)增長,這意味著計(jì)算能力也在指數(shù)增長。

而此次提出的密度定律(Densing Law)表明,LLM 的密度每 3.3 個(gè)月翻一番。

結(jié)合這兩個(gè)因素,團(tuán)隊(duì)提出:在價(jià)格相同的芯片上可運(yùn)行的 LLM 有效參數(shù)規(guī)模的增長速度,超過了 LLM 密度和芯片計(jì)算能力的增長速度。

這種雙重增長的模式,就好像在電梯上跑步,讓AI在不遠(yuǎn)的未來能在手機(jī)等端側(cè)上絲滑運(yùn)行。

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

4.無法通過模型壓縮增強(qiáng)模型能力密度

剪枝和蒸餾沒我們想象得那么有用!

在團(tuán)隊(duì)的研究中,通過比較模型與其壓縮版本,發(fā)現(xiàn)廣泛使用的剪枝和蒸餾方法通常會(huì)使壓縮后的模型密度低于原始模型。

研究認(rèn)為,應(yīng)該繼續(xù)尋找更高效的模型壓縮算法,尤其應(yīng)更加注重提升小模型的密度。

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

5.密度倍增周期決定模型存在“有效期”

一個(gè)殘酷的事實(shí),大模型也有有效期。

每過數(shù)月,就會(huì)有更加“實(shí)惠”的新模型出現(xiàn),這就意味著模型必須要在有限期之內(nèi),獲得足夠的盈利才能收支平衡。

研究團(tuán)隊(duì)以API盈利方式估算,需要2個(gè)月內(nèi)達(dá)成17億用戶訪問!

看了這個(gè)數(shù)字,我們更理解大模型為何如此燒錢。

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時(shí)!-AI.x社區(qū)圖片

密度定律也提醒了AI圈,不要一味地追求Scaling。

更重要的是如何在模型性能與效率間取得平衡。

“盲目增加模型參數(shù)以追求性能提升可能會(huì)導(dǎo)致模型密度降低,從而引發(fā)不必要的能源消耗。例如,盡管 Llama-3.1-405B(Dubey 等,2024)在開源模型中實(shí)現(xiàn)了最先進(jìn)的性能,但其所需的計(jì)算資源是其他模型的數(shù)百倍。”

因此,未來的議題應(yīng)該從單純的性能優(yōu)化轉(zhuǎn)向密度優(yōu)化。大模型走出“應(yīng)試”,不再執(zhí)著于榜單上的數(shù)字,才能真正走入應(yīng)用的曠野之中。

參考鏈接:

1.https://arxiv.org/abs/2412.04315

2.插圖來源于研究課題組

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-12-9 17:51:05修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美激情综合 | 亚洲一区二区三区 | 精品国产不卡一区二区三区 | 伊人看片 | 国产色婷婷精品综合在线手机播放 | 九色视频网站 | 欧美一级在线观看 | 99久久精品国产一区二区三区 | 黄一区二区三区 | 九九99靖品 | 色婷婷综合久久久中字幕精品久久 | 91成人免费看片 | 成人高清视频在线观看 | 国产精品久久av | 91久久久久久 | 成人精品一区二区 | 亚洲一区二区三区视频在线 | 男人的天堂久久 | 亚洲精品乱码久久久久久9色 | 国产三区av| 操久久 | 国产欧美一区二区三区在线看 | 国产色婷婷久久99精品91 | 色婷婷综合久久久中字幕精品久久 | 午夜成人免费视频 | 亚洲精品视频一区 | www视频在线观看 | 亚洲综合在线播放 | 蜜桃av一区二区三区 | 五月婷婷激情网 | 偷拍自拍在线观看 | 国产乱码精品一区二区三区忘忧草 | 性高湖久久久久久久久 | 91在线看片 | 91精品国产一区二区 | 免费一区在线 | 欧美精品久久久 | 欧美精品一区二区三区在线播放 | 紧缚调教一区二区三区视频 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 久久久精品高清 |