大模型界「摩爾定律」Densing Law 來了！盲目Scaling將過時(shí)！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-12-9 17:19

瀏覽

0收藏

整理 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

Scaling Law會(huì)失效嗎？

雖然 OpenAI CEO 奧特曼擲地有聲地說“這里沒有墻”。但是，OpenAI的最近的發(fā)布也沒有那么炸了，尤其是 o1 Pro 比滿血版在編程能力上僅高出一分，似乎更讓人相信了“墻”的存在。

是時(shí)候跳出Scaling Law了！

清華NLP實(shí)驗(yàn)室劉知遠(yuǎn)教授團(tuán)隊(duì)，提出的Densing Law（密度定律），給了我們一個(gè)全新的視角！

大模型界「摩爾定律」Densing Law 來了！盲目Scaling將過時(shí)！-AI.x社區(qū) 圖片

不同于Scaling Law，認(rèn)為隨著模型規(guī)模（如參數(shù)數(shù)量）、訓(xùn)練數(shù)據(jù)集大小等參數(shù)的增長，模型性能會(huì)按照一定的冪律進(jìn)行可預(yù)測的提高。

大模型的密度定律的表達(dá)，與摩爾定律相似，重點(diǎn)討論了能力如何隨著時(shí)間而增強(qiáng)。

簡而言之：大模型能力密度約100天翻一倍！

大模型界「摩爾定律」Densing Law 來了！盲目Scaling將過時(shí)！-AI.x社區(qū) 圖片

什么是能力密度呢？

研究團(tuán)隊(duì)將其定義為模型的“有效參數(shù)量”與實(shí)際參數(shù)量的比值，是一種衡量 LLM（Large Language Model）訓(xùn)練質(zhì)量的新指標(biāo)。

舉個(gè)論文中的例子：2024年2月1日發(fā)布的MiniCPM-1-2.4B，其性能可以與2023年9月27日發(fā)布的Mistral-7B相媲美甚至更優(yōu)。換句話說，4個(gè)月后，只需要使用參數(shù)量為35%的LLM，即可獲得大致相當(dāng)?shù)男阅堋?/strong>

論文的第一作者說，用該定律推算，到明年年底，一個(gè)8B的小模型就可以實(shí)現(xiàn)GPT-4那么強(qiáng)悍的效果了。

圖片

此外，研究團(tuán)隊(duì)發(fā)現(xiàn)，AI時(shí)代的三大核心引擎同樣遵守密度定律，電力、算力與智力（AI），都有各自的倍增周期。其中，電池能量密度倍增時(shí)間為10年，芯片電路密度的倍增時(shí)間則為18個(gè)月。

在論文的主要發(fā)現(xiàn)部分，研究團(tuán)隊(duì)還發(fā)現(xiàn)了5個(gè)重要的推論，讓我們展開講講：

1.模型的推理開銷隨時(shí)間呈指數(shù)級下降

根據(jù)密度定律（Densing Law），每三個(gè)月后，我們就可以用參數(shù)減半的模型，達(dá)到與以前相當(dāng)?shù)男阅苄Ч?/p>

因此，在實(shí)現(xiàn)相同任務(wù)性能的情況下，推理成本正以指數(shù)速度下降。

團(tuán)隊(duì)發(fā)現(xiàn)，從2023年1月到現(xiàn)在，GPT-3.5級別模型的推理成本已降低了266.7倍。

圖片

2.大模型能力密度呈加速增強(qiáng)趨勢

團(tuán)隊(duì)比較了 ChatGPT 發(fā)布前后 LLM 密度的增長趨勢，發(fā)現(xiàn)在這一節(jié)點(diǎn)后，LLM 密度的增長速度提高了 50%！

這個(gè)結(jié)論不意外——可以說這波AI熱就是從ChatGPT發(fā)布掀起的。

無論我們怎么吐槽OpenAI的封閉生態(tài)，其對AI發(fā)展的巨大推動(dòng)是不可磨滅的。

圖片

3.模型小型化揭示端側(cè)智能巨大潛力

摩爾定律（Moore, 1965）指出，相同面積的芯片上集成的電路數(shù)量呈指數(shù)增長，這意味著計(jì)算能力也在指數(shù)增長。

而此次提出的密度定律（Densing Law）表明，LLM 的密度每 3.3 個(gè)月翻一番。

結(jié)合這兩個(gè)因素，團(tuán)隊(duì)提出：在價(jià)格相同的芯片上可運(yùn)行的 LLM 有效參數(shù)規(guī)模的增長速度，超過了 LLM 密度和芯片計(jì)算能力的增長速度。

這種雙重增長的模式，就好像在電梯上跑步，讓AI在不遠(yuǎn)的未來能在手機(jī)等端側(cè)上絲滑運(yùn)行。

圖片

4.無法通過模型壓縮增強(qiáng)模型能力密度

剪枝和蒸餾沒我們想象得那么有用！

在團(tuán)隊(duì)的研究中，通過比較模型與其壓縮版本，發(fā)現(xiàn)廣泛使用的剪枝和蒸餾方法通常會(huì)使壓縮后的模型密度低于原始模型。

研究認(rèn)為，應(yīng)該繼續(xù)尋找更高效的模型壓縮算法，尤其應(yīng)更加注重提升小模型的密度。

圖片

5.密度倍增周期決定模型存在“有效期”

一個(gè)殘酷的事實(shí)，大模型也有有效期。

每過數(shù)月，就會(huì)有更加“實(shí)惠”的新模型出現(xiàn)，這就意味著模型必須要在有限期之內(nèi)，獲得足夠的盈利才能收支平衡。

研究團(tuán)隊(duì)以API盈利方式估算，需要2個(gè)月內(nèi)達(dá)成17億用戶訪問！

看了這個(gè)數(shù)字，我們更理解大模型為何如此燒錢。

圖片

密度定律也提醒了AI圈，不要一味地追求Scaling。

更重要的是如何在模型性能與效率間取得平衡。

“盲目增加模型參數(shù)以追求性能提升可能會(huì)導(dǎo)致模型密度降低，從而引發(fā)不必要的能源消耗。例如，盡管 Llama-3.1-405B（Dubey 等，2024）在開源模型中實(shí)現(xiàn)了最先進(jìn)的性能，但其所需的計(jì)算資源是其他模型的數(shù)百倍。”

因此，未來的議題應(yīng)該從單純的性能優(yōu)化轉(zhuǎn)向密度優(yōu)化。大模型走出“應(yīng)試”，不再執(zhí)著于榜單上的數(shù)字，才能真正走入應(yīng)用的曠野之中。

參考鏈接：

1.https://arxiv.org/abs/2412.04315

2.插圖來源于研究課題組

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：伊風(fēng)

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽
大模型
Scaling
AI

已于2024-12-9 17:51:05修改

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

Scaling Law被證偽，谷歌研究人員實(shí)錘研究力挺小模型更高效，不局限于特定采樣技術(shù)！

51CTO技術(shù)棧 ? 3553瀏覽 ? 0回復(fù)
GPT超越擴(kuò)散、視覺生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式

輕薄滴假象 ? 2806瀏覽 ? 0回復(fù)
從80個(gè)模型中構(gòu)建Scaling Law：華人博士生新作，思維鏈提出者力薦

輕薄滴假象 ? 2687瀏覽 ? 0回復(fù)
粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題

duhorse ? 3024瀏覽 ? 0回復(fù)
不同數(shù)據(jù)集有不同的Scaling law？而你可用一個(gè)壓縮算法來預(yù)測它

輕薄滴假象 ? 2513瀏覽 ? 0回復(fù)
Scaling Law觸礁「數(shù)據(jù)墻」？Epoch AI發(fā)文預(yù)測LLM到2028年耗盡所有文本數(shù)據(jù)

duhorse ? 3025瀏覽 ? 0回復(fù)
黃仁勛和印度首富安巴尼對話：CPU摩爾定律已停滯，發(fā)現(xiàn)第二個(gè)縮放定律，不外包數(shù)據(jù)做AI

51CTO技術(shù)棧 ? 2016瀏覽 ? 0回復(fù)
新Scaling Law浮出水面！OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂

51CTO技術(shù)棧 ? 2321瀏覽 ? 0回復(fù)
o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

51CTO技術(shù)棧 ? 3386瀏覽 ? 0回復(fù)
微軟CEO開年演講：預(yù)訓(xùn)練Scaling Law依然偉大！首個(gè)英偉達(dá)GB200集群已上線！

51CTO技術(shù)棧 ? 2026瀏覽 ? 0回復(fù)
看了這么多文章，終于理解了 Scaling Law

芝士AI吃魚 ? 6359瀏覽 ? 0回復(fù)
DeepSeek-R1-Zero激發(fā)了推理Scaling Law

ceesoft ? 2439瀏覽 ? 0回復(fù)
蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws

輕薄滴假象 ? 2103瀏覽 ? 0回復(fù)
微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了

Aceryt ? 2016瀏覽 ? 0回復(fù)
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 2959瀏覽 ? 0回復(fù)
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術(shù)棧 ? 2138瀏覽 ? 0回復(fù)
Google Gemini 2.5 Pro：AI界的“全能王”來了！

Halo咯咯 ? 1851瀏覽 ? 0回復(fù)
哈佛大學(xué)：高維回歸中的Scaling Law是重整化的自然結(jié)果

ceesoft ? 1370瀏覽 ? 0回復(fù)
METR發(fā)現(xiàn) AI 編碼的“摩爾定律”？指數(shù)級增長或顛覆軟件開發(fā)

Syrupup ? 1600瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從播客到帶娃，看老黃、納德拉、奧特曼這些CEO 如何在生活中使用 AI 3h前發(fā)布
Claude含AI量超Cursor一倍！資深工程主管揭秘AI編碼真相！谷歌謹(jǐn)慎全搞自研 5h前發(fā)布

熱門推薦

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)
Devin聯(lián)合創(chuàng)始人：別搞多智能體系統(tǒng)！微軟和OpenAI鼓吹的代理構(gòu)建理念大錯(cuò)特錯(cuò)！ 1回復(fù)
從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)
Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)
AI Agents開源工具棧全解析~ 0回復(fù)

上一篇：滿血o1被證明太心機(jī)了！登頂最「壞」AI！復(fù)制權(quán)重，干掉威脅后，AI拒絕招供：也許我應(yīng)該裝作是新模型……

下一篇：數(shù)據(jù)不夠？Meta剛剛發(fā)布的Llama 3.3正好拿來搞定！

社區(qū)精華內(nèi)容

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂