大模型界「摩爾定律」Densing Law 來了！盲目Scaling將過時！清華劉知遠團隊發(fā)現(xiàn)：大模型能力密度約100天翻倍！

原創(chuàng) 精選

作者：伊風 2024-12-09 17:20:29

人工智能

雖然 OpenAI CEO 奧特曼擲地有聲地說“這里沒有墻”。但是，OpenAI的最近的發(fā)布也沒有那么炸了，尤其是 o1 Pro 比滿血版在編程能力上僅高出一分，似乎更讓人相信了“墻”的存在。

整理 | 伊風

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

Scaling Law會失效嗎？

是時候跳出Scaling Law了！

清華NLP實驗室劉知遠教授團隊，提出的Densing Law（密度定律），給了我們一個全新的視角！

圖片

不同于Scaling Law，認為隨著模型規(guī)模（如參數(shù)數(shù)量）、訓練數(shù)據(jù)集大小等參數(shù)的增長，模型性能會按照一定的冪律進行可預測的提高。

大模型的密度定律的表達，與摩爾定律相似，重點討論了能力如何隨著時間而增強。

簡而言之：大模型能力密度約100天翻一倍！

圖片

什么是能力密度呢？

研究團隊將其定義為模型的“有效參數(shù)量”與實際參數(shù)量的比值，是一種衡量 LLM（Large Language Model）訓練質(zhì)量的新指標。

舉個論文中的例子：2024年2月1日發(fā)布的MiniCPM-1-2.4B，其性能可以與2023年9月27日發(fā)布的Mistral-7B相媲美甚至更優(yōu)。換句話說，4個月后，只需要使用參數(shù)量為35%的LLM，即可獲得大致相當?shù)男阅堋?/strong>

論文的第一作者說，用該定律推算，到明年年底，一個8B的小模型就可以實現(xiàn)GPT-4那么強悍的效果了。

圖片

此外，研究團隊發(fā)現(xiàn)，AI時代的三大核心引擎同樣遵守密度定律，電力、算力與智力（AI），都有各自的倍增周期。其中，電池能量密度倍增時間為10年，芯片電路密度的倍增時間則為18個月。

在論文的主要發(fā)現(xiàn)部分，研究團隊還發(fā)現(xiàn)了5個重要的推論，讓我們展開講講：

1.模型的推理開銷隨時間呈指數(shù)級下降

根據(jù)密度定律（Densing Law），每三個月后，我們就可以用參數(shù)減半的模型，達到與以前相當?shù)男阅苄Ч?/p>

因此，在實現(xiàn)相同任務性能的情況下，推理成本正以指數(shù)速度下降。

團隊發(fā)現(xiàn)，從2023年1月到現(xiàn)在，GPT-3.5級別模型的推理成本已降低了266.7倍。

圖片

2.大模型能力密度呈加速增強趨勢

團隊比較了 ChatGPT 發(fā)布前后 LLM 密度的增長趨勢，發(fā)現(xiàn)在這一節(jié)點后，LLM 密度的增長速度提高了 50%！

這個結(jié)論不意外——可以說這波AI熱就是從ChatGPT發(fā)布掀起的。

無論我們怎么吐槽OpenAI的封閉生態(tài)，其對AI發(fā)展的巨大推動是不可磨滅的。

圖片

3.模型小型化揭示端側(cè)智能巨大潛力

摩爾定律（Moore, 1965）指出，相同面積的芯片上集成的電路數(shù)量呈指數(shù)增長，這意味著計算能力也在指數(shù)增長。

而此次提出的密度定律（Densing Law）表明，LLM 的密度每 3.3 個月翻一番。

結(jié)合這兩個因素，團隊提出：在價格相同的芯片上可運行的 LLM 有效參數(shù)規(guī)模的增長速度，超過了 LLM 密度和芯片計算能力的增長速度。

這種雙重增長的模式，就好像在電梯上跑步，讓AI在不遠的未來能在手機等端側(cè)上絲滑運行。

圖片

4.無法通過模型壓縮增強模型能力密度

剪枝和蒸餾沒我們想象得那么有用！

在團隊的研究中，通過比較模型與其壓縮版本，發(fā)現(xiàn)廣泛使用的剪枝和蒸餾方法通常會使壓縮后的模型密度低于原始模型。

研究認為，應該繼續(xù)尋找更高效的模型壓縮算法，尤其應更加注重提升小模型的密度。

圖片

5.密度倍增周期決定模型存在“有效期”

一個殘酷的事實，大模型也有有效期。

每過數(shù)月，就會有更加“實惠”的新模型出現(xiàn)，這就意味著模型必須要在有限期之內(nèi)，獲得足夠的盈利才能收支平衡。

研究團隊以API盈利方式估算，需要2個月內(nèi)達成17億用戶訪問！

看了這個數(shù)字，我們更理解大模型為何如此燒錢。

圖片

密度定律也提醒了AI圈，不要一味地追求Scaling。

更重要的是如何在模型性能與效率間取得平衡。

“盲目增加模型參數(shù)以追求性能提升可能會導致模型密度降低，從而引發(fā)不必要的能源消耗。例如，盡管 Llama-3.1-405B（Dubey 等，2024）在開源模型中實現(xiàn)了最先進的性能，但其所需的計算資源是其他模型的數(shù)百倍。”

因此，未來的議題應該從單純的性能優(yōu)化轉(zhuǎn)向密度優(yōu)化。大模型走出“應試”，不再執(zhí)著于榜單上的數(shù)字，才能真正走入應用的曠野之中。

參考鏈接：

1.https://arxiv.org/abs/2412.04315

2.插圖來源于研究課題組

責任編輯：武曉燕來源： 51CTO技術(shù)棧

OpenAI 大模型模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看