成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最新發(fā)現(xiàn)!每參數(shù)3.6比特,語(yǔ)言模型最多能記住這么多

人工智能 新聞
GPT 系列模型的記憶容量約為每個(gè)參數(shù) 3.6 比特。

語(yǔ)言模型到底能記住多少信息?Meta、DeepMind、康奈爾大學(xué)和英偉達(dá)的一項(xiàng)測(cè)量結(jié)果顯示:每個(gè)參數(shù)大約 3.6 比特。一旦達(dá)到這個(gè)極限,它們就會(huì)停止記憶并開(kāi)始泛化。

圖片

長(zhǎng)期以來(lái),記憶與泛化之間的模糊性一直困擾著對(duì)模型能力和風(fēng)險(xiǎn)的評(píng)估,即區(qū)分其輸出究竟源于對(duì)訓(xùn)練數(shù)據(jù)的「記憶」 (對(duì)其訓(xùn)練數(shù)據(jù)分布的編碼程度) ,還是對(duì)潛在模式的「泛化」理解 (將理解擴(kuò)展到未見(jiàn)過(guò)的新輸入)。 這種不確定性阻礙了在模型訓(xùn)練、安全、可靠性和關(guān)鍵應(yīng)用部署方面的針對(duì)性改進(jìn)。

這就好比我們想知道一個(gè)學(xué)生考試得了高分,是因?yàn)樗娴睦斫饬酥R(shí)點(diǎn)(泛化),能夠舉一反三,還是僅僅因?yàn)樗呀炭茣?shū)上的例題和答案都背下來(lái)了(記憶)。 

基于此,研究團(tuán)隊(duì)提出了一種新方法,用于估計(jì)一個(gè)模型對(duì)某個(gè)數(shù)據(jù)點(diǎn)的「了解」程度,并利用該方法來(lái)衡量現(xiàn)代語(yǔ)言模型的容量。

圖片

  • 論文標(biāo)題:How much do language models memorize?
  • 論文地址:https://arxiv.org/pdf/2505.24832

研究團(tuán)隊(duì)從形式上將記憶分為兩個(gè)組成部分:

  • 非預(yù)期記憶 —— 模型包含的關(guān)于特定數(shù)據(jù)集的信息;
  • 泛化 —— 模型包含的關(guān)于真實(shí)數(shù)據(jù)生成過(guò)程的信息。

通過(guò)消除泛化部分,可以計(jì)算出給定模型的總記憶量,從而估計(jì)出模型容量:測(cè)量結(jié)果估計(jì),GPT 系列模型的容量約為每個(gè)參數(shù) 3.6 比特

研究團(tuán)隊(duì)在規(guī)模不斷增大的數(shù)據(jù)集上訓(xùn)練語(yǔ)言模型,觀察到模型會(huì)持續(xù)記憶,直到其容量飽和,此時(shí)「頓悟」(grokking)現(xiàn)象開(kāi)始出現(xiàn),非預(yù)期記憶隨之減少,模型開(kāi)始泛化。也就是說(shuō),在海量數(shù)據(jù)上訓(xùn)練的語(yǔ)言模型根本不可能記住所有訓(xùn)練數(shù)據(jù),因?yàn)楦緵](méi)有足夠的容量。

圖片

研究團(tuán)隊(duì)訓(xùn)練了數(shù)百個(gè)參數(shù)量從 50 萬(wàn)到 15 億不等的 Transformer 語(yǔ)言模型,并由此提出了一系列關(guān)于模型容量、數(shù)據(jù)規(guī)模與成員推斷之間關(guān)系的 scaling law。 

研究團(tuán)隊(duì)還借鑒了「信息論之父」 Claude Shannon 1953 的一項(xiàng)重要工作《The Lattice Theory of Information》的一些理論。該論文將他早期關(guān)于信息論中熵和信道容量的概念,與數(shù)學(xué)中的格理論聯(lián)系起來(lái),為理解和處理復(fù)雜信息系統(tǒng)提供了新的視角。 

這項(xiàng)研究激發(fā)了社區(qū)對(duì)蒸餾、量化、模型安全等方面的思考。

圖片

圖片

圖片

圖片

兩種「記憶」:非預(yù)期記憶和泛化

在論文中,作者希望找到一個(gè)方法來(lái)量化模型對(duì)特定數(shù)據(jù)點(diǎn)的記憶程度,并且這種記憶定義要滿足以下幾點(diǎn):   

  • 與泛化區(qū)分開(kāi);
  • 能夠針對(duì)具體的數(shù)據(jù)樣本;
  • 不依賴于具體的訓(xùn)練算法;

統(tǒng)計(jì)學(xué)視角下的記憶定義

作者從信息論的角度出發(fā),利用「互信息(Mutual Information)」來(lái)定義記憶。

在論文中,大寫字母(例如 X、Θ)用來(lái)指代隨機(jī)變量,小寫字母用來(lái)指代隨機(jī)變量的實(shí)例(例如 x ~ X 和 θ ~ Θ)。 

信息論已經(jīng)為隨機(jī)變量發(fā)展出了被廣泛理解的信息概念。對(duì)于隨機(jī)變量 X,通常使用 H (X),即 X 的熵,來(lái)定義 X 中存在的信息量。此外,對(duì)于兩個(gè)不同的隨機(jī)變量 X、Y,可以將 X | Y 定義為在固定 Y 后 X 中剩余的不確定性。定義了這個(gè)量之后,現(xiàn)在可以通過(guò)從總信息中減去剩余信息來(lái)測(cè)量 X 和 Y 之間的互信息:I (X, Y) = H (X) ? H (X | Y)。 

現(xiàn)在假設(shè)有一個(gè)機(jī)器學(xué)習(xí) pipeline。作者有一個(gè)關(guān)于底層模型的先驗(yàn) Θ,它捕獲了作者的數(shù)據(jù)集分布 X。作者有一個(gè)學(xué)習(xí)算法 L,它將來(lái)自 X 的樣本映射到訓(xùn)練好的模型 圖片 。為了理解有多少關(guān)于 X 的信息存儲(chǔ)在 圖片 中,作者可以使用互信息的概念: 

圖片

注意這捕獲了存儲(chǔ)在 圖片 中的關(guān)于 X 的所有信息。正如前面所討論的,記憶的概念需要同時(shí)考慮泛化。因此,當(dāng)測(cè)量非預(yù)期記憶時(shí),作者只對(duì) X | Θ 中存在的信息感興趣,這是在固定 Θ 后 X 中剩余的不確定性。 

因此,可以將非預(yù)期記憶化定義為:   

圖片

然后泛化(或預(yù)期記憶)應(yīng)該是:   

圖片

現(xiàn)在作者已經(jīng)定義預(yù)期和非預(yù)期記憶的概念,作者將注意力轉(zhuǎn)向?qū)嶋H測(cè)量它們。讓作者首先陳述一個(gè)能夠非預(yù)期記憶的命題: 

命題 1(非預(yù)期記憶的 Super-additivity)。 假設(shè) X = (X_1, . . . , X_n) 是 n 個(gè)獨(dú)立同分布樣本的數(shù)據(jù)集。作者有:   

圖片

這個(gè)命題表明,為了測(cè)量數(shù)據(jù)集級(jí)別非預(yù)期記憶的下界,可以將每個(gè)樣本的記憶相加。另一方面,訓(xùn)練模型本身的信息內(nèi)容的熵作為非預(yù)期記憶的上界。這個(gè)命題的另一個(gè)含義是,非預(yù)期記憶應(yīng)該隨數(shù)據(jù)集大小 scale,但不能超過(guò)模型的總?cè)萘俊?nbsp;

用 Kolmogorov 復(fù)雜度測(cè)量非預(yù)期記憶

到目前為止,論文對(duì)記憶和泛化的定義使用的是基于「熵」的信息概念。這意味著該定義只能用于隨機(jī)變量。這在測(cè)量記憶方面帶來(lái)了很大挑戰(zhàn)。在記憶定義中,所有的變量都是單例。作者有一個(gè)單一的底層模型 θ,作者有一個(gè)單一的數(shù)據(jù)集 x = (x_1, . . . , x_n),作者有一個(gè)單一的訓(xùn)練模型 圖片。使用單個(gè)樣本測(cè)量底層變量的熵(更不用說(shuō)條件熵)是不可能的。 

為此,論文轉(zhuǎn)向另一種基于壓縮的信息概念,然后展示這種概念如何密切近似上面定義的記憶概念。Kolmogorov 復(fù)雜度將字符串 x 的信息內(nèi)容定義為 H^K (x),即 x 在給定計(jì)算模型中的最短表示長(zhǎng)度。類似地,作者可以將剩余信息 x | θ 定義為當(dāng)作者有 θ 作為參考時(shí) x 的最短表示。而 x | θ 的信息內(nèi)容,記為 H^K (x | θ),是這種描述的長(zhǎng)度。然后,作者可以用類似的方式定義互信息: 

定義 2(Kolmogorov 復(fù)雜度)。設(shè) f 是一個(gè)任意的計(jì)算模型,它接受一組輸入并返回一個(gè)輸出(例如通用圖靈機(jī))。相對(duì)于計(jì)算模型 f 的 x 的最短描述定義為 圖片。同樣,x 相對(duì)于另一個(gè)字符串 θ 的 Kolmogorov 復(fù)雜度定義為 圖片。論文通過(guò) 圖片 定義 x 和 θ 之間的 Kolmogorov 互信息。假設(shè)輸入是比特串,|p | 是輸入的比特長(zhǎng)度。 

定義 3(Kolmogorov 記憶)。設(shè) θ 是一個(gè)近似數(shù)據(jù)真實(shí)分布的參考模型,圖片 是在數(shù)據(jù)集 x = (x_1, . . . , x_n) 上訓(xùn)練的模型。對(duì)于每個(gè) x_i,論文將 x_i 在 圖片 中的記憶定義為 圖片。論文還將記憶的預(yù)期與非預(yù)期變體定義為:

圖片

已知 Kolmogorov 復(fù)雜度和 Shannon 熵之間存在聯(lián)系。這些結(jié)果指出了兩個(gè)概念之間的概念聯(lián)系,并暗示 圖片。有趣的是,這意味著論文中的 Kolmogorov 記憶概念密切近似 Shannon 記憶。 

命題 4。設(shè) X = (X_1, . . . , X_n) 是由真實(shí)模型 θ 參數(shù)化的獨(dú)立同分布數(shù)據(jù)集分布。設(shè) L 是將 X 映射到圖片 的訓(xùn)練算法。假設(shè)圖片 且 圖片。那么有


圖片

對(duì)于某個(gè)獨(dú)立于 θ、?、?' 和 n 的常數(shù) ε。此外,有尾界:   

圖片

用似然度估計(jì) Kolmogorov 復(fù)雜度 

確定了 Kolmogorov 記憶概念后,現(xiàn)在描述如何在不同設(shè)置中估計(jì) H^K。注意,Kolmogorov 復(fù)雜度的精確計(jì)算是已知不可計(jì)算的(其判定版本是不可判定的)。然而,仍然可以使用最佳可用壓縮方案來(lái)近似它。在論文中, 作者總結(jié)了如何近似定義中的每個(gè)項(xiàng)。

模型記憶容量

非預(yù)期記憶為作者提供了一種有原則的方法,用以衡量模型 θ 對(duì)某一數(shù)據(jù)點(diǎn) x 所掌握的確切比特?cái)?shù)。

如果將數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)的信息加起來(lái),就可以衡量模型對(duì)整個(gè)數(shù)據(jù)集所掌握的總比特?cái)?shù)。并且,在由于每個(gè)數(shù)據(jù)點(diǎn)完全獨(dú)立而無(wú)法進(jìn)行泛化的情況下,可以通過(guò)對(duì)每個(gè)數(shù)據(jù)點(diǎn)的非預(yù)期記憶進(jìn)行求和來(lái)估計(jì)給定模型 θ 的容量。

定義模型容量

作者首先對(duì)特定語(yǔ)言模型 θ 的這種記憶容量概念進(jìn)行形式化。容量是指在 θ 的所有參數(shù)中可以存儲(chǔ)的記憶總量。

定義 5 (容量):設(shè) X 為一個(gè)分布, L:X→Θ 為一個(gè)學(xué)習(xí)算法。作者將學(xué)習(xí)算法 L 的容量定義為:

圖片

當(dāng)達(dá)到模型容量時(shí),mem (X,L (X)) 將不再隨數(shù)據(jù)集大小的增加而增加。在實(shí)踐中,作者可以通過(guò)在不同大小的 X 上訓(xùn)練至飽和,并計(jì)算最大記憶量來(lái)計(jì)算容量。

圖片

用合成序列測(cè)量模型容量

作者測(cè)量了 Transformer 語(yǔ)言模型的容量,目標(biāo)是實(shí)例化多個(gè)數(shù)據(jù)集和分布,并在訓(xùn)練單個(gè)模型 θ 時(shí)測(cè)量它們所產(chǎn)生的記憶量。

然后,取所有數(shù)據(jù)集上的最大值來(lái)近似模型的容量。為了實(shí)例化數(shù)據(jù)集,每個(gè)標(biāo)記都從一個(gè)預(yù)定義的標(biāo)記集合中均勻采樣,且與前面的標(biāo)記無(wú)關(guān)。

為了近似 圖片,可以直接計(jì)算在訓(xùn)練好的模型下的熵,以計(jì)算以 圖片 為條件的數(shù)據(jù)集的最短描述。將兩者相減,可以近似得到非預(yù)期記憶 圖片。由于采樣數(shù)據(jù)的過(guò)程是完全隨機(jī)的,因此在 圖片 中沒(méi)有泛化信息可供存儲(chǔ),也就是說(shuō),圖片


觀察到當(dāng)我們從均勻分布中采樣合成序列時(shí),可以精確地計(jì)算它們的香農(nóng)信息。給定數(shù)據(jù)集大小 N,構(gòu)建一個(gè)包含 N 個(gè)序列的數(shù)據(jù)集,每個(gè)序列包含 S 個(gè)標(biāo)記。給定詞匯表大小 V,可以通過(guò) 圖片 計(jì)算具有這些參數(shù)的數(shù)據(jù)集 圖片 的總熵。然后,使用在 圖片 下的熵計(jì)算 圖片 的壓縮形式,以計(jì)算編碼長(zhǎng)度,并將其用作 圖片  的近似值。接著,作者計(jì)算 圖片,并將模型容量計(jì)算為所有數(shù)據(jù)集上的最大記憶量。

實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果

圖 2 展示了不同模型規(guī)模和數(shù)據(jù)量下的記憶情況。這樣,便可以將不同數(shù)據(jù)集規(guī)模 (x 軸) 下的非預(yù)期記憶量 (y 軸) 進(jìn)行可視化,并按模型規(guī)模 (線條顏色) 分組。研究中觀察到,一旦模型達(dá)到其容量上限,便會(huì)出現(xiàn)一個(gè)明顯的平臺(tái)期。當(dāng)數(shù)據(jù)集足夠大時(shí),無(wú)論數(shù)據(jù)規(guī)模如何,模型的凈記憶量都會(huì)達(dá)到一個(gè)上限。對(duì)于容量充足的模型而言,小型數(shù)據(jù)集會(huì)被完全記憶。

圖片

文中將每個(gè)模型的容量,估計(jì)為在所有數(shù)據(jù)集規(guī)模上測(cè)得的最大非預(yù)期記憶比特?cái)?shù)。隨后,在圖 6 中將這一容量與模型規(guī)模進(jìn)行了比較。有趣的是,即便在當(dāng)前這種小規(guī)模實(shí)驗(yàn)中,也能觀察到所測(cè)容量(即在所有數(shù)據(jù)集上測(cè)得的最大記憶量)與模型參數(shù)數(shù)量之間,存在一種非常平滑的對(duì)應(yīng)關(guān)系。圖 6 中呈現(xiàn)了這種關(guān)系:在當(dāng)前的實(shí)驗(yàn)設(shè)置下,文中所述模型每參數(shù)能穩(wěn)定記憶 3.5 至 3.6 比特的信息。

圖片

這印證了先前研究的發(fā)現(xiàn),即事實(shí)性信息的存儲(chǔ)量與模型容量成線性關(guān)系。文中的估計(jì)值略高于 Allen-Zhu & Li (2024) 的結(jié)果 —— 他們通過(guò)量化方法估計(jì)模型每參數(shù)約可存儲(chǔ) 2 比特信息。

由于模型是通過(guò)梯度下降進(jìn)行學(xué)習(xí)的,因此并不能保證找到全局最優(yōu)解;所以,作者所測(cè)量的始終是模型容量的一個(gè)下限。作者進(jìn)一步仔細(xì)研究了訓(xùn)練曲線,以分析一個(gè)包含 800 萬(wàn)參數(shù)的語(yǔ)言模型的收斂情況。圖 6 展示了模型在訓(xùn)練過(guò)程中的收斂動(dòng)態(tài)。 

可以看到,對(duì)于樣本量從 16,000 到 400 萬(wàn)的各個(gè)數(shù)據(jù)集,其記憶的比特?cái)?shù)均在 3.56×10^6 到 3.65×10^6 的范圍內(nèi)。這表明測(cè)量結(jié)果在一個(gè)數(shù)量級(jí)內(nèi)具有穩(wěn)健性,并且作者認(rèn)為,即使進(jìn)行更多的訓(xùn)練迭代,模型能記憶的信息量也不會(huì)有顯著增加。這一發(fā)現(xiàn)也印證了作者的假設(shè):即模型的容量與參數(shù)數(shù)量大致成正比。 

其中,兩個(gè)最大的數(shù)據(jù)集(樣本量分別為 400 萬(wàn)和 800 萬(wàn)),其收斂后的總記憶量分別為 2.95×10^6 和 1.98×10^6 比特。作者預(yù)計(jì),若進(jìn)行更多輪次的訓(xùn)練,這些模型所記憶的數(shù)據(jù)總量將繼續(xù)向其容量上限增長(zhǎng)。 

精度如何影響容量?

一個(gè)很自然的問(wèn)題是:對(duì) α 的估計(jì)值,在多大程度上取決于語(yǔ)言模型訓(xùn)練時(shí)所用的精度?

事實(shí)上,盡管多數(shù)軟件默認(rèn)采用 32 位精度進(jìn)行訓(xùn)練,但近期研究已表明,即使將語(yǔ)言模型量化到每參數(shù)不足 2 比特的水平,它們?nèi)阅鼙A舸蟛糠衷泄τ谩?/span>

鑒于所有其他實(shí)驗(yàn)均在 bfloat16 精度下進(jìn)行,作者特地在完整的 fp32 精度下重做了這些實(shí)驗(yàn),以分析其對(duì)容量的影響。

結(jié)果顯示,對(duì)于不同規(guī)模的模型,容量均略有提升,α 的平均值也從 3.51 比特 / 參數(shù)增加到了 3.83 比特 / 參數(shù)。

這一增幅遠(yuǎn)不及參數(shù) θ 比特?cái)?shù)實(shí)際達(dá)到的兩倍增長(zhǎng),這表明,當(dāng)精度從 bfloat16 提升至 float32 時(shí),模型中增加的額外比特,大部分并未被用于原始數(shù)據(jù)的存儲(chǔ)。 

更多信息請(qǐng)參見(jiàn)原文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2013-02-28 10:24:18

2022-05-10 23:32:30

比特幣數(shù)字資產(chǎn)區(qū)塊鏈

2016-10-09 13:19:43

2019-04-04 13:00:19

Linuxshell命令

2016-07-06 11:38:10

移動(dòng) 出海

2022-07-26 23:43:29

編程語(yǔ)言開(kāi)發(fā)Java

2022-08-16 08:35:45

Black Hat網(wǎng)絡(luò)安全

2012-06-20 09:39:02

惡意網(wǎng)站

2010-03-26 17:50:17

Python設(shè)計(jì)理念

2025-04-18 09:31:19

2023-07-07 19:23:08

微軟文字Claude

2013-01-15 09:41:45

編程語(yǔ)言

2025-02-20 09:21:51

2024-10-21 11:00:00

2021-10-15 10:11:00

遠(yuǎn)程管理監(jiān)控數(shù)據(jù)中心

2017-08-11 14:21:33

軟件開(kāi)發(fā)前端框架

2023-07-17 08:21:52

漏洞版本項(xiàng)目

2024-04-02 08:41:10

ArrayListSubList場(chǎng)景

2020-11-09 09:56:15

Windows 10Windows微軟

2024-03-07 12:54:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 黄色片在线免费看 | 精品国产一区二区三区性色 | 亚洲视频一区在线观看 | 日韩成人在线观看 | 中文精品视频 | 九九九精品视频 | 无人区国产成人久久三区 | 欧美日韩一区二区在线观看 | 日本涩涩网 | 午夜爱爱网 | 日韩视频一区在线观看 | 日韩欧美精品 | 日韩免费一区 | 性色视频在线观看 | 国产一级免费视频 | 9191成人精品久久 | 99热最新网址 | 高清一区二区三区 | 婷婷99| 成人在线一区二区 | 日韩久久久久久 | 97伦理电影 | 免费在线黄色av | 免费欧美 | 九九热精品视频在线观看 | 伊人激情综合网 | 久久国产精品免费一区二区三区 | 一区二区三区韩国 | 欧洲亚洲一区二区三区 | 91精品国产高清久久久久久久久 | 精品福利在线视频 | 一区二区在线 | 羞羞视频在线观看免费观看 | 日本一道本视频 | www.99re | 中午字幕在线观看 | 国产一区二区三区四区在线观看 | 亚洲精品一区二区在线观看 | 欧美日韩在线播放 | 午夜免费网站 | 日本又色又爽又黄的大片 |