成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NeurIPS 2024 | 大模型的詞表大小,同樣適用于Scaling Law

人工智能 新聞
本文通過實(shí)驗(yàn)驗(yàn)證了詞表大小對語言模型性能有顯著影響。他們發(fā)現(xiàn),對于給定的計算預(yù)算,存在一個最優(yōu)的詞表大小,能夠最大化模型性能。

第一作者陶超凡(Chaofan Tao)是香港大學(xué)(HKU)的四年級博士生,導(dǎo)師是黃毅教授和羅平教授。他本科畢業(yè)于電子科技大學(xué)的英才榮譽(yù)學(xué)院。他的研究論文發(fā)表在ACL、EMNLP、ECCV、NeurIPS、ICML、T-NNLS等期刊和會議上。他獲得了 ACL 2022 年的杰出論文獎。陶超凡的研究興趣包括:1) 高效機(jī)器學(xué)習(xí)與模型加速:以低成本對模型進(jìn)行高效調(diào)優(yōu)和部署。2) 支持多種任務(wù)的通用大型模型,涵蓋不同模態(tài)。

本文是一篇發(fā)表在 NeurIPS 2024 上的論文,單位是香港大學(xué)、Sea AI Lab、Contextual AI 和俄亥俄州立大學(xué)。論文主要探討了大型語言模型(LLMs)的詞表大小對模型性能的影響。

圖片

  • 論文:https://arxiv.org/abs/2407.13623
  • 代碼:https://github.com/sail-sg/scaling-with-vocab/
  • Demo (快速預(yù)計合適的詞表大小):https://huggingface.co/spaces/sail/scaling-with-vocab-demo

摘要

研究大型語言模型(LLMs)的擴(kuò)展法則(scaling laws)時,以前的工作主要關(guān)注模型參數(shù)和訓(xùn)練數(shù)據(jù)的大小,而忽略了詞表大小的作用。本研究通過訓(xùn)練包含不同詞表配置的模型(參數(shù)范圍從 33M 到 3B,字符數(shù)最多 500B),提出了三種方法來預(yù)測計算最優(yōu)的詞表大小:基于 FLOPs 的、基于導(dǎo)數(shù)的和基于損失函數(shù)參數(shù)擬合的估計方法。研究結(jié)果表明,更大的模型應(yīng)該配備更大的詞表,且在給定算力的情況下,最優(yōu)的詞表大小是有上限的。例如,預(yù)測 Llama2-70B 的最優(yōu)詞表大小應(yīng)該是至少 216K,遠(yuǎn)大于其實(shí)際的 32K。通過在不同 FLOPs 預(yù)算下訓(xùn)練 3B 參數(shù)的模型驗(yàn)證了這些預(yù)測,發(fā)現(xiàn)僅僅把原始詞表的大小替換成預(yù)測的最優(yōu)詞表大小,就可以提高模型在多個下游任務(wù)的性能。

圖片

本文發(fā)現(xiàn),模型中的非詞表參數(shù)圖片與相應(yīng)的最優(yōu)詞表參數(shù)圖片之間的關(guān)系遵循冪律,其中圖片的增長速度應(yīng)慢于圖片,即圖片。實(shí)證結(jié)果與我們所提出的 3 種預(yù)測最優(yōu)詞表大小的方法的結(jié)果基本一致。其中較大的圓圈表示較高的損失值。這里圖片指的是詞表大小。

第 1 章 引言

LLMs 通過在大量文本語料庫上進(jìn)行預(yù)訓(xùn)練,利用巨大的計算資源,已經(jīng)取得了顯著的性能。以往的研究主要集中在模型參數(shù)、訓(xùn)練數(shù)據(jù)量和計算資源(如 FLOPs)的變化對模型性能的影響,而忽略了詞表大小這一重要因素。事實(shí)上,詞表大小對語言模型的性能有著不小的影響。所以,本研究旨在填補(bǔ)這一空白,探討詞表大小對 LLMs 性能的影響,并提出預(yù)測最優(yōu)詞表大小的方法。

圖片

如圖,我們提出 3 種預(yù)測最優(yōu)詞表大小的方法 (基于 FLOPs 的、基于導(dǎo)數(shù)的和基于損失函數(shù)參數(shù)擬合的估計方法),并且列出了當(dāng)前主流的大型語言模型(LLMs)的詞表參數(shù)和預(yù)測最優(yōu)詞表參數(shù)的關(guān)系。當(dāng)前大多數(shù) LLMs 的詞表參數(shù)由于詞表大小小于預(yù)測的最優(yōu)值而處于次優(yōu)狀態(tài)。

第 2 章 預(yù)備知識

2.1 擴(kuò)展法則

擴(kuò)展法則 (scaling laws) 考慮了一個計算預(yù)算圖片(以 FLOPs 衡量),目標(biāo)是在模型參數(shù) N 和訓(xùn)數(shù)據(jù)量 D 之間最優(yōu)地分配這個算力的預(yù)算:

圖片

通常情況,我們使用語言模型損失 圖片來度量語言模型:

圖片

其中 圖片是在給定上下文 圖片和詞表大小為 圖片的分詞器的情況下單詞 圖片的輸出概率。

2.2 考慮詞表的擴(kuò)展法則

對訓(xùn)練數(shù)據(jù)量的統(tǒng)計方式

因?yàn)閷τ谕粋€訓(xùn)練語料和給定的分詞算法,不同的詞表大小會得到不同的詞元量 (D), 因此我們以訓(xùn)練字符量(H)來衡量訓(xùn)練數(shù)據(jù)量。為了將我們的發(fā)現(xiàn)與現(xiàn)有的關(guān)于擴(kuò)展規(guī)律的研究聯(lián)系起來,我們需要能夠從 H 映射到 D。這種映射是分詞器的壓縮比,可以通過 圖片計算。分詞器需要表示 H 的標(biāo)記越多,D 就越大,因此壓縮得越少。我們設(shè)計了一個簡單的函數(shù) 圖片來僅從選擇的詞表大小 V 估計這個比例:

圖片

在基于 FLOPs 和損失函數(shù)的估計方法中,我們可以直接統(tǒng)計出訓(xùn)練的詞元數(shù)量。在基于導(dǎo)數(shù)的估計方法,我們是通過 FLOPs 關(guān)于圖片的解析式來導(dǎo)出最優(yōu)的圖片,而不是使用具體的大量實(shí)驗(yàn)數(shù)據(jù)來擬合。這時候,我們需要使用圖片來估計 D 和 H 的關(guān)系。附錄中我們可視化了擬合結(jié)果,并展示了我們的近似方法適用于不同的分詞器,并且對不同的詞表大小具有魯棒性。

對詞表大小非敏感的損失

語言模型損失圖片或者常用的困惑度(perplexity)是隨詞表大小變化而變的,因此在模型詞表大小是非固定的情況,我們不能直接在擴(kuò)展法則中直接采樣這個損失來度量模型。為了公平地評估不同詞表大小的模型,我們采樣了一種歸一化損失函數(shù)圖片,來消減由詞表大小對語言建模損失帶來的影響:

圖片

其中,圖片是給定上下文圖片和詞表大小V的條件下,詞圖片的輸出概率。圖片是詞圖片在分詞之后的語料庫中的出現(xiàn)頻率。

備注:BPC (平均每字的比特數(shù))也是一個值得嘗試的、對詞表大小非敏感的指標(biāo),本文認(rèn)為圖片和 BPC 分別是從詞元(token)和字符 (character) 的角度對語言建模損失進(jìn)行歸一化,達(dá)到對詞表大小非敏感的特點(diǎn)。

第 3 章 分析:為什么最優(yōu)詞表大小受計算限制

我們分析了隨著詞表大小的增長,模型性能先是提高然后降低的原因。詞表大小 圖片對語言模型的性能的影響:

較小的 V:增加詞表大小可以提高標(biāo)記化分詞的效率,也就是用更短的詞元去表示文本,從而提高模型性能。

較大的 V:逐漸增加詞表大小的時候,分詞效率提高的收益會逐漸減少,且可能導(dǎo)致詞表有關(guān)參數(shù)的欠擬合,特別是針對低頻詞的詞表征。

進(jìn)一步地,我們研究了在固定 FLOP 預(yù)算下,詞表如何影響損失,并發(fā)現(xiàn)對于每個 FLOPs 預(yù)算,存在一個使損失最小化的最優(yōu)詞表大小。

圖片

圖上是在不同 FLOP 預(yù)算下,不同詞表大小的損失曲線。對于每個預(yù)算,都存在一個最小化損失的最優(yōu)詞表大小。并且隨著 FLOPs 預(yù)算的增加,這個最優(yōu)詞表大小也會增加(向右移動)。

第 4 章:估計模型的最優(yōu)詞表大小

在第 4 章中,論文描述了三種不同的方法來估計大型語言模型(LLMs)的最優(yōu)詞表大小。這三種方法包括:通過 IsoFLOPs 估計冪律、基于導(dǎo)數(shù)的快速估計和損失公式的參數(shù)擬合。每一種方法都旨在預(yù)測在給定計算預(yù)算下,最優(yōu)的詞表大小應(yīng)該是多少。不失一般性的,我們建立了詞表大小圖片和詞表參數(shù)圖片的關(guān)系,圖片, 其中 d 是詞表征的維度。

4.1 方法 1:通過 IsoFLOPs 估計

這一方法的核心思想是通過保持 FLOPs 不變,變化詞表配置,來探索詞表大小對模型性能的影響。本文定義了 6 組模型,每組的非詞表參數(shù)(模型總參數(shù) - 詞表參數(shù))圖片從 33M 到 1.13B 不等。在每組中,只改變詞表大小 V,從 4K 到 96K 選擇了 10 種大小的詞表,并在相同的 FLOPs 預(yù)算下評估不同的模型。模型架構(gòu)遵循 Llama 模型的設(shè)計,訓(xùn)練數(shù)據(jù)集為 SlimPajama,一個大規(guī)模的文本清理和去重數(shù)據(jù)集,采用了 bfloat16 混合精度訓(xùn)練。本文選擇了每個 FLOPs 預(yù)算下歸一化損失最小的數(shù)據(jù)點(diǎn),曲線如圖所示:

圖片

我們發(fā)現(xiàn)了非詞表參數(shù)圖片、詞表參數(shù)圖片和訓(xùn)練字符數(shù)圖片與 FLOPs 預(yù)算圖片之間的關(guān)系可以用冪律表示。基于以前的研究 [1],數(shù)據(jù)量和模型參數(shù)在最優(yōu)的算力分配下應(yīng)該同比例的放縮,我們在擬合過程中,加入了假設(shè):對于詞表參數(shù)圖片和訓(xùn)練字符數(shù)圖片, 都和 FLOPs 保持同樣的放縮比例。通過擬合,本文得到了以下冪律關(guān)系:

圖片

從擬合結(jié)果我們可以看出:

  • LLMs 對數(shù)據(jù)需求量大。與非詞表參數(shù) 圖片相比,從業(yè)者應(yīng)分配更多計算資源用于訓(xùn)練數(shù)據(jù) 
  • 詞表參數(shù)與 FLOPs 呈冪律關(guān)系(圖片)。隨著模型計算量的增加,更大的詞表大小增強(qiáng)了模型理解更多樣化文本的能力,因此詞表大小對模型擴(kuò)展至關(guān)重要。
  • 詞表參數(shù)圖片應(yīng)比非詞表參數(shù)圖片增長得更慢。這種差異可以從它們的冪律指數(shù)中看出,即圖片

4.2 方法 2:基于導(dǎo)數(shù)的快速估計

這一方法的核心思想是通過計算 FLOPs 相對于詞表大小的導(dǎo)數(shù),并找到零點(diǎn)解,來估計最優(yōu)詞表大小。根據(jù)前人的研究,transformer 架構(gòu)的訓(xùn)練 FLOPs 可以近似表示為:

圖片

通過對 V 求導(dǎo),我們可以得到:

圖片

通過設(shè)置導(dǎo)數(shù)等于 0,我們可以求解最優(yōu)的圖片,也就是圖片。這個方程的解將給出在給定的 FLOPs 預(yù)算下,能夠使 FLOPs 最小化的詞表大小。這種方法的優(yōu)勢在于它不需要大量的實(shí)驗(yàn)數(shù)據(jù),而是通過數(shù)學(xué)推導(dǎo)和數(shù)值方法來快速估計最優(yōu)詞表大小。這對于初步模型設(shè)計和快速迭代非常有用。

在具體的使用過程,我們是通過導(dǎo)數(shù)得到的最優(yōu)的詞表參數(shù) 圖片和非詞表參數(shù) 圖片擬合出了一個符合冪律參數(shù),也就是 圖片中的圖片, 從通過一組輕量化小模型的實(shí)驗(yàn)數(shù)據(jù)點(diǎn)找出一組滿足 圖片和最優(yōu)的 圖片作為初始點(diǎn),結(jié)合圖片,去預(yù)測任意 圖片情況下的最優(yōu)詞表參數(shù),詳見原文。

4.3 方法 3:損失公式的參數(shù)擬合

這一方法的核心思想是直接預(yù)測給定非詞表參數(shù)、詞表參數(shù)和訓(xùn)練字符數(shù)量的損失,然后通過找到損失相對于詞表的最小點(diǎn)來預(yù)測最優(yōu)詞表配置。本文設(shè)計了一個依賴于詞表大小的損失函數(shù):

圖片

其中,圖片是可學(xué)習(xí)的參數(shù)。

通過收集不同非詞表參數(shù)、詞表大小和訓(xùn)練數(shù)據(jù)量的實(shí)驗(yàn)點(diǎn),并使用這些點(diǎn)來擬合上述損失函數(shù)的參數(shù),我們擬合出這個有圖片有關(guān)的損失函數(shù)圖片,從而可以通過對圖片關(guān)于圖片求導(dǎo)的方式,找到最優(yōu)的圖片。這個方法的好處在于,它可以給出任意的非詞表參數(shù)圖片和訓(xùn)練數(shù)據(jù)量 圖片的組合情況下的局部最優(yōu)的詞表大小,而不僅僅是 圖片和訓(xùn)練數(shù)據(jù)量 圖片等比例放縮情況下的最優(yōu)詞表大小。

第 5 章 進(jìn)一步討論

5.1 預(yù)測語言模型的理想詞表大小

在這一節(jié)中,本文報告了基于三種方法預(yù)測的最優(yōu)詞表參數(shù)和大小,遵從以前的關(guān)于 scaling laws 中數(shù)據(jù)量和模型參數(shù)的算力分配有關(guān)工作 [1],訓(xùn)練數(shù)據(jù)的量與非詞表參數(shù)等比例地隨 FLOPs 預(yù)算縮放。  

圖片

我們報告了在給定 圖片的情況下,通過提出的三種方法預(yù)測的最優(yōu)詞表參數(shù) 圖片和詞表大小圖片。我們假設(shè)訓(xùn)練 FLOPs 被最優(yōu)分配,即非詞表參數(shù)和訓(xùn)練數(shù)據(jù)按相同比例擴(kuò)展。結(jié)果分析:

  • 預(yù)測結(jié)果顯示,隨著非詞表參數(shù)的增加,最優(yōu)的詞表參數(shù)和詞表大小也隨之增加。
  • 這表明對于更大的模型,更大的詞表是必要的,以充分利用模型的容量。

值得注意的是,主流 LLMs 通常分配給詞表參數(shù)偏少。然而,學(xué)界和工業(yè)界已經(jīng)開始轉(zhuǎn)向更大的詞表大小。例如 Llama3 的詞表大小從 Llama2 的 32K 增加到 128K。然而,擴(kuò)展數(shù)據(jù)仍然是最關(guān)鍵的部分,解決數(shù)據(jù)稀缺問題應(yīng)成為未來工作的重點(diǎn)。

圖片

為了驗(yàn)證這些預(yù)測,本文在 3B 參數(shù)的模型上進(jìn)行了實(shí)驗(yàn),這些模型在不同的 FLOPs 預(yù)算下進(jìn)行了訓(xùn)練。實(shí)驗(yàn)中,本文比較了使用常規(guī)詞表大小(例如 32K)與使用預(yù)測的最優(yōu)詞表大小的模型性能。性能通過多個下游任務(wù)進(jìn)行評估,包括 ARC-Challenge、Hellaswag 等。實(shí)驗(yàn)結(jié)果表明,使用預(yù)測的最優(yōu)詞表大小的模型在多個任務(wù)上一致地優(yōu)于使用常規(guī)詞表大小的模型。

5.2 訓(xùn)練數(shù)據(jù)量對最優(yōu)詞表大小的影響

圖片

我們之前的實(shí)驗(yàn)主要集中在訓(xùn)練計算預(yù)算為主要約束條件的情況下,我們尋求將其最優(yōu)分配給參數(shù)和訓(xùn)練數(shù)據(jù)。這是擴(kuò)展規(guī)律研究中的典型設(shè)置。然而,在實(shí)踐中,我們經(jīng)常面臨數(shù)據(jù)稀缺或者數(shù)據(jù)相對于模型大小過量的情況,迫使我們進(jìn)行算力次優(yōu)分配時候的訓(xùn)練。為了驗(yàn)證我們的方法 3 能夠處理這些實(shí)際場景中由于訓(xùn)練數(shù)據(jù)量變化對最優(yōu)詞表大小的影響,我們將詞表大小為 圖片的模型與方法 3 預(yù)測的最優(yōu)詞表大小 圖片的模型進(jìn)行了比較。如表所示,我們的預(yù)測可以根據(jù)不同的訓(xùn)練數(shù)據(jù)量,有效調(diào)整詞表大小,實(shí)現(xiàn)了更好的模型。

第 6 章 結(jié)論

本文通過實(shí)驗(yàn)驗(yàn)證了詞表大小對語言模型性能有顯著影響。他們發(fā)現(xiàn),對于給定的計算預(yù)算,存在一個最優(yōu)的詞表大小,能夠最大化模型性能。詞表大小是影響模型性能的關(guān)鍵因素之一。更大的模型受益于更大的詞表,因?yàn)樗鼈冃枰S富的詞表來表達(dá)更復(fù)雜的語言模式。另一方面,詞表參數(shù)應(yīng)該比非詞表參數(shù)增長得慢,但仍然對性能至關(guān)重要。論文提出了三種方法來預(yù)測最優(yōu)詞表大小,這些方法都基于計算預(yù)算和模型性能之間的關(guān)系,論文強(qiáng)調(diào)了在設(shè)計和訓(xùn)練 LLMs 時,需要綜合考慮模型參數(shù)、訓(xùn)練數(shù)據(jù)和詞表大小。本文建議在分配計算資源時,應(yīng)該考慮到詞表大小的影響。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-03-21 09:25:50

Kubernetes開源DevSecOps

2022-05-17 08:00:00

人工智能社交媒體工具

2024-08-29 14:05:00

數(shù)據(jù)模型

2020-11-05 09:39:32

Java技術(shù)開發(fā)

2024-12-30 10:35:00

訓(xùn)練數(shù)據(jù)模型

2024-10-17 10:51:33

2024-11-11 17:35:11

2023-01-15 17:17:53

Linux直播應(yīng)用

2020-08-03 10:20:03

應(yīng)用程序鎖數(shù)據(jù)安全Android

2023-02-06 10:24:26

Linux命令行游戲

2022-09-02 17:47:46

Linux筆記應(yīng)用

2011-12-08 09:43:56

虛擬化vmwareVMware Fusi

2023-11-30 08:55:15

LinuxLibreOffic

2021-08-30 09:00:00

人工智能計算機(jī)視覺機(jī)器學(xué)習(xí)

2024-09-11 12:31:59

2025-02-21 13:20:00

2013-02-21 10:13:25

2021-11-03 10:14:31

PowerEdge

2011-05-13 09:56:23

Ubuntu 11.0

2021-03-18 10:46:00

Linux監(jiān)控工具命令
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩中文字幕 | 国产在线高清 | 久久久五月天 | 国产精品久久久久久久久久东京 | 婷婷中文字幕 | 欧美在线视频二区 | 国产日韩精品久久 | 99精品久久久久 | 福利社午夜影院 | 国产激情一区二区三区 | 日韩三级在线 | 久草在线 | 免费久久网 | 欧美日韩精品免费观看 | 久久五月婷 | 免费特级黄毛片 | 国产精品毛片av一区 | 色约约视频| 韩日av在线 | 一级全黄视频 | 国产精品久久国产精品久久 | 久久久亚洲 | 99免费在线观看视频 | 精品视频在线观看 | 日韩最新网站 | 成人黄色电影在线观看 | 91久久国产 | 日韩精品一区二区三区中文在线 | 中文字幕亚洲精品 | 国产精品视频在线播放 | 欧美精品一区二区三区在线 | 欧美成年视频 | 久久精品久久精品 | 91精品久久久 | 91精品久久久 | 毛片网站在线观看 | 亚洲一区二区 | 一区二区在线 | 亚洲三级在线 | 日韩综合在线 | 福利国产 |