成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大型語言模型的知識(shí)融合(ICLR2024) 原創(chuàng)

發(fā)布于 2024-9-6 13:49
瀏覽
0收藏

?摘要: 從頭開始訓(xùn)練大型語言模型(LLM)可以生成具有獨(dú)特功能和優(yōu)勢(shì)的模型,但這需要巨大的成本,并可能導(dǎo)致冗余功能。另一種具有成本效益且引人注目的方法是將現(xiàn)有的預(yù)訓(xùn)練LLM合并為一個(gè)更強(qiáng)大的模型。然而,由于這些LLM架構(gòu)各不相同,直接融合它們的權(quán)重并不可行。在本文中,我們引入了LLM知識(shí)融合的概念,旨在將現(xiàn)有LLM的能力整合并轉(zhuǎn)移到一個(gè)單一的LLM中。通過利用源LLM的生成分布,我們外化了它們的集體知識(shí)和獨(dú)特優(yōu)勢(shì),從而有可能將目標(biāo)模型的能力提升到超越任何單一源LLM的水平。我們使用三種具有不同架構(gòu)的流行LLM——Llama-2、MPT 和 OpenLLaMA——在各種基準(zhǔn)和任務(wù)中驗(yàn)證了我們的方法。我們的研究結(jié)果表明,LLM的融合可以提高目標(biāo)模型在推理、常識(shí)和代碼生成等多種能力上的表現(xiàn)。我們的代碼、模型權(quán)重和數(shù)據(jù)已公開在(https://github.com/fanqiwan/FuseLLM)。

(論文思想:假設(shè)我們有三個(gè)大型語言模型(LLMs):Llama-2、OpenLLaMA和MPT,它們分別擅長不同任務(wù)。Llama-2在推理任務(wù)中表現(xiàn)最佳,OpenLLaMA在常識(shí)問答上表現(xiàn)出色,而MPT在代碼生成方面非常強(qiáng)大。

現(xiàn)在,我們希望通過FUSELLM方法將這三個(gè)模型的知識(shí)融合到一個(gè)新的目標(biāo)模型中,讓這個(gè)目標(biāo)模型同時(shí)具備這三種能力。以下是FUSELLM方法如何工作的一個(gè)簡化示例:

1. 概率分布提?。何覀兲峁┮粋€(gè)文本序列,比如 `"The capital of France is..."`,讓Llama-2、OpenLLaMA和MPT分別預(yù)測(cè)下一個(gè)單詞是什么,并生成它們的概率分布。Llama-2可能對(duì)“Paris”有較高的概率,OpenLLaMA對(duì)“Paris”也有類似的預(yù)測(cè),而MPT雖然更擅長代碼生成,但也會(huì)給出一個(gè)相對(duì)較低的概率。

2. 詞匯對(duì)齊:由于每個(gè)模型使用的分詞器可能不同,我們需要對(duì)齊它們生成的tokens,確保這些模型的輸出可以被比較和融合。例如,如果一個(gè)模型預(yù)測(cè)的是“Paris”,而另一個(gè)模型可能將其分為兩個(gè)token:“Par-” 和 “-is”,我們通過最小編輯距離對(duì)齊這些token。

3. 概率融合:我們將三個(gè)模型的概率分布進(jìn)行融合。假設(shè)Llama-2和OpenLLaMA在常識(shí)問答中表現(xiàn)較好,它們的預(yù)測(cè)權(quán)重會(huì)更高。我們選擇使用MinCE方法,也就是選擇具有最小交叉熵分?jǐn)?shù)的模型概率分布,因此目標(biāo)模型會(huì)傾向于使用Llama-2和OpenLLaMA的預(yù)測(cè)。

4. 持續(xù)訓(xùn)練:接著,我們用這些融合后的概率分布來指導(dǎo)目標(biāo)模型的訓(xùn)練,通過最小化目標(biāo)模型的預(yù)測(cè)與融合分布之間的差異,讓目標(biāo)模型逐步學(xué)習(xí)這三個(gè)模型的能力。

最終,目標(biāo)模型經(jīng)過持續(xù)訓(xùn)練,不僅可以像Llama-2那樣擅長推理,還能像OpenLLaMA一樣處理常識(shí)問題,并在代碼生成任務(wù)上有類似MPT的表現(xiàn)。這個(gè)融合后的模型將具備更廣泛的能力,能夠在多種任務(wù)中表現(xiàn)出色。)

1、引言

隨著大型語言模型(LLMs)如GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023)系列在各種自然語言處理(NLP)任務(wù)中的持續(xù)成功,開發(fā)屬于自己的LLM已成為公司戰(zhàn)略的關(guān)鍵。然而,LLM開發(fā)成本極其高昂。除了需要大量的訓(xùn)練數(shù)據(jù)、高級(jí)技術(shù)、巨大的計(jì)算資源和熟練的勞動(dòng)力外,開發(fā)過程還對(duì)能源消耗和環(huán)境造成巨大壓力(Rillig et al., 2023)。雖然這些LLMs在結(jié)構(gòu)和功能上有所不同,但它們?cè)谝幌盗蠳LP任務(wù)上有著相似的能力。因此,除了從零開始訓(xùn)練LLM的傳統(tǒng)方法外,還有一種替代選擇是將現(xiàn)有的LLM組合成一個(gè)新的、更強(qiáng)大的模型,本文稱之為LLM的知識(shí)融合。如果成功,這種融合不僅可以降低初始訓(xùn)練成本,還能使集成模型受益于所有LLM的優(yōu)勢(shì)。該新模型也可以通過微調(diào)和適應(yīng)各種下游任務(wù)。此外,融合也可以發(fā)生在專注于特定任務(wù)的微調(diào)LLM之間。

整合多個(gè)模型能力的嘗試由來已久。例如,集成方法(Littlestone & Warmuth, 1994; Jiang et al., 2023)直接聚合不同模型的輸出,以增強(qiáng)預(yù)測(cè)性能和魯棒性。然而,這種方法需要維護(hù)多個(gè)訓(xùn)練好的模型,并在推理時(shí)執(zhí)行每一個(gè)模型,這對(duì)于LLM來說是不可行的,因?yàn)樗鼈冃枰罅康膬?nèi)存和推理時(shí)間。同樣,這種方法不支持微調(diào),而微調(diào)對(duì)于許多LLM來說至關(guān)重要。另一種方法是通過參數(shù)級(jí)的算術(shù)操作直接將多個(gè)神經(jīng)網(wǎng)絡(luò)合并為一個(gè)網(wǎng)絡(luò)(Wortsman et al., 2022; Jin et al., 2022)。這種方法通常假設(shè)網(wǎng)絡(luò)架構(gòu)統(tǒng)一,并嘗試在不同神經(jīng)網(wǎng)絡(luò)權(quán)重之間建立映射,但在LLM的上下文中,這往往是難以實(shí)現(xiàn)的。此外,當(dāng)參數(shù)空間存在較大差異時(shí),權(quán)重融合可能會(huì)導(dǎo)致次優(yōu)結(jié)果(Li et al., 2022)。

在本文中,我們從概率分布的角度探討LLM的融合。對(duì)于一個(gè)輸入文本,我們認(rèn)為不同源LLM生成的概率分布可以反映它們對(duì)該文本的固有知識(shí)。因此,提出的FUSELLM方法利用源LLM的生成分布,將它們的集體知識(shí)和個(gè)體優(yōu)勢(shì)外化,并通過輕量級(jí)的持續(xù)訓(xùn)練將這些知識(shí)轉(zhuǎn)移到目標(biāo)LLM中。為此,我們開發(fā)了一種新策略,用于對(duì)齊來自不同LLM的分詞,并探索了兩種融合這些多樣化LLM生成的概率分布的方法。在持續(xù)訓(xùn)練過程中,F(xiàn)USELLM非常重視最小化目標(biāo)LLM的概率分布與源LLM的概率分布之間的差異。

為了實(shí)證證明FUSELLM的有效性,我們?cè)谝粋€(gè)具有挑戰(zhàn)性但通用的LLM融合場(chǎng)景中進(jìn)行實(shí)驗(yàn),其中源模型之間的共性最小。具體來說,我們重點(diǎn)關(guān)注三個(gè)具有不同架構(gòu)和功能的流行開源LLM:Llama-2(Touvron et al., 2023)、OpenLLaMA(Geng & Liu, 2023)和MPT(Team, 2023)。通過對(duì)跨越推理、常識(shí)和代碼生成的三個(gè)基準(zhǔn)共42個(gè)任務(wù)的評(píng)估,驗(yàn)證了我們的方法訓(xùn)練出的目標(biāo)模型在大多數(shù)任務(wù)中都優(yōu)于每個(gè)源LLM和基線。此外,我們通過在多個(gè)特定領(lǐng)域語料庫上持續(xù)訓(xùn)練單個(gè)基礎(chǔ)模型,模擬了具有相同架構(gòu)但功能不同的LLM的存在。根據(jù)困惑度(perplexity)的評(píng)估結(jié)果表明,F(xiàn)USELLM在將這些結(jié)構(gòu)相同的LLM的能力組合起來時(shí),表現(xiàn)出比傳統(tǒng)的集成和權(quán)重融合方法更強(qiáng)的潛力。

總而言之,本文探討了一個(gè)新的挑戰(zhàn),即LLM的融合,旨在創(chuàng)建一個(gè)能夠有效利用多樣化LLM集體能力和獨(dú)特優(yōu)勢(shì)的統(tǒng)一模型。如圖1所示,我們提出的方法區(qū)別于傳統(tǒng)的集成和權(quán)重融合技術(shù),通過優(yōu)先外化和轉(zhuǎn)移多個(gè)LLM的知識(shí)進(jìn)行融合。本研究得出了一些可能引發(fā)未來研究的發(fā)現(xiàn)。首先,盡管我們通過輕量級(jí)的持續(xù)訓(xùn)練在緊湊、高質(zhì)量的語料庫上展示了我們方法的有效性,但訓(xùn)練語料庫的精心選擇可能是一個(gè)關(guān)鍵考慮因素,尤其是其與下游任務(wù)的相關(guān)性。其次,在源LLM能力差異顯著的情況下,融合功能對(duì)于有效結(jié)合各自的優(yōu)勢(shì)至關(guān)重要。最后,與傳統(tǒng)的模型集成和融合技術(shù)相比,LLM融合領(lǐng)域似乎是一條更具探索前景的途徑,特別是在考慮到LLM的多樣化結(jié)構(gòu)和巨大的模型規(guī)模時(shí)。

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

圖1:展示了傳統(tǒng)模型融合技術(shù)(集成和權(quán)重合并)以及我們針對(duì)大型語言模型(LLMs)的知識(shí)融合方法(FUSELLM)。不同的動(dòng)物圖標(biāo)代表不同的LLMs,不同種類表示擁有不同架構(gòu)的LLMs。FUSELLM將多個(gè)LLMs的知識(shí)外化,并將它們的能力轉(zhuǎn)移到目標(biāo)LLM上。

2、相關(guān)工作

模型融合

整合不同模型的能力一直是一個(gè)長期的目標(biāo),現(xiàn)有的方法主要分為兩類。首先,傳統(tǒng)的模型集成技術(shù)通過結(jié)合多個(gè)模型的輸出來增強(qiáng)系統(tǒng)整體性能(Littlestone & Warmuth, 1994;Sagi & Rokach, 2018)。需要注意的是,這種技術(shù)并不涉及將多個(gè)模型顯式地合并為一個(gè)新模型。常見的模型集成方法包括加權(quán)平均(Littlestone & Warmuth, 1994)或多數(shù)投票(Monteith et al., 2011),以整合不同模型的預(yù)測(cè)結(jié)果。最近,Jiang等人(2023)引入了一個(gè)集成框架,旨在利用多個(gè)開源LLM的多樣化優(yōu)勢(shì)。該框架首先使用成對(duì)比較方法來檢測(cè)候選輸出之間的細(xì)微差異,隨后結(jié)合最優(yōu)的候選結(jié)果以產(chǎn)生增強(qiáng)的輸出,發(fā)揮其優(yōu)勢(shì)并減少其劣勢(shì)。

其次,權(quán)重融合是另一種通過參數(shù)層面實(shí)現(xiàn)模型融合的方法。Gupta等人(2020)和Wortsman等人(2022)通過不同策略或配置獲得的具有相同結(jié)構(gòu)的模型權(quán)重進(jìn)行融合,以提高整體性能。同樣,Cha等人(2021)、Rame等人(2022)和Arpit等人(2022)通過加權(quán)平均不同配置的模型來提高分布外(out-of-distribution)的泛化能力。此外,Jin等人(2022)將為特定領(lǐng)域或任務(wù)設(shè)計(jì)的模型融合在一起,以創(chuàng)建能夠處理所有領(lǐng)域或任務(wù)的通用模型。除了對(duì)整個(gè)模型進(jìn)行參數(shù)融合之外,Wang等人(2022b)、Huang等人(2023)和Zhang等人(2023)還應(yīng)用線性數(shù)學(xué)運(yùn)算對(duì)適配器參數(shù)進(jìn)行融合,以實(shí)現(xiàn)更好的泛化性能。

總而言之,雖然模型集成需要并行部署多個(gè)模型,權(quán)重融合通常僅限于結(jié)構(gòu)相同的模型。相比之下,本文提出的方法支持通過顯式轉(zhuǎn)移其知識(shí)和能力,將具有不同架構(gòu)的多個(gè)LLM進(jìn)行融合。

知識(shí)蒸餾

知識(shí)蒸餾(Hinton et al., 2015)最初提出用于模型壓縮,它包括在一個(gè)或多個(gè)教師模型的指導(dǎo)下訓(xùn)練學(xué)生模型。在NLP領(lǐng)域,知識(shí)蒸餾廣泛應(yīng)用于文本分類任務(wù)中。這些應(yīng)用包括訓(xùn)練學(xué)生模型以復(fù)制教師模型的輸出分布(Sanh et al., 2019;Turc et al., 2019),以及教師模型中間層提取的特征(Sun et al., 2019;Jiao et al., 2020)和關(guān)系(Wang et al., 2020)。在文本生成領(lǐng)域,傳統(tǒng)方法側(cè)重于最小化學(xué)生模型和教師模型生成分布之間的KL散度。這是通過使用教師在每個(gè)時(shí)間步的概率分布作為監(jiān)督來實(shí)現(xiàn)的(Khanuja et al., 2021;Gu et al., 2023),或者直接在教師生成的文本上進(jìn)行訓(xùn)練(Peng et al., 2023;Xu et al., 2023)。

盡管我們的方法框架類似于多教師知識(shí)蒸餾,但存在兩個(gè)顯著區(qū)別。首先,在傳統(tǒng)的知識(shí)蒸餾中,學(xué)生模型通常被限制為比教師模型小的尺寸。然而,在我們的場(chǎng)景中,對(duì)目標(biāo)模型的尺寸沒有限制。其次,傳統(tǒng)的知識(shí)蒸餾通常會(huì)導(dǎo)致學(xué)生模型在蒸餾后性能低于教師模型。相反,我們期望在融合之后,目標(biāo)模型的性能能超越任何單個(gè)源模型。

3、大型語言模型的知識(shí)融合

LLM融合的主要目標(biāo)是外化多個(gè)源LLM中嵌入的集體知識(shí),并將它們的能力整合到目標(biāo)LLM中。給定 K 個(gè)源LLM {Msj}j=1K,這些模型架構(gòu)各異,并分別在不同的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練或微調(diào)。我們提出的核心思想是通過預(yù)測(cè)下一個(gè)token來激發(fā)這些LLM展現(xiàn)其固有的知識(shí)。通過評(píng)估這些預(yù)測(cè)生成的概率分布,我們使用最準(zhǔn)確的預(yù)測(cè)來對(duì)目標(biāo)LLM Mt 進(jìn)行持續(xù)訓(xùn)練,使用語料庫 C 并基于因果語言建模(CLM)目標(biāo)進(jìn)行訓(xùn)練。在接下來的部分中,我們首先簡要介紹基本概念,然后詳細(xì)說明我們的LLM融合框架,最后討論實(shí)現(xiàn)細(xì)節(jié)。

3.1 基本概念

設(shè) t 表示從語料庫 C 中采樣的長度為 N 的文本序列,t_{<i} = (t_1, t_2, ..., t_{i-1}) 表示第 i 個(gè)token之前的序列?;谝蚬Z言建模(CLM)目標(biāo)對(duì)參數(shù)化為 θ 的語言模型進(jìn)行訓(xùn)練,其定義為最小化負(fù)對(duì)數(shù)似然:

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

其中,p_{θ}(t_i | t_{<i}) 是模型給定前面token后對(duì)token t_i 的預(yù)測(cè)概率。

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

上述目標(biāo)將序列的似然分解為token級(jí)的交叉熵?fù)p失,將每個(gè)token的預(yù)測(cè)分布與其單熱(one-hot)表示進(jìn)行比較。為了提供一個(gè)更廣泛的視角,我們將這種token級(jí)的視圖重新框定為順序分布的格式。具體而言,對(duì)于文本序列 t,我們將token級(jí)預(yù)測(cè)聚合并創(chuàng)建一個(gè)概率分布矩陣 P_{θ}^t in mathbb{R}^{N times V},其中第 i 行表示模型對(duì)第 i 個(gè)token在詞匯表大小為 V 的情況下預(yù)測(cè)的分布。然后,CLM目標(biāo)可以解釋為減少 P_{θ}^t 和單熱標(biāo)簽矩陣 O^t in 0, 1^{N times V} 之間的差異,每行都是對(duì)應(yīng)金標(biāo)token的單熱表示。形式上,CLM目標(biāo)轉(zhuǎn)化為以下表示:

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

其中 D(·,·) 表示兩個(gè)矩陣之間的差異函數(shù),當(dāng)使用KL散度實(shí)現(xiàn)時(shí),等價(jià)于公式(1)。

3.2 LLM的融合

基于對(duì)語言模型的這一觀點(diǎn),我們認(rèn)為概率分布矩陣可以反映其對(duì)文本理解中的某些固有知識(shí)。因此,來自不同LLM的相同文本的不同概率分布矩陣可用于表示這些模型中嵌入的多樣化知識(shí)。考慮到這一點(diǎn),所提出的FUSELLM方法通過概率建模來處理LLM的融合,旨在通過融合源LLM的概率分布來創(chuàng)建一個(gè)統(tǒng)一的LLM。為實(shí)現(xiàn)這一點(diǎn),在開始融合一組LLM時(shí),F(xiàn)USELLM會(huì)對(duì)目標(biāo)LLM進(jìn)行輕量級(jí)的持續(xù)訓(xùn)練,使用一個(gè)與預(yù)訓(xùn)練數(shù)據(jù)集類似的原始文本語料庫。除了依賴CLM目標(biāo)外,F(xiàn)USELLM還重點(diǎn)最小化目標(biāo)LLM的預(yù)測(cè)概率分布與源LLM概率分布之間的差異。

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

對(duì)于語料庫 C 中的每個(gè)文本,我們應(yīng)用提供的 K 個(gè)源LLM并獲得一組概率分布矩陣,表示為 P_{θ_j}^t_{j=1}^{K},其中 θ_j 表示第 j 個(gè)LLM的參數(shù)。利用這些矩陣,我們將單個(gè)模型的知識(shí)外化到一個(gè)統(tǒng)一的空間,實(shí)際上是在文本上創(chuàng)建了統(tǒng)一的概率表示。我們承認(rèn)源LLM之間詞匯表的差異可能導(dǎo)致矩陣 P_{θ_j}^t_{j=1}^{K} 未對(duì)齊。為了解決這個(gè)問題,我們采用了一個(gè)詞匯對(duì)齊策略,這將在3.3節(jié)中進(jìn)行解釋,以促進(jìn)跨模型的更一致概率解釋。

在對(duì)齊概率矩陣后,我們繼續(xù)將它們?nèi)诤蠟橐粋€(gè)緊湊的表示??梢詰?yīng)用多種融合策略來實(shí)現(xiàn)這一目標(biāo),具體將在3.3節(jié)中詳細(xì)介紹。我們用 P^t 來表示融合后的表示矩陣,定義如下:

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

其中 text{Fusion}(·) 表示組合多個(gè)矩陣的函數(shù),結(jié)果矩陣 P^t 被視為源LLM集體知識(shí)和獨(dú)特優(yōu)勢(shì)的表示。

為了將源LLM的能力轉(zhuǎn)移到目標(biāo)LLM,我們?cè)谀繕?biāo)LLM的預(yù)測(cè)與融合表示矩陣 P^t 之間強(qiáng)制對(duì)齊。我們用 Q^t 來表示目標(biāo)LLM對(duì)文本 t 的輸出分布矩陣,然后將融合目標(biāo)定義為:

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

我們的持續(xù)訓(xùn)練的總體目標(biāo)包括CLM目標(biāo) L_{text{CLM}} 和融合目標(biāo) L_{text{Fusion}} 的加權(quán)組合,公式如下:

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

3.3 FUSELLM的實(shí)現(xiàn)

在本節(jié)中,我們介紹FUSELLM方法中詞匯對(duì)齊和融合函數(shù)的實(shí)現(xiàn)細(xì)節(jié)。

詞匯對(duì)齊

確保多個(gè)LLM之間的token對(duì)齊對(duì)知識(shí)融合至關(guān)重要,因?yàn)樗梢员WC概率分布矩陣的正確映射。Fu等人(2023)采用動(dòng)態(tài)規(guī)劃的方法,通過遞歸最小化將一個(gè)token序列編輯為另一個(gè)序列的總成本。如果兩個(gè)token之間存在一對(duì)一的映射,則對(duì)應(yīng)的概率分布完全映射。否則,映射的分布退化為單熱向量。由于由不同分詞器為相同序列生成的token通常差異有限,我們建議通過用最小編輯距離(MinED)策略替換Fu等人(2023)提出的精確匹配(EM)約束,以基于最小編輯距離對(duì)不同分詞器生成的token進(jìn)行映射。這種對(duì)齊方式的放寬有助于在分布矩陣中保留大量信息,同時(shí)引入的誤差很小。更多詞匯對(duì)齊的細(xì)節(jié)可參考附錄A。

融合策略

為了在保留源LLM獨(dú)特優(yōu)勢(shì)的同時(shí)整合其集體知識(shí),評(píng)估不同LLM的質(zhì)量并對(duì)其相應(yīng)的分布矩陣賦予不同的重要性是至關(guān)重要的。為此,在處理文本 t 時(shí),我們使用分布矩陣與金標(biāo)標(biāo)簽之間的交叉熵?fù)p失作為LLM預(yù)測(cè)質(zhì)量的指標(biāo)(Marion et al., 2023)。較低的交叉熵分?jǐn)?shù)表明源LLM對(duì)文本的理解更準(zhǔn)確,其預(yù)測(cè)應(yīng)賦予更大的權(quán)重?;谶@一標(biāo)準(zhǔn),我們引入了兩種融合函數(shù):(1) MinCE:該函數(shù)輸出交叉熵分?jǐn)?shù)最低的分布矩陣;(2) AvgCE:該函數(shù)根據(jù)交叉熵分?jǐn)?shù)對(duì)分布矩陣進(jìn)行加權(quán)平均。

FUSELLM方法的完整流程在算法1中描述。

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)


4、實(shí)驗(yàn)

在我們的實(shí)驗(yàn)中,我們考慮了一種通用但具有挑戰(zhàn)性的LLM融合場(chǎng)景,其中源模型在架構(gòu)或功能上幾乎沒有共性。具體來說,我們?cè)?B規(guī)模下進(jìn)行實(shí)驗(yàn),并選擇了三個(gè)具有代表性的開源模型:Llama-2、OpenLLaMA和MPT作為融合的源LLM。對(duì)于目標(biāo)LLM,我們選擇了另一個(gè)Llama-2 7B,它通常是三個(gè)源LLM中最強(qiáng)大的一個(gè)。目標(biāo)LLM從與源模型相同的預(yù)訓(xùn)練權(quán)重開始,但在訓(xùn)練期間會(huì)更新參數(shù)。為了評(píng)估FUSELLM的性能,我們?cè)谕评?、常識(shí)和代碼生成能力的基準(zhǔn)上進(jìn)行了實(shí)驗(yàn)。

4.1 實(shí)驗(yàn)設(shè)置

用于持續(xù)訓(xùn)練的數(shù)據(jù)集

為了持續(xù)訓(xùn)練目標(biāo)LLM進(jìn)行LLM融合,重要的是選擇一個(gè)緊湊且多樣化的訓(xùn)練數(shù)據(jù)集。我們選擇了MiniPile,這是通過仔細(xì)的聚類和篩選過程生成的精選數(shù)據(jù)集。MiniPile由大約100萬個(gè)文檔組成,涵蓋22個(gè)領(lǐng)域,包含18億個(gè)token,約占Llama-2訓(xùn)練token的0.1%。更多數(shù)據(jù)集的詳細(xì)信息可參見附錄B。

融合函數(shù)

對(duì)于融合函數(shù),我們使用最小交叉熵(MinCE)。然而,我們將在第4.4節(jié)中考察使用其他融合函數(shù)的影響。

訓(xùn)練細(xì)節(jié)

我們使用批量大小為128、最大長度為2048的Llama-2 7B目標(biāo)LLM,訓(xùn)練在配備8個(gè)每個(gè)40GB顯存的NVIDIA A100 GPU的單節(jié)點(diǎn)上進(jìn)行。我們的訓(xùn)練框架基于Huggingface Transformers(Wolf et al., 2020)并通過FlashAttention(Dao et al., 2022)加速。我們經(jīng)驗(yàn)性地將公式(5)中的組合權(quán)重(lambda)設(shè)置為0.9。訓(xùn)練僅進(jìn)行一個(gè)epoch,約需33小時(shí)。更多超參數(shù)的細(xì)節(jié)可參見附錄C。

評(píng)估

我們?cè)谌齻€(gè)基準(zhǔn)上評(píng)估FUSELLM,這些基準(zhǔn)代表LLM的不同核心能力,涵蓋推理、常識(shí)和代碼生成。

- Big-Bench Hard (BBH)(Suzgun et al., 2022)是一個(gè)評(píng)估LLM推理能力的基準(zhǔn)。它包含23個(gè)選擇題任務(wù)和4個(gè)自由生成任務(wù),來自Big-Bench(Srivastava et al., 2022),可分為四類:算法和算術(shù)推理、自然語言理解、世界知識(shí)和多語言知識(shí)與推理。我們遵循之前的工作(Wang et al., 2023b),基于少樣本鏈?zhǔn)剿季S(CoT)提示生成預(yù)測(cè)并計(jì)算精確匹配(EM)準(zhǔn)確率。

- Common Sense (CS) 是一個(gè)評(píng)估LLM常識(shí)能力的基準(zhǔn)。我們考慮了5個(gè)標(biāo)準(zhǔn)選擇題任務(wù):ARC easy和ARC challenge(Clark et al., 2018)、BoolQ(Clark et al., 2019a)、HellaSwag(Zellers et al., 2019)和OpenBookQA(Mihaylov et al., 2018)。我們使用lm-eval-hardness(Gao et al., 2021)進(jìn)行基于似然的零樣本評(píng)估。具體來說,我們選擇給定上下文情況下似然最高的選項(xiàng)并報(bào)告準(zhǔn)確率。

- MultiPL-E (ME)(Cassano et al., 2022)是一個(gè)多語言編程基準(zhǔn),用于評(píng)估LLM的代碼生成能力。它由Python基準(zhǔn)(Chen et al., 2021)翻譯而成,覆蓋18種編程語言的平行數(shù)據(jù)集。我們使用bigcode-evaluation-hardness(Ben Allal et al., 2022)進(jìn)行零樣本代碼生成,涉及10種流行編程語言的HumanEval類任務(wù),并基于每個(gè)問題生成的20個(gè)樣本報(bào)告pass@1(Chen et al., 2021)得分。

基線

在我們的實(shí)驗(yàn)中,我們將FUSELLM與兩組基線進(jìn)行比較:(1) 原始LLM,包括Llama-2 7B、OpenLLaMA 7B和MPT 7B;(2) Llama-2 CLM:僅使用因果語言建模目標(biāo)在MiniPile上持續(xù)訓(xùn)練的Llama-2 7B。

4.2 總體結(jié)果

表1展示了FUSELLM與基線方法在BBH上的總體結(jié)果。可以看到,三個(gè)源LLM在27個(gè)BBH任務(wù)上的表現(xiàn)各不相同,通常Llama-2表現(xiàn)優(yōu)于其他模型。使用緊湊且多樣的語料庫進(jìn)行持續(xù)訓(xùn)練后,Llama-2 CLM相較于Llama-2表現(xiàn)出1.86%的相對(duì)提升,盡管這一提升相對(duì)溫和且在不同任務(wù)中的一致性不高。總體而言,F(xiàn)USELLM在所有27個(gè)任務(wù)中的平均相對(duì)性能提升為5.16%,顯著優(yōu)于原始Llama-2。在某些特定任務(wù)中,F(xiàn)USELLM的增強(qiáng)效果尤為顯著(例如,Hyperbaton任務(wù)中的準(zhǔn)確率從54.40提升至65.20)。在一些簡單持續(xù)預(yù)訓(xùn)練導(dǎo)致性能下降的任務(wù)中(如Dyck Languages),F(xiàn)USELLM通過結(jié)合個(gè)體源LLM的優(yōu)勢(shì)實(shí)現(xiàn)了性能恢復(fù)。需要注意的是,F(xiàn)USELLM偶爾在某些任務(wù)(如Geometric Shapes和Word Sorting)上表現(xiàn)不佳,這可能有兩個(gè)原因。首先,除了Llama-2以外的其他源LLM在這些任務(wù)上的表現(xiàn)較差,影響了融合結(jié)果。其次,持續(xù)訓(xùn)練數(shù)據(jù)集與下游任務(wù)的相關(guān)性也對(duì)性能下降有所貢獻(xiàn)。


大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

表2展示了FUSELLM與基線方法在Common Sense基準(zhǔn)上的零樣本性能。結(jié)果表明,F(xiàn)USELLM在所有五個(gè)任務(wù)上持續(xù)超越基線,平均相對(duì)性能提升為1.25%。相比之下,Llama-2 CLM僅表現(xiàn)出0.16%的相對(duì)提升,且提升幅度較小。在具有挑戰(zhàn)性的ARC-challenge(2.40%)和OpenBookQA(2.71%)任務(wù)中,從Llama-2到FUSELLM的顯著提升突顯了FUSELLM在利用集體知識(shí)解決復(fù)雜問題方面的有效性。

對(duì)于代碼生成評(píng)估,表3展示了FUSELLM在MultiPL-E基準(zhǔn)上的零樣本性能。我們觀察到,F(xiàn)USELLM在10個(gè)任務(wù)中的9個(gè)上優(yōu)于Llama-2,特別是在某些編程語言(如R)的pass@1得分上有顯著提升,從4.97提升至5.84。由于OpenLLaMA和MPT在代碼生成任務(wù)中相比Llama-2表現(xiàn)出色,通過FUSELLM融合的結(jié)果在平均表現(xiàn)上提升了6.36%,遠(yuǎn)高于Llama-2 CLM的1.37%提升。然而,值得注意的是,在該評(píng)估中FUSELLM仍然表現(xiàn)出與OpenLLaMA或MPT相比的性能差距。這種差異可以歸因于兩個(gè)主要原因:Llama-2作為目標(biāo)模型在代碼生成上的初始表現(xiàn)較差,以及持續(xù)訓(xùn)練語料庫中與代碼相關(guān)的文本比例不足,估計(jì)約為7.59%。


大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

4.3 融合概率分布的效果

我們探討了從多個(gè)LLM獲得的融合概率分布的有效性,并跟蹤訓(xùn)練過程中性能提升的趨勢(shì)。圖2展示了在BBH上的少樣本CoT性能隨訓(xùn)練數(shù)據(jù)規(guī)模的變化情況。我們的觀察表明,F(xiàn)USELLM相比Llama-2 CLM在精確匹配(EM)準(zhǔn)確率上提升了2.5%,并在僅使用0.52億個(gè)token時(shí)達(dá)到了Llama-2 CLM最佳性能。值得注意的是,與Llama-2 CLM需要的15.7億個(gè)token相比,這代表了訓(xùn)練token需求的3.9倍減少。這些結(jié)果表明,LLM生成的概率分布包含比原始文本序列更易學(xué)習(xí)的知識(shí),從而加速了優(yōu)化過程。


大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

4.4 實(shí)現(xiàn)過程分析

在本節(jié)中,我們深入探討了FUSELLM實(shí)現(xiàn)中的關(guān)鍵要素,包括源LLM的數(shù)量、詞匯對(duì)齊的標(biāo)準(zhǔn)以及融合函數(shù)的選擇。

源LLM的數(shù)量

我們展示了融合不同數(shù)量的LLM的結(jié)果。我們注意到,隨著模型數(shù)量從1增加到3,F(xiàn)USELLM的性能顯著提高。然而,整合更多模型的好處在各個(gè)基準(zhǔn)中的表現(xiàn)有所不同。在BBH中,性能提升是顯而易見的;而在CS或ME中,當(dāng)融合兩個(gè)模型時(shí),提升效果更加顯著。這種現(xiàn)象可能是由于三個(gè)模型在BBH中的各項(xiàng)任務(wù)上性能差異較大,而在CS或ME任務(wù)上的性能差異相對(duì)較小。


大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

詞匯對(duì)齊的標(biāo)準(zhǔn)

在LLM融合過程中,確保不同模型生成的tokens和詞匯表的一致性至關(guān)重要。顯然,基于最小編輯距離(MinED)的方法相比Fu等人(

2023)提出的精確匹配(EM)方法表現(xiàn)更優(yōu)。我們推測(cè)這種性能提升源于MinED的寬松限制,能夠有效對(duì)齊由不同分詞器生成的輕微差異的tokens,從而保留了大量有用的token信息,同時(shí)引入的錯(cuò)誤較少。

融合函數(shù)的選擇

在3.3節(jié)中,我們介紹了FUSELLM的兩種融合函數(shù):一種是使用最小交叉熵分?jǐn)?shù)(MinCE)的分布矩陣,另一種是基于交叉熵分?jǐn)?shù)對(duì)分布矩陣進(jìn)行加權(quán)平均(AvgCE)。結(jié)果表明,F(xiàn)USELLM使用MinCE在所有基準(zhǔn)上的表現(xiàn)優(yōu)于AvgCE。這可能是由于AvgCE中的簡單加權(quán)平均引入了扭曲,削弱了各個(gè)LLM的獨(dú)特優(yōu)勢(shì)。


大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

4.5 FUSELLM與知識(shí)蒸餾的比較

雖然知識(shí)蒸餾技術(shù)也可以用于提升LLM的能力,但FUSELLM在兩個(gè)方面脫穎而出,正如前文所述。在本節(jié)中,我們將FUSELLM與傳統(tǒng)的知識(shí)蒸餾進(jìn)行比較。具體而言,我們從Llama-2 13B中提取概率分布,并應(yīng)用傳統(tǒng)知識(shí)蒸餾方法,將其能力轉(zhuǎn)移到Llama-2 7B中。通過知識(shí)蒸餾獲得的模型(Llama-2 KD)在所有基準(zhǔn)上表現(xiàn)優(yōu)于原始Llama-2 7B,證明了知識(shí)蒸餾的有效性。然而,與FUSELLM相比,Llama-2 KD的提升幅度相對(duì)較小,尤其是在BBH中(2.97% vs. 5.16%)。這表明通過持續(xù)訓(xùn)練集成三種具有不同架構(gòu)的7B模型,F(xiàn)USELLM獲得的優(yōu)越結(jié)果超越了從單個(gè)13B模型中簡單提取知識(shí)的收益。這一觀察突出了“更多有不同,差異也能成就更多”的理念。


大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

4.6 FUSELLM與集成/融合的比較

正如之前提到的,傳統(tǒng)技術(shù)如模型集成和權(quán)重融合通常用于融合多個(gè)大型語言模型(LLMs)。為了比較我們提出的FUSELLM與這些現(xiàn)有融合方法的有效性,我們進(jìn)行了實(shí)驗(yàn),模擬了多個(gè)LLM來源于相同基礎(chǔ)模型但在不同語料庫上訓(xùn)練的場(chǎng)景。我們首先從The Pile數(shù)據(jù)集中選擇了三個(gè)相關(guān)領(lǐng)域(PhilPapers、NIH ExPorter和USPTO Backgrounds),并使用每個(gè)領(lǐng)域的10億個(gè)token對(duì)Pythia 1B模型(Biderman等人, 2023)進(jìn)行持續(xù)訓(xùn)練,生成了三個(gè)結(jié)構(gòu)相同但領(lǐng)域不同的LLM。然后,我們將不同的融合技術(shù)應(yīng)用于這些LLM:(1) 集成方法計(jì)算所有LLM生成的概率的加權(quán)平均值,權(quán)重基于每個(gè)模型的表現(xiàn);(2) 權(quán)重融合方法在參數(shù)空間中融合多個(gè)LLM,融合權(quán)重由模型表現(xiàn)決定;(3) FUSELLM在從這三個(gè)領(lǐng)域中采樣的1億個(gè)token上進(jìn)行持續(xù)訓(xùn)練。

表7展示了FUSELLM和其他融合方法在測(cè)試集上的困惑度(perplexity)結(jié)果,我們使用The Pile中實(shí)現(xiàn)的方法,按每個(gè)UTF-8編碼字節(jié)(BPB)測(cè)量困惑度。我們觀察到,經(jīng)過10億個(gè)token的訓(xùn)練后,原始LLM的能力被轉(zhuǎn)移到每個(gè)特定領(lǐng)域的LLM中,導(dǎo)致它們?cè)谄渌I(lǐng)域的表現(xiàn)下降。盡管所有融合技術(shù)都能夠整合不同模型的優(yōu)勢(shì),但FUSELLM在三個(gè)領(lǐng)域中始終實(shí)現(xiàn)了最低的平均困惑度,這表明它比集成和權(quán)重融合方法更有效地利用集體知識(shí)。


大型語言模型的知識(shí)融合(ICLR2024)-AI.x社區(qū)

5、結(jié)論

本文提出了一種稱為FUSELLM的新方法,用于實(shí)現(xiàn)大型語言模型(LLMs)的知識(shí)融合。我們的主要目標(biāo)是將多個(gè)源LLM的集體知識(shí)和獨(dú)特優(yōu)勢(shì)外化,并將這些知識(shí)轉(zhuǎn)移到一個(gè)目標(biāo)LLM中。通過從不同的LLM中提取概率分布,我們利用源模型的多樣化能力,使目標(biāo)LLM在推理、常識(shí)和代碼生成等任務(wù)上的表現(xiàn)得到提升。與傳統(tǒng)的模型集成和權(quán)重融合方法不同,F(xiàn)USELLM能夠在架構(gòu)不同的LLM之間實(shí)現(xiàn)知識(shí)融合。

我們通過實(shí)驗(yàn)驗(yàn)證了FUSELLM的有效性,實(shí)驗(yàn)結(jié)果表明在不同的評(píng)估基準(zhǔn)上,F(xiàn)USELLM的目標(biāo)模型在大多數(shù)任務(wù)中的性能超越了任何單個(gè)源LLM。盡管我們的方法已經(jīng)展示了其潛力,未來的研究仍可進(jìn)一步探索以下方向:研究如何在更多LLM之間實(shí)現(xiàn)更有效的融合,并開發(fā)更加高效的訓(xùn)練策略,以進(jìn)一步減少所需的訓(xùn)練時(shí)間和資源。

1School of Computer Science and Engineering, Sun Yat-sen University, China 2Tencent AI Lab

?

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/3ncHDUFWpqhy31QxHpAccg??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 99精品网 | hitomi一区二区三区精品 | 激情综合五月 | 99精品视频一区二区三区 | 国产精品日韩 | 超碰精品在线 | 日韩视频在线一区二区 | 暖暖成人免费视频 | 蜜桃精品视频在线 | 三级av免费 | 欧美成人二区 | 欧美日韩亚洲成人 | 午夜精品久久久久久久久久久久久 | 国产一区二区在线免费 | 亚洲成人毛片 | 精品国产一区二区三区久久 | 2018天天干天天操 | 少妇精品久久久久久久久久 | 久草视频在线播放 | 国产一区二区三区四区在线观看 | 国产成人精品一区二区 | 亚洲综合国产 | 亚洲精彩视频在线观看 | 国产精品毛片无码 | 国产精品a久久久久 | 欧美日韩免费 | 久产久精国产品 | 黄色网址在线免费播放 | 亚洲一区中文字幕 | 欧美啪啪 | 精品美女视频在线观看免费软件 | a在线观看| 成人片在线看 | 亚洲国产精品一区二区三区 | 免费啪啪 | 国产区视频在线观看 | 精精国产xxxx视频在线 | 亚洲精品国产综合区久久久久久久 | 一级免费毛片 | 婷婷综合网| 欧美韩一区二区 |