成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek 等模型訓(xùn)練所依賴的合成數(shù)據(jù),BARE 提出了新思路

人工智能
隨著大型語言模型的不斷發(fā)展,合成數(shù)據(jù)在模型訓(xùn)練中的重要性日益凸顯。BARE 方法通過結(jié)合基礎(chǔ)模型和指令微調(diào)模型的優(yōu)勢,為生成高質(zhì)量、多樣化的合成數(shù)據(jù)提供了新的思路。

大家好,我是肆〇柒,在AI圈,大型語言模型(LLM)的訓(xùn)練對高質(zhì)量、多樣化數(shù)據(jù)的需求日益增長。從去年到現(xiàn)在,一些模型在發(fā)布的時候,會有論文或者技術(shù)報告,里面多多少少都會提及合成數(shù)據(jù),并且在多數(shù)情況下,合成數(shù)據(jù)的效果并不差。比如,我所看到的報告中,使用了合成數(shù)據(jù)的模型如下盤點(應(yīng)該會有遺漏,它并不完整)。

  • Phi-4Phi-4采用了合成數(shù)據(jù)生成方法,包括種子數(shù)據(jù)的精心策劃、多步驟提示工作流程、自我修正機(jī)制、指令反轉(zhuǎn)技術(shù)和多代理提示與自我反思等。
  • Alpaca、Vicuna 和 WizardLM通過利用 LLM 生成指令遵循數(shù)據(jù),然后對較弱的模型進(jìn)行指令調(diào)優(yōu)。例如,Alpaca使用GPT-3.5生成指令-響應(yīng)對,然后微調(diào)Llama模型。
  • Qwen2 和 Nemotron-4Nemotron-4在對齊階段利用獎勵模型產(chǎn)生的合成數(shù)據(jù)占比達(dá)到了98%,而Qwen2則在模型訓(xùn)練中使用了合成數(shù)據(jù)來提升性能。
  • GPT-4GPT-4在 post train 階段廣泛使用了合成數(shù)據(jù),以增強(qiáng)模型的訓(xùn)練。
  • Llama 3通過讓 LLM 對自己生成的回復(fù)打分,并根據(jù)打分形成新的訓(xùn)練數(shù)據(jù),再繼續(xù)訓(xùn)練模型。
  • Stable Diffusion在一篇論文中,研究人員使用Stable Diffusion v1.5生成與真實數(shù)據(jù)集大小相同的合成數(shù)據(jù),并結(jié)合最大均值差異(MMD)分布匹配損失和視覺引導(dǎo)策略進(jìn)行訓(xùn)練。
  • DeepSeek在訓(xùn)練的多環(huán)節(jié)采用合成數(shù)據(jù),進(jìn)行模型訓(xùn)練。并且還是用蒸餾技術(shù),合成高質(zhì)量數(shù)據(jù),實現(xiàn)推理能力從大模型遷移到小模型。

以上,可以看到,越來越多的模型訓(xùn)練采用了合成數(shù)據(jù)。所以,人類“肉身”生成的數(shù)據(jù)其實是有限的,這促使研究人員和開發(fā)者轉(zhuǎn)向合成數(shù)據(jù),以滿足模型訓(xùn)練的需求。BARE(Base-Refine)方法應(yīng)運而生,通過結(jié)合基礎(chǔ)模型(Base Models)和指令微調(diào)模型(Instruction-Tuned Models)的優(yōu)勢,為合成數(shù)據(jù)生成提供了新的思路。

下面,我們來看一下這篇論文的要點。

背景與動機(jī)

隨著大型語言模型的不斷發(fā)展,模型的規(guī)模和能力都在迅速增長。這導(dǎo)致對高質(zhì)量、多樣化訓(xùn)練數(shù)據(jù)的需求超過了人類生成數(shù)據(jù)的能力,因此合成數(shù)據(jù)的使用變得尤為重要。合成數(shù)據(jù)不僅在低數(shù)據(jù)領(lǐng)域中發(fā)揮著重要作用,還在各種任務(wù)中展現(xiàn)出巨大潛力,如數(shù)學(xué)問題、代碼生成、功能調(diào)用和一般推理等。

挑戰(zhàn)與解決方案

盡管指令微調(diào)模型在復(fù)雜任務(wù)中表現(xiàn)出色,能夠生成高質(zhì)量的內(nèi)容,但它們在生成多樣化輸出方面存在挑戰(zhàn)。這主要是因為這些模型在后訓(xùn)練過程中容易出現(xiàn)模式崩潰(Mode Collapse),即無法生成多樣化的輸出。相比之下,基礎(chǔ)模型雖然在指令遵循能力上較弱,但能夠生成更具多樣性的輸出。

下圖是,基礎(chǔ)模型與指令微調(diào)模型生成的小學(xué)數(shù)學(xué)問題的成對嵌入相似度直方圖

圖片

從上圖可以看出,基礎(chǔ)模型生成的內(nèi)容(藍(lán)色)在成對嵌入相似度上分布更廣,表明其生成的內(nèi)容更具多樣性,而指令微調(diào)模型生成的內(nèi)容(橙色)則相似度更高,多樣性較低。

為了解決這一問題,研究人員提出了 BARE 方法。該方法通過兩階段過程,結(jié)合基礎(chǔ)模型的多樣性和指令微調(diào)模型的質(zhì)量,生成高質(zhì)量且多樣化的合成數(shù)據(jù)。具體來說,BARE 首先利用基礎(chǔ)模型生成多樣化的初始數(shù)據(jù)集,然后通過指令微調(diào)模型對每個數(shù)據(jù)項進(jìn)行精細(xì)化調(diào)整,以提高數(shù)據(jù)質(zhì)量。

BARE 方法

多樣性與質(zhì)量的結(jié)合

BARE 方法的核心在于將基礎(chǔ)模型的多樣性和指令微調(diào)模型的質(zhì)量結(jié)合起來。基礎(chǔ)模型在生成數(shù)據(jù)時不受后訓(xùn)練偏差的限制,能夠更好地代表現(xiàn)實世界數(shù)據(jù)的多樣性。而指令微調(diào)模型則在生成高質(zhì)量數(shù)據(jù)方面表現(xiàn)出色,能夠生成更符合人類語言習(xí)慣的內(nèi)容。

不同生成方法在 GSM8K 上的準(zhǔn)確率

圖片

從上圖可以看出,使用 BARE 方法生成的數(shù)據(jù)進(jìn)行微調(diào)后,模型的準(zhǔn)確率顯著提高,超過了僅使用基礎(chǔ)模型或指令微調(diào)模型生成的數(shù)據(jù)。

兩階段生成過程

  1. 基礎(chǔ)模型生成階段:利用基礎(chǔ)模型生成多樣化的初始數(shù)據(jù)集。這一階段只需提供少量的示例(few-shot examples)和基本的 prompt,以確保生成數(shù)據(jù)的格式正確。也就是,基礎(chǔ)模型會根據(jù)給定的 prompt 生成一系列多樣化的輸出。這些輸出可能在質(zhì)量上參差不齊,但它們的多樣性為后續(xù)的精細(xì)化調(diào)整提供了豐富的素材。例如,在生成小學(xué)數(shù)學(xué)問題時,基礎(chǔ)模型會根據(jù)給定的示例生成類似的問題和答案。
  2. 指令微調(diào)模型精細(xì)化階段:對基礎(chǔ)模型生成的每個數(shù)據(jù)項進(jìn)行精細(xì)化調(diào)整。指令微調(diào)模型根據(jù)具體的準(zhǔn)則(如真實性、正確性)對數(shù)據(jù)進(jìn)行優(yōu)化,以提高數(shù)據(jù)質(zhì)量。也就是,指令微調(diào)模型會對基礎(chǔ)模型生成的每個數(shù)據(jù)項進(jìn)行逐一調(diào)整,確保其符合預(yù)期的質(zhì)量標(biāo)準(zhǔn)。例如,在生成數(shù)學(xué)問題時,指令微調(diào)模型會檢查問題的邏輯性和答案的正確性,并進(jìn)行必要的修正。

實驗結(jié)果

研究人員在多個領(lǐng)域?qū)?BARE 方法進(jìn)行了評估,包括數(shù)學(xué)問題(GSM8K)、代碼生成(LiveCodeBench)、問答任務(wù)(HotpotQA 和 PubMedQA)等。結(jié)果顯示,BARE 方法在生成多樣化且高質(zhì)量數(shù)據(jù)方面表現(xiàn)優(yōu)異,顯著提升了下游任務(wù)的性能。

數(shù)學(xué)問題(GSM8K)

在 GSM8K 數(shù)據(jù)集上,BARE 方法生成的數(shù)據(jù)顯著提高了模型的準(zhǔn)確率。具體來說,使用 BARE 生成的數(shù)據(jù)進(jìn)行微調(diào)后,模型的準(zhǔn)確率從 22.4% 提升至 29.8%。而使用 GPT-4o 作為精細(xì)化模型時,準(zhǔn)確率更是達(dá)到了 35.8%。

Enron 垃圾郵件生成的成對嵌入余弦相似度分布

圖片

從上圖可以看出,基礎(chǔ)模型生成的垃圾郵件內(nèi)容在成對嵌入相似度上分布更廣,表明其生成的內(nèi)容更具多樣性。這有助于模型在訓(xùn)練過程中更好地泛化,提高對不同類型的垃圾郵件的識別能力。

代碼生成(LiveCodeBench)

在 LiveCodeBench 的測試輸出預(yù)測任務(wù)中,BARE 方法生成的數(shù)據(jù)使模型的準(zhǔn)確率達(dá)到了 28.1%,與當(dāng)前頂級模型的性能相當(dāng)。這表明 BARE 方法在代碼生成領(lǐng)域具有巨大的潛力。

20 Newsgroups 數(shù)據(jù)集的生成主題覆蓋情況

圖片

從上圖可以看出,基礎(chǔ)模型在生成 20 Newsgroups 數(shù)據(jù)集時,覆蓋了更多的主題,表明其生成的內(nèi)容更具多樣性。這有助于模型在訓(xùn)練過程中更好地理解不同主題的內(nèi)容,提高分類的準(zhǔn)確性。

問答任務(wù)(HotpotQA 和 PubMedQA)

在 HotpotQA 和 PubMedQA 數(shù)據(jù)集上,BARE 方法生成的數(shù)據(jù)也顯著提升了模型的性能。BARE 方法在這些任務(wù)上的表現(xiàn)優(yōu)于直接使用指令微調(diào)模型生成的數(shù)據(jù)。

總結(jié)

BARE 方法為合成數(shù)據(jù)生成提供了一種新的思路,未來還有許多值得探索的方向。例如,可以通過進(jìn)一步優(yōu)化精細(xì)化模型,或引入更多階段的生成過程,來進(jìn)一步提升數(shù)據(jù)的多樣性和質(zhì)量。此外,BARE 方法還可以應(yīng)用于生成合成評估集,為低數(shù)據(jù)領(lǐng)域提供更多的支持。

BARE 方法通過結(jié)合基礎(chǔ)模型的多樣性和指令微調(diào)模型的質(zhì)量,為合成數(shù)據(jù)生成提供了一種有效的解決方案。實驗結(jié)果表明,BARE 方法在多個領(lǐng)域中顯著提升了下游任務(wù)的性能,展示了其在實際應(yīng)用中的巨大潛力。

看過本文,你有什么看法?歡迎在評論區(qū)留言,或加入“覺察流”社群與社區(qū)小伙伴一起學(xué)習(xí)、討論。加入方法,私信回復(fù)“入群”“加群”即可。

參考資料

  • BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation

     https://arxiv.org/html/2502.01697v2

  • BARE github Repo

     https://github.com/pgasawa/BARE

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2024-04-18 08:38:15

LLM數(shù)據(jù)訓(xùn)練模型

2025-04-11 09:35:34

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2022-06-13 11:18:08

合成數(shù)據(jù)AIML

2023-08-01 15:46:18

數(shù)據(jù)

2021-03-23 23:17:18

AI人工智能

2025-03-06 00:15:00

3D場景數(shù)據(jù)

2022-03-25 22:25:10

AI模型訓(xùn)練

2025-06-04 03:00:00

人工智能AI智能訓(xùn)練

2022-08-11 08:00:00

機(jī)器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2009-10-21 09:32:45

虛擬化的目標(biāo)

2024-02-05 09:31:40

仿真駕駛模型

2017-01-23 11:18:16

戴爾

2009-12-03 10:32:21

2017-12-14 09:03:24

租賃數(shù)據(jù)中心設(shè)備

2024-08-19 13:18:12

2025-06-25 08:53:00

模型AI強(qiáng)化學(xué)習(xí)

2023-03-17 16:44:16

AI繪畫

2017-01-10 14:28:01

數(shù)據(jù)管理大數(shù)據(jù)SAP
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美性大战久久久久久久蜜臀 | 成人精品福利 | 成人精品国产一区二区4080 | 久久新视频 | 日韩欧美一区二区三区免费观看 | 精品一区二区三区免费视频 | 欧美日韩精品区 | 91毛片在线观看 | 精品一区二区三区在线观看 | 国产日韩久久久久69影院 | 影音先锋中文字幕在线观看 | 成人在线观看黄 | 国产精品黄视频 | av资源网站| 成人激情视频 | 性在线 | 免费视频一区二区 | 久久一 | 一区二区三区亚洲精品国 | 请别相信他免费喜剧电影在线观看 | 久久久91 | 欧美日韩一区在线观看 | 中文字幕亚洲欧美 | 日日噜噜噜夜夜爽爽狠狠视频, | 99免费 | 国产成人精品免费视频 | 日韩一级| 日本欧美国产在线观看 | 国产1区2区在线观看 | a中文在线视频 | 一级高清视频 | 成人av一区 | 国产精品二区三区在线观看 | 东方伊人免费在线观看 | 日本在线黄色 | 精品三级在线观看 | av国产在线观看 | 日日骚网 | 成年人网站免费视频 | 亚洲成人精品免费 | 国产精品极品美女在线观看免费 |