DeepSeek 等模型訓(xùn)練所依賴的合成數(shù)據(jù),BARE 提出了新思路
大家好,我是肆〇柒,在AI圈,大型語言模型(LLM)的訓(xùn)練對高質(zhì)量、多樣化數(shù)據(jù)的需求日益增長。從去年到現(xiàn)在,一些模型在發(fā)布的時候,會有論文或者技術(shù)報告,里面多多少少都會提及合成數(shù)據(jù),并且在多數(shù)情況下,合成數(shù)據(jù)的效果并不差。比如,我所看到的報告中,使用了合成數(shù)據(jù)的模型如下盤點(應(yīng)該會有遺漏,它并不完整)。
- Phi-4Phi-4采用了合成數(shù)據(jù)生成方法,包括種子數(shù)據(jù)的精心策劃、多步驟提示工作流程、自我修正機(jī)制、指令反轉(zhuǎn)技術(shù)和多代理提示與自我反思等。
- Alpaca、Vicuna 和 WizardLM通過利用 LLM 生成指令遵循數(shù)據(jù),然后對較弱的模型進(jìn)行指令調(diào)優(yōu)。例如,Alpaca使用GPT-3.5生成指令-響應(yīng)對,然后微調(diào)Llama模型。
- Qwen2 和 Nemotron-4Nemotron-4在對齊階段利用獎勵模型產(chǎn)生的合成數(shù)據(jù)占比達(dá)到了98%,而Qwen2則在模型訓(xùn)練中使用了合成數(shù)據(jù)來提升性能。
- GPT-4GPT-4在 post train 階段廣泛使用了合成數(shù)據(jù),以增強(qiáng)模型的訓(xùn)練。
- Llama 3通過讓 LLM 對自己生成的回復(fù)打分,并根據(jù)打分形成新的訓(xùn)練數(shù)據(jù),再繼續(xù)訓(xùn)練模型。
- Stable Diffusion在一篇論文中,研究人員使用Stable Diffusion v1.5生成與真實數(shù)據(jù)集大小相同的合成數(shù)據(jù),并結(jié)合最大均值差異(MMD)分布匹配損失和視覺引導(dǎo)策略進(jìn)行訓(xùn)練。
- DeepSeek在訓(xùn)練的多環(huán)節(jié)采用合成數(shù)據(jù),進(jìn)行模型訓(xùn)練。并且還是用蒸餾技術(shù),合成高質(zhì)量數(shù)據(jù),實現(xiàn)推理能力從大模型遷移到小模型。
以上,可以看到,越來越多的模型訓(xùn)練采用了合成數(shù)據(jù)。所以,人類“肉身”生成的數(shù)據(jù)其實是有限的,這促使研究人員和開發(fā)者轉(zhuǎn)向合成數(shù)據(jù),以滿足模型訓(xùn)練的需求。BARE(Base-Refine)方法應(yīng)運而生,通過結(jié)合基礎(chǔ)模型(Base Models)和指令微調(diào)模型(Instruction-Tuned Models)的優(yōu)勢,為合成數(shù)據(jù)生成提供了新的思路。
下面,我們來看一下這篇論文的要點。
背景與動機(jī)
隨著大型語言模型的不斷發(fā)展,模型的規(guī)模和能力都在迅速增長。這導(dǎo)致對高質(zhì)量、多樣化訓(xùn)練數(shù)據(jù)的需求超過了人類生成數(shù)據(jù)的能力,因此合成數(shù)據(jù)的使用變得尤為重要。合成數(shù)據(jù)不僅在低數(shù)據(jù)領(lǐng)域中發(fā)揮著重要作用,還在各種任務(wù)中展現(xiàn)出巨大潛力,如數(shù)學(xué)問題、代碼生成、功能調(diào)用和一般推理等。
挑戰(zhàn)與解決方案
盡管指令微調(diào)模型在復(fù)雜任務(wù)中表現(xiàn)出色,能夠生成高質(zhì)量的內(nèi)容,但它們在生成多樣化輸出方面存在挑戰(zhàn)。這主要是因為這些模型在后訓(xùn)練過程中容易出現(xiàn)模式崩潰(Mode Collapse),即無法生成多樣化的輸出。相比之下,基礎(chǔ)模型雖然在指令遵循能力上較弱,但能夠生成更具多樣性的輸出。
下圖是,基礎(chǔ)模型與指令微調(diào)模型生成的小學(xué)數(shù)學(xué)問題的成對嵌入相似度直方圖
從上圖可以看出,基礎(chǔ)模型生成的內(nèi)容(藍(lán)色)在成對嵌入相似度上分布更廣,表明其生成的內(nèi)容更具多樣性,而指令微調(diào)模型生成的內(nèi)容(橙色)則相似度更高,多樣性較低。
為了解決這一問題,研究人員提出了 BARE 方法。該方法通過兩階段過程,結(jié)合基礎(chǔ)模型的多樣性和指令微調(diào)模型的質(zhì)量,生成高質(zhì)量且多樣化的合成數(shù)據(jù)。具體來說,BARE 首先利用基礎(chǔ)模型生成多樣化的初始數(shù)據(jù)集,然后通過指令微調(diào)模型對每個數(shù)據(jù)項進(jìn)行精細(xì)化調(diào)整,以提高數(shù)據(jù)質(zhì)量。
BARE 方法
多樣性與質(zhì)量的結(jié)合
BARE 方法的核心在于將基礎(chǔ)模型的多樣性和指令微調(diào)模型的質(zhì)量結(jié)合起來。基礎(chǔ)模型在生成數(shù)據(jù)時不受后訓(xùn)練偏差的限制,能夠更好地代表現(xiàn)實世界數(shù)據(jù)的多樣性。而指令微調(diào)模型則在生成高質(zhì)量數(shù)據(jù)方面表現(xiàn)出色,能夠生成更符合人類語言習(xí)慣的內(nèi)容。
不同生成方法在 GSM8K 上的準(zhǔn)確率
從上圖可以看出,使用 BARE 方法生成的數(shù)據(jù)進(jìn)行微調(diào)后,模型的準(zhǔn)確率顯著提高,超過了僅使用基礎(chǔ)模型或指令微調(diào)模型生成的數(shù)據(jù)。
兩階段生成過程
- 基礎(chǔ)模型生成階段:利用基礎(chǔ)模型生成多樣化的初始數(shù)據(jù)集。這一階段只需提供少量的示例(few-shot examples)和基本的 prompt,以確保生成數(shù)據(jù)的格式正確。也就是,基礎(chǔ)模型會根據(jù)給定的 prompt 生成一系列多樣化的輸出。這些輸出可能在質(zhì)量上參差不齊,但它們的多樣性為后續(xù)的精細(xì)化調(diào)整提供了豐富的素材。例如,在生成小學(xué)數(shù)學(xué)問題時,基礎(chǔ)模型會根據(jù)給定的示例生成類似的問題和答案。
- 指令微調(diào)模型精細(xì)化階段:對基礎(chǔ)模型生成的每個數(shù)據(jù)項進(jìn)行精細(xì)化調(diào)整。指令微調(diào)模型根據(jù)具體的準(zhǔn)則(如真實性、正確性)對數(shù)據(jù)進(jìn)行優(yōu)化,以提高數(shù)據(jù)質(zhì)量。也就是,指令微調(diào)模型會對基礎(chǔ)模型生成的每個數(shù)據(jù)項進(jìn)行逐一調(diào)整,確保其符合預(yù)期的質(zhì)量標(biāo)準(zhǔn)。例如,在生成數(shù)學(xué)問題時,指令微調(diào)模型會檢查問題的邏輯性和答案的正確性,并進(jìn)行必要的修正。
實驗結(jié)果
研究人員在多個領(lǐng)域?qū)?BARE 方法進(jìn)行了評估,包括數(shù)學(xué)問題(GSM8K)、代碼生成(LiveCodeBench)、問答任務(wù)(HotpotQA 和 PubMedQA)等。結(jié)果顯示,BARE 方法在生成多樣化且高質(zhì)量數(shù)據(jù)方面表現(xiàn)優(yōu)異,顯著提升了下游任務(wù)的性能。
數(shù)學(xué)問題(GSM8K)
在 GSM8K 數(shù)據(jù)集上,BARE 方法生成的數(shù)據(jù)顯著提高了模型的準(zhǔn)確率。具體來說,使用 BARE 生成的數(shù)據(jù)進(jìn)行微調(diào)后,模型的準(zhǔn)確率從 22.4% 提升至 29.8%。而使用 GPT-4o 作為精細(xì)化模型時,準(zhǔn)確率更是達(dá)到了 35.8%。
Enron 垃圾郵件生成的成對嵌入余弦相似度分布
從上圖可以看出,基礎(chǔ)模型生成的垃圾郵件內(nèi)容在成對嵌入相似度上分布更廣,表明其生成的內(nèi)容更具多樣性。這有助于模型在訓(xùn)練過程中更好地泛化,提高對不同類型的垃圾郵件的識別能力。
代碼生成(LiveCodeBench)
在 LiveCodeBench 的測試輸出預(yù)測任務(wù)中,BARE 方法生成的數(shù)據(jù)使模型的準(zhǔn)確率達(dá)到了 28.1%,與當(dāng)前頂級模型的性能相當(dāng)。這表明 BARE 方法在代碼生成領(lǐng)域具有巨大的潛力。
20 Newsgroups 數(shù)據(jù)集的生成主題覆蓋情況
從上圖可以看出,基礎(chǔ)模型在生成 20 Newsgroups 數(shù)據(jù)集時,覆蓋了更多的主題,表明其生成的內(nèi)容更具多樣性。這有助于模型在訓(xùn)練過程中更好地理解不同主題的內(nèi)容,提高分類的準(zhǔn)確性。
問答任務(wù)(HotpotQA 和 PubMedQA)
在 HotpotQA 和 PubMedQA 數(shù)據(jù)集上,BARE 方法生成的數(shù)據(jù)也顯著提升了模型的性能。BARE 方法在這些任務(wù)上的表現(xiàn)優(yōu)于直接使用指令微調(diào)模型生成的數(shù)據(jù)。
總結(jié)
BARE 方法為合成數(shù)據(jù)生成提供了一種新的思路,未來還有許多值得探索的方向。例如,可以通過進(jìn)一步優(yōu)化精細(xì)化模型,或引入更多階段的生成過程,來進(jìn)一步提升數(shù)據(jù)的多樣性和質(zhì)量。此外,BARE 方法還可以應(yīng)用于生成合成評估集,為低數(shù)據(jù)領(lǐng)域提供更多的支持。
BARE 方法通過結(jié)合基礎(chǔ)模型的多樣性和指令微調(diào)模型的質(zhì)量,為合成數(shù)據(jù)生成提供了一種有效的解決方案。實驗結(jié)果表明,BARE 方法在多個領(lǐng)域中顯著提升了下游任務(wù)的性能,展示了其在實際應(yīng)用中的巨大潛力。
看過本文,你有什么看法?歡迎在評論區(qū)留言,或加入“覺察流”社群與社區(qū)小伙伴一起學(xué)習(xí)、討論。加入方法,私信回復(fù)“入群”“加群”即可。
參考資料
- BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation
https://arxiv.org/html/2502.01697v2
- BARE github Repo