合成數(shù)據(jù)>人工數(shù)據(jù),絕對性能暴漲超10個點!僅需任務定義,高效微調(diào)大模型
盡管如GPT-4和Gemini等基礎模型已在通用語言理解方面設立了新的行業(yè)標桿 ,但它們在需要深度領域知識的專業(yè)領域中,其表現(xiàn)常常不盡如人意。
當面臨數(shù)學、醫(yī)學、法律及金融等專門任務時,這些模型時常表現(xiàn)不佳,因為這些領域高度依賴特定的專業(yè)知識。
傳統(tǒng)上,為了讓這些模型適應特定領域,最直接的方法是使用大規(guī)模的人類標注數(shù)據(jù)進行微調(diào)。然而,這一過程不僅成本高昂、耗時漫長,而且在許多實際應用場景中并不可行。
為了解決上述挑戰(zhàn),北京大學、MIT等機構(gòu)的研究人員提出了「合成數(shù)據(jù)強化學習」(Synthetic Data RL)框架。這是一個簡單而通用的框架,僅從一個任務定義出發(fā),合成大量多樣的領域特定樣本,然后利用強化學習(RL)對模型進行微調(diào)。
論文鏈接:https://arxiv.org/pdf/2505.17063
代碼倉庫:https://github.com/gydpku/Data_Synthesis_RL
這種方式實現(xiàn)了參數(shù)化的自適應,將領域知識直接嵌入到模型的參數(shù)中,并且完全無需任何人類標注的數(shù)據(jù)。
三步走實現(xiàn)高效自適應學習
研究人員提出的合成數(shù)據(jù)強化學習框架由三個主要環(huán)節(jié)構(gòu)成。
圖1:三階段方法框架圖
如圖1所示,首先,系統(tǒng)通過知識引導的合成環(huán)節(jié)結(jié)合檢索到的外部知識和任務特定模式,生成既有事實依據(jù)又與目標任務對齊的合成數(shù)據(jù)。
隨后,在難度自適應環(huán)節(jié),系統(tǒng)會根據(jù)模型的反饋來調(diào)整這些生成樣本的復雜度,目的是創(chuàng)建一個難度均衡、避免過于簡單或困難的數(shù)據(jù)集。
最后,在高潛力樣本選擇與強化學習環(huán)節(jié),框架會精心挑選出高學習潛力的樣本,并利用強化學習在這些樣本上進行微調(diào)。
知識引導的數(shù)據(jù)合成
該環(huán)節(jié)的目標是生成高質(zhì)量、多樣化,并與任務高度相關的任務數(shù)據(jù)。
該過程主要分為兩個核心步驟:關鍵詞提取與相關段落檢索:為了讓生成的內(nèi)容能緊密圍繞相關領域的知識,該環(huán)節(jié)首先會使用大模型從任務描述中提取一組領域特定的關鍵詞。
這些關鍵詞可以看作是一種中間摘要,精確地概括了任務的核心領域與要求。
接下來,一個「段落檢索器」會使用這些關鍵詞,在一個大型的高質(zhì)量文本庫(例如維基百科)中進行搜索,從而找到一系列與任務高度相關的知識段落。
圖2:GPQA的任務定義,包括任務描述,輸入和輸出的形式。
在獲取了相關的知識段落后,LLM生成器便開始合成初始的任務樣本集。LLM生成器會綜合利用所有信息,包括之前檢索到的相關段落、抽象模式與具體示例的組合(可不提供),以及原始的任務指令(如圖所示),來生成初始合成數(shù)據(jù)集。并通過大多數(shù)投票方法確保任務輸出的正確性。
通過這種方式,系統(tǒng)確保了合成出來的數(shù)據(jù)不僅在事實上有所依據(jù),而且在形式和內(nèi)容上也更加豐富多樣。
難度自適應過程
本環(huán)節(jié)旨在解決訓練樣本難度不均衡的問題。核心思想是,通過自動評估和改寫樣本,生成一個難度分布更合理的數(shù)據(jù)集,從而提升模型的學習效率和最終效果。
整個過程可以分為三個主要步驟:
(1)首先,使用一個基礎模型對初始數(shù)據(jù)集進行全面評估。根據(jù)模型能否正確解答,樣本被分為兩類:已解決樣本集:這個集合包含了所有基礎模型能夠正確解答的樣本。未解決樣本集:這個集合包含了所有基礎模型未能正確解答的樣本。
(2)接下來,利用一個大語言模型改寫器對已分類的樣本進行難度調(diào)整,以擴充數(shù)據(jù)集。改寫器會分析已解決樣本集中的內(nèi)容,并在此基礎上創(chuàng)造出更具挑戰(zhàn)性的新樣本,形成一個更難的樣本集。同樣地,改寫器會分析未解決樣本集的內(nèi)容,并創(chuàng)造出難度更低的新樣本,形成一個「更容易的樣本集」。
最后,將三個部分的數(shù)據(jù)合并在一起,包括原始的初始樣本集、新生成的更難樣本集、新生成的更容易樣本集。
通過這個動態(tài)調(diào)整過程,如下圖所示,最終的數(shù)據(jù)集在難度上更加多樣和均衡,更貼合人類真實數(shù)據(jù)的分布特征,能夠為模型提供一個平滑的學習曲線,從而實現(xiàn)更優(yōu)的訓練效果。
圖3:合成與人工數(shù)據(jù)難度分布,合成數(shù)據(jù)調(diào)整后更貼合人工數(shù)據(jù)。
篩選高潛力樣本并強化微調(diào)
在通過難度自適應策略生成了包含多樣化難度的大規(guī)模合成數(shù)據(jù)集后,研究人員并不會直接將所有數(shù)據(jù)用于訓練,因為許多合成樣本可能對模型來說過于簡單或過于困難,無法提供有效的學習信號。
為了最大化訓練效率和效果,研究人員設計了第三個環(huán)節(jié),旨在識別并利用那些最具學習價值的「高潛力」樣本。
為了精準地識別出這些高潛力樣本,框架設計了一套基于模型實際表現(xiàn)的評分系統(tǒng)。具體來說,它會利用基礎模型,對每個樣本進行多次解答嘗試。
接著,系統(tǒng)會計算模型在多次嘗試中成功解答的次數(shù)比例。這個評分系統(tǒng)有一個巧妙的設計:對于那些模型在所有嘗試中都失敗的「極難」樣本(即通過率為0),系統(tǒng)會故意給它們一個最高分(比如1)。
這樣做的目的是為了在后續(xù)排序時,能夠輕易地將這些過于困難/存在合成錯誤的樣本沉底。評分完成后,所有樣本會按照它們的「通過率得分」從低到高進行排序。
根據(jù)這個排序結(jié)果,得分最低(但大于0)的樣本,正是我們尋找的「高潛力」目標—模型偶爾能答對,但磕磕絆絆,充滿了不確定性。框架會從排序列表的頂端選取一定數(shù)量的樣本,構(gòu)成訓練集。
最后,這個精挑細選出的高潛力訓練集將被用于對基礎模型進行一輪的強化學習訓練。
最終步驟旨在將模型在這些「臨界區(qū)」樣本上的不確定性轉(zhuǎn)化為穩(wěn)定的正確解答能力,從而產(chǎn)出一個性能得到顯著提升的最終模型。
全面超越SFT,媲美人工數(shù)據(jù)RL
實驗設定:在數(shù)據(jù)合成過程中,GPT-4o被用作指導者模型,而Qwen2.5-7B-base則作為基礎模型,整個流程的訓練集大小也維持在500個數(shù)據(jù),RL訓練采用了GRPO算法 。
研究人員在數(shù)學、科學、醫(yī)學、法律和金融等多個領域的8個公開基準數(shù)據(jù)集上,對提出方法進行了全面評估,并該方法與多個基線進行了比較,包括像Qwen-2.5-7B和GPT-4o這樣的預訓練和指令調(diào)優(yōu)模型,像Self-Instruct和SynthLLM這樣的其他合成數(shù)據(jù)生成方法,以及像使用人類標注數(shù)據(jù)進行監(jiān)督式微調(diào)(SFT)和強化學習(RL)這樣的標準訓練策略。
實驗結(jié)果如表1所示。
表1:該方法和基線在8個任務上的的表現(xiàn)。
具體來看,該框架帶來全方位的性能提升,不僅顯著超越了模型自身的基礎版本,也優(yōu)于官方的指令微調(diào)模型和其他主流的合成數(shù)據(jù)方法:
- 在數(shù)學推理領域:在廣泛關注的 GSM8K基準測試上,該方法取得了91.7%的準確率,相較于Qwen-2.5-7B基礎模型的62.5%,實現(xiàn)了29.2%的絕對性能提升。
這一成績不僅顯著優(yōu)于官方指令微調(diào)模型Qwen-2.5-7B-Instruct的88.8%,也超越了包括Self-Instruct (85.1%) 和SynthLLM (90.1%) 在內(nèi)的其他合成數(shù)據(jù)生成方法,在更具挑戰(zhàn)性的MATH數(shù)據(jù)集上,也獲得了8.7%的絕對提升。
- 在專業(yè)知識領域:該方法的優(yōu)勢同樣延伸到了需要高度專業(yè)知識的領域。在MedQA(醫(yī)學)、CQA(法律)和 CFA(金融)等基準測試中,分別取得了8.9%、17.7%和13.7%的絕對性能提升。
- 在科學領域:在GPQA(研究生水平科學問答)這一高難度任務上,其性能提升同樣顯著,達到了13.1%
同等數(shù)據(jù)預算下的效率優(yōu)勢
該框架最引人注目的優(yōu)勢之一在于其極高的數(shù)據(jù)效率。在與使用「真實」人工標注數(shù)據(jù)進行訓練的方法進行同等數(shù)據(jù)預算的公平比較時,Synthetic Data RL表現(xiàn)出了顯著的優(yōu)勢。
- 完勝監(jiān)督微調(diào)(SFT):當訓練預算被限制在相同數(shù)量(例如500個樣本)時,「合成數(shù)據(jù)強化學習」方法的效果遠超傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法 。例如,在GSM8K任務上,SFT使用500個人類樣本僅能達到74.5%的準確率,而該框架則達到了91.7%。這突顯了在數(shù)據(jù)稀缺的情況下,RL相較于SFT的普遍優(yōu)越性。
- 媲美甚至超越人類數(shù)據(jù)RL:更令人印象深刻的是,該方法不僅效果好,而且效率極高。在使用同等數(shù)量(500個樣本)的訓練數(shù)據(jù)時,它的表現(xiàn)能夠持平甚至略微超過使用「真實」人類標注數(shù)據(jù)進行訓練的強化學習(RL)方法。
在GSM8K任務上,使用500個合成樣本的準確率(91.7%)甚至略高于使用500個人類樣本的RL(91.2%)。這一趨勢在不同數(shù)據(jù)預算(100、300、1000個樣本)的消融研究中也得到了證實(詳情見原文),表明該方法始終能與使用人類數(shù)據(jù)的RL基線相媲美或更優(yōu)。
人工數(shù)據(jù)指導的邊際效益遞減
表1的研究結(jié)果進一步揭示了一個重要現(xiàn)象:對模型合成數(shù)據(jù)而言,掌握任務的正確「形式」比學習大量具體「實例」更為關鍵,這一點體現(xiàn)在人類標注數(shù)據(jù)呈現(xiàn)出的邊際效益遞減上:
當模型通過「合成數(shù)據(jù)強化學習」框架,僅從任務定義中學習并掌握了任務的底層結(jié)構(gòu)后,其性能已經(jīng)達到了一個非常高的水平。
此時,額外增加由人類標注的演示示例,所帶來的性能提升變得非常有限。例如,在GSM8K基準測試上的表現(xiàn):
僅使用任務定義進行訓練的模型,其準確率已經(jīng)可以達到91.7%;在此基礎上,即便再增加100個高質(zhì)量的人類演示樣本來指導合成數(shù)據(jù),最終的準確率也僅僅微升至92.1%
這種微小的、漸進式的改進并非孤例,在其他多個數(shù)據(jù)集上也觀察到了相似的趨勢,例如在MATH、LogiQA、MedQA和MedNLI等任務上,隨著人類演示樣本的增加,性能也只是略有提高 。
弱者教出強者
另一個有趣的發(fā)現(xiàn)是,「合成數(shù)據(jù)強化學習」框架能夠讓一個相對較弱的指導模型(「老師」)訓練出一個在性能上超越其自身的、更強大的模型(「學生」)。
在相關的驗證實驗中,研究者將原本作為指導模型、性能頂尖的 GPT-4o 替換為能力相對較弱的Qwen-2.5-7B-Instruct模型,并由這個「弱老師」來完成生成合成數(shù)據(jù)和調(diào)整難度分布的全部任務。
從表1的最后一行結(jié)果顯示,最終訓練出的基礎模型(即「學生模型」)在包括GSM8K、GPQA、LogiQA、MedNLI、CQA和CFA在內(nèi)的六個基準測試中,其表現(xiàn)均超越了它的「老師」Qwen-2.5-7B-Instruct模型,并在其余兩個任務上達到了與之相當?shù)乃健?/span>
開啟模型適應的新范式
Synthetic Data RL框架的提出,為大模型在專業(yè)領域的低成本、高效率適配提供了全新的解決方案。它通過將自動化數(shù)據(jù)合成與強化學習相結(jié)合,將模型微調(diào)的門檻從昂貴的人工數(shù)據(jù)標注,降低到了一個簡單的任務描述,無需任何后續(xù)的人工標注或反饋。
這項工作證明了在無需大量人力投入的情況下,依然可以實現(xiàn)高質(zhì)量、高效率的領域模型定制化,使得強大的AI能力適配變得更加規(guī)模化和成本可控,為未來更廣泛的應用(如多模態(tài)任務)奠定了堅實的基礎。