大語言模型的全新預(yù)訓(xùn)練范式-強(qiáng)化預(yù)訓(xùn)練
論文通過強(qiáng)化學(xué)習(xí)激勵有效的下一個token推理,僅使用原始文本和內(nèi)在強(qiáng)化學(xué)習(xí)信號就能解鎖更豐富的推理能力。
圖片
論文簡介
論文提出了強(qiáng)化預(yù)訓(xùn)練(RPT),這是一種創(chuàng)新范式,通過將下一個詞元預(yù)測重新解釋為可通過正確性驗(yàn)證獲得獎勵的推理任務(wù),架起了大語言模型預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)之間的橋梁。
圖片
RPT沒有使用人工精心策劃的昂貴標(biāo)注或人類反饋,而是在大規(guī)模無標(biāo)注文本語料庫上應(yīng)用強(qiáng)化學(xué)習(xí),根據(jù)預(yù)測詞元是否匹配真實(shí)答案來分配內(nèi)在獎勵。這種重新構(gòu)框支持通用強(qiáng)化學(xué)習(xí)擴(kuò)展,同時增強(qiáng)了預(yù)訓(xùn)練和微調(diào)效果。
核心方法
在文本序列的每個詞元位置,模型首先生成推理軌跡(思維鏈),然后預(yù)測下一個詞元。如果預(yù)測結(jié)果是真實(shí)后續(xù)內(nèi)容的有效前綴,就會獲得獎勵。每個上下文使用多次推演,模型通過在線策略強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。
圖片
優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練
RPT顯著超越了標(biāo)準(zhǔn)的下一個詞元預(yù)測和思維鏈推理基線(無強(qiáng)化學(xué)習(xí)),在不同難度的詞元上都取得了更高的準(zhǔn)確率,甚至在性能上可與更大規(guī)模的模型媲美。例如,RPT-14B在OmniMATH基準(zhǔn)測試中達(dá)到或超越了R1-Qwen-32B的準(zhǔn)確率。
圖片
強(qiáng)勁的擴(kuò)展定律
RPT在各個難度級別上都展現(xiàn)出了關(guān)于訓(xùn)練計(jì)算量的清晰冪律擴(kuò)展,預(yù)測準(zhǔn)確率隨著計(jì)算量增加而持續(xù)提升,與理論曲線高度吻合。
圖片
改善下游強(qiáng)化學(xué)習(xí)和泛化能力
在具有可驗(yàn)證答案的任務(wù)(如Skywork-OR1)上使用強(qiáng)化學(xué)習(xí)微調(diào)RPT模型,相比使用標(biāo)準(zhǔn)目標(biāo)訓(xùn)練的模型,展現(xiàn)出更快更強(qiáng)的提升。在SuperGPQA和MMLU-Pro基準(zhǔn)測試的零樣本評估中,推理模式下的RPT-14B大幅超越了R1-Distill-Qwen-32B。
圖片
促進(jìn)結(jié)構(gòu)化思維
對推理軌跡的分析表明,相比傳統(tǒng)問題解決模型,RPT-14B采用了更多的假設(shè)生成、演繹推理和反思模式,這支持了RPT在訓(xùn)練過程中培養(yǎng)更深層推理習(xí)慣的觀點(diǎn)。
圖片
論文標(biāo)題:Reinforcement Pre-Training
論文鏈接:https://arxiv.org/abs/2506.08007
本文轉(zhuǎn)載自??AI帝國??,作者:無影寺
