過程獎(jiǎng)勵(lì)模型PRM成版本答案！谷歌DeepMind全自動標(biāo)注逐步驟獎(jiǎng)勵(lì)PAV，準(zhǔn)確率提升8%

作者：新智元 2024-11-18 09:50:00

通過過程獎(jiǎng)勵(lì)模型（PRM）在每一步提供反饋，并使用過程優(yōu)勢驗(yàn)證器（PAV）來預(yù)測進(jìn)展，從而優(yōu)化基礎(chǔ)策略，該方法在測試時(shí)搜索和在線強(qiáng)化學(xué)習(xí)中顯示出比傳統(tǒng)方法更高的準(zhǔn)確性和計(jì)算效率，顯著提升了解決復(fù)雜問題的能力。

在提升大型語言模型（LLM）在數(shù)學(xué)推理方面的能力時(shí)，一個(gè)常用的方法是訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型（reward model）或驗(yàn)證器（verifier），也可以利用強(qiáng)化學(xué)習(xí)在測試階段（test-time）對所有解決方案進(jìn)行重排序。

通常情況下，驗(yàn)證器的預(yù)測是整個(gè)推理過程的結(jié)果，即結(jié)果獎(jiǎng)勵(lì)模型（ORM，outcome reward models），但這種獎(jiǎng)勵(lì)信號過于稀疏，模型難以從中學(xué)習(xí)，并且搜索過程的效率也不高；理論上，通過細(xì)粒度的監(jiān)督數(shù)據(jù)可以緩解這一問題。

在推理方面，先前有研究已經(jīng)訓(xùn)練了過程獎(jiǎng)勵(lì)模型（PRMs，process reward models），在搜索的每一步或在強(qiáng)化學(xué)習(xí)期間分配中間獎(jiǎng)勵(lì)，不過PRM數(shù)據(jù)都來源于人工標(biāo)注，不具備可擴(kuò)展性。

雖然也有研究者訓(xùn)練PRMs來預(yù)測自動生成的標(biāo)注，類似于強(qiáng)化學(xué)習(xí)中的價(jià)值函數(shù)，但到目前為止，自動化的PRMs與ORMs相比，性能僅僅提高了1-2%，引發(fā)了業(yè)界對該技術(shù)的質(zhì)疑。

PRM可以用來執(zhí)行搜索，或者作為密集獎(jiǎng)勵(lì)（dense rewards）來提升基礎(chǔ)策略，所以問題的核心變成了：到底該「如何設(shè)計(jì)流程獎(jiǎng)勵(lì)」？

最近，Google Research、Google DeepMind和卡內(nèi)基梅隆大學(xué)的研究人員聯(lián)合發(fā)布了一篇論文，主要思路是，每一步的過程獎(jiǎng)勵(lì)都應(yīng)該對整個(gè)過程進(jìn)行度量：在采取該步驟「之前」和「之后」，模型在生成正確回復(fù)概率（likelihood）的變化程度，對應(yīng)于強(qiáng)化學(xué)習(xí)中步驟級別優(yōu)勢（step-level advantages）的概念；最重要的是，該過程應(yīng)該根據(jù)與基本策略（basic policy）不同的證明政策（prover policy）來度量。

論文鏈接：https://arxiv.org/pdf/2410.08146

研究人員從理論上描述了一組好的證明器，并用實(shí)驗(yàn)證明了，優(yōu)化來自證明器的過程獎(jiǎng)勵(lì)可以改善測試時(shí)搜索和在線強(qiáng)化學(xué)習(xí)期間的探索，并且可以通過經(jīng)驗(yàn)觀察到，弱證明器策略可以顯著改善更強(qiáng)的基礎(chǔ)策略。

通過訓(xùn)練過程優(yōu)勢驗(yàn)證器 (PAV，process advantage verifiers) 來預(yù)測證明器的過程，結(jié)果表明，與 ORM 相比，針對 PAV 的測試時(shí)搜索準(zhǔn)確率提升了8%，計(jì)算效率提升了1.5到5倍；使用PAV的密集獎(jiǎng)勵(lì)進(jìn)行在線RL，實(shí)現(xiàn)了在樣本效率上5-6倍的提升，比ORM的準(zhǔn)確率提升了6%

定義過程獎(jiǎng)勵(lì)

為了解決前面提到的獎(jiǎng)勵(lì)不確定性，研究人員訓(xùn)練了帶有自動標(biāo)注的過程獎(jiǎng)勵(lì)模型（PRMs），以便在測試時(shí)搜索和在線強(qiáng)化學(xué)習(xí)（RL）期間，通過優(yōu)化訓(xùn)練后的PRMs提供的密集獎(jiǎng)勵(lì)來提高基礎(chǔ)策略的計(jì)算和樣本效率。

為此，文中主要解決了兩個(gè)問題：

1. 每一步的過程獎(jiǎng)勵(lì)應(yīng)該度量（measure）什么？

2. 應(yīng)該使用什么樣的自動數(shù)據(jù)收集策略來訓(xùn)練預(yù)測PRMs？

傳統(tǒng)的方法主要通過度量數(shù)學(xué)正確性或步驟的相關(guān)性來實(shí)現(xiàn)的，但這種監(jiān)督信號是否能夠最大程度地改進(jìn)基礎(chǔ)策略尚不清楚，例如策略可能需要生成重復(fù)的，在測試時(shí)搜索和RL期間不正確的步驟來探索和發(fā)現(xiàn)最終答案。

研究人員的關(guān)鍵想法是，衡量逐步驟過程獎(jiǎng)勵(lì)（在采取步驟之前和之后到達(dá)正確最終答案的可能性的變化），對于測試時(shí)的beam search和在線強(qiáng)化學(xué)習(xí)都是有效的。

強(qiáng)化那些不管是在正確或錯(cuò)誤軌跡中出現(xiàn)都取得進(jìn)展的步驟，可以在最初步驟中多樣化可能答案的探索（exploration），在解決問題方法不明確時(shí)可以起到很重要的作用。

從形式上來講，這種獎(jiǎng)勵(lì)對應(yīng)于強(qiáng)化學(xué)習(xí)中的逐步驟優(yōu)勢（ per-step advantages），經(jīng)驗(yàn)表明，使用優(yōu)勢以及ORM獎(jiǎng)勵(lì)比常見的使用未來成功概率（future probabilities of success）或??值來搜索和強(qiáng)化學(xué)習(xí)都表現(xiàn)得更好，主要是因?yàn)椋谟邢薜挠?jì)算和采樣約束下，??值主要「利用」（exploit）狀態(tài)，而優(yōu)勢也「探索」（explore）對最終答案最有貢獻(xiàn)的步驟。

在回答第二個(gè)問題時(shí)，研究人員首先注意到，在大多數(shù)步驟中，基礎(chǔ)策略下的優(yōu)勢接近于0，因此對搜索或RL沒有信息量。

此外，無論基礎(chǔ)策略的強(qiáng)度如何，使用其自身的逐步驟優(yōu)勢作為RL中的過程獎(jiǎng)勵(lì)，會導(dǎo)致與僅使用結(jié)果獎(jiǎng)勵(lì)進(jìn)行RL相同的基礎(chǔ)策略更新（因?yàn)闃?biāo)準(zhǔn)策略梯度算法已經(jīng)計(jì)算了優(yōu)勢）。

因此，研究人員提出使用在不同的證明策略下通過滾動估計(jì)的優(yōu)勢作為過程獎(jiǎng)勵(lì)。

然后應(yīng)該如何選擇證明策略？

一個(gè)很自然的想法/猜測是使用一個(gè)非常強(qiáng)大的證明策略，但研究人員發(fā)現(xiàn)，在過于強(qiáng)大的證明策略下，模型可以從任意步驟中走向成功，無法區(qū)分出好和壞的步驟；而對于非常弱的證明策略來說，也有類似的結(jié)果。

在理論上，研究人員在文中將上述直覺給形式化為，與基礎(chǔ)策略互補(bǔ)的策略即為好的證明器，能夠充分對比基礎(chǔ)策略生成的步驟優(yōu)勢，同時(shí)仍然生成與基礎(chǔ)策略優(yōu)勢相關(guān)的步驟級優(yōu)勢的策略。

例如，對于對應(yīng)于基礎(chǔ)策略的Best-of-??策略，經(jīng)驗(yàn)發(fā)現(xiàn)，對應(yīng)于??>1的證明策略更能夠改進(jìn)基礎(chǔ)策略；與直覺相反，互補(bǔ)證明策略的集合也包含了比基礎(chǔ)策略更差的策略。

為了預(yù)測這些證明策略的優(yōu)勢，研究人員訓(xùn)練了密集的驗(yàn)證器，即過程優(yōu)勢驗(yàn)證器（PAV，process advantage verifiers），加速了RL和搜索的樣本和計(jì)算效率；文中為訓(xùn)練PAV規(guī)定了實(shí)際的工作流程，并在一系列2B、9B和27B Gemma2模型上展示了有效性。

通過從證明策略中采樣「種子」解決方案軌跡，以估計(jì)種子軌跡的每個(gè)前綴的??值，并從同一策略中進(jìn)行部分滾動（partial rollouts）來收集PAV訓(xùn)練數(shù)據(jù)，工作流程規(guī)定了種子和部分滾動的有利比例。

實(shí)證結(jié)果顯示，對于相同的測試時(shí)計(jì)算預(yù)算，針對訓(xùn)練有素的PAV的beam search在準(zhǔn)確性上比針對ORM重新排序完整軌跡高出>8%，計(jì)算效率提高了1.5-5倍。

PAV的密集獎(jiǎng)勵(lì)通過積極修剪解決方案的組合空間，并專注于多樣化的可能序列集，提高了搜索期間步驟級探索的效率。

此外，文中首次展示了使用PAV作為強(qiáng)化學(xué)習(xí)中的密集獎(jiǎng)勵(lì)，與僅使用結(jié)果獎(jiǎng)勵(lì)相比，數(shù)據(jù)效率提高了6倍；使用PAV訓(xùn)練的基礎(chǔ)策略也實(shí)現(xiàn)了8倍更好的Pass @??性能（在??次嘗試中采樣正確解決方案的概率），從而為任何測試時(shí)重新排序器的性能提供了更高的上限。

最后，使用PAV進(jìn)行強(qiáng)化學(xué)習(xí)，可以發(fā)現(xiàn)SFT策略在非常大的預(yù)算下也無法應(yīng)對的難題解決方案。

責(zé)任編輯：張燕妮來源：新智元