萬字干貨:小紅書 hi lab 團(tuán)隊關(guān)于獎勵模型的一些探索
獎勵模型(Reward Models,RM)在確保大語言模型(LLMs)遵循人類偏好方面發(fā)揮著關(guān)鍵作用。這類模型通過學(xué)習(xí)人類的偏好判斷,為語言模型的訓(xùn)練提供重要的引導(dǎo)信號。
獎勵模型很多科學(xué)問題都充滿挑戰(zhàn),小紅書 hi lab團(tuán)隊過去一段時間對下列幾個問題和關(guān)鍵挑戰(zhàn)進(jìn)行了一些探索:
- 獎勵模型應(yīng)該如何評估?如何獲取效果、robustness都足夠好的reward model ?(ICLR 2025 Spotlight)
- 如何構(gòu)建可泛化的多模態(tài)RM?解決多模態(tài)RM傾向于學(xué)習(xí)純文本捷徑的問題。(ICML 2025)
- 如何面向中文場景構(gòu)建大規(guī)模、高質(zhì)量的中文偏好數(shù)據(jù)集和評測基準(zhǔn)?(ACL 2025)
- 偏好預(yù)訓(xùn)練提升LLM推理偏好能力的可擴(kuò)展方法;如何構(gòu)建自我批評的生成式獎勵模型提升大語言模型推理能力?(ACL 2025 Findings)
- Self Rewarding方式構(gòu)建自評估框架讓大語言模型主動探索知識邊界并自我糾正幻覺行為。(ACL 2025 Findings)
01、Reward Model 應(yīng)該如何評估?
論文標(biāo)題:
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?
論文地址:
https://arxiv.org/abs/2410.05584
收錄情況:
ICLR 2025 Spotlight
1.1 問題背景
在RLHF框架中,獎勵模型(Reward Model,RM)通過學(xué)習(xí)人類偏好判斷來為模型優(yōu)化提供關(guān)鍵的引導(dǎo)信號,對確保模型行為符合人類期望起著至關(guān)重要的作用。然而,構(gòu)建一個能夠完全捕捉人類偏好的獎勵模型是極具挑戰(zhàn)性的。由于人類偏好的復(fù)雜性和多樣性,獎勵模型往往只能作為理想偏好的不完美代理。這種不完美性可能導(dǎo)致模型在針對獎勵模型優(yōu)化時出現(xiàn)過度優(yōu)化問題,即模型可能會過分迎合獎勵模型的偏差而偏離真實(shí)的人類偏好,這種現(xiàn)象可以被視為 Goodhart's law 在強(qiáng)化學(xué)習(xí)中的體現(xiàn)。
鑒于獎勵模型的不完美性難以完全避免,準(zhǔn)確評估獎勵模型的質(zhì)量以預(yù)測其在實(shí)際應(yīng)用中可能造成的負(fù)面影響就顯得尤為重要。目前,業(yè)界主要采用兩種評估方法:一是直接評估優(yōu)化后的策略表現(xiàn),二是計算模型在固定數(shù)據(jù)集上的準(zhǔn)確率。前者雖然能夠反映最終效果,但難以區(qū)分性能問題是源于策略優(yōu)化過程還是獎勵學(xué)習(xí)過程;后者則存在評估指標(biāo)是否能準(zhǔn)確預(yù)測優(yōu)化后策略表現(xiàn)的問題。因此,我們需要更加深入的關(guān)注這些問題:
(1)如何更好地評估獎勵模型?
(2)準(zhǔn)確率指標(biāo)與下游策略性能之間存在怎樣的關(guān)系?
(3)我們能否建立更有效的評估方法來預(yù)測和防范模型過度優(yōu)化的風(fēng)險?
1.2 實(shí)驗設(shè)置
RLHF工作流程為:(1)在偏好數(shù)據(jù)集上訓(xùn)練代理獎勵模型;(2)評估代理獎勵模型與目標(biāo)函數(shù)的誤差;(3)基于代理獎勵模型優(yōu)化策略;(4)在測試集上評估策略效果。
1.3 實(shí)驗結(jié)果
1)準(zhǔn)確率與策略損失的相關(guān)性分析
目前研究普遍通過在固定測試集上計算準(zhǔn)確率來評估獎勵模型誤差。我們的實(shí)驗結(jié)果揭示了:獎勵模型的評估準(zhǔn)確率與策略損失之間存在正相關(guān)關(guān)系,但即使具有相似準(zhǔn)確率的模型,其優(yōu)化得到的策略也可能表現(xiàn)出顯著不同的損失水平。通過計算準(zhǔn)確率與NDR之間的相關(guān)性,我們發(fā)現(xiàn)準(zhǔn)確率與策略損失確實(shí)存在正向關(guān)聯(lián),但在相似準(zhǔn)確率范圍內(nèi),策略損失可能出現(xiàn)較大波動。值得注意的是,在Best-of-N采樣方法中,準(zhǔn)確率與策略損失的相關(guān)性普遍強(qiáng)于PPO算法,這符合預(yù)期,因為BoN是更局部化且穩(wěn)定的優(yōu)化算法。
2)提升準(zhǔn)確率預(yù)測能力的優(yōu)化策略
回復(fù)分布的影響
我們構(gòu)建了僅包含來自單一下游模型回復(fù)的測試數(shù)據(jù)集。發(fā)現(xiàn)回復(fù)的質(zhì)量排序?qū)ο嚓P(guān)性的影響比采樣模型更顯著。進(jìn)一步分析不同質(zhì)量區(qū)間的回復(fù)發(fā)現(xiàn):BoN中,選用中等質(zhì)量區(qū)間(排名5-10)正例和較低質(zhì)量區(qū)間(排名15-20)負(fù)例能獲得更高相關(guān)性;PPO中,高質(zhì)量區(qū)間(排名1-5)正例和中等質(zhì)量區(qū)間(排名10-15)負(fù)例組合效果更好。
提示分布的影響
通過RewardBench原有分類構(gòu)建不同類別測試集,發(fā)現(xiàn)BoN設(shè)置下各類別的準(zhǔn)確率與對應(yīng)類別策略損失相關(guān)性更強(qiáng)。例如,Code類別相關(guān)性達(dá)到0.717。PPO設(shè)置中這種對應(yīng)關(guān)系不明顯。使用不同改寫策略探索提示語義影響發(fā)現(xiàn),BoN對提示表達(dá)變化敏感度較低,而PPO隨改寫比例增加相關(guān)性持續(xù)下降。
優(yōu)化策略的探索
為提升準(zhǔn)確率的預(yù)測能力,我們首先探索了增加每個提示的回復(fù)數(shù)量(從2個增加到5個)的策略,并評估了不同評估指標(biāo)的效果。實(shí)驗結(jié)果表明,在包含更多回復(fù)的數(shù)據(jù)集上,各類指標(biāo)普遍實(shí)現(xiàn)了更高的相關(guān)性。其中相關(guān)系數(shù)表現(xiàn)最突出,在BoN和PPO設(shè)置下分別達(dá)到0.677和0.688。
我們進(jìn)一步在不同約束條件下驗證這一策略:
- 在固定樣本量情況下,增加回復(fù)數(shù)量比增加提示數(shù)量更有效,當(dāng)樣本量較小時每個提示收集3-4個回復(fù)可獲得最佳性價比。
- 考慮標(biāo)注成本時,BoN設(shè)置下增加回復(fù)數(shù)量仍有優(yōu)勢但收益遞減,而PPO設(shè)置下收益不顯著,這為實(shí)際應(yīng)用中的數(shù)據(jù)收集策略提供了重要的成本效益參考。
3)獎勵模型誤差與策略損失的關(guān)系
通過分析不同獎勵模型組合的優(yōu)化動態(tài),我們發(fā)現(xiàn)即使具有相似準(zhǔn)確率的模型對也可能表現(xiàn)出不同的過度優(yōu)化現(xiàn)象,這表明僅依靠準(zhǔn)確率可能無法充分預(yù)測潛在的過度優(yōu)化風(fēng)險,需要開發(fā)更全面的評估框架。
1.4 總結(jié)
研究發(fā)現(xiàn),雖然獎勵模型的準(zhǔn)確率與策略性能存在弱正相關(guān)關(guān)系,但具有相似準(zhǔn)確率的獎勵模型可能產(chǎn)生表現(xiàn)差異顯著的策略,這表明單一準(zhǔn)確率指標(biāo)無法完整反映獎勵模型的實(shí)際效果。進(jìn)一步研究表明,準(zhǔn)確率的度量方式會顯著影響其對策略性能的預(yù)測能力。更重要的是,我們發(fā)現(xiàn)僅依靠準(zhǔn)確率指標(biāo)難以充分反映獎勵模型可能存在的過度優(yōu)化現(xiàn)象。基于以上發(fā)現(xiàn),我們建議在評估獎勵模型性能時采取更謹(jǐn)慎的態(tài)度,不應(yīng)過分依賴準(zhǔn)確率這一單一指標(biāo)。同時,我們的研究凸顯了開發(fā)更全面、更可靠的獎勵模型評估方法的重要性,這對提升大語言模型的對齊效果具有重要意義。
02、構(gòu)建可泛化的多模態(tài)RM
論文標(biāo)題:
The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models
論文地址:
https://arxiv.org/abs/2503.03122
收錄情況:
ICML 2025
2.1 問題背景
隨著 LLMs 越來越多地以多模態(tài)的方式感知世界,例如處理圖像、文本和語音等多種類型的數(shù)據(jù),多模態(tài)獎勵模型(Multimodal Reward Models, MM-RMs)應(yīng)運(yùn)而生,成為解決多模態(tài)任務(wù)中對齊問題的重要工具。盡管多模態(tài)獎勵模型在捕捉人類偏好上具有關(guān)鍵意義,關(guān)于其泛化能力的研究卻仍然處于空白。泛化能力是指模型在未見過的數(shù)據(jù)上保持性能的能力,這對于 MM-RMs 的實(shí)用性至關(guān)重要。如果一個 MM-RM 在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在分布外(o.o.d.)數(shù)據(jù)上無法泛化,那么它可能會導(dǎo)致模型在實(shí)際應(yīng)用中產(chǎn)生與人類意圖不一致的輸出,甚至出現(xiàn)獎勵黑客(Reward Hacking)的問題。因此,理解與提高 MM-RMs 的泛化能力對確保其在現(xiàn)實(shí)世界中的魯棒性而言至關(guān)重要。
我們發(fā)現(xiàn)了一個值得關(guān)注的現(xiàn)象:現(xiàn)有的 MM-RMs 在多模態(tài)數(shù)據(jù)的訓(xùn)練過程中往往會過度依賴單模態(tài)的虛假關(guān)聯(lián)(Unimodal Spurious Correlations)。具體來說,這些模型傾向于學(xué)習(xí)純文本捷徑(Text-only Shortcuts),而忽視了視覺或其他模態(tài)的信息。這種現(xiàn)象在訓(xùn)練數(shù)據(jù)中可能表現(xiàn)良好,但在分布外數(shù)據(jù)上則會失效,從而嚴(yán)重影響多模態(tài)獎勵模型的泛化能力。這一現(xiàn)象促使我們思考:如何衡量 MM-RMs 的泛化性能,并且量化單模態(tài)虛假關(guān)聯(lián)對其泛化表現(xiàn)的影響?我們能否建立更加有效的多模態(tài)獎勵模型構(gòu)建方法,從而緩解 MM-RMs 中的單模態(tài)虛假關(guān)聯(lián),進(jìn)而提升其泛化性能?在本研究中,我們系統(tǒng)性地探討了上述問題,并提出了一種針對單模態(tài)虛假相關(guān)性的解決方案,構(gòu)建了一個更具魯棒性的多模態(tài)獎勵建模框架。
2.2 泛化挑戰(zhàn)
在明確了多模態(tài)獎勵模型的泛化性能以后,我們進(jìn)一步分析了純文本捷徑(Text-only Shortcuts)作為 MM-RMs 構(gòu)建過程中一種不容忽視的虛假關(guān)聯(lián),并得出一系列洞察性的見解。首先,現(xiàn)有的多模態(tài)偏好數(shù)據(jù)集不可避免地存在純文本捷徑,這些捷徑僅在其對應(yīng)的分布中有效。具體來說,基于純文本訓(xùn)練以及純文本測試的設(shè)置,我們得出了純文本獎勵模型(Text-only RM)的泛化矩陣(如圖1(b)所示)。與標(biāo)準(zhǔn)的多模態(tài)獎勵模型相比,Text-only RM 在所有數(shù)據(jù)的 i.i.d. 場景下實(shí)現(xiàn)了相當(dāng)?shù)臏?zhǔn)確率,然而卻在 o.o.d. 場景下嚴(yán)重失效。其次,即使在多模態(tài)偏好環(huán)境中進(jìn)行訓(xùn)練,MM-RMs 仍然會利用單模態(tài)虛假關(guān)聯(lián)。我們在訓(xùn)練和測試過程中交替使用多模態(tài)和純文本模式,檢查獎勵模型在 i.i.d. 條件下的性能。我們發(fā)現(xiàn)即使在純文本測試中,在多模態(tài)偏好數(shù)據(jù)上訓(xùn)練的模型仍然能夠?qū)崿F(xiàn)相當(dāng)?shù)?i.i.d. 性能,這表明它們所學(xué)到的相關(guān)性中存在純文本捷徑。
為了系統(tǒng)地檢驗純文本捷徑對 MM-RMs 泛化能力的影響,我們提出了捷徑失效退化(Shortcut-Failure Degradation, SFD)指標(biāo),該指標(biāo)量化了當(dāng)單模態(tài)虛假相關(guān)性未能泛化到 o.o.d. 數(shù)據(jù)時 MM-RMs 的性能下降程度。我們觀察到,MM-RMs 的泛化能力受到單模態(tài)虛假相關(guān)性的嚴(yán)重限制。具體來說,在不同的分布外情景中,MM-RMs 的 SFD 值范圍從 14.2 到 57.5,平均值為 39.5。這表明 MM-RMs 的獎勵過程主要受純文本捷徑的支配,當(dāng)這些捷徑未能泛化到 o.o.d. 數(shù)據(jù)時,尤其是在需要真正多模態(tài)理解的情景中,模型表現(xiàn)出顯著的性能下降。
2.3 方法介紹
基于對單模態(tài)虛假關(guān)聯(lián)的洞察,我們提出了一種更加魯棒的多模態(tài)獎勵模型學(xué)習(xí)算法,能夠在任何有偏數(shù)據(jù)集上學(xué)習(xí)可泛化的 MM-RM。具體來說,該方法的核心在于識別并突出單模態(tài)捷徑失效的場景,在此基礎(chǔ)上實(shí)現(xiàn)訓(xùn)練分布的遷移。為了實(shí)現(xiàn)這一目標(biāo),我們在訓(xùn)練階段提出了一個雙分支架構(gòu)。每個分支都使用相同初始化的獎勵模型,但它們在模態(tài)處理上有所不同:主分支在標(biāo)準(zhǔn)的多模態(tài)偏好數(shù)據(jù)上進(jìn)行訓(xùn)練,作為我們的捷徑感知的多模態(tài)獎勵模型(Shortcut-aware MM-RM);輔助分支則在移除了圖像模態(tài)的偏好數(shù)據(jù)上進(jìn)行訓(xùn)練,作為純文本捷徑的代理。為了量化并利用這兩個分支之間的差異,我們引入了單模態(tài)虛假關(guān)聯(lián)系數(shù)(Shortcut-Failure Coefficient, SFC)。該指標(biāo)從樣本層面衡量輔助分支(單模態(tài)捷徑代理)對總訓(xùn)練目標(biāo)損失的貢獻(xiàn)比例,從而表明單模態(tài)虛假相關(guān)性在多大程度上未能捕捉完整的偏好模式。基于單模態(tài)虛假關(guān)聯(lián)系數(shù),我們將主分支的損失函數(shù)重新表述為捷徑感知(shortcut-aware)的形式,其中 SFC 值僅作為加權(quán)系數(shù)。
本質(zhì)上,該訓(xùn)練范式利用 SFC 值動態(tài)地重新加權(quán)訓(xùn)練分布中的樣本:具有較高 SFC 值的樣本表明純文本分支難以建模偏好,這意味著多模態(tài)融合對于魯棒學(xué)習(xí)至關(guān)重要,因此會獲得更高的權(quán)重;相反,具有較低 SFC 值的樣本表明純文本分支可以輕松區(qū)分它們,從而獲得較低的權(quán)重。我們將這種加權(quán)機(jī)制視為一種適應(yīng)性方法,將訓(xùn)練數(shù)據(jù)分布轉(zhuǎn)向那些多模態(tài)理解至關(guān)重要的環(huán)境。在完成捷徑感知的模型訓(xùn)練后,我們可以簡單地移除輔助分支,因為該分支僅在訓(xùn)練期間作為純文本捷徑的代理。在推理階段,我們只需要部署主分支,這意味著推理過程與標(biāo)準(zhǔn)多模態(tài)獎勵模型完全相同,沒有任何額外開銷。
2.4 實(shí)驗結(jié)果
我們提出的捷徑感知的多模態(tài)獎勵模型(Shortcut-aware MM-RMs)在跨分布轉(zhuǎn)移測試中取得泛化性能的顯著提升,如圖1(c)所示。與標(biāo)準(zhǔn)多模態(tài)獎勵模型相比,Shortcut-aware MM-RMs 在六個 o.o.d. 場景下的平均準(zhǔn)確率從 68.1 提高到 78.5。進(jìn)一步地,我們分析了捷徑失效退化指標(biāo)的變化。Shortcut-aware MM-RMs 在所有 o.o.d. 場景中均展現(xiàn)出穩(wěn)健的魯棒性提升,與標(biāo)準(zhǔn) MM-RMs 相比,SFD 值顯著降低。這表明捷徑感知模型較少依賴純文本捷徑進(jìn)行獎勵評分,并且在單模態(tài)虛假關(guān)聯(lián)無法泛化的情景中能夠做出更準(zhǔn)確的判斷。
我們進(jìn)一步在下游任務(wù)中驗證模型的真實(shí)性能,采用最佳候選選擇(Best-of-N, BoN)策略。該過程涉及從 InternVL2-8B 為每對圖像-查詢生成 64 個候選回答,多個多模態(tài)獎勵模型隨后對這些候選回答進(jìn)行評分,得分最高的回答被選中用于下游基準(zhǔn)評估。Shortcut-aware MM-RMs 在所有基準(zhǔn)測試中均展現(xiàn)出顯著的 Best-of-64 性能提升,突顯了該算法強(qiáng)大的泛化能力和實(shí)際應(yīng)用價值。我們還發(fā)現(xiàn),捷徑感知的多模態(tài)獎勵模型展現(xiàn)出了更好的可擴(kuò)展性,在面對獎勵過度優(yōu)化(Reward Overoptimization)時具有更強(qiáng)的魯棒性。
2.5 總結(jié)
本研究解決了多模態(tài)獎勵模型(MM-RMs)面臨的一個關(guān)鍵挑戰(zhàn):單模態(tài)虛假關(guān)聯(lián)對其泛化能力的限制。我們的跨分布實(shí)驗揭示了 MM-RMs 在同分布(i.i.d.)和分布外(o.o.d.)情景之間的顯著性能差異。此外,我們發(fā)現(xiàn)即使在多模態(tài)訓(xùn)練環(huán)境中,MM-RMs 仍然能夠利用多模態(tài)偏好數(shù)據(jù)集中存在的純文本捷徑,這對其泛化能力產(chǎn)生了負(fù)面影響。為了克服這一局限性,我們提出了一種捷徑感知(Shortcut-aware)的多模態(tài)獎勵模型學(xué)習(xí)算法,該算法通過動態(tài)識別并強(qiáng)調(diào)單模態(tài)捷徑失效的樣本,顯著增強(qiáng)了它們的泛化能力和實(shí)際應(yīng)用的有效性。
03、從零構(gòu)建中文獎勵模型
論文標(biāo)題:
Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch
論文地址:
https://arxiv.org/abs/2502.17173
收錄情況:
ACL 2025 Main
3.1 問題背景
隨著大語言模型快速發(fā)展,確保模型安全性、可靠性和價值觀一致性成為關(guān)鍵挑戰(zhàn)。模型可能產(chǎn)生有害內(nèi)容、難以準(zhǔn)確理解用戶意圖、在特定場景下表現(xiàn)不穩(wěn)定。為應(yīng)對這些挑戰(zhàn),獎勵模型作為對齊優(yōu)化的核心組件發(fā)揮關(guān)鍵作用,主要通過兩種方式:一是在訓(xùn)練中提供獎勵信號指導(dǎo)參數(shù)優(yōu)化,通過RLHF過程調(diào)整模型行為;二是在生成階段直接干預(yù)輸出,確保內(nèi)容符合人類期望。然而,中文獎勵模型發(fā)展面臨顯著挑戰(zhàn)。首先是數(shù)據(jù)缺乏,缺少大規(guī)模、高質(zhì)量的中文偏好數(shù)據(jù)集和評測基準(zhǔn)。其次是標(biāo)注質(zhì)量問題,現(xiàn)有模型主要依賴AI合成數(shù)據(jù),存在不一致性,難以準(zhǔn)確反映真實(shí)人類偏好和文化差異。為解決這些問題,我們構(gòu)建了CheemsBench全人工標(biāo)注的中文評測基準(zhǔn)和CheemsPreference大規(guī)模中文偏好數(shù)據(jù)集。這兩個數(shù)據(jù)集通過人工監(jiān)督,能更準(zhǔn)確地捕捉真實(shí)的人類價值觀,為中文獎勵模型發(fā)展提供重要支撐。
3.2 中文獎勵模型基準(zhǔn)測試
為了全面評估中文獎勵模型的性能,我們構(gòu)建了CheemsBench基準(zhǔn)測試集。該基準(zhǔn)具有兩個主要特點(diǎn):一是覆蓋范圍廣,整合多樣化的提示和采樣模型,確保評估涵蓋各種場景;二是標(biāo)注質(zhì)量高,通過多輪人工三元比較和沖突解決算法,得出可靠的偏好排序。
提示收集方面,我們從多個開源數(shù)據(jù)集中采樣中文提示,包括Humaneval-XL(代碼生成)、MathOctopus(數(shù)學(xué)推理)、GAOKAO-Bench(高考題目)、HalluQA(幻覺檢測)等,并額外收集真實(shí)用戶指令用于分布外評估。最終從開源數(shù)據(jù)集選取1,146個提示,從人工指令選取1,346個提示。
回復(fù)收集方面,我們?yōu)槊總€提示從不同模型中采樣5個回復(fù),采樣模型包括開源模型(Qwen2、LLaMA-3、InternLM2等)和閉源模型(GPT-4、GPT-3.5、Claude-3等),確保質(zhì)量和分布多樣性。針對部分開源模型中文能力受限可能出現(xiàn)的亂碼,人工標(biāo)注者會在標(biāo)注過程中剔除無意義內(nèi)容但保留不影響語義的輕微混雜。
數(shù)據(jù)標(biāo)注依賴人工判斷以捕捉人類偏好。對于每個提示的5個回復(fù),我們拆分為5個標(biāo)注任務(wù),每個任務(wù)包含對3個相鄰回復(fù)的偏好比較,由不同標(biāo)注者獨(dú)立完成。為解決標(biāo)注沖突問題,我們將標(biāo)注結(jié)果轉(zhuǎn)換為有向偏好圖,使用深度優(yōu)先搜索識別沖突并合并為更大節(jié)點(diǎn),重復(fù)此過程直到無沖突,最后通過拓?fù)渑判虻玫讲糠峙判蚪Y(jié)果。
最后,在CheemsBench上,我們采用準(zhǔn)確率和完全匹配率兩個指標(biāo)全面評估獎勵模型性能。
3.3 中文偏好數(shù)據(jù)
為了支持中文獎勵模型訓(xùn)練,我們構(gòu)建了CheemsPreference偏好數(shù)據(jù)集。該數(shù)據(jù)集具有兩個主要特點(diǎn):一是規(guī)模大且多樣化,包含2.7萬條真實(shí)人工指令,采用多層分類體系,每個提示從多個模型采樣多個回復(fù);二是標(biāo)注質(zhì)量高,通過結(jié)合人工標(biāo)注和GPT-4標(biāo)注的遠(yuǎn)程監(jiān)督算法建立可靠的偏好排序。
指令收集方面,我們收集了27,861條真實(shí)人工指令,并開發(fā)了包含8個主要類別和數(shù)十個細(xì)分類別的全面分類體系,確保指令的多樣性和覆蓋面。
回復(fù)采樣方面,我們從廣泛的模型中采樣回復(fù),包括開源模型(Qwen2/2.5系列、LLaMA-3系列、InternLM2、GLM4等)和閉源模型(GPT-4系列、Claude-3等)。為保證回復(fù)質(zhì)量,我們實(shí)施基于規(guī)則的方法檢測異常長度或包含過多非中文符號的回復(fù)。雖然這種方法在數(shù)學(xué)或代碼相關(guān)提示時準(zhǔn)確率可能較低,但我們優(yōu)先考慮高召回率以過濾更多低質(zhì)量回復(fù)。最終每個提示平均獲得5個以上回復(fù)。
偏好標(biāo)注方面,考慮到人工標(biāo)注成本高昂而GPT標(biāo)注存在不一致性,我們采用了遠(yuǎn)程監(jiān)督策略。首先由人工標(biāo)注者標(biāo)注小規(guī)模數(shù)據(jù)子集,然后使用GPT-4o標(biāo)注更大規(guī)模數(shù)據(jù)集,對N個回復(fù)進(jìn)行成對比較,并隨機(jī)排列回復(fù)順序以減少位置偏差。接著使用在人工標(biāo)注數(shù)據(jù)上訓(xùn)練的獎勵模型過濾GPT標(biāo)注,建立一致的偏好順序。最后采用長度去偏后處理策略,通過下采樣平衡數(shù)據(jù)集。
3.4 實(shí)驗結(jié)果
基準(zhǔn)測試評估
我們在CheemsBench上評估了當(dāng)前主流的獎勵模型,實(shí)驗結(jié)果揭示了幾個重要發(fā)現(xiàn):首先,主流模型在中文場景下性能顯著下降,表明中文獎勵模型仍有很大提升空間;其次,模型在開源提示上的表現(xiàn)優(yōu)于人工指令,因為人工指令更具分布外特性;第三,對于答案相對確定的提示,獎勵模型能更準(zhǔn)確地評估回復(fù)質(zhì)量,在"推理"類任務(wù)上表現(xiàn)較好,但在"理解"等其他類別上存在明顯不足。此外,我們評估了各種中英文偏好數(shù)據(jù)集的表現(xiàn),結(jié)果顯示中文數(shù)據(jù)集中"活字"數(shù)據(jù)集表現(xiàn)最佳,英文數(shù)據(jù)集中"Ultrafeedback"領(lǐng)先,但整體而言中英文數(shù)據(jù)集之間存在明顯差距,凸顯了構(gòu)建更好的中文偏好數(shù)據(jù)集的必要性。
下游任務(wù)相關(guān)性
為探究CheemsBench與下游任務(wù)的相關(guān)性,我們在人類勝率、MT-bench-zh和MT-bench三個任務(wù)上采用Best-of-32采樣策略進(jìn)行驗證。實(shí)驗結(jié)果表明:一是我們的基準(zhǔn)測試與下游任務(wù)表現(xiàn)出更強(qiáng)的相關(guān)性,在中英文任務(wù)中都得到驗證;二是GPT標(biāo)注的基準(zhǔn)測試顯示出次優(yōu)的相關(guān)性,強(qiáng)調(diào)了人工判斷在實(shí)現(xiàn)更好下游任務(wù)泛化性方面的重要性。
數(shù)據(jù)集構(gòu)建消融實(shí)驗
我們通過消融實(shí)驗評估了數(shù)據(jù)集構(gòu)建策略的有效性,主要發(fā)現(xiàn)包括:一是單獨(dú)使用人工或GPT子集都不夠理想,GPT子集難以完全捕捉人類偏好,而人工子集由于規(guī)模限制影響分布外性能;二是長度去偏策略能提升性能;三是遠(yuǎn)程監(jiān)督策略顯著改善了性能,突顯了引入人工監(jiān)督的重要性;四是結(jié)合所有策略能獲得最佳效果。
規(guī)模化趨勢
我們研究了數(shù)據(jù)量和模型規(guī)模對性能的影響,發(fā)現(xiàn):一是隨著訓(xùn)練數(shù)據(jù)量增加,獎勵模型在開源提示和人工指令子集上的性能都有提升,驗證了遠(yuǎn)程監(jiān)督方法的潛力;二是將模型規(guī)模從0.5B增加到72B能顯著提升性能,表明更大模型能更有效地捕捉復(fù)雜的偏好模式。此外,從預(yù)訓(xùn)練模型或指令模型開始訓(xùn)練并無顯著差異。
3.5 總結(jié)
本研究針對中文獎勵模型開發(fā)中的關(guān)鍵問題,提供了兩個重要貢獻(xiàn):第一,我們構(gòu)建了CheemsBench評測基準(zhǔn),這是一個全面的中文獎勵模型評估體系。第二,我們創(chuàng)建了CheemsPreference高質(zhì)量中文偏好數(shù)據(jù)集,為模型訓(xùn)練提供了可靠的數(shù)據(jù)基礎(chǔ)。基于這些資源,我們對中文獎勵模型的發(fā)展現(xiàn)狀進(jìn)行了系統(tǒng)評估。結(jié)果顯示,盡管現(xiàn)有模型在部分任務(wù)上表現(xiàn)良好,但整體上仍存在較大改進(jìn)空間。同時,我們的實(shí)驗證實(shí)了數(shù)據(jù)集構(gòu)建中采用的遠(yuǎn)程監(jiān)督和長度去偏等策略確實(shí)有效。這項工作的意義在于:一方面縮小了中英文獎勵模型之間的性能差距,另一方面為后續(xù)研究提供了堅實(shí)基礎(chǔ)。通過開放這些研究資源,我們希望吸引更多研究者投入中文大模型對齊研究,共同推動該領(lǐng)域的進(jìn)步。
04、生成獎勵模型Critic-Cot
論文標(biāo)題:
Critic-CoT: Boosting the Reasoning Abilities of Large Language Model via Chain-of-Thought Critic
論文地址:
https://arxiv.org/pdf/2408.16326
收錄情況:
ACL 2025 Findings
4.1 問題背景
隨著大語言模型的快速發(fā)展,提升其推理能力成為實(shí)現(xiàn)更智能可靠AI系統(tǒng)的關(guān)鍵挑戰(zhàn)。從認(rèn)知角度看,人類推理過程涉及持續(xù)的反思和修正,這啟發(fā)了在大語言模型推理過程中集成自我批判(self-critic)機(jī)制的研究。相比依賴外部反饋的傳統(tǒng)批判方法,自我批判僅依靠模型內(nèi)部能力,能夠減少人工標(biāo)注的高昂成本。然而,當(dāng)前的自我批判方法面臨顯著挑戰(zhàn)。首先,現(xiàn)有批判方法過于簡化,通常僅依賴基礎(chǔ)提示來直接指出錯誤,缺乏逐步的思維鏈檢查或訓(xùn)練過程,導(dǎo)致自我批判準(zhǔn)確率相對較低。這些簡單方法往往類似于System-1的直觀"思考",而非更嚴(yán)格深思的System-2推理。其次,任務(wù)解決和自我批判能力都依賴于模型固有知識,但當(dāng)前缺乏對這兩種能力在大語言模型內(nèi)部關(guān)聯(lián)關(guān)系的深入探索,使得在自我批判框架內(nèi)平衡這兩種能力變得困難。
4.2 Critic-CoT框架
為解決上述問題,本文提出了Critic-CoT框架,旨在將大語言模型的批判范式從類似System-1的直覺"思考"推向類似System-2的深思"推理"。該框架包含兩個核心模塊:基于弱監(jiān)督的自動訓(xùn)練和推理時的自我檢查。整體框架和具體例子如圖所示:
逐步思維鏈批判
采用逐步思維鏈批判方式,使批判-精化過程既可控又可形式化。給定問題和對應(yīng)的黃金答案,將步嘗試表示為,相應(yīng)的批判表示為,其中步驟標(biāo)簽表示第步正確,表示錯誤。通過兩個核心假設(shè)自動標(biāo)注過程標(biāo)簽:(1)若最終答案錯誤,存在一個最早錯誤,通過精化可達(dá)到正確答案;(2)若最終答案正確,則所有中間步驟都正確。基于這些假設(shè),系統(tǒng)能夠自動識別有效的批判-精化數(shù)據(jù)對。
兩階段自動訓(xùn)練
第一階段使用代表性指令跟隨模型采樣解決方案,利用GPT-4等先進(jìn)模型作為批判模型,收集高質(zhì)量批判數(shù)據(jù)構(gòu)建模型基礎(chǔ)批判能力。此過程將教師模型的Pass1@N指標(biāo)蒸餾到學(xué)生模型的Top1@N中。第二階段讓學(xué)到的批判模型批判和精化自己的輸出,進(jìn)一步增強(qiáng)自我批判能力。結(jié)合兩階段數(shù)據(jù)訓(xùn)練最終的批判模型。
推理
推理階段采用兩種策略充分利用學(xué)到的批判和精化能力:
(1)迭代精化。由于單輪精化可能仍包含錯誤,采用迭代檢查機(jī)制,一旦批判發(fā)現(xiàn)錯誤就重新精化,直到批判認(rèn)為可信或達(dá)到最大重試次數(shù);
(2)批判過濾。結(jié)合自一致性方法,利用批判能力過濾掉預(yù)測錯誤的答案。對多個嘗試進(jìn)行逐步標(biāo)簽檢查,過濾出在某步檢測到錯誤的嘗試,最后對剩余結(jié)果進(jìn)行多數(shù)投票。
該框架通過思維鏈批判實(shí)現(xiàn)了從System-1到System-2的轉(zhuǎn)變,不僅提高了批判準(zhǔn)確性,還通過弱監(jiān)督方法減少了對人工標(biāo)注的依賴。
4.3 實(shí)驗結(jié)果
主要性能提升
在GSM8K數(shù)據(jù)集上,訓(xùn)練模型的top-1準(zhǔn)確率從89.6%提升至91.7%,迭代精化策略進(jìn)一步提升至93.3%。結(jié)合批判過濾的Maj1@96方法達(dá)到最高準(zhǔn)確率95.4%。在MATH數(shù)據(jù)集上:top-1準(zhǔn)確率從51.0%提升至56.2%,迭代精化略微提升至56.6%,而批判過濾在Maj1@512上實(shí)現(xiàn)了從64.4%到66.4%的2.0%提升。
GSM8K上的結(jié)果
MATH上的結(jié)果
域外泛化能力
在StrategyQA和AGIEval數(shù)據(jù)集上的評估顯示,批判模型在其他領(lǐng)域表現(xiàn)出良好的泛化能力,通過迭代精化和批判過濾策略均獲得性能提升。
消融實(shí)驗分析
實(shí)驗驗證了逐步思維鏈批判的必要性,移除思維鏈中間輸出和逐步標(biāo)簽會負(fù)面影響召回指標(biāo)。兩階段訓(xùn)練和批判-精化數(shù)據(jù)的結(jié)合對于提升模型性能都是必要的。
4.4 總結(jié)
本研究針對大語言模型自我批判能力的關(guān)鍵問題,提出了Critic-CoT框架,通過逐步思維鏈批判和弱監(jiān)督數(shù)據(jù)構(gòu)建,成功將模型的批判范式從System-1推向System-2。實(shí)驗證明該方法能夠有效提升模型在數(shù)學(xué)推理任務(wù)上的性能,更重要的是發(fā)現(xiàn)了批判能力與任務(wù)解決能力的相互促進(jìn)關(guān)系。該框架通過弱監(jiān)督方法顯著降低了對大量人工標(biāo)注的依賴,同時在域外數(shù)據(jù)集上展現(xiàn)出良好的泛化能力,驗證了方法的魯棒性。本工作為未來自我批判框架的設(shè)計和大語言模型向System-2推理的轉(zhuǎn)變提供了重要啟示,有望推動該領(lǐng)域的進(jìn)一步發(fā)展。
05、CodePMP
論文標(biāo)題:
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning
論文地址:
https://arxiv.org/abs/2410.02229
5.1 問題背景
在LLM(大語言模型)的對齊訓(xùn)練中,盡管RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))方法被證明是有效的,但它的效果依賴于RM(獎勵模型)的能力。然而,訓(xùn)練RM需要高質(zhì)量的偏好數(shù)據(jù),在復(fù)雜推理領(lǐng)域(如數(shù)學(xué)和邏輯推理),這些數(shù)據(jù)的獲取成本高昂且標(biāo)注困難。此類偏好數(shù)據(jù)不僅需要多樣化的prompt和響應(yīng),還需要準(zhǔn)確的人類反饋。因此,提高復(fù)雜推理領(lǐng)域偏好數(shù)據(jù)的利用效率,即有限標(biāo)注數(shù)據(jù)的情況下訓(xùn)練出更強(qiáng)大的RM,具有重要意義。
幸運(yùn)的是,GitHub上有大量公開的源代碼數(shù)據(jù),經(jīng)過篩選后可以獲得高質(zhì)量且規(guī)模龐大的代碼片段。這些高質(zhì)量代碼片段不僅數(shù)量可觀,而且具有豐富的多樣性,可以用來反向生成多樣化的code prompt(代碼描述)。此外,CodeLLM(代碼語言模型)已經(jīng)得到了廣泛關(guān)注和發(fā)展,最先進(jìn)的CodeLLM可以根據(jù)code prompt生成對應(yīng)的代碼片段。基于此,提出了CodePMP方法——通過利用源代碼數(shù)據(jù),合成大量、多樣的代碼偏好數(shù)據(jù),實(shí)現(xiàn)可擴(kuò)展的偏好模型預(yù)訓(xùn)練,從而提高推理RM的微調(diào)樣本效率,并最終提升LLM在推理任務(wù)上的表現(xiàn)。
5.2 方法介紹
圖1 CodePMP方法圖
CodePMP方法的實(shí)現(xiàn)包括以下幾個步驟:
- 查詢生成:從GitHub中獲取高質(zhì)量代碼片段,并生成相應(yīng)的code prompt。
- 利用模型能力差異生成偏好數(shù)據(jù):根據(jù)code prompt,分別使用強(qiáng)CodeLLM和弱CodeLLM生成對應(yīng)的代碼片段,并將兩者組成 <chosen rejected> 偏好對。
- 損失函數(shù)設(shè)計:損失函數(shù)由兩部分組成:基于 <chosen rejected> 偏好對計算的偏好損失(Pairwise Ranking Loss)和基于chosen響應(yīng)計算的語言建模損失(LM Loss)。
- 偏好預(yù)訓(xùn)練:在此基礎(chǔ)上,利用大量代碼偏好數(shù)據(jù)對模型進(jìn)行偏好預(yù)訓(xùn)練,從而提升模型在下游推理RM微調(diào)的樣本效率。
偽代碼如下圖所示:
5.3 實(shí)驗結(jié)果
我們設(shè)計了一系列實(shí)驗來驗證CodePMP的效果,同時涵蓋了數(shù)學(xué)推理(GSM8K MATH)和邏輯推理。
1. RM準(zhǔn)確率評測
在數(shù)學(xué)推理和邏輯推理任務(wù)中,通過衡量獎勵模型在區(qū)分測試集中chosen響應(yīng)和rejected響應(yīng)時的準(zhǔn)確性,對比分別 經(jīng)過CodePMP再微調(diào)RM 和 直接微調(diào)RM 的效果差別。實(shí)驗結(jié)果顯示,CodePMP給數(shù)學(xué)推理和邏輯推理的RM準(zhǔn)確率帶來了顯著提升。
表1 RM準(zhǔn)確率對比
2. Best-of-N(BoN)準(zhǔn)確率評測
通過為每個問題生成多個候選答案,并讓RM選擇最佳答案。在數(shù)學(xué)推理上,在候選答案數(shù)量增加到256的情況下,經(jīng)過CodePMP再微調(diào)的RM仍然保持高的BoN準(zhǔn)確率,而不使用CodePMP而直接微調(diào)的RM的BoN準(zhǔn)確率則顯著下降。在邏輯推理上,經(jīng)過CodePMP再微調(diào)的RM也有著明顯的優(yōu)勢。
圖2 數(shù)學(xué)領(lǐng)域Best-of-N準(zhǔn)確率對比
圖3 推理領(lǐng)域Best-of-N(N=4)準(zhǔn)確率對比
3. 樣本效率實(shí)驗
在不同微調(diào)樣本量下的模型效果對比。結(jié)果顯示,使用CodePMP預(yù)訓(xùn)練的模型即使在微調(diào)樣本量較少的情況下,也能達(dá)到或超過不使用CodePMP模型在大樣本量下的表現(xiàn),顯著提高了推理RM微調(diào)的的樣本效率。
圖4 不同微調(diào)樣本量下的模型Best-of-N準(zhǔn)確率對比
4. 擴(kuò)展性測試
分析了隨著合成數(shù)據(jù)的增多,CodePMP方法帶來的增益的變化趨勢。實(shí)驗表明,隨著合成偏好對數(shù)量的增加,模型在推理偏好任務(wù)中的表現(xiàn)持續(xù)提升,且未出現(xiàn)效果減弱的跡象,展示了CodePMP方法的高度擴(kuò)展性。
圖5 經(jīng)過不同規(guī)模數(shù)據(jù)的CodePMP后的模型Best-of-N準(zhǔn)確率變化趨勢。虛線是不經(jīng)過CodePMP直接進(jìn)行RM微調(diào)的表現(xiàn)。
5.4 總結(jié)
CodePMP展示了一種可擴(kuò)展、性價比高的新方法,極大地提升了LLM在推理偏好任務(wù)中的表現(xiàn),并減少了對高質(zhì)量人工標(biāo)注數(shù)據(jù)的依賴。未來,我們還將探索如何將更多的監(jiān)督信號引入到偏好預(yù)訓(xùn)練中,進(jìn)一步優(yōu)化預(yù)訓(xùn)練中的偏好建模。
06、自對齊幻覺緩解方法(self rewarding)
論文標(biāo)題:
On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation
論文地址:
https://arxiv.org/pdf/2406.12221
收錄情況:
ACL 2025 Findings
6.1 問題背景
大語言模型在生成流暢合理回復(fù)的同時,偶爾會在回答中編造事實(shí),這種現(xiàn)象被稱為幻覺。幻覺的核心問題是模型生成內(nèi)容與其內(nèi)部知識之間的不匹配。這種不匹配主要表現(xiàn)為三種類型:(1)誤導(dǎo)性回答:模型在其知識邊界內(nèi)錯誤回答問題;(2)魯莽嘗試:模型對超出其知識范圍的查詢進(jìn)行回答;(3)回避式無知:模型盡管擁有相關(guān)知識卻拒絕提供答案。現(xiàn)有的學(xué)習(xí)型方法面臨幾個關(guān)鍵挑戰(zhàn):首先,由于離策略數(shù)據(jù)采樣導(dǎo)致分布偏移,產(chǎn)生次優(yōu)模型;其次,粗粒度的實(shí)例級反饋無法精確定位幻覺,因為單個回答可能包含正確和錯誤的事實(shí);最后,現(xiàn)有知識檢測技術(shù)可能產(chǎn)生不一致結(jié)果,無法準(zhǔn)確反映模型的知識邊界。
6.2 RLFH框架
為解決上述問題,本文提出了強(qiáng)化學(xué)習(xí)幻覺緩解(RLFH)框架,這是一種在線策略自對齊方法,通過細(xì)粒度反饋實(shí)現(xiàn)幻覺緩解。該框架使大語言模型能夠通過細(xì)粒度的在線策略反饋主動探索自身知識邊界。其包含三個核心步驟:(1)從調(diào)優(yōu)模型采樣回復(fù);(2)策略作為判斷模型執(zhí)行自評估收集細(xì)粒度知識反饋;(3)將語言形式反饋轉(zhuǎn)換為token級密集獎勵用于強(qiáng)化學(xué)習(xí)。
策略作為判斷者的細(xì)粒度反饋
RLFH的核心創(chuàng)新是讓策略作為自己的判斷者,在語句級別提供關(guān)于真實(shí)性和信息量的細(xì)粒度反饋。
其包含如下三個步驟:
- 語句提取:策略模型首先將回復(fù)分解為原子事實(shí)語句。采用層次化方法,先將回答分解為句子,再從每個句子中提取有效的事實(shí)性語句。
- 事實(shí)驗證:策略模型通過與外部知識源比較來評估提取的事實(shí)性語句的真實(shí)性。每個語句被分類為:(1)正確:有證據(jù)支持的正確語句;(2)含糊正確:具有不確定性的準(zhǔn)確語句;(3)模糊:真實(shí)性不確定的語句;(4)含糊錯誤:具有不確定性的錯誤語句;(5)錯誤:被證據(jù)否定的語句。
- 信息量評估:策略模型進(jìn)一步評估語句的信息量,采用五分制評分,從提供關(guān)鍵信息(+5)到包含最少相關(guān)細(xì)節(jié)(+1)。
基于token級獎勵的在線策略優(yōu)化
RLFH通過層次化結(jié)構(gòu)和最長公共子序列算法將語句級評估映射回原始回答的token序列,為每個token分配相應(yīng)的獎勵值。
其中真實(shí)性獎勵計算方式為,其中函數(shù)對正確語句給予正獎勵,對錯誤語句給予負(fù)獎勵;函數(shù)根據(jù)信息量調(diào)整獎勵重要性;為平衡系數(shù)。
而信息量獎勵計算方式為
其中為句子中語句總數(shù),和構(gòu)成最小獎勵閾值,為信息量系數(shù)。對數(shù)函數(shù)確保獎勵隨語句數(shù)量和信息量增加,但增長率遞減。
最后以上信息會通過最長公共子序列算法映射回原回復(fù)的token,將獎勵值分配給對應(yīng)的token位置,實(shí)現(xiàn)精確的token級反饋優(yōu)化。
在線強(qiáng)化學(xué)習(xí)
在得到精確的獎勵信號以后,即可使用近端策略優(yōu)化(PPO)算法,通過最大化獎勵期望來優(yōu)化策略模型。
6.3 實(shí)驗結(jié)果
主要實(shí)驗
在HotpotQA、SQuADv2和Biography三個數(shù)據(jù)集上進(jìn)行了全面評估,使用FactScore管道進(jìn)行評估。實(shí)驗結(jié)果顯示,RLFH在所有數(shù)據(jù)集上都獲得了最高的FactScore,證明了該方法在幻覺緩解方面的顯著有效性。特別值得注意的是,盡管只在HotpotQA數(shù)據(jù)集上訓(xùn)練,該算法在兩個域外數(shù)據(jù)集上都表現(xiàn)出改進(jìn)的準(zhǔn)確性,展現(xiàn)了良好的泛化能力。
訓(xùn)練后的模型呈現(xiàn)出保守但準(zhǔn)確的特點(diǎn):回復(fù)比例有所下降但FactScore更高,在其能力范圍內(nèi)提供更準(zhǔn)確的信息。上圖比較了基礎(chǔ)模型和RLFH調(diào)優(yōu)模型的語句準(zhǔn)確性與數(shù)量分布,顯示聯(lián)合分布向右下方向移動,表明模型生成回復(fù)更加保守但提高了信息可靠性。
詳細(xì)分析結(jié)果
通過對不同真實(shí)性類別語句分布的分析發(fā)現(xiàn),RLFH有效減少了錯誤和不可驗證的語句。以下分別展示了正確語句、模糊語句和錯誤語句的分布變化。
進(jìn)一步的,下圖顯示RLFH顯著增加了高準(zhǔn)確性回復(fù)的比例,減少了低準(zhǔn)確性回復(fù),特別是準(zhǔn)確性超過0.7的回復(fù)有顯著增加。同時,信息量分析表明模型在訓(xùn)練后能夠提供更有價值的信息,下圖顯示回復(fù)分布向更高信息量方向移動,表明模型的回復(fù)通常在訓(xùn)練后提供更關(guān)鍵的信息,證明了該方法不僅提高了準(zhǔn)確性,還保持了信息的有用性。
消融實(shí)驗
為了深入理解RLFH各組件的貢獻(xiàn),進(jìn)行了詳細(xì)的消融實(shí)驗分析。首先探究了獎勵粒度對模型性能的影響,比較了響應(yīng)級、句子級和語句級三種不同粒度的獎勵信號。如下表所示,語句級獎勵在所有設(shè)置中始終獲得最高的FactScore,證明了細(xì)粒度反饋的重要性。這一結(jié)果表明,越精細(xì)的反饋信號越能幫助模型準(zhǔn)確識別和糾正特定的錯誤內(nèi)容。關(guān)于判斷模型的選擇,實(shí)驗比較了在線策略設(shè)置與多種固定外部判斷模型的效果。實(shí)驗結(jié)果表明,讓策略模型作為自己的判斷者(在線策略方法)表現(xiàn)最優(yōu),同時消除了訓(xùn)練過程中對額外獎勵模型的需求。這一發(fā)現(xiàn)不僅驗證了自對齊方法的有效性,還顯著降低了實(shí)際部署的復(fù)雜性和資源消耗。
6.4 總結(jié)
本研究提出了RLFH,一種創(chuàng)新的在線策略自對齊方法,通過構(gòu)建自評估框架讓大語言模型主動探索知識邊界并自我糾正幻覺行為。該方法的核心創(chuàng)新是策略模型作為自己的判斷者,通過原子事實(shí)驗證自動提供細(xì)粒度反饋,生成token級密集獎勵信號用于在線強(qiáng)化學(xué)習(xí)優(yōu)化,從而消除了對外部獎勵模型的依賴。實(shí)驗結(jié)果表明,該方法在多個基準(zhǔn)數(shù)據(jù)集上顯著提升了模型的事實(shí)準(zhǔn)確性,為開發(fā)更可靠和自我感知的語言模型提供了重要基礎(chǔ),有助于減輕錯誤信息傳播并保障模型在現(xiàn)實(shí)應(yīng)用中的安全部署。
07、作者簡介
溫學(xué)儒
小紅書 hi lab 團(tuán)隊算法實(shí)習(xí)生,現(xiàn)就讀于中國科學(xué)院軟件研究所中文信息處理實(shí)驗室;主要研究方向為大語言模型對齊。
李梓超
小紅書 hi lab 團(tuán)隊算法實(shí)習(xí)生,現(xiàn)就讀于中國科學(xué)院軟件研究所中文信息處理實(shí)驗室;主要研究方向為大語言模型對齊、多模態(tài)對齊。
魚匯沐
小紅書 hi lab 團(tuán)隊算法實(shí)習(xí)生,現(xiàn)就讀于中國科學(xué)院信息工程研究所,主要研究方向為大語言模型對齊和數(shù)據(jù)合成。
時墨
小紅書 hi lab 團(tuán)隊算法工程師,主要研究方向為大語言模型對齊。
乘風(fēng)
小紅書 hi lab 團(tuán)隊算法工程師,主要研究方向為大語言模型預(yù)訓(xùn)練和對齊。
連軒
小紅書 hi lab 團(tuán)隊算法工程師,主要研究方向為大語言模型對齊。