什么樣的偏好,才叫好的偏好?——揭秘偏好對齊數據的「三駕馬車」
論文有兩位共同一作。何秉翔,清華大學博士一年級,研究方向為大語言模型對齊、強化學習。張文斌,哈爾濱工業大學博士一年級,研究方向為自然語言處理。
近年來,大語言模型(LLMs)的對齊研究成為人工智能領域的核心挑戰之一,而偏好數據集的質量直接決定了對齊的效果。無論是通過人類反饋的強化學習(RLHF),還是基于「RL-Free」的各類直接偏好優化方法(例如 DPO),都離不開高質量偏好數據集的構建。
盡管已有諸多研究致力于擴展偏好數據集的規模并優化標注方式,但對于哪些因素會對偏好數據集的對齊性能產生影響缺乏系統性分析,導致優化策略往往依賴經驗,缺乏明確的原則指導。
這不禁引發了一個核心問題:哪些因素會影響偏好數據集的對齊性能?
為填補這一空白,近期來自清華大學、哈爾濱工業大學和阿里安全的研究團隊提出 AIR(Annotations, Instructions, Response Pairs)框架,系統性地剖析構成偏好數據集的三大核心要素:標注(Annotations)、指令(Instructions)與回復對(Response Pairs),并通過控制變量實驗,量化不同組件對于最終對齊效果的獨立貢獻。
研究團隊在 MT-Bench(多輪對話)、ArenaHard(復雜推理)、AlpacaEval 2.0(指令遵循)等 6 大評測集構建實驗矩陣,覆蓋編碼、數學、知識推理、指令遵循等對齊關鍵領域,發現三個要素對偏好數據的質量都會產生關鍵影響,設計合理的優化策略能夠顯著提升累積對齊性能。
這意味著我們將偏好數據集的設計轉變為一種更加科學、關注組件優化的策略。這種方法不僅顯著提升了對齊性能,還為未來的對齊研究提供了一張高效的藍圖。
同時,AIR 技術已賦能阿里安全御風大模型的業務偏好優化,提升了模型 zeroshot 解決業務問題的能力,促進阿里廣泛多域安全審核業務的模型上線。
【TL;DR】AIR 框架提出大模型偏好數據集的三大設計準則
- 極簡標注策略:利用生成式獎勵模型(如 Llama-3.1-70B-Instruct)的文本生成能力完成偏好標注,僅需基礎的 point-wise 評分指令(如「請從 0-9 分評估回復質量」)配合貪心解碼。實驗證明復雜標注設計會產生過度干預,反而不利于模型學習偏好信號。
- 智能指令篩選:基于動態質量方差分析的指令優選機制,通過多模型采樣后保留回復分數方差最小的指令。值得注意的是,雖然多輪對話指令能增強對話連貫性,但因在其他評估維度未現顯著增益,最終采用非篩選的指令輪數方案。
- 科學回復對構造:通過三重黃金準則實現高效對比學習:① 設置合理質量差(Δ=2/3)構建清晰對比梯度;② 錨定高質量基線(評分≥8)確保回復可靠性;③ 采用 On/Off-Policy 混合策略(1:1 配比)精準控制策略分布偏移。
- 論文標題:AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
- 論文鏈接:https://arxiv.org/abs/2504.03612
圖 1:(左)AIR 框架將偏好學習拆解為這三個核心部分,并在最外層標注了經過實證驗證的最佳設計原則。(右)當我們逐步整合這些優化后的標注、響應組合和指令時,在 14k 偏好數據對上的累積效果非常顯著,明顯提升了所有基準測試中的對齊性能。
我們在一個被廣泛使用的開源 SFT 模型(Llama-3.1-Tulu-3-8B-SFT)基礎上,結合 ShareGPT 與 UltraFeedback 指令集,基于最簡單的 DPO 設置,系統性探索了偏好數據集的三大核心組件——標注(A)、指令(I)、回復對(R),提出可擴展的組件化優化框架 AIR,并在 MT-Bench、ArenaHard、AlpacaEval 2.0 等 6 大評測集做了大規模、系統性的評測。
同時為了確保實驗結論可信,我們在不同的指令集、不同的標注模型上做了驗證實驗。我們總結出如下三大設計原則:
偏好標注:大道至簡,避免復雜標注策略
我們從標注模型架構、標注 Prompt 設計和解碼方式三個方面,分析了如何對偏好進行有效標注。
- 標注模型架構:我們分別用 SOTA 的分類式的獎勵模型(Skywork-Reward-Gemma-2-27B-v0.2; RewardBench: 94.3)和普通的生成式模型(Llama-3.1-70B-Instruct; RewardBench: 84.0)標注偏好數據集,然后評測它們用于對齊的性能。我們發現盡管在 RewardBench 上得分較低,Llama-3.1-70B-Instruct 在所有 Benchmark 上的平均分比基于分類器的模型高 1.4(圖 2 左),這表明分類式獎勵模型可能過擬合了 RewardBench,而 RewardBench 同樣低估了生成式模型用于偏好標注的泛化能力。
- 標注 Prompt 設計:對于用生成式模型標注偏好,我們由簡單到復雜設計了六種標注策略。從最簡單的單點打分(Single)開始,變成成對打分(Pair),加入評分手冊(Guided),讓模型先給出解釋再打分(Explained),提出多個細粒度問題再打分(Fine-Grained)。我們驚訝地發現最簡單的單點打分策略性能最佳(表 1)。這可能表明,在追求復雜標注流程時,過多的人類要求引入了噪音,而使用簡約的標注 Prompt 并利用標注模型的固有判斷力,比使用復雜的標注 Prompt 更契合真實世界的偏好信號,這和 DeepSeek-R1-Zero 在 Zero-RL 過程中使用的簡約 prompt 有著異曲同工之妙。
- 標注解碼方式:近期的研究中出現了多種聚合解碼方法,用以提高標注的可靠性。如多樣本平均(計算多次高熱采樣的平均得分)和基于概率的加權(對輸出「0」到「9」的概率進行加權)。我們將這兩種方法與貪心解碼方法進行了比較,如圖 2(右)所示,貪心解碼性能最佳。盡管它最簡單,但其平均得分比多樣本平均高出 1.9,比基于概率的加權高出 1.4。
圖 2:(左)生成式標注性能超越 SOTA 分類器模型(+1.4),揭示 RewardBench 評估盲區;(右)Greedy Decoding 效果優于多次打分平均(+1.9)與概率加權(+1.4)
表 1:單點打分策略(Single-Basic)比復雜兩兩對比方案性能提升 +3.12
指令篩選:偏好數據需要能夠引發細粒度差異的指令
當前指令篩選方法主要關注指令本身的靜態屬性(如質量、難度、多樣性),卻忽視了動態的響應一致性問題——同一指令在不同大語言模型中可能引發差異顯著的回復。這種響應分歧會模糊偏好學習的信號邊界,降低對齊效率。
因此,我們探究了更高的指令推理穩定性(即指令能夠引發不同 LLMs 回復之間更細粒度的差異)能否為模型對齊提供更有效的信號。
為了驗證這一點,我們提出了基于回復質量方差的指令選擇方法,首先從不同的 LLMs 中采樣回復,然后標注他們的得分并計算方差,最后優先選擇方差較低的指令。結果如圖 3(左)所示,僅僅篩選質量較高的指令(InsTag Quality Filtering)并沒有顯著收益,而篩選低方差的指令取得了最佳性能,在 AlpacaEval 2(+3.7)和 ArenaHard(+4.6)上表現出色。這可能由于低方差的指令迫使模型學習細粒度偏好差異(如邏輯嚴謹性),而不會依賴于回答對之間明顯的差別,或簡單地對錯誤進行修正。
我們還將指令篩選的分析擴展到了指令的結構——具體來說,提高對話的輪數能否改善偏好學習的性能。為了驗證這一點,我們將單輪和多輪指令分開,并以與之前相同的方式構建偏好對。結果如圖 3(右)所示,多輪上下文指令在 MT-Bench 第二輪中產生了提升(+0.7),但在其他單輪測試中改進較小。這表明多輪指令增強了多輪對話的能力,但它的價值取決于未來的評測集是否會優先衡量對話深度而不是單輪任務。
圖 3:(左)低方差指令表現最佳,在推理任務(ArenaHard,+4.6)和指令遵循(AlpacaEval 2,+3.7)上表現突出;(右)含有多輪上下文的指令在涉及多輪對話能力的評測集(如 MT-Bench Turn 2,+0.7)上效果較好,但在其他評測集上提升不明顯
回復對構造:信號清晰性、回復質量和策略多樣性的平衡
回復對的構造必須平衡三個相互競爭的目標:(1)信號清晰性(正負樣本之間的對比應該明確無誤)(2)回復質量(回復應該都具有足夠的質量以避免無效比較)(3)策略對齊(混合 On-Policy 和 Off-Policy 回復以控制偏好學習時的分布偏移)。
- 信號清晰性:在 10 分制下,我們構建了具有低(Δ=1)、中等(Δ=2 或 3)和高(Δ≥4)分數差距的回復對,并平衡了各組之間的數據集規模。如圖 4(左)所示,中等差距在所有評測集的性能上實現了更高的平均性能(+1.29/+5.42)。這是因為正負樣本之間適度的差距提供了清晰的偏好信號,又不會過度簡化學習目標,從而避免了噪聲(低Δ)或過擬合(高Δ)。
- 回復質量:如圖 4(中)所示,在控制各組分數差距的分布一致的前提下,高分回復對(正樣本分數≥8)在所有基準測試中都取得了最顯著的性能,總體上比低分回復對(正樣本分數<7)高出 +9.35。這表明,高分回復對提供了更清晰的學習信號,因為兩個回復都是合格的且可區分的。而低分回復對存在放大低質回復噪聲的風險。
- 策略對齊:一系列研究驗證了在偏好學習中,使用 On-Policy 樣本的有效性,但是在 DPO 訓練中如何最好地混合 On-policy 和 Off-policy 的樣本仍然不確定。因此我們研究了不同混合策略的影響。我們比較了 4 種基于混合 On-Policy 樣本比例的混合策略。實驗結果如圖 4(右)所示,中等混合(所有回復對都包含一個 On-Policy 和一個 Off-Policy 的回復)取得了最佳的性能。這表明,將 On-Policy 和 Off-Policy 回復適度混合,既能保證避免對靜態數據集的過擬合,又保持了偏好學習過程中策略的更新不會偏移。
圖 4:中等分數差(左)、較高絕對分(中)、On/Off-Policy 1:1 混合(右)的偏好對效果最好
各組件之間協同帶來的綜合影響
為了量化我們發現的所有有效組件之間的協同效應,我們將各個組件逐步整合到偏好數據集中,并觀察偏好學習性能的逐步提升。
如圖 1(右)所示,當我們逐步整合這些優化后的標注、回復組合和指令時,穩步帶來了 +5.3 的平均性能提升。更改為單點打分策略和使用更高的絕對回復質量分數顯示出了顯著的改進(+1.78,+1.6)。
由于最先進模型訓練使用的偏好數據集大小遠大于我們這里使用的 14k 偏好數據,因此可以預見將 AIR 框架下全部組件組合起來的 scaling law 將在更大的偏好數據集規模下繼續擴大。
結語
AIR 框架的提出,為偏好學習的科學化和系統化進程提供了一種新的思路與方法。通過解構標注、指令和回復對三大核心要素,我們揭示了對齊性能提升的關鍵路徑。
這一創新標志著偏好學習從盲目追求數據量到注重數據質量和設計原則的飛躍,為構建構建高質量的偏好數據集、更智能更可靠的 AI 系統奠定了堅實基礎。