多模態偏好數據集生成與混合偏好優化(MPO)方法
本文主要看下MPO的多模態偏好數據生成方法及MPO優化方法核心思想,多模態輸入的鏈式思維方法感興趣看原文,供參考。
多模態偏好數據集生成
1、數據引擎
生成方法:
- 有明確答案的指令:通過選擇正樣本和負樣本來構建偏好對。
- 沒有明確答案的指令:使用 Dropout Next-Token Prediction (DropoutNTP) 方法。具體來說,所有生成的響應被視為正樣本,通過截斷響應的后半部分來生成負樣本。
效率比較:與 RLAIF-V 提出的更復雜的方法相比,DropoutNTP 方法在生成數據時更高效,成本更低。
2、多模態偏好數據集
數據統計:使用上述方法,構建了一個包含約 750K 個無明確答案的樣本和 2.5M 個有明確答案的樣本的數據集。
- 無明確答案的樣本中,每條指令平均 25.0 個token,被選中和被拒絕的響應分別平均 211.4 和 171.2 個token。
- 有明確答案的樣本中,指令平均長度為 79.5 個token,被選中和被拒絕的響應分別平均 300.0 和 350.5 個token。
數據來源:
MPO(混合偏好優化)方法
這是文章的核心,基于多模態數據構建偏好數據集 MMPR,使模型學習不同模態信息下響應的優劣偏好。提出背景是在使用直接偏好優化(DPO)訓練MLLMs時,模型可能會生成不合理的理由并產生重復的響應。這導致模型在生成長篇理由(Chain-of-Thought, CoT)時的表現不佳。
為了解決這個問題,提出了MPO。目的是學習響應之間的相對偏好、單個響應的絕對質量以及生成偏好響應的過程。
偏好損失:使用DPO作為偏好損失,使模型學習被選中和被拒絕響應之間的相對偏好。
其中:
質量損失:使用BCO(Binary Classifier Optimization)作為質量損失,幫助模型理解單個響應的絕對質量(二分類器)。
生成損失:使用SFT損失,幫助模型學習生成偏好響應的過程。
實驗
參考文獻:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization,https://arxiv.org/pdf/2411.10442
本文轉載自???大模型自然語言處理??? 作者:余俊暉
已于2025-7-8 09:37:23修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦