成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態偏好數據集生成與混合偏好優化(MPO)方法

發布于 2025-7-7 09:44
瀏覽
0收藏

本文主要看下MPO的多模態偏好數據生成方法及MPO優化方法核心思想,多模態輸入的鏈式思維方法感興趣看原文,供參考。

多模態偏好數據集生成

1、數據引擎

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

生成方法

  • 有明確答案的指令:通過選擇正樣本和負樣本來構建偏好對。
  • 沒有明確答案的指令:使用 Dropout Next-Token Prediction (DropoutNTP) 方法。具體來說,所有生成的響應被視為正樣本,通過截斷響應的后半部分來生成負樣本。

效率比較:與 RLAIF-V 提出的更復雜的方法相比,DropoutNTP 方法在生成數據時更高效,成本更低。

2、多模態偏好數據集

數據統計:使用上述方法,構建了一個包含約 750K 個無明確答案的樣本和 2.5M 個有明確答案的樣本的數據集。

  • 無明確答案的樣本中,每條指令平均 25.0 個token,被選中和被拒絕的響應分別平均 211.4 和 171.2 個token。
  • 有明確答案的樣本中,指令平均長度為 79.5 個token,被選中和被拒絕的響應分別平均 300.0 和 350.5 個token。

數據來源

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

MPO(混合偏好優化)方法

這是文章的核心,基于多模態數據構建偏好數據集 MMPR,使模型學習不同模態信息下響應的優劣偏好。提出背景是在使用直接偏好優化(DPO)訓練MLLMs時,模型可能會生成不合理的理由并產生重復的響應。這導致模型在生成長篇理由(Chain-of-Thought, CoT)時的表現不佳

為了解決這個問題,提出了MPO。目的是學習響應之間的相對偏好、單個響應的絕對質量以及生成偏好響應的過程。

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

偏好損失:使用DPO作為偏好損失,使模型學習被選中和被拒絕響應之間的相對偏好。

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

其中:

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

質量損失:使用BCO(Binary Classifier Optimization)作為質量損失,幫助模型理解單個響應的絕對質量(二分類器)。

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

生成損失:使用SFT損失,幫助模型學習生成偏好響應的過程。

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

實驗

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

多模態偏好數據集生成與混合偏好優化(MPO)方法-AI.x社區

參考文獻:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization,https://arxiv.org/pdf/2411.10442

本文轉載自???大模型自然語言處理???   作者:余俊暉

已于2025-7-8 09:37:23修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 可以在线观看av的网站 | 人人看人人干 | 国产在线播放av | 久久久久资源 | 成人在线视频观看 | 日韩视频1 | 国产精品视频999 | 日本三级电影在线观看视频 | 视频一区二区在线 | 国产精品99久 | 日本又色又爽又黄的大片 | 欧美极品在线观看 | 国产乱码久久久久久一区二区 | 久草在线免费资源 | 国产91丝袜在线播放 | 国产在线中文字幕 | 亚洲视频免费在线播放 | 亚洲韩国精品 | 国产成人99久久亚洲综合精品 | 欧美在线视频一区 | 国产午夜精品久久久久免费视高清 | 欧美日韩在线精品 | 欧美黄色大片在线观看 | 午夜视频导航 | 精品国产一区二区三区久久久久久 | 一道本视频 | 毛片链接 | 欧美一区二区三区在线视频 | 中文字幕乱码一区二区三区 | 免费成年网站 | 亚洲视频在线观看 | 在线一级片 | 日本高清视频在线播放 | 91精品中文字幕一区二区三区 | 国产精品久久久久久久午夜片 | 福利视频三区 | 久久久亚洲 | 狠狠操网站 | 亚洲精品日本 | 国产成人jvid在线播放 | 精品欧美一区免费观看α√ |