成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

邁向視覺大一統:UnifiedReward,多模態生成與理解的通用獎勵模型

人工智能 新聞
近年來,大模型時代的多模態生成與理解技術取得了飛躍式發展。然而,如何讓AI真正“看懂”世界,并更好地對齊人類偏好,仍是一個核心挑戰。

本篇文章來自公眾號粉絲投稿,論文提出了一個視覺領域通用的獎勵模型UnifiedReward,能夠對圖像/視頻的生成與理解進行pairwise(成對比較)或 pointwise(單樣本打分)評估,可用于視覺各領域的直接偏好優化 (DPO),提升各類視覺模型的表現。

論文介紹

圖片

近年來,大模型時代的多模態生成與理解技術取得了飛躍式發展。然而,如何讓AI真正“看懂”世界,并更好地對齊人類偏好,仍是一個核心挑戰。現有的獎勵模型往往過于專門化,難以跨任務泛化,限制了視覺模型在不同場景下的適應性。

為此,該工作提出——UnifiedReward,首個統一的視覺獎勵模型,能夠同時評估圖像/視頻的生成與理解,支持成對排序(pairwise ranking)和單樣本評分(pointwise scoring),并通過直接偏好優化(DPO)對齊視覺模型的輸出,使其更符合人類審美與認知!圖片

為什么需要 UnifiedReward?

  • 缺乏通用的視覺獎勵模型:現有方法多為特定任務設計,難以適應多樣化的視覺場景。我們希望打造一個通用模型,同時覆蓋多模態生成與理解任務。
  • 多任務學習的協同增強效應: 提升圖像理解,有助于更精準地評估圖像生成質量; 更細粒度的圖像評估能力,有助于視頻評估,提升幀級質量判斷。圖片

?? UnifiedReward 是如何工作的?

圖片

該方法包含三個關鍵階段:

  1. 統一獎勵模型訓練 通過構建大規模的統一偏好數據集來訓練一個通用的視覺獎勵模型,采用成對排序和單樣本評分策略,統一學習評估圖像/視頻的生成與理解任務。
  2. 高質量偏好數據構建 利用訓練好的獎勵模型,通過以下三步篩選偏好數據:
  • 生成候選數據:使用VLM/Diffusion 生成N 份數據;
  • 成對排序:將N 份數據兩兩成對,由獎勵模型篩選優選樣本和被拒樣本;
  • 逐點評分:在優選組中選最高分,在被拒組中選最低分,構建最終的高質量偏好數據對。
  1. 生成/理解模型偏好對齊 利用構建的偏好數據,通過直接偏好優化(DPO)微調VLM/Diffusion模型,對齊其輸出,使其更加符合人類偏好。

構造的大規模統一偏好數據集構造的大規模統一偏好數據集

實驗結果如何?

 UnifiedReward 超越了現有視覺獎勵模型,在多個主流評測基準上取得 SOTA 結果! ? 多任務學習帶來了顯著的跨任務增強效果:聯合學習圖像/視頻的生成與理解任務,可以讓模型在多個領域相互促進,取得更好的評估效果! ? DPO 微調顯著提升了視覺模型的表現,使其輸出更符合人類偏好,提升了生成質量與理解能力。圖片

圖片圖片圖片

開源與項目地址

UnifiedReward 的代碼、數據與模型已全面開源!

  • 項目主頁:https://codegoat24.github.io/UnifiedReward/
  • 論文 PDF:https://arxiv.org/pdf/2503.05236
  • GitHub 代碼:https://github.com/CodeGoat24/UnifiedReward
  • Huggingface 預訓練模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • Huggingface 訓練數據:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

期待 UnifiedReward 能為視覺大模型的偏好對齊提供更強大的工具,拓寬獎勵模型的應用邊界,使其在多種視覺任務中展現更強適應性、泛化性與高效性!!

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2025-04-16 02:55:00

2023-05-10 14:58:06

開源模型

2024-01-24 09:24:19

自動駕駛算法

2024-08-26 07:40:00

AI訓練

2025-06-09 09:50:00

VeactReact

2025-04-14 09:38:00

2025-06-13 08:46:00

2023-09-14 09:44:29

2017-12-15 17:14:10

云端

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應用

2015-05-06 13:52:52

微軟外媒

2014-07-29 13:25:43

WWDC 2014 S

2024-12-10 09:49:53

2024-04-25 14:53:59

模型視覺

2023-09-19 09:22:54

數據訓練

2025-03-18 09:29:54

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-09-27 17:58:26

2023-07-22 13:17:33

人工智能框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 五月激情久久 | 免费在线观看一区二区三区 | 欧美一级三级 | 久草电影网 | 日韩欧美成人一区二区三区 | 日本精品免费 | 一区二区在线视频 | 久草热线 | 久久精品久久精品久久精品 | 亚洲美女在线视频 | 在线观看亚洲欧美 | 久久99深爱久久99精品 | 一区二区欧美在线 | 日韩一区二区三区四区五区 | 2018国产精品 | 成人a视频片观看免费 | 欧美日一区二区 | 久久成人精品视频 | 密室大逃脱第六季大神版在线观看 | 福利视频1000| 日本不卡一区二区三区在线观看 | 自拍在线| 一级毛片成人免费看a | 嫩草视频在线免费观看 | 成人精品久久久 | aaa大片免费观看 | 九九热在线免费观看 | 国产激情自拍视频 | 欧美日韩一区二区在线 | 国产精品久久久久久久久久久久午夜片 | 国产精品久久av | 欧美精品在线一区二区三区 | 国产精品久久久乱弄 | 五月天婷婷丁香 | 国产精品一区久久久 | 精品少妇一区二区三区在线播放 | 欧美精品一区三区 | 国产精品亚洲综合 | 国产无套一区二区三区久久 | 亚洲精品一区久久久久久 | 久久国产综合 |