成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣

發布于 2025-6-17 09:43
瀏覽
0收藏

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

論文鏈接:https://arxiv.org/pdf/2504.04158

項目主頁:https://cvpr2025-jarvisir.github.io/

Github倉庫:https://github.com/LYL1015/JarvisIR

Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

背景與動機

在自動駕駛等現實應用場景中,視覺感知系統常常受到多種天氣退化(如雨、霧、夜間、雪)的影響。傳統的單任務方法依賴特定先驗知識,而 all-in-one 方法只能解決有限的退化組合同時又存在嚴重的領域差異,難以應對復雜的實際場景。


為了解決這一問題,研究團隊提出了 JarvisIR —— 一個基于視覺語言模型(VLM)的智能圖像恢復系統。該系統通過 VLM 作為控制器,動態調度多個專家模型來處理復雜天氣下的圖像退化問題,從而實現更魯棒、更通用的圖像恢復能力。

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

核心貢獻

  1. 提出 JarvisIR 架構:首個將 VLM 作為控制器的圖像恢復系統,能夠根據輸入圖像內容和用戶指令,自主規劃任務順序并選擇合適的專家模型進行圖像修復。
  2. 構建 CleanBench 數據集:包含 150K 合成數據 + 80K 真實世界數據,涵蓋多種惡劣天氣條件,支持訓練與評估。
  3. 設計 MRRHF 對齊算法:結合監督微調(SFT)與基于人類反饋的人類對齊(MRRHF),提升模型在真實場景下的泛化能力和決策穩定性。
  4. 顯著性能提升:在 CleanBench-Real 上平均感知指標提升 50%,優于現有所有方法。

方法詳解

1. JarvisIR 架構設計

JarvisIR 的核心思想是將視覺語言模型(VLM)作為“大腦”,協調多個專家模型完成圖像恢復任務。其工作流程如下:


  • 任務解析:接收用戶指令和輸入圖像,分析圖像中的退化類型。
  • 任務規劃:根據圖像內容和用戶需求,生成最優的任務執行序列。
  • 模型調度:依次調用對應的專家模型(如去噪、超分、去雨等)進行圖像恢復。
  • 結果整合:將各階段的結果整合為最終輸出圖像,并附上解釋性推理過程。

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

可參考論文圖4理解整體流程。

2. CleanBench 數據集

CleanBench 是本文的核心訓練與評估數據集,分為兩個部分:

  • CleanBench-Synthetic:150K 合成數據,用于監督微調(SFT)階段訓練。
  • CleanBench-Real:80K 真實世界圖像,用于 MRRHF 階段的無監督對齊訓練。

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

可參考論文圖2理解CleanBench構建的過程。

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

可參考論文附錄圖8了解構建數據所用到的合成退化庫。

該數據集涵蓋了四種主要天氣退化場景類型:夜景、雨天、霧天、雪天。注意每個退化場景中可能包含多種退化(比如夜晚可能是暗光、噪聲、霧、低分辨率)。

數據構成

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

例如:

  • 指令:“請改善這張夜晚拍攝的照片質量。”
  • 退化圖像:一張夜間低光模糊照片;
  • 響應:先進行低光增強,再進行去噪,使用的模型為??Img2img-turbo?? 和??SCUnet??。

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

合成的退化樣本。

3. 兩階段訓練框架

第一階段:監督微調(SFT)

在 JarvisIR 的整體訓練流程中,監督微調(SFT)是第一階段的核心任務。其目的是讓視覺語言模型(VLM)初步掌握如何:

  • 理解用戶輸入的圖像恢復指令;
  • 分析圖像中的退化類型(如雨、霧、夜景等);
  • 規劃合理的恢復任務順序;
  • 選擇正確的專家模型組合進行圖像修復。


這個階段使用的是 CleanBench 數據集中的合成數據部分(CleanBench-Synthetic),這些數據具備完整的標注信息(即已知退化類型和最優恢復路徑),因此適合用于有監督學習。SFT 的訓練目標是最小化以下損失函數:

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

這是一個典型的自回歸語言建模目標,鼓勵模型根據給定的上下文(圖像和指令)準確預測出期望的響應。

第二階段: 人類反饋對齊(MRRHF)

在 JarvisIR 中,人類反饋對齊(Human Feedback Alignment) 是訓練過程中的關鍵階段。由于真實世界圖像缺乏配對標注數據,傳統的監督微調(SFT)無法直接應用于 CleanBench-Real 數據集。因此,研究者提出了一種基于獎勵模型的無監督對齊方法:MRRHF(Mixed-Rank Reward-based Human Feedback)

MRRHF 是 RRHF(Rank Responses to Align Human Feedback)的一種擴展,旨在通過結合離線采樣與在線采樣策略、引入熵正則化項,提升 VLM 在真實世界惡劣天氣圖像恢復任務中的穩定性、泛化能力和響應多樣性。

MRRHF 的核心組成

1.獎勵建模(Reward Modeling)

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

這個獎勵函數用于衡量系統輸出的圖像恢復結果的質量,并作為訓練信號指導 VLM 的優化。

2. 混合采樣策略(Hybrid Sampling Strategy)

為了在保持性能下限的同時擴展探索空間,MRRHF 結合了兩種樣本生成方式:

  • 離線采樣(Offline Sampling):使用 SFT 模型進行多樣 beam search 生成多個候選響應。
  • 在線采樣(Online Sampling):使用當前訓練中的 policy model 動態生成響應。

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

3. 多任務損失函數

MRRHF 的目標是通過以下三種 loss 共同優化模型:

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

作用:

  • 增加響應的多樣性,防止模型陷入局部最優,只生成重復或保守的回答。
  • 通過最大化輸出分布的熵,鼓勵模型探索更多合理的響應路徑。

目的:增強模型的探索能力,避免過擬合單一響應模式。

總體損失函數

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

這三部分 loss 協同工作,使得 JarvisIR 能夠在沒有人工標注的情況下,利用大量真實世界數據完成有效的對齊訓練。

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

可參考論文圖5理解兩階段的訓練框架。

實驗與結果分析

1. 決策能力對比(CleanBench-Real 驗證集)

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

結論:JarvisIR-MRRHF 在工具決策能力上顯著優于其他策略。

2. 圖像恢復性能對比

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

結論:在所有天氣場景下均優于現有 all-in-one 方法,提升顯著(平均改善指標50%)。

3. Ablation Study

  • 樣本生成策略對比
    混合采樣策略(結合離線和在線的優勢)在獎勵分數和響應多樣性方面均表現最佳。它既能保證訓練的穩定性,又能提供足夠的探索空間,優于單純的離線或在線采樣。
  • 熵正則化影響
    加入熵正則化能顯著提升系統響應的多樣性,并有助于提高獎勵分數。這是因為它鼓勵模型進行更廣泛的探索,產生更多樣化的高質量響應。
  • MRRHF 與 Vanilla RRHF 的對比:
    MRRHF 通過其混合樣本生成和熵正則化策略,在獎勵和多樣性方面均顯著優于 Vanilla RRHF。這表明 MRRHF 能更有效地利用人類反饋進行對齊。
  • CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣-AI.x社區

技術亮點總結

  1. VLM 作為控制器:首次將視覺語言模型應用于圖像恢復系統的控制中樞,具備強大的上下文理解和任務規劃能力。
  2. 專家模型協同機制:多個專業模型按需調用,適應不同天氣條件下的圖像退化問題。
  3. 大規模真實數據集 CleanBench:填補了真實世界圖像恢復數據的空白。
  4. MRRHF 對齊算法:無需人工標注,即可利用大量真實數據進行模型優化,提升泛化能力。

總結

JarvisIR 是一項具有開創性的研究成果,標志著圖像恢復從單一任務向智能化、多模型協同方向邁進的重要一步。其核心價值在于:

  • 將 VLM 用于圖像恢復系統的控制
  • 提出 MRRHF 對齊算法,解決真實數據無標簽問題
  • 發布高質量數據集 CleanBench,推動社區發展

如果你正在研究圖像恢復、視覺語言模型或多模態系統,JarvisIR 提供了一個全新的視角和實踐路徑,值得深入學習與應用。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/zYhqjMfThwwTK9nhXwYu4g??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线视频成人 | 日韩欧美操 | 日韩在线不卡视频 | 国产一区在线看 | 欧美男人天堂 | 国产一区 在线视频 | 国产亚洲一区二区精品 | 日韩欧美综合在线视频 | 成人免费在线网 | 亚洲最大av网站 | 超碰8| 亚洲天天干 | 色综合欧美 | 成人精品在线观看 | 91超碰caoporn97人人 | 日韩在线播放第一页 | 综合九九 | 天天看天天干 | 蜜桃毛片| 午夜av毛片| www亚洲一区| 99在线播放 | 亚洲国产精品福利 | 免费黄色网址视频 | 国产成人精品亚洲日本在线观看 | 欧美一级艳情片免费观看 | 久久人人爽人人爽人人片av免费 | 欧洲一级视频 | 欧美日韩中文字幕 | 久热国产精品视频 | 黄色成人在线观看 | 欧美精品影院 | 91色啪 | 午夜天堂精品久久久久 | 日本国产欧美 | 97国产一区二区 | 欧美精品第一页 | 午夜小视频在线播放 | 欧美天天视频 | 日韩精品一区中文字幕 | 久久久九九|