CVPR`25 | 感知性能飆升50%!JarvisIR:VLM掌舵,為自動駕駛裝上“火眼金睛”,不懼惡劣天氣
論文鏈接:https://arxiv.org/pdf/2504.04158
項目主頁:https://cvpr2025-jarvisir.github.io/
Github倉庫:https://github.com/LYL1015/JarvisIR
Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR
背景與動機
在自動駕駛等現實應用場景中,視覺感知系統常常受到多種天氣退化(如雨、霧、夜間、雪)的影響。傳統的單任務方法依賴特定先驗知識,而 all-in-one 方法只能解決有限的退化組合同時又存在嚴重的領域差異,難以應對復雜的實際場景。
為了解決這一問題,研究團隊提出了 JarvisIR —— 一個基于視覺語言模型(VLM)的智能圖像恢復系統。該系統通過 VLM 作為控制器,動態調度多個專家模型來處理復雜天氣下的圖像退化問題,從而實現更魯棒、更通用的圖像恢復能力。
核心貢獻
- 提出 JarvisIR 架構:首個將 VLM 作為控制器的圖像恢復系統,能夠根據輸入圖像內容和用戶指令,自主規劃任務順序并選擇合適的專家模型進行圖像修復。
- 構建 CleanBench 數據集:包含 150K 合成數據 + 80K 真實世界數據,涵蓋多種惡劣天氣條件,支持訓練與評估。
- 設計 MRRHF 對齊算法:結合監督微調(SFT)與基于人類反饋的人類對齊(MRRHF),提升模型在真實場景下的泛化能力和決策穩定性。
- 顯著性能提升:在 CleanBench-Real 上平均感知指標提升 50%,優于現有所有方法。
方法詳解
1. JarvisIR 架構設計
JarvisIR 的核心思想是將視覺語言模型(VLM)作為“大腦”,協調多個專家模型完成圖像恢復任務。其工作流程如下:
- 任務解析:接收用戶指令和輸入圖像,分析圖像中的退化類型。
- 任務規劃:根據圖像內容和用戶需求,生成最優的任務執行序列。
- 模型調度:依次調用對應的專家模型(如去噪、超分、去雨等)進行圖像恢復。
- 結果整合:將各階段的結果整合為最終輸出圖像,并附上解釋性推理過程。
可參考論文圖4理解整體流程。
2. CleanBench 數據集
CleanBench 是本文的核心訓練與評估數據集,分為兩個部分:
- CleanBench-Synthetic:150K 合成數據,用于監督微調(SFT)階段訓練。
- CleanBench-Real:80K 真實世界圖像,用于 MRRHF 階段的無監督對齊訓練。
可參考論文圖2理解CleanBench構建的過程。
可參考論文附錄圖8了解構建數據所用到的合成退化庫。
該數據集涵蓋了四種主要天氣退化場景類型:夜景、雨天、霧天、雪天。注意每個退化場景中可能包含多種退化(比如夜晚可能是暗光、噪聲、霧、低分辨率)。
數據構成
例如:
- 指令:“請改善這張夜晚拍攝的照片質量。”
- 退化圖像:一張夜間低光模糊照片;
- 響應:先進行低光增強,再進行去噪,使用的模型為?
?Img2img-turbo?
? 和??SCUnet?
?。
合成的退化樣本。
3. 兩階段訓練框架
第一階段:監督微調(SFT)
在 JarvisIR 的整體訓練流程中,監督微調(SFT)是第一階段的核心任務。其目的是讓視覺語言模型(VLM)初步掌握如何:
- 理解用戶輸入的圖像恢復指令;
- 分析圖像中的退化類型(如雨、霧、夜景等);
- 規劃合理的恢復任務順序;
- 選擇正確的專家模型組合進行圖像修復。
這個階段使用的是 CleanBench 數據集中的合成數據部分(CleanBench-Synthetic),這些數據具備完整的標注信息(即已知退化類型和最優恢復路徑),因此適合用于有監督學習。SFT 的訓練目標是最小化以下損失函數:
這是一個典型的自回歸語言建模目標,鼓勵模型根據給定的上下文(圖像和指令)準確預測出期望的響應。
第二階段: 人類反饋對齊(MRRHF)
在 JarvisIR 中,人類反饋對齊(Human Feedback Alignment) 是訓練過程中的關鍵階段。由于真實世界圖像缺乏配對標注數據,傳統的監督微調(SFT)無法直接應用于 CleanBench-Real 數據集。因此,研究者提出了一種基于獎勵模型的無監督對齊方法:MRRHF(Mixed-Rank Reward-based Human Feedback)。
MRRHF 是 RRHF(Rank Responses to Align Human Feedback)的一種擴展,旨在通過結合離線采樣與在線采樣策略、引入熵正則化項,提升 VLM 在真實世界惡劣天氣圖像恢復任務中的穩定性、泛化能力和響應多樣性。
MRRHF 的核心組成
1.獎勵建模(Reward Modeling)
這個獎勵函數用于衡量系統輸出的圖像恢復結果的質量,并作為訓練信號指導 VLM 的優化。
2. 混合采樣策略(Hybrid Sampling Strategy)
為了在保持性能下限的同時擴展探索空間,MRRHF 結合了兩種樣本生成方式:
- 離線采樣(Offline Sampling):使用 SFT 模型進行多樣 beam search 生成多個候選響應。
- 在線采樣(Online Sampling):使用當前訓練中的 policy model 動態生成響應。
3. 多任務損失函數
MRRHF 的目標是通過以下三種 loss 共同優化模型:
作用:
- 增加響應的多樣性,防止模型陷入局部最優,只生成重復或保守的回答。
- 通過最大化輸出分布的熵,鼓勵模型探索更多合理的響應路徑。
? 目的:增強模型的探索能力,避免過擬合單一響應模式。
總體損失函數
這三部分 loss 協同工作,使得 JarvisIR 能夠在沒有人工標注的情況下,利用大量真實世界數據完成有效的對齊訓練。
可參考論文圖5理解兩階段的訓練框架。
實驗與結果分析
1. 決策能力對比(CleanBench-Real 驗證集)
? 結論:JarvisIR-MRRHF 在工具決策能力上顯著優于其他策略。
2. 圖像恢復性能對比
? 結論:在所有天氣場景下均優于現有 all-in-one 方法,提升顯著(平均改善指標50%)。
3. Ablation Study
- 樣本生成策略對比:
混合采樣策略(結合離線和在線的優勢)在獎勵分數和響應多樣性方面均表現最佳。它既能保證訓練的穩定性,又能提供足夠的探索空間,優于單純的離線或在線采樣。 - 熵正則化影響:
加入熵正則化能顯著提升系統響應的多樣性,并有助于提高獎勵分數。這是因為它鼓勵模型進行更廣泛的探索,產生更多樣化的高質量響應。 - MRRHF 與 Vanilla RRHF 的對比:
MRRHF 通過其混合樣本生成和熵正則化策略,在獎勵和多樣性方面均顯著優于 Vanilla RRHF。這表明 MRRHF 能更有效地利用人類反饋進行對齊。
技術亮點總結
- VLM 作為控制器:首次將視覺語言模型應用于圖像恢復系統的控制中樞,具備強大的上下文理解和任務規劃能力。
- 專家模型協同機制:多個專業模型按需調用,適應不同天氣條件下的圖像退化問題。
- 大規模真實數據集 CleanBench:填補了真實世界圖像恢復數據的空白。
- MRRHF 對齊算法:無需人工標注,即可利用大量真實數據進行模型優化,提升泛化能力。
總結
JarvisIR 是一項具有開創性的研究成果,標志著圖像恢復從單一任務向智能化、多模型協同方向邁進的重要一步。其核心價值在于:
- 將 VLM 用于圖像恢復系統的控制
- 提出 MRRHF 對齊算法,解決真實數據無標簽問題
- 發布高質量數據集 CleanBench,推動社區發展
如果你正在研究圖像恢復、視覺語言模型或多模態系統,JarvisIR 提供了一個全新的視角和實踐路徑,值得深入學習與應用。
本文轉自AI生成未來 ,作者:AI生成未來
