CVPR2025 | 五大榜單奪冠!MonSter:單目+雙目融合引領深度估計新紀元
1. 一眼概覽:
MonSter是一種創新性的雙分支立體匹配方法,首次將單目深度估計與雙目立體匹配協同優化,在多個主流數據集上取得全面領先的性能。
2. 核心問題:
傳統立體匹配在遮擋、紋理缺失、重復結構和遠距離區域表現不佳,難以恢復精確深度。該研究核心在于:如何利用單目深度的結構先驗彌補雙目匹配在病態區域中的信息缺失,同時消除單目深度的尺度漂移誤差。
3. 技術亮點:
- 雙分支協同架構:構建單目深度和雙目匹配兩大分支,通過迭代互導實現相互增強;
- 精細像素級校準機制:提出“立體引導對齊(SGA)”和“單目引導優化(MGR)”模塊,實現像素級尺度-偏移校正與精細立體細化;
- 領先的泛化能力:在五個主流數據集(SceneFlow、KITTI 2012/2015、Middlebury、ETH3D)全面奪冠,零樣本測試中顯著優于現有SOTA方法。
4. 方法框架:
圖片
MonSter整體流程如下:
- 單目估計與初始立體匹配:利用DepthAnythingV2獲取單目深度,IGEV分支進行初步立體匹配;
- 全局尺度對齊:通過最小二乘優化將單目深度轉換為粗對齊的“單目視差”;
- 雙向迭代優化:
SGA模塊利用高置信度立體結果,校正單目深度的像素級偏移;
MGR模塊反過來使用更新后的單目視差優化立體匹配結果;
- 最終輸出:經過多輪迭代后的立體分支輸出作為最終結果。
5. 實驗結果速覽:
圖片
MonSter在多個數據集上均達SOTA水準:
? Scene Flow:EPE 降至 0.37(提升15.9%);
? KITTI 2012/2015:D1-all 降至 1.33/1.41,優于Selective-IGEV 和 CREStereo;
? ETH3D:Bad1.0降至0.72,領先IGEV 52%;
? Middlebury:RMSE降至0.20;
? 零樣本泛化:訓練僅用Scene Flow,在ETH3D上Bad>1px降至2.03,優于所有現有方法。
6. 實用價值與應用:
MonSter具備強泛化與精度優勢,特別適用于自動駕駛、機器人導航、增強現實、三維重建等場景,尤其在低紋理、遠距離、反光表面等復雜環境中表現卓越,具備部署潛力。
7. 開放問題:
- ? MonSter是否可擴展到多視角或光流估計任務中?
- ? 面對極端天氣或夜間環境時,其單目-雙目協同機制是否仍穩定可靠?
- ? 如何進一步壓縮模型體積,使其適用于移動終端或嵌入式設備?