CVPR滿分論文 | 英偉達開源雙目深度估計大模型FoundationStereo
本文介紹了 FoundationStereo,一種用于立體深度估計的基礎模型,旨在實現強大的零樣本泛化能力。通過構建大規模(100 萬立體圖像對)合成訓練數據集,結合自動自篩選流程去除模糊樣本,并設計了網絡架構組件(如側調諧特征主干和遠程上下文推理)來增強可擴展性和準確性。這些創新顯著提升了模型在不同領域的魯棒性和精度,為零樣本立體深度估計設立了新標準。
相關論文 FoundationStereo: Zero-Shot Stereo Matching 獲得 CVPR 2025 滿分評審,代碼已開源。
- 論文地址:https://arxiv.org/abs/2501.09898
- 項目主頁:https://nvlabs.github.io/FoundationStereo/
- 項目代碼和數據集:https://github.com/NVlabs/FoundationStereo/
對比常用 RGBD 相機:
目前 FoundationStereo 在 Middlebury, ETH3D 等多個排行榜位列第一。
引言
立體匹配算法雖在基準數據集上表現優異,但零樣本泛化能力仍不足。現有方法依賴目標域微調,且受限于網絡結構或數據規模。本文提出 FoundationStereo,通過大規模合成數據、自篩選流程及結合單目先驗的架構設計,實現了無需微調的跨域泛化能力。主要貢獻如下:
1.FoundationStereo 大模型
- 提出首個零樣本泛化能力強大的立體匹配基礎模型,無需目標域微調即可在多樣場景(室內 / 室外、無紋理 / 反射 / 透明物體等)中實現高精度深度估計。
2. 大規模合成數據集(FSD)
- 構建包含 100 萬立體圖像對的高保真合成數據集,覆蓋復雜光照、隨機相機參數及多樣化 3D 資產,并通過路徑追蹤渲染提升真實性。
- 設計迭代自篩選流程,自動剔除模糊樣本(如重復紋理、純色區域),提升數據質量。
3. 單目先驗適配(STA 模塊)
- 提出側調諧適配器(STA),將單目深度估計模型(DepthAnythingV2)的互聯網尺度幾何先驗與 CNN 特征結合,顯著緩解合成到真實的域差距。
4. 注意力混合成本過濾(AHCF)
- 軸向平面卷積(APC):將 3D 卷積解耦為空間和視差維度的獨立操作,擴展感受野并降低計算開銷。
- 視差 Transformer(DT):在成本體積中引入跨視差自注意力機制,增強長程上下文推理能力。
5. 實驗性能突破
- 零樣本泛化:在 Middlebury、ETH3D 等基準上超越微調模型(如 Middlebury BP-2 誤差從 7.5% 降至 1.1%)。
- 領域內最優:Scene Flow 測試集 EPE 刷新紀錄(0.34),ETH3D 微調后排名第一。
方法
概覽
1. 單目 - 立體協同:通過 STA 融合 ViT 的幾何先驗與 CNN 的匹配能力,縮小仿真 - 真實差距。
2. 成本體積高效濾波:APC(大視差核) + DT(全局注意力)實現多尺度上下文聚合。
3. 數據驅動泛化:百萬級合成數據 + 自動篩選,覆蓋極端場景(透明 / 反射 / 無紋理物體)。
單目基礎模型適配(Monocular Foundation Model Adaptation)
1.動機:合成數據訓練的立體匹配模型存在仿真 - 真實差距(sim-to-real gap),而單目深度估計模型(如 DepthAnythingV2)在真實數據上訓練,能提供更強的幾何先驗。
2.方法:
- 采用側調諧適配器(STA, Side-Tuning Adapter),將凍結的 DepthAnythingV2 ViT 特征與輕量級 CNN(EdgeNeXt-S)提取的特征融合。
- 實驗對比三種融合策略(圖 3 左):
(a) 直接使用 ViT 特征金字塔 → 效果較差(缺乏局部細節)。
(b) ViT 與 CNN 雙向特征交換 → 計算復雜,收益有限。
(c) ViT 最終層特征降維后與 CNN 特征拼接 → 最優選擇(平衡效率與性能)。
- 關鍵優勢:STA 模塊保留 ViT 的高層語義先驗,同時結合 CNN 的細粒度匹配能力,顯著提升對模糊區域(如弱紋理、反射表面)的魯棒性。
注意力混合成本過濾(Attentive Hybrid Cost Filtering)
1.混合成本體積構造(Hybrid Cost Volume Construction)
- 輸入:STA 提取的左右圖像 1/4 分辨率特征(fl4,fr4fl4,fr4)。
- 構造方式:
a.分組相關(Group-wise Correlation):將特征分為 8 組,計算逐組相關性(VgwcVgwc),增強匹配多樣性。
b.特征拼接(Concatenation):直接拼接左右圖像特征(VcatVcat),保留單目先驗信息。
c.最終成本體積:兼顧局部匹配與全局上下文。
2.軸向平面卷積(APC, Axial-Planar Convolution)
- 問題:傳統 3D 卷積(如 3×3×3)對大視差范圍計算代價高,且感受野有限。
- 改進:將 3D 卷積解耦為兩部分:
a. 空間卷積(Ks×Ks×1Ks×Ks×1):處理圖像平面內的特征。
b. 視差卷積(1×1×Kd1×1×Kd):沿視差維度聚合信息。
效果:在視差維度使用大核(如 Kd=17),顯著提升長距離匹配能力,同時降低內存占用。
3.視差 Transformer(DT, Disparity Transformer)
- 動機:傳統成本濾波缺乏全局視差關系建模。
- 設計:
a.將成本體積降采樣至 1/16 分辨率,轉換為視差序列 token。
b.通過 4 層 Transformer 編碼器(含 FlashAttention)執行跨視差自注意力。
c.位置編碼:實驗表明余弦編碼優于 RoPE(因視差維度固定)。 - 作用:增強對薄結構、重復紋理等復雜場景的匹配魯棒性。
4.初始視差預測
- 對濾波后的成本體積 VC?VC?執行 Soft-Argmin,生成 1/4 分辨率的初始視差圖 d0。
迭代優化(Iterative Refinement)
- 相關性體積查找:基于當前視差 dk,從 VC 和左右特征相關性體積 Vcorr中提取特征。
- GRU 更新:
a. 輸入:成本體積特征 + 當前視差 + 上下文特征(來自 STA)。
b. 采用 3 級 ConvGRU(粗到細)逐步優化視差,每級隱藏狀態由上下文特征 初始化。
- 視差修正:通過卷積預測殘差 Δd,更新視差
損失函數(Loss Function)
- 監督目標:
a.初始視差 d0:平滑 L1 損失。
b.迭代優化視差 {dk}{dk}:加權 L1 損失(權重隨迭代指數衰減,γ=0.9)。
合成訓練數據集(Synthetic Training Dataset)
- 數據生成:
a.工具:NVIDIA Omniverse 路徑追蹤渲染。
b.多樣性增強:隨機化相機參數(基線、焦距)、光照、物體布局。
c.場景類型:結構化室內 / 室外場景 + 隨機飛行的復雜物體(圖 4)。
- 自篩選流程:
a. 訓練初始模型,在 FSD 上評估。
b. 剔除 BP-2 > 60% 的模糊樣本(如無紋理區域、過度反射)。
c. 重新生成數據并迭代訓練(共 2 輪),提升數據質量。
實驗和結果
我們在 PyTorch 中實現了 FoundationStereo 模型,使用混合數據集進行訓練,包括我們提出的 FSD 數據集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公開數據集。采用 AdamW 優化器訓練 20 萬步,總 batch size 為 128,均勻分布在 32 塊 NVIDIA A100 GPU 上。初始學習率設為 1e-4,在訓練過程進行到 80% 時衰減為原來的 0.1 倍。輸入圖像隨機裁剪為 320×736 大小,并采用與 IGEV 類似的數據增強方法。訓練時使用 22 次 GRU 迭代更新,而在后續實驗中(除非特別說明),我們使用相同的基礎模型進行零樣本推理,采用 32 次精煉迭代和 416 的最大視差范圍。除非特別說明,我們用同一權重的大模型進行零樣本的泛化測試。
在消融實驗中,我們系統驗證了模型各關鍵組件的有效性:首先比較了不同單目基礎模型(DepthAnythingV2 和 DINOv2)及其融合策略,發現 ViT 特征降維拼接 CNN 的 STA 設計效果最佳;其次測試了 AHCF 模塊中位置編碼(余弦編碼優于 RoPE)、注意力范圍(僅視差維度優于全成本體積)和 APC 卷積核配置(視差核尺寸 17 時性能飽和);最后證明了引入 FSD 數據集能顯著提升泛化性(Middlebury 上 BP-2 指標從 2.34% 降至 1.15%)。這些實驗全面支撐了模型設計的合理性。
FoundationStereo 在透明和千紋理物體上也表現出很好的泛化性:
團隊介紹
該論文來自于英偉達研究院。其中論文一作華人溫伯文博士任高級研究員,此前曾在谷歌 X,Facebook Reality Labs, 亞馬遜和商湯實習。研究方向為機器人感知和 3D 視覺。獲得過 RSS 最佳論文獎提名。個人主頁: https://wenbowen123.github.io/