CVPR滿分論文 | 英偉達開源雙目深度估計大模型FoundationStereo

作者：機器之心 2025-04-07 09:45:00

本文提出 FoundationStereo，通過大規模合成數據、自篩選流程及結合單目先驗的架構設計，實現了無需微調的跨域泛化能力。

本文介紹了 FoundationStereo，一種用于立體深度估計的基礎模型，旨在實現強大的零樣本泛化能力。通過構建大規模（100 萬立體圖像對）合成訓練數據集，結合自動自篩選流程去除模糊樣本，并設計了網絡架構組件（如側調諧特征主干和遠程上下文推理）來增強可擴展性和準確性。這些創新顯著提升了模型在不同領域的魯棒性和精度，為零樣本立體深度估計設立了新標準。

相關論文 FoundationStereo: Zero-Shot Stereo Matching 獲得 CVPR 2025 滿分評審，代碼已開源。

論文地址：https://arxiv.org/abs/2501.09898
項目主頁：https://nvlabs.github.io/FoundationStereo/
項目代碼和數據集：https://github.com/NVlabs/FoundationStereo/

對比常用 RGBD 相機:

目前 FoundationStereo 在 Middlebury, ETH3D 等多個排行榜位列第一。

引言

立體匹配算法雖在基準數據集上表現優異，但零樣本泛化能力仍不足。現有方法依賴目標域微調，且受限于網絡結構或數據規模。本文提出 FoundationStereo，通過大規模合成數據、自篩選流程及結合單目先驗的架構設計，實現了無需微調的跨域泛化能力。主要貢獻如下:

1.FoundationStereo 大模型

提出首個零樣本泛化能力強大的立體匹配基礎模型，無需目標域微調即可在多樣場景（室內 / 室外、無紋理 / 反射 / 透明物體等）中實現高精度深度估計。

2. 大規模合成數據集（FSD）

構建包含 100 萬立體圖像對的高保真合成數據集，覆蓋復雜光照、隨機相機參數及多樣化 3D 資產，并通過路徑追蹤渲染提升真實性。
設計迭代自篩選流程，自動剔除模糊樣本（如重復紋理、純色區域），提升數據質量。

3. 單目先驗適配（STA 模塊）

提出側調諧適配器（STA），將單目深度估計模型（DepthAnythingV2）的互聯網尺度幾何先驗與 CNN 特征結合，顯著緩解合成到真實的域差距。

4. 注意力混合成本過濾（AHCF）

軸向平面卷積（APC）：將 3D 卷積解耦為空間和視差維度的獨立操作，擴展感受野并降低計算開銷。
視差 Transformer（DT）：在成本體積中引入跨視差自注意力機制，增強長程上下文推理能力。

5. 實驗性能突破

零樣本泛化：在 Middlebury、ETH3D 等基準上超越微調模型（如 Middlebury BP-2 誤差從 7.5% 降至 1.1%）。
領域內最優：Scene Flow 測試集 EPE 刷新紀錄（0.34），ETH3D 微調后排名第一。

方法

概覽

1. 單目 - 立體協同：通過 STA 融合 ViT 的幾何先驗與 CNN 的匹配能力，縮小仿真 - 真實差距。

2. 成本體積高效濾波：APC（大視差核） + DT（全局注意力）實現多尺度上下文聚合。

3. 數據驅動泛化：百萬級合成數據 + 自動篩選，覆蓋極端場景（透明 / 反射 / 無紋理物體）。

單目基礎模型適配（Monocular Foundation Model Adaptation）

1.動機：合成數據訓練的立體匹配模型存在仿真 - 真實差距（sim-to-real gap），而單目深度估計模型（如 DepthAnythingV2）在真實數據上訓練，能提供更強的幾何先驗。

2.方法：

采用側調諧適配器（STA, Side-Tuning Adapter），將凍結的 DepthAnythingV2 ViT 特征與輕量級 CNN（EdgeNeXt-S）提取的特征融合。
實驗對比三種融合策略（圖 3 左）：

(a) 直接使用 ViT 特征金字塔 → 效果較差（缺乏局部細節）。

(b) ViT 與 CNN 雙向特征交換 → 計算復雜，收益有限。

關鍵優勢：STA 模塊保留 ViT 的高層語義先驗，同時結合 CNN 的細粒度匹配能力，顯著提升對模糊區域（如弱紋理、反射表面）的魯棒性。

注意力混合成本過濾（Attentive Hybrid Cost Filtering）

1.混合成本體積構造（Hybrid Cost Volume Construction）

輸入：STA 提取的左右圖像 1/4 分辨率特征（fl4,fr4fl4,fr4）。
構造方式：
a.分組相關(Group-wise Correlation)：將特征分為 8 組，計算逐組相關性(VgwcVgwc)，增強匹配多樣性。

b.特征拼接（Concatenation）：直接拼接左右圖像特征（VcatVcat），保留單目先驗信息。

c.最終成本體積：兼顧局部匹配與全局上下文。

2.軸向平面卷積（APC, Axial-Planar Convolution）

問題：傳統 3D 卷積（如 3×3×3）對大視差范圍計算代價高，且感受野有限。
改進：將 3D 卷積解耦為兩部分：
a. 空間卷積(Ks×Ks×1Ks×Ks×1)：處理圖像平面內的特征。
b. 視差卷積（1×1×Kd1×1×Kd）：沿視差維度聚合信息。

效果：在視差維度使用大核（如 Kd=17），顯著提升長距離匹配能力，同時降低內存占用。

3.視差 Transformer（DT, Disparity Transformer）

動機：傳統成本濾波缺乏全局視差關系建模。
設計：
a.將成本體積降采樣至 1/16 分辨率，轉換為視差序列 token。
b.通過 4 層 Transformer 編碼器(含 FlashAttention)執行跨視差自注意力。
c.位置編碼：實驗表明余弦編碼優于 RoPE（因視差維度固定）。
作用：增強對薄結構、重復紋理等復雜場景的匹配魯棒性。

4.初始視差預測

對濾波后的成本體積 VC?VC?執行 Soft-Argmin，生成 1/4 分辨率的初始視差圖 d0。

迭代優化（Iterative Refinement）

相關性體積查找：基于當前視差 dk，從 VC 和左右特征相關性體積 Vcorr中提取特征。
GRU 更新：

a. 輸入：成本體積特征 + 當前視差 + 上下文特征（來自 STA）。

b. 采用 3 級 ConvGRU（粗到細）逐步優化視差，每級隱藏狀態由上下文特征初始化。

視差修正：通過卷積預測殘差 Δd，更新視差

損失函數（Loss Function）

監督目標：
a.初始視差 d0：平滑 L1 損失。
b.迭代優化視差 {dk}{dk}：加權 L1 損失（權重隨迭代指數衰減，γ=0.9）。

合成訓練數據集（Synthetic Training Dataset）

數據生成：
a.工具：NVIDIA Omniverse 路徑追蹤渲染。

b.多樣性增強：隨機化相機參數（基線、焦距）、光照、物體布局。

c.場景類型：結構化室內 / 室外場景 + 隨機飛行的復雜物體（圖 4）。

自篩選流程：

a. 訓練初始模型，在 FSD 上評估。

b. 剔除 BP-2 > 60% 的模糊樣本（如無紋理區域、過度反射）。

c. 重新生成數據并迭代訓練（共 2 輪），提升數據質量。

實驗和結果

我們在 PyTorch 中實現了 FoundationStereo 模型，使用混合數據集進行訓練，包括我們提出的 FSD 數據集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公開數據集。采用 AdamW 優化器訓練 20 萬步，總 batch size 為 128，均勻分布在 32 塊 NVIDIA A100 GPU 上。初始學習率設為 1e-4，在訓練過程進行到 80% 時衰減為原來的 0.1 倍。輸入圖像隨機裁剪為 320×736 大小，并采用與 IGEV 類似的數據增強方法。訓練時使用 22 次 GRU 迭代更新，而在后續實驗中（除非特別說明），我們使用相同的基礎模型進行零樣本推理，采用 32 次精煉迭代和 416 的最大視差范圍。除非特別說明，我們用同一權重的大模型進行零樣本的泛化測試。

在消融實驗中，我們系統驗證了模型各關鍵組件的有效性：首先比較了不同單目基礎模型（DepthAnythingV2 和 DINOv2）及其融合策略，發現 ViT 特征降維拼接 CNN 的 STA 設計效果最佳；其次測試了 AHCF 模塊中位置編碼（余弦編碼優于 RoPE）、注意力范圍（僅視差維度優于全成本體積）和 APC 卷積核配置（視差核尺寸 17 時性能飽和）；最后證明了引入 FSD 數據集能顯著提升泛化性（Middlebury 上 BP-2 指標從 2.34% 降至 1.15%）。這些實驗全面支撐了模型設計的合理性。