成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR滿分論文 | 英偉達開源雙目深度估計大模型FoundationStereo

人工智能 新聞
本文提出 FoundationStereo,通過大規模合成數據、自篩選流程及結合單目先驗的架構設計,實現了無需微調的跨域泛化能力。

本文介紹了 FoundationStereo,一種用于立體深度估計的基礎模型,旨在實現強大的零樣本泛化能力。通過構建大規模(100 萬立體圖像對)合成訓練數據集,結合自動自篩選流程去除模糊樣本,并設計了網絡架構組件(如側調諧特征主干和遠程上下文推理)來增強可擴展性和準確性。這些創新顯著提升了模型在不同領域的魯棒性和精度,為零樣本立體深度估計設立了新標準。

相關論文 FoundationStereo: Zero-Shot Stereo Matching 獲得 CVPR 2025 滿分評審,代碼已開源。


  • 論文地址:https://arxiv.org/abs/2501.09898  
  • 項目主頁:https://nvlabs.github.io/FoundationStereo/  
  • 項目代碼和數據集:https://github.com/NVlabs/FoundationStereo/  

圖片

對比常用 RGBD 相機:

圖片

目前 FoundationStereo 在 Middlebury, ETH3D 等多個排行榜位列第一。

圖片

圖片

引言

立體匹配算法雖在基準數據集上表現優異,但零樣本泛化能力仍不足。現有方法依賴目標域微調,且受限于網絡結構或數據規模。本文提出 FoundationStereo,通過大規模合成數據、自篩選流程及結合單目先驗的架構設計,實現了無需微調的跨域泛化能力。主要貢獻如下:

1.FoundationStereo 大模型

  • 提出首個零樣本泛化能力強大的立體匹配基礎模型,無需目標域微調即可在多樣場景(室內 / 室外、無紋理 / 反射 / 透明物體等)中實現高精度深度估計。

2. 大規模合成數據集(FSD)

  • 構建包含 100 萬立體圖像對的高保真合成數據集,覆蓋復雜光照、隨機相機參數及多樣化 3D 資產,并通過路徑追蹤渲染提升真實性。
  • 設計迭代自篩選流程,自動剔除模糊樣本(如重復紋理、純色區域),提升數據質量。

3. 單目先驗適配(STA 模塊)

  • 提出側調諧適配器(STA),將單目深度估計模型(DepthAnythingV2)的互聯網尺度幾何先驗與 CNN 特征結合,顯著緩解合成到真實的域差距。

4. 注意力混合成本過濾(AHCF)

  • 軸向平面卷積(APC):將 3D 卷積解耦為空間和視差維度的獨立操作,擴展感受野并降低計算開銷。
  • 視差 Transformer(DT):在成本體積中引入跨視差自注意力機制,增強長程上下文推理能力。

5. 實驗性能突破

  • 零樣本泛化:在 Middlebury、ETH3D 等基準上超越微調模型(如 Middlebury BP-2 誤差從 7.5% 降至 1.1%)。
  • 領域內最優:Scene Flow 測試集 EPE 刷新紀錄(0.34),ETH3D 微調后排名第一。

圖片

圖片

方法

概覽

1. 單目 - 立體協同:通過 STA 融合 ViT 的幾何先驗與 CNN 的匹配能力,縮小仿真 - 真實差距。

2. 成本體積高效濾波:APC(大視差核) + DT(全局注意力)實現多尺度上下文聚合。

3. 數據驅動泛化:百萬級合成數據 + 自動篩選,覆蓋極端場景(透明 / 反射 / 無紋理物體)。

圖片

單目基礎模型適配(Monocular Foundation Model Adaptation)

1.動機:合成數據訓練的立體匹配模型存在仿真 - 真實差距(sim-to-real gap),而單目深度估計模型(如 DepthAnythingV2)在真實數據上訓練,能提供更強的幾何先驗。

2.方法:

  • 采用側調諧適配器(STA, Side-Tuning Adapter),將凍結的 DepthAnythingV2 ViT 特征與輕量級 CNN(EdgeNeXt-S)提取的特征融合。
  • 實驗對比三種融合策略(圖 3 左):

(a) 直接使用 ViT 特征金字塔 → 效果較差(缺乏局部細節)。

(b) ViT 與 CNN 雙向特征交換 → 計算復雜,收益有限。

(c) ViT 最終層特征降維后與 CNN 特征拼接 → 最優選擇(平衡效率與性能)。

  • 關鍵優勢:STA 模塊保留 ViT 的高層語義先驗,同時結合 CNN 的細粒度匹配能力,顯著提升對模糊區域(如弱紋理、反射表面)的魯棒性。

圖片

注意力混合成本過濾(Attentive Hybrid Cost Filtering)

1.混合成本體積構造(Hybrid Cost Volume Construction)

  • 輸入:STA 提取的左右圖像 1/4 分辨率特征(fl4,fr4fl4,fr4)。
  • 構造方式:
       a.分組相關(Group-wise Correlation):將特征分為 8 組,計算逐組相關性(VgwcVgwc),增強匹配多樣性。

        b.特征拼接(Concatenation):直接拼接左右圖像特征(VcatVcat),保留單目先驗信息。

        c.最終成本體積:兼顧局部匹配與全局上下文。

圖片

2.軸向平面卷積(APC, Axial-Planar Convolution)

  • 問題:傳統 3D 卷積(如 3×3×3)對大視差范圍計算代價高,且感受野有限。
  • 改進:將 3D 卷積解耦為兩部分:
            a. 空間卷積(Ks×Ks×1Ks×Ks×1):處理圖像平面內的特征。
            b. 視差卷積(1×1×Kd1×1×Kd):沿視差維度聚合信息。

效果:在視差維度使用大核(如 Kd=17),顯著提升長距離匹配能力,同時降低內存占用。

3.視差 Transformer(DT, Disparity Transformer)

  • 動機:傳統成本濾波缺乏全局視差關系建模。
  • 設計:
        a.將成本體積降采樣至 1/16 分辨率,轉換為視差序列 token。
        b.通過 4 層 Transformer 編碼器(含 FlashAttention)執行跨視差自注意力。
        c.位置編碼:實驗表明余弦編碼優于 RoPE(因視差維度固定)。
  • 作用:增強對薄結構、重復紋理等復雜場景的匹配魯棒性。

圖片

4.初始視差預測

  • 對濾波后的成本體積 VC?VC?執行 Soft-Argmin,生成 1/4 分辨率的初始視差圖 d0。

迭代優化(Iterative Refinement)

  • 相關性體積查找:基于當前視差 dk,從 VC 和左右特征相關性體積 Vcorr中提取特征。
  • GRU 更新:

    a. 輸入:成本體積特征 + 當前視差 + 上下文特征(來自 STA)。

    b. 采用 3 級 ConvGRU(粗到細)逐步優化視差,每級隱藏狀態由上下文特征        初始化。

  • 視差修正:通過卷積預測殘差 Δd,更新視差

圖片

損失函數(Loss Function)

  • 監督目標:
         a.初始視差 d0:平滑 L1 損失。
         b.迭代優化視差 {dk}{dk}:加權 L1 損失(權重隨迭代指數衰減,γ=0.9)。

圖片

合成訓練數據集(Synthetic Training Dataset)

  • 數據生成:
        a.工具:NVIDIA Omniverse 路徑追蹤渲染。

         b.多樣性增強:隨機化相機參數(基線、焦距)、光照、物體布局。

         c.場景類型:結構化室內 / 室外場景 + 隨機飛行的復雜物體(圖 4)。

  • 自篩選流程:

         a. 訓練初始模型,在 FSD 上評估。

         b. 剔除 BP-2 > 60% 的模糊樣本(如無紋理區域、過度反射)。

         c. 重新生成數據并迭代訓練(共 2 輪),提升數據質量。

圖片

實驗和結果

我們在 PyTorch 中實現了 FoundationStereo 模型,使用混合數據集進行訓練,包括我們提出的 FSD 數據集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公開數據集。采用 AdamW 優化器訓練 20 萬步,總 batch size 為 128,均勻分布在 32 塊 NVIDIA A100 GPU 上。初始學習率設為 1e-4,在訓練過程進行到 80% 時衰減為原來的 0.1 倍。輸入圖像隨機裁剪為 320×736 大小,并采用與 IGEV 類似的數據增強方法。訓練時使用 22 次 GRU 迭代更新,而在后續實驗中(除非特別說明),我們使用相同的基礎模型進行零樣本推理,采用 32 次精煉迭代和 416 的最大視差范圍。除非特別說明,我們用同一權重的大模型進行零樣本的泛化測試。

圖片

圖片

圖片

在消融實驗中,我們系統驗證了模型各關鍵組件的有效性:首先比較了不同單目基礎模型(DepthAnythingV2 和 DINOv2)及其融合策略,發現 ViT 特征降維拼接 CNN 的 STA 設計效果最佳;其次測試了 AHCF 模塊中位置編碼(余弦編碼優于 RoPE)、注意力范圍(僅視差維度優于全成本體積)和 APC 卷積核配置(視差核尺寸 17 時性能飽和);最后證明了引入 FSD 數據集能顯著提升泛化性(Middlebury 上 BP-2 指標從 2.34% 降至 1.15%)。這些實驗全面支撐了模型設計的合理性。

圖片

圖片

圖片

FoundationStereo 在透明和千紋理物體上也表現出很好的泛化性:

圖片

團隊介紹

該論文來自于英偉達研究院。其中論文一作華人溫伯文博士任高級研究員,此前曾在谷歌 X,Facebook Reality Labs, 亞馬遜和商湯實習。研究方向為機器人感知和 3D 視覺。獲得過 RSS 最佳論文獎提名。個人主頁: https://wenbowen123.github.io/

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-07 06:30:00

AI開源

2025-05-13 16:57:18

2023-10-31 19:20:29

語言模型英偉達芯片

2025-05-19 08:41:00

AI模型開發者

2020-10-04 13:12:53

開源技術 數據

2024-06-17 08:55:00

2025-04-27 08:30:00

2022-06-01 16:47:53

AI模型開源

2022-05-17 16:12:33

英偉達模型開源

2024-06-17 07:00:00

2022-01-20 15:56:14

AI訓練GPU

2024-10-18 14:46:51

2025-06-18 08:51:28

2024-12-18 18:57:58

2012-05-11 11:32:52

英偉達CUDA編譯器

2018-06-27 19:32:59

人工智能深度學習機器學習

2024-10-17 14:05:34

2024-08-22 18:58:27

英偉達微軟小語言模型

2020-03-09 15:27:25

開源技術 趨勢

2024-08-22 13:36:02

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品免费一区二区在线观看 | 国产精品久久久久久久久久久免费看 | 欧美日韩在线视频一区 | 毛片毛片毛片毛片 | 亚洲 成人 在线 | 永久免费在线观看 | 9porny九色视频自拍 | 国产精品成人一区二区三区夜夜夜 | 欧美一区二区三区久久精品 | 天天综合网7799精品 | 国产精品久久久久久久久免费相片 | 国产精品一二区 | 中国一级毛片免费 | 日韩精品一区中文字幕 | 久草网站 | 欧美在线一二三 | 毛片在线看片 | 久久福利电影 | 欧美精| 国产不卡一区 | 亚洲乱码国产乱码精品精的特点 | 国产极品粉嫩美女呻吟在线看人 | 激情91 | 亚洲视频1区 | 久久精品色欧美aⅴ一区二区 | 免费观看黄 | 成人网址在线观看 | 国产成人精品免费视频 | 国产成年人视频 | 台湾av在线 | 国产欧美一区二区三区另类精品 | 欧美亚洲激情 | 亚洲精品一| 国产精品乱码一区二三区小蝌蚪 | 久久精品成人热国产成 | 自拍在线 | 国产综合精品一区二区三区 | 久久久蜜桃一区二区人 | 欧美成人a∨高清免费观看 老司机午夜性大片 | 免费精品一区 | 成在线人视频免费视频 |