ETH&PICO開源MADPose:通過顯式仿射校正單目深度預測的相對位姿估計方法
本文經3D視覺之心公眾號授權轉載,轉載請聯系出處。
單目深度估計的關鍵局限和挑戰
近年來,基于深度學習的單目深度估計(Monocular Depth Estimation, MDE)能夠從單張二維圖像中提取出日益準確的三維信息。這些進展為利用三維先驗豐富傳統幾何計算機視覺任務開辟了新的可能性。從單張圖像推斷深度信息已被證明在多個應用中具有重要意義。
盡管單目深度估計技術取得了顯著進步,但將這些深度先驗整合到基礎幾何計算機視覺任務中(尤其是相機位姿估計)仍然較少被研究。雖然直覺上整合深度信息是有益的,但利用這些先驗來推導多視圖之間的幾何關系存在獨特的挑戰,這些挑戰尚未被現有研究完全解決。
現有方法的一個關鍵局限是通常假設不同視圖預測的深度圖可以通過一個單一的比例因子相關聯。然而,這種假設未能考慮現有單目深度估計模型的內在特性,因為最先進的MDE模型通常通過預測相對深度或視差(逆深度)來實現仿射(比例和偏移)變換的不變性。盡管最近在度量深度估計模型開發方面取得了一些進展,但令人驚訝的是,即便對于這些模型,建模仿射校正也是有益的,因為它們與實際度量深度仍然存在一定的不一致性。
MADPose[1]提出了三個求解器,專注于在校準或非校準相機設置下解決相對位姿問題。這些求解器使用單目深度估計模型提供的深度先驗和像素匹配作為輸入,并顯式建模深度預測中的比例和偏移變化。具體而言,我們提出的求解器包括以下幾種(其中僅校準求解器是極小的,其他兩個是過約束的):
- 校準的三點求解器:適用于校準圖像對。
- 共享焦距的四點求解器:適用于未知但共享焦距的非校準圖像對。
- 雙焦距的四點求解器:適用于焦距未知的非校準圖像對。
倉庫鏈接:https://github.com/MarkYu98/madpose
此外,我們將這些新求解器整合到一個靈活的混合魯棒估計流程中,該流程將深度感知求解器與經典的基于點的求解器相結合。我們還開發了混合方案用于評分和局部優化,在其中使用深度和仿射校正值優化經典的Sampson誤差和基于深度的重投影誤差。這種方法結合了兩種方法的優勢,最終形成了一個魯棒的相對位姿估計算法,在多個數據集上都實現了持續改進。
主要貢獻:
- 提出通過顯式仿射(比例和偏移)校正單目深度預測解決相對位姿問題,解決了現有方法中的一個局限。
- 開發了三種針對不同校準設置的求解器:校準、共享焦距的非校準、以及完全非校準圖像對。
- 將深度感知求解器與經典基于點的求解器、評分和局部優化相結合的混合估計流程,大幅提升了相對位姿估計的精度和魯棒性。
- 框架兼容多種圖像匹配器和MDE模型,表現出一致的改進,易于整合到現有管線中。
具體方法
問題定義
雖然這種建模假設深度先驗是仿射不變的相對深度,但我們的方法也可以用于度量深度預測,從而在實驗中表明可以提高相對位姿的準確性和魯棒性。
方法
混合估計
僅依賴深度先驗可能會在先驗不可靠時產生錯誤結果。為此,我們進一步提出了一種混合方法,將深度感知求解器與經典基于點的求解器和極線誤差結合起來(如 Sampson誤差),形成一個混合的 LO-MSAC 框架。混合估計流程包括以下步驟:
- 校準場景:結合校準求解器和經典的五點本質矩陣求解器。
- 共享焦距場景:結合共享焦距求解器和六點共享焦距相對位姿求解器。
- 雙焦距場景:結合雙焦距求解器和七點基礎矩陣求解器。
通過這種混合策略,我們能夠結合深度先驗和點對應兩種方式的優勢,從而在多個數據集上實現精度和魯棒性的顯著提升。
實驗效果
總結一下
MADPose是一種新的相對位姿估計方法,利用顯式建模的單目深度先驗的仿射變化。在校準和非校準相機設置下開發了三個求解器,并將其與經典方法相結合,實現了跨多個數據集的持續改進。所提方法還能從圖像匹配和單目深度估計的最新進展中進一步受益。