成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域

發布于 2024-5-27 09:19
瀏覽
0收藏

對于想要獲取兩張圖像之間的細粒度視覺對應關系而言,局部圖像特征匹配技術是高不錯的 xuanz,對于實現準確的相機姿態估計和 3D 重建至關重要。過去十年見證了從手工制作到基于學習的圖像特征的演變。


最近,研究社區又提出了新穎的可學習圖像匹配器,在傳統基準上實現了性能的不斷改進。盡管已經取得了長足的進步,但這些進展忽略了一個重要方面:圖像匹配模型的泛化能力。


如今,大多數局部特征匹配研究都集中在具有豐富訓練數據的特定視覺領域(如室外和室內場景),這就導致了模型高度專用于訓練領域。遺憾的是,這些方法的性能在域外數據(如以對象為中心或空中捕獲)上通常急劇下降,在某些情況下甚至可能并不比傳統方法好很多。


因此,傳統的域無關技術(如 SIFT)仍被廣泛用于獲取下游應用的姿態。并且由于收集高質量注釋的成本很高,在每個圖像域都有豐富的訓練數據是不現實的,就像其他一些視覺任務一樣。因此,社區應該專注于開發架構改進,使得可學習的匹配方法具有泛化能力。


近日,受上述觀察的啟發,德克薩斯大學奧斯汀分校和谷歌研究院的研究者聯合提出了 OmniGlue,這是第一個以泛化為核心原則設計的可學習圖像匹配器。在與域無關的局部特征基礎上,他們引入了用于提高匹配層泛化性能的新技術:基礎模型指導和關鍵點位置注意力指導。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


  • 論文地址:https://arxiv.org/pdf/2405.12979
  • 項目主頁:https://hwjiang1510.github.io/OmniGlue/?


如圖 1 所示,通過引入的技術,OmniGlue 能夠在分布外領域上實現更好泛化性能,同時保持源領域上的高質性能。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


研究者首先整合了基礎模型的廣泛視覺知識。通過對大規模數據進行訓練,基礎視覺模型 DINOv2 在各種圖像域中的各種任務(包括穩健的區域級匹配)中表現良好。盡管基礎模型所產生匹配結果的粒度有限,但當專門的匹配器無法處理域位移時,這些模型可以為潛在的匹配區域提供可泛化的指導。因此,他們使用 DINO 來指導圖像間特征傳播過程,降低不相關的關鍵點并鼓勵模型融合來自潛在可匹配區域的信息。


接著利用關鍵點位置信息來指導信息傳播過程。研究者發現,當模型應用于不同領域時,以往的位置編碼策略會損害性能。這促使他們與用于估計對應關系的匹配描述符區分開來。研究者提出了一種新穎的關鍵點位置指導注意力機制,從而避免過于專注關鍵點的訓練分布和相對姿態變換。


通過實驗,研究者評估了 OmniGlue 在各種視覺領域的泛化能力,包括合成圖像和真實圖像,從場景級到以對象為中心和空中數據集,期間使用小基線和寬基線相機。與以往工作相比,OmniGlue 展示出顯著的改進。


方法概覽


下圖 2 概述了 OmniGlue 方法,主要包括以下四個階段。


首先,研究者使用兩種互補類型的編碼器提取圖像特征,包括了專注于通用細粒度匹配的 SuperPoint 以及對粗略但廣泛的視覺知識進行編碼的視覺基礎模型 DINOv2。


其次,研究者使用這些特征構建關鍵點關聯圖,包括圖像內和圖像間。


第三,研究者基于構建的圖在兩張圖像中的關鍵點之間傳播信息,分別使用自注意力層和交叉注意力層進行圖像內和圖像間通信。


最后,一旦獲得改進后的描述符,研究者應用最佳匹配層來生成兩張圖像中關鍵點之間的映射。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


在具體細節上,OmniGlue 方法主要包含以下幾步。


特征提取。輸入是兩張具有共享內容的圖像,表示為 I_A 和 I_B。研究者將這兩張圖像的 SuperPoint 關鍵點集表示為 A := {A_1, ..., A_N } 和 B := {B_1, ..., B_M}。N 和 M 分別是 I_A 和 I_B 的已識別關鍵點的數量。每個關鍵點都與其 SuperPoint 局部描述符 d ∈ R^C 相關聯。


利用 DINOv2 構建圖形。研究者利用 DINOv2 特征來指導圖像間圖形的構建。如下圖 3(左)所示,他們以 G_B→A_i 為例。對于關鍵點集合 A 中的每個關鍵點 A_i,研究者計算其與集合 B 中所有關鍵點的 DINOv2 特征相似度。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


具有新穎指導的信息傳播。研究者根據關鍵點圖執行信息傳播,這一模塊包含了多個塊,每個塊都有兩個注意力層。第一個基于圖像內圖更新關鍵點,執行自注意力;第二個基于圖像間圖更新關鍵點,執行交叉注意力。


匹配層和損失函數。使用改進的關鍵點表示來生成成對相似度矩陣:


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


對比 SuperGlue 和 LightGlue


SuperGlue 和 LightGlue 都使用注意力層進行信息傳播。不同的是,OmniGlue 利用基礎模型來指導這個過程,這對遷移到訓練期間未觀察到的圖像域有很大幫助。


在局部描述符改進方面,與 SuperGlue 不同,OmniGlue 解耦了位置和外觀特征。作為參考,SuperGlue 將關鍵點表示為 d + p,將兩個特征糾纏在一起,其中位置特征也用于產生匹配結果。


與 OmniGlue 的設計類似,LightGlue 消除了更新的描述符對位置特征的依賴,但提出了一種非常具體的位置編碼公式,基于旋轉編碼,并且僅在自注意力層中。


總之,SuperGlue 是最接近 OmniGlue 的模型,可作為直接對比的參考。也因此,研究者使用 SuperGlue 作為實驗驗證的主要參考比較。


實驗結果


研究者在下表 1 中列出了用于評估 OmniGlue 的數據集和任務。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


從 Synthetic Homography(SH)到 MegaDepth(MD)數據集,如下表 2 所示,與基礎方法 SuperGlue 相比,OmniGlue 不僅在領域內數據上表現出優異的性能,而且還表現出強大的泛化能力。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


從 MegaDepth(MD)到其他領域,如下表 3 所示,OmniGlue 不僅在 MegaDepth-1500 上實現了與 SOTA 稀疏匹配器 LightGlue 相當的性能,而且與所有其他方法相比,在 6 個新領域中的 5 個領域中表現出更好的泛化能力。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


研究者在下圖 5 和圖 4 中分別展示了新領域上的零樣本泛化性能以及在源領域上的性能。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


最后如下表 4 所示,OmniGlue 更容易適應目標領域。


用基礎模型指導特征傳播,首個泛化型圖像匹配器OmniGlue搞定未見過域-AI.x社區


更多技術細節和實驗結果請參閱原論文。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/Jzujd9AgGflAgEyGipAx8Q??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 免费午夜视频 | 91亚洲国产成人久久精品网站 | 日韩av在线一区二区 | 91在线观看视频 | 欧美在线观看一区 | 在线免费观看欧美 | 国产精品视频久久久久久 | 国产精品a久久久久 | 日韩一区二区在线视频 | 欧美日韩高清一区二区三区 | av中文字幕在线 | 日韩视频 中文字幕 | 国产精品免费一区二区三区四区 | 91 在线 | 日韩中文视频 | 久久精品视频在线免费观看 | 久久久久99 | 国产精品不卡 | 亚洲色图网址 | 久久不射电影网 | 91视频在线 | 国产小视频在线 | 福利片在线观看 | 一本色道久久综合亚洲精品高清 | 国产在线视频一区二区 | 久久福利电影 | 日韩在线中文字幕 | 一级a性色生活片久久毛片 一级特黄a大片 | 在线观看免费av网 | 国产片侵犯亲女视频播放 | 国产精品美女久久久免费 | 国产一区二区不卡 | 黄色一级大片视频 | 欧美精品1区 | 日本一区二区三区在线观看 | 天堂视频免费 | 在线国产视频 | 美女精品一区 | 在线看免费 | 亚洲国产成人精品久久久国产成人一区 | 超黄视频网站 |