地圖先驗的花式玩法?元戎啟行提出PriorMapNet:暴漲3個點!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 & 筆者的個人理解
北理工和元戎啟行的工作PriorMapNet!在線高精地圖構建對于自動駕駛中的后續預測和規劃任務至關重要。遵循MapTR范式,最近的工作取得了不錯的結果。然而在主流方法中,參考點是隨機初始化的,導致預測和GT之間的匹配不穩定。為了解決這個問題,我們引入PriorMapNet來增強在線高精地圖的構建。具體來說提出了PPS解碼器,它為參考點提供了位置和結構先驗。根據數據集中的地圖元素進行擬合,先驗參考點降低了學習難度,實現了穩定的匹配。此外,我們提出了PF編碼器,利用BEV特征先驗來增強圖像到BEV的轉換。此外,我們提出了DMD交叉注意,它分別沿多尺度和多樣本解耦交叉注意力,以提高效率。我們提出的PriorMapNet在nuScenes和Argoverse2數據集上的在線矢量化高精地圖構建任務中實現了最先進的性能。
總結來說,本文的主要貢獻如下:
- 我們通過將特征、位置和結構先驗集成到編碼器和解碼器中,引入了一種新的基于先驗的在線高精地圖構建框架。
- 提出了DMD交叉注意,它分別沿多尺度和多樣本解耦交叉注意力,以提高效率。
- 在nuScenes和Argoverse2數據集上的在線矢量化高精地圖構建中實現了SOTA性能,展示了高性能和泛化能力。
相關工作回顧
在線高精地圖
與傳統的離線高精地圖構建方法不同,最近的研究使用車載傳感器構建在線高精地圖。早期的方法將地圖構建作為分割任務,預測BEV空間中的光柵化地圖。HDMapNet通過后處理將這些光柵化地圖進一步轉換為矢量化地圖。
VectorMapNet引入了第一個端到端的矢量化地圖模型,使用DETR解碼器檢測地圖元素,并使用自回歸變換器優化結果。因此,MapTR和MapTRv2設計了一種具有實例點級分層查詢嵌入方案的單階段地圖構建范式。后來提出的主流方法遵循了這一流程,改進的重點是增強查詢和外部功能的交互。InsMapper和HIMap進一步探索了實例和點之間的相關性,并改進了查詢中的交互。MapQR在實例級查詢中隱式編碼點級查詢,并嵌入查詢位置,如Conditional DETR。盡管有上述發展,但這些方法隨機初始化參考點,導致匹配不穩定。為了解決這個問題,我們的PriorMapNet引入了先驗來增強匹配穩定性。
高精地圖先驗的引入
先驗為地圖構建提供了有效的初始化,降低了模型學習的難度。我們將先驗分為兩類:語義先驗和位置和結構先驗。對于先驗語義,MGMap提出了Mask Active Instance(MAI),它學習地圖實例分割結果,并為實例查詢提供語義先驗。Bi-Mapper設計了一個雙流模型,使用全局和局部視角的先驗來增強語義圖學習。對于先驗位置和結構,Topo2D(Li等人,2024a)使用2D車道檢測結果作為先驗來初始化查詢。SMERF和P-MapNet引入了標準地圖(SDMap)作為地圖構建的位置和結構先驗。然而,上述方法依賴于額外的模塊,增加了計算復雜度。相比之下,PriorMapNet使用離線聚類地圖元素作為位置和結構先驗,在不增加額外計算消耗的情況下提高了性能。
地圖構建中的Image-to-BEV Encoder
地圖構建通常依賴于BEV特征,該特征由編碼器從圖像中轉換而來。編碼器有兩種類型:自下而上和自上而下。自下而上的編碼器將圖像提升到3D,并使用voxel pooling生成BEV特征。自頂向下編碼器生成包含3D信息的BEV查詢,并使用變壓器提取圖像特征以進行BEV查詢。然而,由于查詢是隨機初始化的,單層編碼器的精度較低,多層編碼器帶來了更高的計算復雜度。為了克服這些局限性,我們使用先驗特征增強了BEV查詢。
PriorMapNet方法詳解
概覽
PriorMapNet網絡結構如圖3所示。主要包含四個部分Backbone、PF-Encoder、PPS-Decoder和Prediction Output。
Decoder with Prior Position and Structure
PPS-Decoder如圖4c所示。結合隨機初始化參考點的MapTRv2和僅提供語義先驗而不提供位置信息的MGMap,PPS-Decoder通過位置和結構先驗增強參考點,提供“good anchor”來提高準確性和匹配穩定性。
PPS-Decoder包含多個級聯的解碼器層,用于迭代地優化分層查詢和參考點。分層查詢由實例級查詢和點級查詢組成,它們通過broadcasting組合在一起:
參考點用先前的位置和結構進行初始化。為了擬合數據集中地圖元素的分布,我們使用K-Means對地圖元素進行聚類,并提取第一個Npri元素的位置信息,如圖2所示。聚類和抽象是由離線完成的,確保在推理過程中沒有額外的計算負擔。在訓練和推理過程中,一些參考點獲得了擬合的位置和結構先驗(稱為先驗參考點,而其余的參考點仍然來自可學習的參數(稱為可學習參考點,參考點的組合集表示為R)。
為了嵌入查詢位置,參考點在DAB-DETR之后用正弦位置進行編碼。查詢位置嵌入實現如下:
線性層的參數不在解碼器層之間共享。PE(·)在坐標上單獨計算,位置嵌入沿著特征通道連接:
參考點和位置嵌入在PPS解碼器層之間進行更新。在每一層中,自我關注和交叉關注機制使用以下輸入進行QKV和參考點:
先驗參考點適合數據集中地圖元素的位置和結構分布,這有助于查詢專注于學習與參考點的偏移。此外,我們維護了可學習參考點,以捕獲和表示與典型位置和結構模式不同的地圖元素。自注意力使先前參考點和可學習參考點之間能夠相互作用,減少冗余檢測,提高整體檢測精度。
Encoder with Prior Feature
PF編碼器通過BEV特征先驗增強了圖像到BEV的轉換。PF編碼器建立在自上而下編碼器(如BEVFormer和GKT)的基礎上,利用BEV特征作為查詢,通過交叉注意力提取相關圖像特征。
我們首先使用LSS將圖像特征轉換為初始化的BEV特征,然后將其用作BEV查詢先驗,在單層BEVFormer編碼器中進行優化。在MGMap之后,BEV特征通過EML Neck下采樣到多尺度。
為了更好地聚合來自同一映射元素的特征,有必要吸收同一實例的嵌入并區分不同實例的嵌入。因此,我們引入了地圖元素的判別損失,以使相同的立場更接近,并進一步分離不同的實例:
在PPS解碼器的交叉注意力層,查詢加權樣本BEV特征。PF編碼器使查詢能夠有效地聚合與同一地圖元素相關的特征,同時區分不同的地圖實例,提高地圖構建的準確性。
Decoupled Multi-Scale Deformable Attention
為了解決多尺度可變形交叉注意力(MSDA)的計算復雜性,我們提出了DMD交叉注意機制,以沿多尺度和多樣本解耦交叉注意力,如圖5b所示。
在vanilla MSDA中,每個查詢都與M尺度BEV特征交互,并在每個尺度上采樣N個點,其計算復雜度為O(M×N):
為了提高效率,DMD交叉注意力機制將香草MSDA過程分為兩個階段:
多尺度階段在M個尺度上進行交叉注意力,每個尺度采樣一個點。多采樣階段使用多尺度階段的輸出,并專注于最大尺度特征來采樣N個點。DMD交叉注意將計算復雜度降低到O(M,N),并實現了比普通MSDA更高的性能。
實驗分析
數據集和指標
為了驗證我們提出的方法PriorMapNet的有效性,我們在廣泛使用的nuScenes數據集和Argoverse 2數據集上對其進行了評估,并將其與SOTA方法進行了比較。
nuScenes數據集是在線矢量化高精地圖構建的標準基準,包含由六個多視圖相機和激光雷達捕獲的1000個駕駛場景,其中2D矢量化地圖元素作為地面實況。Argoverse 2專為自動駕駛的感知和預測研究而設計,包含1000個場景,每個場景15秒。由七個多視圖相機捕獲的3D矢量化地圖元素作為GT提供。
根據之前的研究,我們評估了三類地圖元素的性能:車道分隔帶、人行橫道和道路邊界。PriorMapNet的性能使用平均精度(AP)指標進行評估,如果預測與其GT之間的腔室距離在0.5、1.0和1.5米的閾值范圍內,則預測被視為TP。
主要結果
nuScenes上的結果。我們在表1中報告了nuScenes秋季集的定量結果。在相機模式下,PriorMapNet超越了之前的SOTA方法,與我們的基線MapTRv2相比,mAP提高了6.2%。在一個RTX 4090 GPU上,PriorMapNet的推斷速度為每秒13.9幀(FPS)。此外,在相機和激光雷達融合模式下,PriorMapNet達到72.9%的mAP和7.5 FPS,展現出強大的泛化能力。定性結果如圖6所示,進一步說明PriorMapNet取得了改進的結果。補充材料中顯示了更多定性結果。
Argoverse 2上的結果。我們在表2中報告了Argoverse 2 val集的定量結果。Argoverse 2提供3D地圖注釋,允許對2D和3D地圖元素進行預測。PriorMapNet在兩個維度上都超越了之前的SOTA方法,2D地圖元素的mAP為72.0%,3D地圖元素的mAP為69.9%,推理速度為12.6 FPS。實驗結果證明了我們方法的可推廣性。
擴大BEV范圍的結果。我們在nuScenes驗證集上對擴大的BEV范圍進行模型訓練和評估,如表3所示。BEV網格的尺寸保持在[0.3m,0.3m]。為了驗證我們方法的魯棒性,我們相應地增加了地圖元素的先驗聚類和位置范圍。其他設置與原始模型保持一致。實驗結果表明,PriorMapNet在擴大BEV范圍方面保持了優勢。值得注意的是,在100×50m的范圍內,我們的方法形成了SOTA方法SQD MapNet,該方法集成了stream策略。
消融實驗
結論
本文引入PriorMapNet,利用先驗知識增強在線矢量化高精地圖構建。為了解決不穩定匹配的問題,我們提出了PPS解碼器,該解碼器提供了從數據集中預先聚類的位置和結構參考點。為了有效地嵌入邊界元特征,我們提出了PF編碼器,該編碼器利用邊界元特征先驗增強圖像到邊界元的轉換,并利用判別損失來改善映射元素嵌入的聚合。為了降低計算復雜度,我們提出了DMD交叉注意,它分別沿多尺度和多樣本執行交叉注意力。我們提出的PriorMapNet在nuScenes和Argoverse2數據集上實現了最先進的性能。局限性和未來的工作。盡管我們開發了在線矢量化高精地圖構建,但在未來的工作中需要解決幾個局限性。首先,我們的地圖元素先驗只包含位置信息,缺乏語義信息,這限制了查詢的交互和優化。其次,我們的方法僅依賴于單幀傳感器輸入,構建時間和空間連續地圖元素的表示。