Nuscenes最新SOTA | DynamicBEV超越PETRv2/BEVDepth!
1. 論文信息
2. 引言
這篇論文介紹了一種新的3D object detection方法,這對于自動駕駛、機器人技術和監控等應用至關重要。傳統的3D object detection方法使用鳥瞰視角(BEV)方法,將3D場景簡化為2D表示。然而,常規的BEV方法在本質上大多是靜態的。本文提出了一種名為DynamicBEV的動態方法。
傳統BEV方法的局限性
- 靜態Queries:傳統方法主要使用靜態Queries,其中Queries權重在訓練階段預定義,并且在推理期間不會更改。
- 有限的背景利用:由于Queries的靜態性質,這些模型難以有效地利用空間和時間背景,并適應復雜場景。
DynamicBEV的進步
- 動態Queries:與靜態Queries不同,DynamicBEV中的動態Queries可以迭代地適應復雜場景。這種適應性允許模型捕捉更復雜的時空關系。
- 特征聚類:DynamicBEV采用特征聚類來創建自適應場景表示。
- Top-K 注意機制:在這種方法中,采用了一種Top-K注意機制,每個Queries都會調整以適應最相關的前k個聚類,允許從各種特征聚類中聚合信息。
- 多樣性損失:引入了多樣性損失,確保注意權重的平衡,使模型不僅考慮最突出的特征,還考慮較不明顯的特征。這提高了模型的準確性、魯棒性和適應性。輕量級時間融合模塊(LTFM):引入了這個模塊以提高效率。與傳統方法相比,LTFM在不顯著增加計算成本的情況下,提高了時間背景的合并。在nuScenes數據集上的評估表明,DynamicBEV在準確性和效率方面都超過了最先進的方法。DynamicBEV,通過其對動態Queries的創新使用以及像LTFM這樣的有效機制,為3D object detection領域提供了有希望的進步。通過允許Queries動態適應、通過多樣性損失利用多樣化特征,以及高效合并時間背景,DynamicBEV顯著提高了各種場景下3D object detection的性能。
3. 方法
DynamicBEV 是一個創新的3D物體檢測方法,它通過動態查詢的使用,改進了傳統基于靜態查詢的方法。這個方法包括幾個關鍵組件:一個基礎網絡用于初步的特征提取;動態查詢演化模塊(DQEM),用于通過 K-means 聚類在每個查詢周圍分組特征,帶來自適應的結構表示;以及 Top-K 注意模塊和輕量級時間融合模塊(LTFM),分別用于迭代優化查詢和有效捕獲每個查詢的時間背景。這些組件共同作用,實現了在復雜3D場景中魯棒且精確的物體檢測。Initialization of Queries (Pillars)
在“查詢(Pillars)的初始化”這一部分,通過初始化查詢(也稱為pillars)來建立在3D空間中檢測對象的基礎。這些pillars被放置在鳥瞰圖(BEV)空間中,并通過集合 (Q) 數學符號化,其中集合中的每個元素代表pillar的空間坐標、維度、方向角和速度分量等屬性,。數學表述結合敘述,生動地描述了3D空間中每個pillar的內在特性。
K-means Clustering
在“K均值聚類”部分,方法論的重點是將周圍的特征劃分為聚類。這一部分的數學基礎是使用K均值聚類,其中每個查詢的周圍特征 (F) 被劃分為 (K) 個聚類 。這個技術過程是至關重要的,因為它決定了pillars如何適應3D空間中的局部化模式和特征,促進了對對象特征的細致理解。
Diversity Loss for Balanced Feature Aggregation
在標題為“多樣性損失用于平衡特征聚合”的部分,介紹并數學定義了一個新的損失函數 ,。該部分旨在確保模型不過度集中于主導特征,促進了對各種特征聚類的平衡關注。它詳細闡述了多樣性損失的數學和概念基礎,倡導更加包容的特征聚合過程。
Dynamic Adaptation of Queries
這部分主要分為三個步驟
- 初始特征聚合這個等式描述了聚合特征的初始過程。這里,(F_0) 代表初始聚合特征,而 是一個聚合每個查詢周圍特征的函數。該函數接受查詢 (Q) 和簇 作為輸入。目標是合并來自各種簇的信息,為每個查詢創建一個綜合的初始特征表示。
- Top-K 注意力更新
這個等式計算每個查詢和每個簇之間的注意力分數。這里,注意力函數,,通過執行點積后跟一個 softmax 函數,計算每個查詢 (Q) 和簇 之間的相似性。這個過程為與每個查詢更相關的簇分配更高的權重,確保捕獲最重要的特征。
- 查詢的迭代更新這個等式表示查詢的迭代更新。新查詢是通過將更新函數應用于初始查詢,初始聚合特征和注意力分數獲得的。更新函數可能涉及如加權和和規范化之類的操作,允許查詢動態適應并更具代表性地捕獲 3D 空間中的對象特征。
概括一下,也就是最初,每個查詢從其周圍環境(由簇表示)收集信息,這些信息聚合不太受每個簇的相關性的影響。然后,模型計算注意力分數,確定每個簇對每個查詢的重要性,確保給予更多關注的相關特征。最后,查詢會動態更新,使它們在捕獲來自特征簇的基本特征方面更具適應性和效力,使它們能夠通過迭代更好地代表 3D 空間中的對象。這種動態適應促使object detection過程更加細致和有效。Lightweight Temporal Fusion Module“輕量級時態融合模塊”部分深入探討了在3D object detection中管理時態上下文的有效策略。它系統地展開了計算過程,描述了通過加權組合和動態時態聚合初始化和更新時態查詢的過程。本節體現了計算效率的本質,通過利用現有的計算來管理時態上下文,減輕了對資源密集型操作的需求。
4. 實驗
表格展示了我們的DynamicBEV與其他最新方法的性能比較。在nuScenes驗證數據集上,DynamicBEV以較大的優勢超越了所有其他方法。當使用ResNet50背景,DynamicBEV達到了55.9的NDS,略高于SparseBEV的54.5。更重要的是,當應用透視預訓練時,DynamicBEV的NDS分數升至57.0,超過SparseBEV的55.8。
DynamicBEV始終保持高平均精度(mAP)分數,證明了其強大的object detection能力。在真陽性度量如mATE,mASE等方面,DynamicBEV與SparseBEV和其他競爭方法相比表現良好。此外,該模型在細粒度評估指標如對象方向誤差(mAOE)和屬性誤差(mAAE)方面也表現良好。透視預訓練的應用不僅改進了幾乎所有評估指標,還展示了模型的適應性和靈活性。
DynamicBEV的優勢主要源于兩個固有方面:首先,DynamicBEV的設計使其能夠更好地捕捉長距離依賴性。在3D object detection中,一個對象的不同部分可能在空間上是遙遠的,但在上下文中是相關的。例如,車的前部和后部在BEV空間中可能相距很遠,但它們屬于同一個對象。作為一種基于靜態查詢的方法,SparseBEV可能會在這樣的場景中遇到困難,因為其查詢點是固定的,不能動態適應變化的場景。相比之下,DynamicBEV通過其動態查詢演化模塊,可以實時更新其查詢點,從而更好地捕捉這些長距離依賴性。其次,DynamicBEV更能應對真實世界場景的動態性。在真實世界場景中,對象可能會移動、旋轉或改變形狀。在這樣動態變化的場景中,具有靜態查詢點的SparseBEV可能會遇到困難。然而,DynamicBEV通過其動態查詢和K-means聚類,可以動態調整其查詢點,從而更好地適應不斷變化的場景。在接下來的部分中,我們將通過消融實驗進一步驗證這些觀察結果。
5. 討論
本文提出的DynamicBEV方法在3D object detection領域展現了顯著的創新性和優越性。首先,該方法引入了動態查詢設計,這是一種突破性策略,有效捕獲了長距離依賴,彌補了傳統靜態查詢在處理空間分布廣泛的對象時可能遇到的問題。動態查詢通過實時更新查詢點,允許模型更敏感地捕捉場景的動態變化,增強了模型對不同物體部分之間復雜關系的理解和處理能力。
其次,DynamicBEV方法還采用了透視預訓練策略,進一步提高了模型的性能。這種預訓練方法通過在多個透視圖中訓練模型,提高了模型在多個評估指標上的表現,顯示了該模型在不同任務和視角下都有著優秀的適應性和靈活性。
在與當前最先進的方法進行比較時,DynamicBEV在nuScenes驗證數據集上表現卓越,不僅在常規的mean Average Precision (mAP)評估指標上保持了高分,還在nuScenes特有的綜合評估指標NDS上達到了新的高度。該方法在各種不同的網絡配置和輸入規模下都能保持穩定和高效的性能,證明了其強大的泛化能力。
DynamicBEV方法在真實世界的動態場景中表現出了非凡的魯棒性。由于采用了動態查詢和K-means聚類,即便在面對對象移動、旋轉和形狀變化等復雜變化時,該方法也能夠有效地調整其查詢點,保持高水平的檢測性能。
然而,值得注意的是,盡管DynamicBEV在性能上表現出色,但其模型復雜性相對較高。動態查詢和透視預訓練的引入可能增加了模型的計算負擔。因此,未來的研究可以考慮在維持檢測性能的基礎上,探索如何優化和簡化模型結構,以提高模型的計算效率。
6. 結論
DynamicBEV作為一個新穎而強大的3Dobject方法,成功地解決了傳統方法在處理動態場景和長距離依賴時的問題,表現出了良好的魯棒性和廣泛的適用性。