遙遙領先!BEVHeight++:針對路側視覺3D目標檢測新方案!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
回歸到地面的高度,以實現距離不可知的公式,從而簡化僅相機感知方法的優化過程。在路側camera的3D檢測基準上,方法大大超過了以前所有以視覺為中心的方法。它比BEVDepth產生了+1.9%的NDS和+1.1%的mAP的顯著改善。在nuScenes測試集上,方法取得了實質性的進步,NDS和mAP分別增加了+2.8%和+1.7%。
題目:BEVHeight++: Toward Robust Visual Centric 3D Object Detection
論文鏈接:https://arxiv.org/pdf/2309.16179.pdf
作者單位:清華大學,中山大學,菜鳥網絡,北京大學
出自國內首個自動駕駛社區:終于完成了20+技術方向學習路線的搭建(BEV感知/3D檢測/多傳感器融合/SLAM與規劃等)
雖然最近的自動駕駛系統專注于開發自車輛傳感器的感知方法,但人們往往忽視了一種利用智能路邊攝像頭將感知能力擴展到視覺范圍之外的替代方法。作者發現,最先進的以視覺為中心的BEV檢測方法在路邊攝像頭上的性能較差。這是因為這些方法主要集中在恢復關于相機中心的深度,在相機中心,汽車和地面之間的深度差隨著距離的增加而迅速縮小。在本文中,作者提出了一種簡單而有效的方法,稱為BEVHeight++,來解決這個問題。本質上,作者回歸到地面的高度,以實現距離不可知的公式,從而簡化僅相機感知方法的優化過程。通過結合高度和深度編碼技術,實現了從2D到BEV空間的更準確和穩健的投影。在路邊攝像頭的流行3D檢測基準上,方法大大超過了以前所有以視覺為中心的方法。就自車輛場景而言,BEVHeight++具有優于僅深度的方法。
具體而言,在nuScenes驗證集上進行評估時,它比BEVDepth產生了+1.9%的NDS和+1.1%的mAP的顯著改善。此外,在nuScenes測試集上,方法取得了實質性的進步,NDS和mAP分別增加了+2.8%和+1.7%。
圖1:(a)為了從單目圖像中產生3D邊界框,最先進的方法首先顯式或隱式地預測每像素深度,以確定前景對象與背景的3D位置。然而,當我們在圖像上繪制每像素深度時,我們注意到,當汽車遠離相機時,車頂和周圍地面上的點之間的差異會迅速縮小,這使得優化變得次優,尤其是對于遠處的物體。(b) 相反,我們繪制了到地面的每像素高度,并觀察到無論距離如何,這種差異都是不可知的,并且在視覺上更適合網絡檢測目標。然而,不能僅通過預測高度來直接回歸3D位置。(c) 為此,我們提出了一個新的框架BEVHeight++來解決這個問題。經驗結果表明,我們的方法在干凈設置上超過了最佳方法5.49%,在嘈雜設置上超過28.2%。
網絡結構
預測高度和深度的比較。(a) 概述了以前基于深度的方法和我們提出的基于高度的管道。請注意,本文提出了一種新穎的2D到3D投影模塊。(b) 繪制每像素深度(頂部)和地面高度(底部)的直方圖,可以清楚地觀察到,深度范圍超過200米,而高度在5米以內,這使得高度更容易學習。
目標在圖像上的行坐標與其深度和高度之間的相關性。目標在圖像中的位置,可以定義為(u,v),v坐標表示圖像的行坐標。(a) 噪聲設置的視覺示例,在正態分布中添加沿滾轉和俯仰方向的旋轉偏移。(b) 是深度分布的散點圖。(c) 是指離地高度。可以發現,與深度相比,高度的噪聲設置與其原始分布有更大的重疊,這表明高度估計更具魯棒性。
BEVHeight++的總體框架,檢測器由三個子網絡組成,分別是基于深度的分支(青色)、基于高度的分支(綠色)和特征融合過程(灰色)?;谏疃鹊膒ipeline使用估計的每像素深度來將圖像視圖特征提升為基于深度的BEV特征(基于D的BEV)?;诟叨鹊膒ipeline將對圖像視圖中升力特征的地面高度預測應用于基于高度的BEV特征(基于H的BEV)。特征融合包括圖像融合和鳥瞰融合。圖像-視圖融合通過級聯高度分布和圖像特征來獲得融合的特征,這些特征用于后續的提升操作。鳥瞰圖融合通過可變形交叉注意力從基于高度的BEV特征和基于深度的BEV特性中獲得融合的BEV特點,然后將其用作檢測頭的輸入。
實驗結果
原文鏈接:https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w