效率狂增16倍!VRSO:純視覺靜態物體3D標注,打通數據閉環!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
標注之殤
靜態物體檢測(Static object detection,SOD),包括交通信號燈、導向牌和交通錐,大多數算法是數據驅動深度神經網絡,需要大量的訓練數據。現在的做法通常是對大量的訓練樣本在 LIDAR 掃描的點云數據上進行手動標注,以修復長尾案例。
手動標注難以捕捉真實場景的變異性和復雜性,通常無法考慮遮擋、不同的光照條件和多樣的視角(如圖1中的黃色箭頭)。整個過程鏈路長、極其耗時、容易出錯、成本頗高(如圖2)。所以目前公司都尋求自動標注方案,特別是基于純視覺,畢竟不是每輛車都有激光雷達。
VRSO 是一種以視覺為主、面向靜態對象標注的標注系統,主要利用了 SFM、2D 物體檢測和實例分割結果的信息,整體效果:
- 標注的平均投影誤差僅為2.6像素,約為Waymo標注的四分之一(10.6像素)
- 與人工標注相比,速度提高了約16倍
對于靜態物體,VRSO通過實例分割和輪廓提取關鍵點,解決了從不同視角集成和去重靜態對象的挑戰,以及由于遮擋問題而導致觀察不足的困難,從而提高了標注的準確性。從圖1上看,與Waymo Open數據集的手動標注結果相比,VRSO展示了更高的魯棒性和幾何精度。
(都看到這里了,不如大拇指往上滑,點擊最上方的卡片關注我,整個操作只會花你 1.328 秒,然后帶走未來所有干貨,萬一有用呢~)
破局之法
VRSO系統主要分為兩部分:場景重建和靜態對象標注。
重建部分不是重點,就是基于 SFM 算法來恢復圖像 pose 和稀疏的 3D 關鍵點。
靜態對象標注算法,配合偽代碼,大致流程是(以下會分步驟詳細展開):
- 采用現成的2D物體檢測和分割算法生成候選
- 利用 SFM 模型中的 3D-2D 關鍵點對應關系來跟蹤跨幀的 2D 實例
- 引入重投影一致性來優化靜態對象的3D注釋參數
1.跟蹤關聯
- step 1:根據 SFM 模型的關鍵點提取 3D 邊界框內的 3D 點。
- step 2:根據 2D-3D 匹配關系計算每個 3D 點在 2D 地圖上的坐標。
- step 3:基于 2D 地圖坐標和實例分割角點確定當前 2D 地圖上 3D 點的對應實例。
- step 4:確定每個 2D 圖像的 2D 觀察與 3D 邊界框之間的對應關系。
2.proposal 生成
對靜態物體的 3D 框參數(位置、方向、大小)進行整個視頻剪輯的初始化。SFM 的每個關鍵點都有準確的3D位置和對應的 2D 圖像。對于每個 2D 實例,提取 2D 實例掩碼內的特征點。然后,一組對應 3D 關鍵點可以被視為 3D 邊界框的候選。
路牌被表示為在空間中具有方向的矩形,它有6個自由度,包括平移(、、)、方向(θ)和大小(寬度和高度)。考慮到其深度,交通信號燈具有7個自由度。交通錐的表示方式與交通信號燈類似。
3.proposal refine
- step 1:從 2D 實例分割中提取每個靜態物體的輪廓。
- step 2:為輪廓輪廓擬合最小定向邊界框(OBB)。
- step 3:提取最小邊界框的頂點。
- step 4:根據頂點和中心點計算方向,并確定頂點順序。
- step 5:基于2D檢測和實例分割結果進行了分割和合并過程。
- step 6:檢測并拒絕包含遮擋的觀察。從2D實例分割蒙版中提取頂點要求每個標牌的四個角都可見。如果有遮擋,從實例分割中提取軸對齊邊界框(AABB),并計算AABB與2D檢測框之間的面積比。如果沒有遮擋,這兩種面積計算方法應該是接近的。
4.三角化
通過三角化在3D條件下獲取靜態物體的初始頂點值。
通過檢查在場景重建期間由 SFM 和實例分割獲得的3D邊界框中的關鍵點數量,只有關鍵點數量超過閾值的實例被認為是穩定且有效的觀測。對于這些實例,相應的 2D 邊界框被視為有效的觀測。通過多幅圖像的 2D 觀測,將 2D邊界框頂點進行三角化,以獲取邊界框的坐標。
對于沒有在掩模上區分“左下、左上、右上、右上和右下”頂點的圓形標牌,需要識別這些圓形標牌。使用 2D 檢測結果作為圓形物體的觀測結果,使用 2D 實例分割掩模進行輪廓提取。通過最小二乘擬合算法計算出中心點和半徑。圓形標牌的參數包括中心點(、、)、方向(θ)和半徑()。
5.tracking refine
跟蹤基于 SFM 的特征點匹配。根據 3D 邊界框頂點的歐式距離和 2D 邊界框投影 IoU 來確定是否合并這些分開的實例。一旦合并完成,實例內的 3D 特征點可以聚集以關聯更多的2D特征點。進行迭代2D-3D關聯,直到無法添加任何2D特征點為止。
6.最終參數優化
以矩形標牌為例,可優化的參數包括位置(、、)、方向(θ)和大小(、),總共六個自由度。主要步驟包括:
- 將六個自由度轉換為四個 3D 點,并計算旋轉矩陣。
- 將轉換后的四個 3D 點投影到2D圖像上。
- 計算投影結果與實例分割得到的角點結果之間的殘差。
- 使用 Huber 進行優化更新邊界框參數
標注效果
也有一些具有挑戰性的長尾案例,例如極低的分辨率和照明不足。
總結一下
VRSO 框架實現了靜態物體高精度和一致的3D標注,緊密集成了檢測、分割和 SFM 算法,消除了智能駕駛標注中的人工干預,提供了與基于LiDAR的手動標注相媲美的結果。和被廣泛認可的Waymo Open Dataset進行了定性和定量評估:與人工標注相比,速度提高了約16倍,同時保持了最佳的一致性和準確性。