無痛解決跨相機部署問題!伯克利UniDrive:首個跨相機通用3D視覺感知算法模型
寫在前面&筆者的個人理解
以視覺為中心的自動駕駛系統由于能夠使用相機等部署經濟型傳感器實現感知算法模型性能的提升而受到了來自工業界和學術界的廣泛關注。以視覺輸入的感知算法通過由2D圖像信息來重建3D空間信息實現了3D目標的檢測任務。這種由2D空間到3D空間的信息轉換對于使自動駕駛車輛能夠了解周圍環境、檢測目標并安全導航至關重要。先前的來自學術界和工業界的相關研究通過利用 BEV空間表示來處理 2D到3D空間的信息轉換,實現了卓越的3D目標感知能力。最近,許多基于視覺的3D柵格占用預測算法進一步提高了感知模塊對于動態和混亂駕駛場景的理解,突破了研究領域的界限。因此,基于視覺的感知系統已成為可擴展自動駕駛的主要解決方案之一。
盡管基于視覺的自動駕駛技術取得了令人興奮的進展和非常不錯的成績,但目前仍然存在一個關鍵的限制:這些基于視覺的感知算法模型對于相機的配置變化比較敏感,體現在相機的內參和外參兩個方面。自動駕駛模型通常依賴于經過良好校準的相機傳感器設置,即使不同車輛或平臺的攝像頭參數出現了輕微偏差,也會顯著降低模型的感知性能,如下圖所示。
在相同和不同配置上部署感知模型的性能結果比較
由于算法模型缺乏對傳感器變化的魯棒性,因此在沒有大量重新訓練或手動調整的情況下,已經訓練好的算法模型很難在不同車輛平臺之間實現很好的泛化和魯棒性。因此,當遇到相機配置發生變化時,就需要為每輛車重新訓練一個單獨的新感知算法模型,這就會消耗大量的計算資源。因此,實現跨攝像頭配置的泛化對于以視覺為中心的自動駕駛的實際部署至關重要。
考慮到上述提到的相關問題,我們提出了UniDrive算法模型,用于解決在多攝像頭配置下提高感知算法模型的泛化性。此外,我們提出的算法模型可作為現有 3D 目標感知方法的即插即用模塊,用于提高感知算法模型對其相機參數變化的魯棒性。我們在CARLA框架中以不同的相機配置下來訓練和驗證我們提出的算法模型,相關的實驗結果證明我們提出的算法模型在不同的相機配置下,可以顯著降低算法模型感知性能的下降,同時保持跨不同傳感器設置的適應性。
文章鏈接:https://arxiv.org/pdf/2410.13864
網絡模型架構&技術細節
在詳細介紹本文提出的算法模型細節之前,下圖展示了我們提出的UniDrive算法模型的整體網絡結構,如下所示。
提出的UniDrive算法模型的整體網絡結構
虛擬相機映射誤差
為了評估虛擬相機投影方法在 3D 物體檢測任務中的準確性,我們提出了一種基于虛擬和原始相機視圖之間的角度差異的加權投影誤差度量。該方法考慮了角度偏差和與相機光學中心的距離,以提供更穩健的誤差評估。
Angle Error Calculation:對于每個角點,我們計算原始相機投影和虛擬相機中對應點之間的角度誤差。我們使用每個角點與原始相機光學中心的距離作為權重。3D 邊界框的總體誤差是通過將其八個角點的加權誤差相加得出的。我們將所有 3D 邊界框的投影誤差相加,以計算總投影誤差。
優化虛擬相機配置
給定一組多相機系統,我們的目標是設計一個統一的虛擬相機配置,以最小化所有原始相機配置的重新投影誤差。為了實現這一點,我們采用基于協方差矩陣自適應進化策略的啟發式優化來找到一組優化的虛擬相機配置。
Optimization Method:我們的優化策略首先定義一個多元正態分布,整個的優化過程可以用數學形式表示如下。
我們在下面的算法中給出了詳細的優化過程
實驗結果&評價指標
在本次實驗中,我們采用了自動駕駛汽車中幾種常用的攝像頭配置情況,這些配置具有不同的攝像頭數量、位置和視野。這些攝像頭的配置情況可以用下圖進行說明,我們還包括 nuScenes 數據集的原始配置,其中包含五個 70° 攝像頭和一個 110° 攝像頭。
我們進行了相關的實驗來驗證我們提出的UniDrive算法模型的有效性,相關的實驗結果如下表所示。
通過上表的實驗結果可以看出,我們展示了BEVFusion和 UniDrive 的 3D 目標檢測結果。這些模型在一種相機配置上進行訓練,并在其他不同的相機配置上進行測試。表 1相關的實驗結果表明,BEVFusion算法模型在跨相機配置任務上部署時的性能會大幅下降,在其他配置上幾乎無法使用。如表 2 的實驗結果所示,我們使用即插即用的UniDrive 框架訓練模型。與 BEVFusion相比,檢測性能得到顯著提高。我們的方法在跨相機配置任務上僅經歷很小的性能下降。
此外,為了更加直觀的展示我們算法模型的有效性,我們在下圖中展示了更多模型檢測結果,全面展示了我們框架的有效性。
此外,為了證明優化在 UniDrive 中的重要性,我們在上圖中比較了優化的虛擬攝像頭配置和直觀配置之間的感知性能。直觀的虛擬攝像頭配置將所有攝像頭置于車頂的中心。如圖所示,雖然與 BEVFusion相比,直觀設置(未優化)也顯著改善了跨攝像頭配置感知性能,但它對某些配置表現出明顯的偏好,而對其他配置的表現不佳。相比之下,優化的虛擬攝像頭參數表現出更大的適應性,在各種配置中表現出相對一致的性能。這對于自動駕駛中多個多攝像頭感知系統的并發開發至關重要。
我們也驗證了攝像頭高度對于模型性能的影響。攝像頭垂直位置的變化會顯著影響感知性能,因為不同高度的攝像頭會捕捉具有不同幾何特征的圖像。我們專門針對 1.6 米、1.4 米、1.8 米和 2.5 米的不同攝像頭高度進行了實驗。我們在1.6 米上訓練模型,并在其他配置上進行測試。如下圖所示。面對不同的攝像頭高度,BEVFusion的性能大幅下降超過 10%。相比之下,UniDrive 在不同攝像頭高度上的性能顯著提高,表現出增強的穩健性,性能僅下降 3.0%。
結論
在本文中,我們提出了UniDrive算法框架,用于增強以視覺為中心的自動駕駛模型在不同攝像頭配置中的泛化能力。在CARLA 中的大量實驗驗證了我們提出的UniDrive的有效性以及強大的泛化能力。此外,我們的框架不僅可以作為現有 3D 感知模型的即插即用模塊,而且為更通用、更可擴展的自動駕駛解決方案提供了可能。