BEV感知任務真的很穩定嗎?極端情況下怎么樣?30+SOTA算法全面探析~
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面
BEV表示方法的進步在車載3D感知領域展現出了巨大的潛力。然而,盡管這些方法在標準基準測試中取得了令人矚目的成果,但其在不同條件下的魯棒性仍然沒有得到充分的評估。本研究提出了RoboBEV,一個設計用于評估BEV算法魯棒性的全面基準套件。該套件包含了多種相機損壞類型,每種類型都在三個嚴重程度級別上進行了考察。基準還考慮了使用多模態模型時發生的完整傳感器故障的影響。通過RoboBEV評估了33個最先進的基于BEV的感知模型,這些模型涵蓋了檢測、地圖分割、深度估計和占用預測等任務。分析揭示了模型在分布內數據集上的性能與其對分布外挑戰的韌性之間的顯著相關性。實驗結果還強調了諸如預訓練和無需深度的BEV轉換等策略在增強對分布外數據的魯棒性方面的有效性。此外觀察到,利用廣泛的時間信息可以顯著提高模型的魯棒性。基于觀察,設計了一種基于CLIP模型的有效魯棒性增強策略。本研究的見解為未來BEV模型的發展鋪平了道路,這些模型將無縫結合準確性與現實世界中的魯棒性。
基于深度神經網絡的3D感知方法已經取得了革命性的突破,在一系列要求嚴格的基準測試中表現出色。其中,以相機為中心的方法在受歡迎程度上已經超越了基于激光雷達的方法,這主要是因為前者具有一些優勢,如降低了部署成本、提高了計算效率,以及能夠提供密集的語義洞察。這些進步的核心在于鳥瞰視角(BEV)表示,它提供了三大顯著優勢:
- 它促進了從多視圖圖像中的統一學習;
- 它鼓勵了一種在物理上可解釋的方法,用于跨時間實例融合信息;
- 其輸出域與多個下游應用(如預測和規劃)無縫對齊,這強化了以視覺為中心的3D感知框架的性能指標;
然而,這種BEV感知方法論的繁榮景象并非沒有挑戰。盡管這些算法具有明顯的優勢,但它們在面對不符合情境或未預見到的場景時的魯棒性仍然缺乏足夠的考察。這種疏忽尤其令人擔憂,因為許多這些算法預計將在自動駕駛等安全關鍵領域運行。傳統上,算法的魯棒性可以分為對抗性魯棒性它涉及最壞情況場景和分布偏移下的魯棒性,后者考察平均情況下的性能,并在一定程度上反映了現實世界條件。
雖然3D感知模型的對抗性魯棒性已經得到了研究,但本項工作旨在探索一個較少涉足的領域:以BEV為中心的3D感知系統在面臨自然、通常不可預測的干擾時的魯棒性。為了彌補現有的知識空白,這里提出了一個名為RoboBEV的全面基準測試。該基準測試評估了BEV感知在面對自然干擾時的魯棒性,這些干擾包括外部環境、內部傳感器和時間因素。外部環境包括各種光照和天氣條件,這些條件通過融入亮度、暗度、霧和雪等干擾類型來模擬。此外,輸入可能受到由傳感器引起的內部因素的干擾,如運動模糊和顏色量化。我們還為基于BEV的時間融合策略提出了兩種新穎的連續空間干擾,即camera崩潰和幀丟失。此外,還考慮了針對在多模態輸入上訓練的相機-激光雷達融合模型的完全傳感器故障。該研究涉及對與真實世界自動駕駛應用高度相關的多樣化非分布干擾設置的全面調查,圖1總結了我們在基準測試中研究的多樣化BEV感知任務和干擾類型。
借助提出的RoboBEV基準測試,這里對33個BEV感知模型在不同嚴重程度下的干擾進行了全面分析。最后,基于觀察結果,提出了利用CLIP主干網絡并將其適應于BEV感知任務,以提高模型的魯棒性。主要貢獻總結如下:
- 介紹了RoboBEV,一個全面的基準測試套件,用于評估在各種自然干擾下BEV感知的魯棒性。
- 進行了大量實驗,以評估30個基于camera的和3個基于camera-lidar融合的BEV感知算法的性能。這些算法在八種不同的干擾下進行了評估,每種干擾都在三個不同的嚴重程度下應用,共涉及四個感知任務。
- 研究通過深入分析導致干擾場景下魯棒性的因素,提供了有價值的見解,為未來的模型設計提供了啟示。主要觀察結果是:i) 絕對性能與干擾下的性能有很強的相關性。然而,隨著標準性能的提高,相對魯棒性并不一定增加;ii) 模型預訓練與無深度BEV轉換相結合具有很大潛力來增強魯棒性;iii) 利用長而豐富的時間信息在很大程度上增強了魯棒性。
- 基于觀察,提出了利用CLIP模型作為主干網絡來進一步提高BEV感知模型的魯棒性。
- 將數據集和基準測試工具包公開,旨在鼓勵研究社區復制和擴展我們的發現。
BEV感知的一些基礎回顧
1)Model Pre-Training
在過去的幾年里,預訓練已經在各種任務的計算機視覺模型中提高了性能。在基于camera的3D感知領域,使用FCOS3D權重初始化ResNet主干網絡已成為標準做法。為了穩定訓練過程,FCOS3D在微調過程中將深度權重從0.2調整到1。另一種普遍的方法是在DDAD15M數據集上訓練VoVNet-V2主干網絡,目標是深度估計,然后使用nuScenes訓練集對其進行微調以進行檢測。從語義上講,這些預訓練技術可以分為兩類:語義預訓練和深度預訓練。此外,M-BEV引入了健壯的mask圖像預訓練技術,旨在增強在缺少傳感器數據場景中模型的魯棒性。
2)Temporal Fusion
自動駕駛的動態環境要求精確估計運動實體的速度,這對單一幀輸入來說是一個挑戰。這揭示了時間線索在增強視覺系統感知能力方面的重要性。先前的研究已經開創了各種方法來利用這些時間線索。例如,BEVFormer 集成歷史數據并利用時間交叉注意力來從多時間戳圖像中聚合BEV特征。同時,BEVDet4D 通過將來自多個幀的特征附加在一起來融入時間細微差別,而SOLOFusion 則通過合并廣泛的歷史數據來尋求更全面的時間建模。然而,這些復雜的時間模型在受損條件下的韌性仍然在很大程度上尚未得到探索。
3)Camera-LiDAR融合
BEV范式簡化了來自各種輸入模態的特征融合。雖然一些算法僅專注于從圖像中構建BEV表示,但文獻中相當一部分作品都主張采用統一的BEV空間。這有助于對齊從圖像和點云中提取的特征。這里深入探討了這類多模態融合算法的性能,特別是在圖像受損但激光雷達機制仍保持良好狀態的情況下。此外,還解決了一個常見場景,即模型使用多模態輸入進行訓練,但部署在僅裝備有其中一種傳感器的車輛上。為了評估魯棒性,我們評估了模型在完全傳感器故障條件下的性能,即缺失相機或激光雷達的情況。
4)BEV View Transformation
BEV轉換領域的研究工作可以根據是否使用深度估計技術來劃分。一派研究在其系統中嵌入了一個獨立的深度估計分支。由于從圖像預測3D框存在固有的挑戰,這些模型首先預測每個像素的深度圖。然后,這個深度圖就像一個指南針,將圖像特征引導到它們正確的3D坐標上。后續的BEV轉換過程通常采用自下而上的方法。另一種,是那些利用預定義的目標查詢或精簡proposal以自上而下的方式整理2D特征的模型。雖然這兩種范式在良性數據集上都展現出了它們的優勢,但通過考察它們在受損數據上的有效性來進一步拓展視野。
Benchmark設計
1)數據生成
我們的主要提議是nuScenes-C基準數據集,它是通過在nuScenes數據集的驗證集中引入損壞而創建的。我們的數據集包含了八種不同的損壞類型,模擬了外部環境因素、傳感器引起的失真以及我們時間損壞所帶來的挑戰。將每種損壞類型分為三級強度:簡單、中等和困難。這些嚴重程度級別確保了在存在挑戰的同時,它們不會完全破壞性能,從而保持發現的相關性和完整性。此外,在每個嚴重程度級別內引入了變化,以確保多樣性。基準包含866,736張圖像,每張圖像的分辨率為1600×900像素。這里還考慮了模擬相機-激光雷達融合算法中完全傳感器失效的場景。在模擬相機缺失時,每個像素都被設置為零。為了模擬激光雷達讀數的缺失,僅保留了[-45, 45]度前視場(FOV)內的數據點。這樣的設計選擇基于我們的觀察,即當激光雷達讀數完全缺失時,經過多模態訓練的模型會遭受顯著的性能下降。
2)自然失真
圖1展示了損壞分類的視覺指南。大體上,專注于三種損壞類別。首先,通過亮度、暗度、霧和雪來模擬由外部環境動態引起的損壞,如光照變化或極端氣象條件。考慮到大部分訓練數據是在相對良性的條件下捕獲的,在這些極端條件下測試模型至關重要。其次,傳感器驅動的失真可能會損壞收集的圖像。高速運動可能會產生模糊,或者內存保護策略可能會迫使圖像進行量化。為了模仿這些現實世界中的挑戰,整合了運動模糊和顏色量化。最后引入了相機故障,其中由于硬件問題,整個圖像集或隨機幀會被遺漏,這由創新性的相機崩潰和幀丟失損壞所捕捉。這些過程的圖示在圖1中進行了可視化。我們可視化了在合成圖像上的像素直方圖分析,如圖2所示。一個顯著的現象是,雖然運動模糊損壞引起的像素分布變化很小,但仍然導致了顯著的性能下降。
3)魯棒Metrics
遵循官方nuScenes指標在nuScenes-C數據集上計算魯棒性指標。報告了nuScenes檢測得分(NDS)和平均精度均值(mAP),以及平均平移誤差(mATE)、平均尺度誤差(mASE)、平均方向誤差(mAOE)、平均速度誤差(mAVE)和平均屬性誤差(mAAE)。
為了更好地比較不同BEV檢測器的魯棒性,基于NDS引入了兩個新的指標。第一個指標是平均損壞誤差(mCE),用于測量候選模型與基線模型相比的相對魯棒性:
其中,i表示損壞類型,l表示嚴重級別;N表示基準中的損壞類型數量。應該注意的是,可以選擇不同的基線模型。在這項工作中,選擇了DETR3D作為基線模型,因為它提供了出色的BEV檢測性能。為了比較nuScenes-C和標準nuScenes數據集之間的性能差異,定義了一個簡單的平均恢復率(mRR)指標,該指標按以下方式在三個嚴重級別上計算:
Benchmark實現
1)Camera-Only Benchmark
對nuScenes-C數據集上的30個BEV模型進行了詳盡的基準分析。調查主要結果匯總在表2中,分析結果顯示,所有模型在損壞數據集上的性能都有所下降。
在檢查nuScenes-C數據集及其“干凈”對照數據集的絕對性能時,出現了一個明顯的趨勢。在標準數據集上表現出色的BEV檢測器在面臨分布外數據集時也往往能展現出值得稱贊的性能,這一趨勢在圖3a中得到了直觀體現。然而,更仔細地觀察這些結果揭示了一個更復雜的情況。盡管檢測器在“干凈”數據集上表現平行,但在面對不同類型的損壞時卻表現出不同的魯棒性。例如,BEVerse(swin-s)在相機崩潰時表現出很強的韌性,而PETR(vov)在雪天條件下表現良好。然而,兩者在黑暗環境中都表現不佳。
調查還進一步突出了不同損壞情況下韌性率的一個潛在弱點。盡管mCE指標在nuScenes和nuScenes-C數據集之間顯示出線性相關性,但mRR指標揭示了具有可比基線性能的模型之間存在顯著差異。這表明一些模型可能對nuScenes數據集存在過擬合現象,從而降低了它們對nuScenes-C數據集的適應性。例如,盡管Sparse4D在“干凈”數據集上優于DETR3D,但在所有損壞類別的mRR指標上卻表現不佳。此外,DETR3D在黑暗條件下表現出色,與BEVerse(swin-t)形成鮮明對比。盡管BEVerse(swin-t)在清潔條件下表現強勁,但在黑暗中僅實現了12%的相對性能。因此,對尖端模型進行全面評估對于完全評估它們的能力至關重要。
我們的研究還擴展到了相關任務,包括以BEV為中心的地圖分割、深度估計和占用預測,相關結果如表4所示。遵循了[25]中的設置,報告了車輛地圖視圖分割結果的交并比(IoU)。對于深度估計,使用了絕對相對差異(Abs Rel)評分,而對于語義占用預測,使用了平均交并比(mIoU)。這些結果涵蓋了多種感知任務,為BEV模型的能力和限制提供了豐富的視角。值得注意的是,許多以BEV為中心的感知模型在特定的損壞情況下(如黑暗和雪天)表現不佳。這揭示了BEV模型之間的一種共同弱點,降低了它們在現實場景中的可靠性。
2)Camera-LiDAR Fusion Benchmark
本文研究了camera受損而激光雷達正常工作的場景,這在現實世界中經常發生。例如,激光雷達點云捕獲在很大程度上不受光照變化的影響,而camera捕獲在光線不足的情況下可能會降低質量。這里故意排除了像雪和霧這樣的條件,因為它們可能會對camera和激光雷達的讀數引入噪聲,這些研究的結果如表5所示。有趣的是,即使在camera數據受損的情況下,多模態融合模型也能保持高性能。當提供正常的激光雷達和受損的camera輸入時,BEVFusion在大多數類型的camera損壞情況下(除了黑暗條件)都持續優于僅使用激光雷達的模型,具有顯著更高的NDS評分0.6928。這證實了即使在camera數據不是最佳的情況下,使用激光雷達數據的有效性。
然而,在某些情況下,受損的camera輸入會對模型的性能產生不利影響。例如,在camera崩潰和運動模糊等條件下,將camera特征納入模型的益處微乎其微。此外,在存在黑暗損壞的情況下,受損的camera特征不僅無法提供有用信息,而且還會降低激光雷達特征的有效性,導致NDS評分從0.6928下降到0.6787。因此,提高多模態融合模型對輸入損壞的魯棒性成為未來研究的關鍵方向。
多模態融合模型通常使用來自camera和激光雷達傳感器的數據進行訓練。然而,部署的模型必須能夠在其中一個傳感器出現故障時也能正常工作。我們使用僅來自單一模態的輸入來評估我們的多模態模型的性能,結果如表6所示。在模擬camera故障時,將所有像素值設置為零。對于激光雷達傳感器故障,發現當所有點數據都缺失時(即NDS降至零),沒有模型能夠正常工作。因此,僅保留車輛前方[-45, 45]度范圍內的點,并丟棄其他所有點。
研究結果表明,多模態模型對激光雷達輸入的依賴程度過高。在激光雷達數據缺失的場景中,BEVFusion和Transfusion的mAP指標分別下降了89%和95%。相比之下,缺少圖像數據導致的性能下降幅度要小得多。這一現象強調了在訓練階段,點云特征可能會對模型產生不成比例的影響,從而在感知任務中主導基于圖像的特征。這種對激光雷達數據的依賴給多模態感知模型帶來了顯著的脆弱性,尤其是因為激光雷達傳感器在雨、雪、霧等惡劣天氣條件下容易數據損壞。這些結果促使我們進一步研究如何增強多模態感知系統的魯棒性,特別是當一種感知模態完全缺失時。
3)有效性評估與魯棒性改進
這里研究了在訓練階段將損壞作為數據增強策略的使用。為了系統地評估這種方法的有效性,在基準測試中對五個模型應用了損壞增強,結果詳見表9。研究結果表明,損壞增強顯著提高了我們提出的數據集中針對語義損壞的性能,特別是對那些原本給模型帶來顯著挑戰的損壞類型(例如,運動模糊、雪)。然而,通過添加傳感器損壞場景(如缺少攝像頭信息)來增強訓練數據,并沒有顯著提高模型的魯棒性。這一結果強調了未來研究需要開發更復雜的模塊,以處理不完整輸入場景的重要性。
最近的研究表明,在互聯網規模的數據集上以無監督方式訓練的基礎模型,與在常規數據集(如ImageNet)上訓練的模型相比,表現出顯著的泛化能力。受這些發現的啟發,我們探索了將基礎模型的泛化能力轉移到BEV感知任務中的潛力。研究了在我們的模型中利用CLIP主干網絡的三種不同方法:(1) 在訓練過程中凍結主干網絡,僅訓練檢測頭;(2) 對主干網絡和檢測頭進行微調;(3) 先凍結主干網絡并訓練檢測頭,然后對整個模型進行微調,因為先前的工作表明,盡管端到端的微調可以提高分布內性能,但可能會降低在分布外數據集上的魯棒性。
這三種方法如圖4所示,結果如表10所示。首先觀察到的是,CLIP對于BEV感知任務并未得到很好的優化,這表現在當我們凍結CLIP主干網絡時,良性性能較低。此外,使用隨機初始化的檢測頭進行端到端的微調幾乎沒有帶來任何改進。有趣的是,當應用損壞增強時,CLIP主干網絡對基準模型的改進微乎其微。mRR(平均召回率)的改進僅為0.56,而配備損壞增強時,mRR甚至更低。最后,我們的兩階段訓練在有效提高性能的同時,也將CLIP的魯棒性轉移到了BEV感知任務上,尤其是配備損壞增強時。魯棒性的提升明顯超過了端到端微調的CLIP。例如,在暗光、霧天和雪天條件下,NDS(歸一化駕駛得分)分別提高了23.1%、11.8%和15.8%。
分析和討論
1)Depth Estimation
無深度信息的BEV變換展現出更好的魯棒性。分析揭示,當面對損壞的圖像時,基于深度的方法會遭受嚴重的性能下降,如圖6c和6d所示。此外,還進行了一項比較研究,以評估在損壞條件下BEVDepth的中間深度估計結果。為此,計算了“干凈”輸入與損壞輸入之間的均方誤差(MSE)。發現表明,脆弱性與深度估計錯誤之間存在明確的關聯,如圖3c所示。雪和暗光損壞會顯著影響準確的深度估計,導致最大的性能下降。這些結果進一步支持了我們的結論,即如果深度估計不夠準確,基于深度的方法的性能可能會受到嚴重影響。損壞條件下的深度估計結果可以從圖5中看到,與“干凈”輸入相比,在某些損壞(例如雪)下我們可以看到顯著的差異。
2)Model Pre-Training
預訓練在各種語義損壞上提高了魯棒性,但對時間損壞沒有幫助。這些策略在提高模型魯棒性方面的有效性如圖6a和圖6b所示,其中利用預訓練的模型在很大程度上優于未使用的模型。為了進行對照比較,我們使用FCOS3D模型作為初始化,重新實現了BEVDet (r101)模型。如圖10所示,結果表明,即使預訓練模型在“干凈”數據上的NDS較低(0.3780 vs. 0.3877),預訓練仍然可以顯著提高各種損壞(除了霧)下的mRR。在顏色量化、運動模糊和暗光損壞下,mRR指標分別提高了22.5%、17.2%和27.8%。值得注意的是,預訓練主要改善了大多數語義損壞,但對時間損壞沒有改善。盡管如此,經過預訓練的BEVDet仍然在很大程度上落后于無深度信息的同類模型。因此,我們可以得出結論,預訓練與無深度信息的鳥瞰圖變換相結合,為模型提供了強大的魯棒性。最近,M-BEV提出了mask預訓練任務,以增強在不完整傳感器輸入下的魯棒性。我們將mask預訓練的PETR與其相應的基線進行了比較。結果如表11所示,發現M-BEV最能有效地提高對不完整傳感器輸出的魯棒性,并揭示了掩碼圖像建模預訓練在BEV感知任務中的潛力。
3)Temporal Fusion
在受到干擾的情況下的性能。融合更長的時序信息在很大程度上有助于增強魯棒性。特別關注利用時序信息的模型在時序干擾下的表現。與僅使用短期和長期版本的模型相比,融合了更廣泛和更豐富的時序信息的SOLOFusion模型表現極佳。在相機崩潰的情況下,僅使用短期和僅使用長期版本的模型的恢復率性能相近(65.04 vs. 65.13)。然而,融合版本將恢復率提高到了70.73,這是所有候選模型中最高的。類似地,在幀丟失干擾下,融合版本相比于其他兩個版本將恢復率提高了近10%。此外,其長期版本的RR指標在廣泛的干擾類型上均優于短期版本,這表明利用更長的時序信息具有巨大的潛力。
為了進一步研究時序融合對增強干擾魯棒性的影響,使用BEVFormer模型來評估與“干凈”的時序輸入相比,有時序信息整合和沒有時序信息整合時的特征誤差。我們計算了帶有時序信息和不帶有時序信息的受損輸入與帶有時序信息的“干凈”輸入之間的均方誤差(MSE),結果如圖12所示。注意到,在時序融合模型中(由藍色條表示),隨著時間的推移,誤差呈現增加的趨勢,這歸因于連續受損輸入下的誤差累積。盡管如此,時序融合始終在幀之間展現出誤差緩解效果。
然而,我們發現并非所有使用時間融合的模型在相機崩潰和幀丟失的情況下都表現出更好的魯棒性。這種魯棒性與如何融合歷史幀以及使用了多少幀高度相關,這強調了從更廣泛的角度評估時間融合策略的重要性。結果如圖7所示。盡管如此,時間融合仍然是增強時間魯棒性的潛在方法,因為具有最低損壞誤差(或最高恢復率)的模型始終是那些使用時間信息的模型。
4)Backbone
Swin Transformer 對光照變化更為敏感;VoVNet-V2 對雪天氣的魯棒性更強,而 ResNet 在廣泛的干擾情況下表現出更好的魯棒性。盡管 ResNet [120] 和 VoVNet [63] 在標準性能上相近,但基于 ResNet 的檢測器在各種干擾情況下始終表現出更高的魯棒性,如圖 8 所示。相反,VoVNet 主干網絡在雪天氣干擾下始終表現出更好的魯棒性。此外,基于 Swin Transformer [45] 的 BEVDet [3] 對光照條件的變化(例如,明亮和黑暗)表現出顯著的脆弱性。在圖 9 中可以找到清晰的比較。受到 [119] 的啟發,我們計算了在良性輸入和干擾輸入下,由主干模型提取的特征空間中的 Gramian 矩陣。基于這些計算,我們計算了“干凈”輸入和干擾輸入之間 Gramian 矩陣的相對誤差。
5)Corruptions
像素分布偏移與模型性能下降之間的關系并不直接。我們從nuScenes數據集中抽取了300張圖像來計算像素分布,并將像素直方圖可視化在圖2中。有趣的是,運動模糊引起的像素分布偏移最小,但卻導致了相對較大的性能下降。另一方面,亮度偏移將像素分布推向更高的值,而霧通過將像素值向更集中的區域移動使精細特征變得更模糊。然而,這兩種干擾只導致了最小的性能差距,這表明模型的魯棒性并不簡單地與像素分布相關。
6)Detailed Metrics
在圖像損壞的情況下,速度預測錯誤會放大,并且歸因和尺度誤差在不同模型之間存在差異。雖然我們的研究主要報告了nuScenes檢測得分(NDS)指標,但圖11中展示了關于模型魯棒性的額外見解。我們發現,包含時間信息的模型(如BEVFormer 和BEVerse)的平均絕對速度誤差(mAVE)顯著低于不包含時間信息的模型。然而,即使是具有時間融合的模型也無法免受圖像損壞的不利影響;特別是,在輕微光照變化的情況下,速度預測錯誤也會顯著增加。圖11b和11f表明,運動模糊損壞對BEVFormer和BEVerse的速度預測都有不利影響,揭示了這些包含時間數據的模型存在的顯著脆弱性。此外,對歸因和尺度誤差的進一步分析揭示了模型之間的顯著異質性。無深度模型在這些指標上表現出一致的性能,而基于深度的模型則顯示出明顯的變異性。這一觀察強調了基于深度的方法對圖像損壞的高度敏感性,并強調了需要進一步研究以增強其魯棒性的必要性。