一覽Occ與自動駕駛的前世今生!首篇綜述全面匯總特征增強/量產部署/高效標注三大主題
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
近年來,自動駕駛因其在減輕駕駛員負擔和提高駕駛安全方面的潛力而越來越受到關注。基于視覺的三維占用預測是一種新興的感知任務,適用于具有成本效益的自動駕駛感知系統,它可以根據圖像輸入預測自動駕駛汽車周圍三維體素網格的空間占用狀態和語義。盡管許多研究已經證明,與以物體為中心的感知任務相比,3D占用預測具有更大的優勢,但仍缺乏專門針對這一快速發展的領域的綜述。本文首先介紹了基于視覺的三維占用預測的背景,并討論了這項任務中的挑戰。其次,我們從特征增強、部署友好性和標簽效率三個方面全面調查了基于視覺的3D占用預測的進展,并深入分析了每類方法的潛力和挑戰。最后總結了當前的研究趨勢,并提出了一些鼓舞人心的未來展望。
開源鏈接:https://github.com/zya3d/Awesome-3D-Occupancy-Prediction
總結來說,本文的主要貢獻如下:
- 據我們所知,這篇論文是第一篇針對基于視覺的自動駕駛3D占用預測方法的全面綜述。
- 本文從特征增強、計算友好和標簽高效三個角度對基于視覺的三維占用預測方法進行了結構總結,并對不同類別的方法進行了深入分析和比較。
- 本文提出了基于視覺的3D占用預測的一些鼓舞人心的未來展望,并提供了一個定期更新的github存儲庫來收集相關論文、數據集和代碼。
圖3顯示了基于視覺的3D占用預測方法的時序概述,圖4顯示了相應的分層結構分類法。
相關背景
真值生成
生成GT標簽是3D占用預測的一個挑戰。盡管許多3D感知數據集,如nuScenes和Waymo,提供了激光雷達點分割標簽,但這些標簽是稀疏的,難以監督密集的3D占用預測任務。Wei等人已經證明了使用密集占用作為GT的重要性。最近的一些研究集中在使用稀疏激光雷達點分割注釋生成密集的3D占用注釋,為3D占用預測任務提供一些有用的數據集和基準。
3D占用預測任務中的GT標簽表示3D空間中的每個體素是否被占用以及被占用體素的語義標簽。由于三維空間中有大量的體素,因此很難手動標記每個體素。一種常見的做法是對現有的3D點云分割任務的地面實況進行體素化,然后根據體素中點的語義標簽通過投票生成3D占用預測的GT。然而,通過這種方式生成的地面實況是稀疏的。如圖1所示,在道路等未標記為已占用的地方,仍有許多已占用的體素。監督具有這種稀疏地面實況的模型將導致模型性能下降。因此,一些工作研究如何自動或半自動生成高質量的密集3D占用注釋。
如圖2所示,生成密集的三維占用注釋通常包括以下四個步驟:
- 取連續的原始激光雷達幀,將激光雷達點分割為靜態背景和動態前景。
- 在靜態背景上疊加連續的激光雷達幀,并基于定位信息進行運動補償,以對齊多幀點云,從而獲得更密集的點云。在動態前景上疊加連續的激光雷達幀,根據目標幀和目標id對齊動態前景的點云,使其更加密集。注意,盡管點云相對密集,但體素化后仍有一些間隙,需要進一步處理。
- 合并前景和背景點云,然后對它們進行體素化,并使用投票機制來確定體素的語義,從而產生相對密集的體素注釋。
- 通過后處理對上一步中獲得的體素進行細化,以實現更密集、更精細的注釋,作為GT。
數據集
在本小節中,我們介紹了一些常用于3D占用預測的開源、大規模數據集,表1中給出了它們之間的比較。
NUYv2數據集由來自各種室內場景的視頻序列組成,由Microsoft Kinect的RGB和Depth相機拍攝。它包含1449對密集標記的對齊RGB和深度圖像,以及來自3個城市的407024個未標記幀。雖然主要用于室內使用,不適合自動駕駛場景,但一些研究已將該數據集用于3D占用預測。
SemanticKITTI是一個廣泛用于3D占用預測的數據集,包括來自KITTI數據集的22個序列和43000多個幀。它通過覆蓋未來的幀、分割體素和通過點投票分配標簽來創建密集的3D占用注釋。此外,它通過追蹤光線來檢查汽車的每個位姿,傳感器可以看到哪些體素,并在訓練和評估過程中忽略不可見的體素。然而,由于它是基于KITTI數據集的,因此它只使用來自前置攝像頭的圖像作為輸入,而后續數據集通常使用多視圖圖像。如表2所示,我們在SemanticKITTI數據集上收集了現有方法的評估結果。
NuScenes占用率是基于戶外環境的大規模自動駕駛數據集NuScenes構建的3D占用率預測數據集。它包含850個序列、200000個幀和17個語義類別。數據集最初使用增強和凈化(AAP)管道生成粗略的3D占用標簽,然后通過手動增強來細化標簽。此外,它還引入了OpenOccupancy,這是周圍語義占用感知的第一個基準,以評估先進的3D占用預測方法。
隨后,Tian等人在nuScenes和Waymo自動駕駛數據集的基礎上,進一步構建了用于3D占用預測的Occ3D nuScene斯和Occ3D Waymo數據集。他們引入了一種半自動標簽生成管道,該管道利用現有的標記3D感知數據集,并根據其可見性識別體素類型。此外,他們還建立了大規模3D占用預測的Occ3d基準,以加強不同方法的評估和比較。如表2所示,我們在Occ3D nuScenes數據集上收集了現有方法的評估結果。
此外,與Occ3D裸體和裸體占用類似,OpenOcc也是一個基于裸體數據集為3D占用預測構建的數據集。它包含850個序列、34149個幀和16個類。請注意,該數據集提供了八個前景目標的額外注釋,這有助于下游任務,如運動規劃。
關鍵挑戰
盡管近年來基于視覺的三維占用預測取得了重大進展,但它仍然面臨著來自特征表示、實際應用和注釋成本的限制。對于這項任務,有三個關鍵挑戰:(1)從2D視覺輸入中獲得完美的3D特征是困難的。基于視覺的3D占有率預測的目標是僅從圖像輸入實現對3D場景的詳細感知和理解,然而圖像中固有的深度和幾何信息的缺失對直接從中學習3D特征表示提出了重大挑戰。(2)三維空間中繁重的計算負載。3D占用預測通常需要使用3D體素特征來表示環境空間,這不可避免地涉及用于特征提取的3D卷積等操作,這大大增加了計算和內存開銷,并阻礙了實際部署。(3)昂貴的細粒度注釋。3D占用預測涉及預測高分辨率體素的占用狀態和語義類別,但實現這一點通常需要對每個體素進行細粒度的語義注釋,這既耗時又昂貴,給這項任務帶來了瓶頸。
針對這些關鍵挑戰,基于視覺的自動駕駛三維占用預測研究工作逐步形成了特征增強、部署友好和標簽高效三條主線。特征增強方法通過優化網絡的特征表示能力來緩解3D空間輸出和2D空間輸入之間的差異。部署友好的方法旨在通過設計簡潔高效的網絡架構,顯著降低資源消耗,同時確保性能。即使在注釋不足或完全不存在的情況下,高效標簽方法也有望實現令人滿意的性能。接下來,我們將圍繞這三個分支全面概述當前的方法。
特征增強方法
基于視覺的3D占用預測的任務涉及從2D圖像空間預測3D體素空間的占用狀態和語義信息,這對從2D視覺輸入獲得完美的3D特征提出了關鍵挑戰。為了解決這個問題,一些方法從特征增強的角度改進了占用預測,包括從鳥瞰圖(BEV)、三視角圖(TPV)和三維體素表示中學習。
BEV-based methods
一種有效的學習占用率的方法是基于鳥瞰圖(BEV),它提供了對遮擋不敏感的特征,并包含一定的深度幾何信息。通過學習強BEV表示,可以實現穩健的3D占用場景重建。首先使用2D骨干網絡從視覺輸入中提取圖像特征,然后通過視點變換獲得BEV特征,并最終基于BEV特征表示完成3D占用預測。基于BEV的方法如圖5所示。
一種直接的方法是利用來自其他任務的BEV學習,例如在3D對象檢測中使用BEVDet和BEVFormer等方法。為了擴展這些占用學習方法,可以在訓練過程中加入或更換占用頭,以獲得最終結果。這種自適應允許將占用估計集成到現有的基于BEV的框架中,從而能夠同時檢測和重建場景中的3D占用。基于強大的基線BEVFormer,OccTransformer采用數據增強來增加訓練數據的多樣性,以提高模型泛化能力,并利用強大的圖像主干從輸入數據中提取更多信息特征。它還引入了3D Unet Head,以更好地捕捉場景的空間信息,并引入了額外的損失函數來改進模型優化。
TPV-based methods
雖然與圖像相比,基于BEV的表示具有某些優勢,因為它們本質上提供了3D空間的自上而下的投影,但它們固有地缺乏僅使用單個平面來描述場景的細粒度3D結構的能力。基于三視角(TPV)的方法利用三個正交投影平面對3D環境進行建模,進一步增強了視覺特征對占用預測的表示能力。首先,使用2D骨干網絡從視覺輸入中提取圖像特征。隨后,將這些圖像特征提升到三視圖空間,最終基于三個投影視點的特征表示實現3D占用預測。基于BEV的方法如圖7所示。
除了BEV功能外,TPVFormer還以相同的方式生成前視圖和側視圖中的功能。每個平面從不同的視角對3D環境進行建模,并且它們的組合提供了對整個3D結構的全面描述。具體來說,為了獲得三維空間中一個點的特征,我們首先將其投影到三個平面中的每一個平面上,并使用雙線性插值來獲得每個投影點的特征。然后,我們將三個投影特征總結為三維點的合成特征。因此,TPV表示可以以任意分辨率描述3D場景,并為3D空間中的不同點生成不同的特征。它進一步提出了一種基于變換器的編碼器(TPVFormer),以有效地從2D圖像中獲得TPV特征,并在TPV網格查詢和相應的2D圖像特征之間執行圖像交叉關注,從而將2D信息提升到3D空間。最后,TPV特征之間的交叉視圖混合注意力實現了三個平面之間的交互。TPVFormer的總體架構如圖8所示。
Voxel-based methods
除了將3D空間轉換為投影透視(如BEV或TPV)之外,還存在直接對3D體素表示進行操作的方法。這些方法的一個關鍵優勢是能夠直接從原始3D空間學習,最大限度地減少信息損失。通過利用原始三維體素數據,這些方法可以有效地捕捉和利用完整的空間信息,從而更準確、更全面地了解占用情況。首先,使用2D骨干網絡提取圖像特征,然后,使用專門設計的基于卷積的機制來橋接2D和3D表示,或者使用基于查詢的方法來直接獲得3D表示。最后,基于所學習的3D表示,使用3D占用頭來完成最終預測。基于體素的方法如圖9所示。
Convolution-based methods
一種方法是利用專門設計的卷積架構來彌合從2D到3D的差距,并學習3D占用表示。這種方法的一個突出例子是采用U-Net架構作為特征橋接的載體。U-Net架構采用編碼器-解碼器結構,在上采樣和下采樣路徑之間具有跳躍連接,保留低級別和高級別特征信息以減輕信息損失。通過不同深度的卷積層,U-Net結構可以提取不同尺度的特征,幫助模型捕捉圖像中的局部細節和全局上下文信息,從而增強模型對復雜場景的理解,從而進行有效的占用預測。
Monoscene利用U-net進行基于視覺的3D占用預測。它引入了一種稱為二維特征視線投影(FLoSP)的機制,該機制利用特征透視投影將二維特征投影到三維空間上,并根據成像原理和相機參數計算二維特征上三維特征空間中每個點的坐標,以對三維特征空間的特征進行采樣。這種方法將2D特征提升到統一的3D特征圖中,并作為連接2D和3D U-net的關鍵組件。Monoscene還提出了一個插入在3D UNet瓶頸處的3D上下文關系先驗(3D CRP)層,該層學習n向體素到體素的語義場景關系圖。這為網絡提供了一個全局感受場,并由于關系發現機制而提高了空間語義意識。Monoscene的總體架構如圖10所示。
Query-based methods
從3D空間學習的另一種方式涉及生成一組查詢以捕捉場景的表示。在該方法中,使用基于查詢的技術來生成查詢建議,然后將其用于學習3D場景的綜合表示。隨后,應用圖像上的交叉注意和自注意機制來細化和增強所學習的表征。這種方法不僅增強了對場景的理解,而且能夠在3D空間中進行準確的重建和占用預測。此外,基于查詢的方法提供了更大的靈活性來基于不同的數據源和查詢策略進行調整和優化,從而能夠更好地捕獲本地和全局上下文信息,從而促進3D占用預測表示。
深度可以作為選擇占用查詢的有價值的先驗,在Voxformer中,估計的深度被用作預測占用和選擇相關查詢的先驗。只有占用的查詢用于使用可變形注意力從圖像中收集信息。更新后的查詢提議和掩蔽的令牌然后被組合以重建體素特征。Voxformer從RGB圖像中提取2D特征,然后利用一組稀疏的3D體素查詢來索引這些2D特征,使用相機投影矩陣將3D位置鏈接到圖像流。具體而言,體素查詢是3D網格形狀的可學習參數,旨在使用注意力機制將圖像中的特征查詢到3D體積中。整個框架是由類不可知的提議和特定于類的分段組成的兩階段級聯。階段1生成類不可知的查詢建議,而階段2采用類似于MAE的架構將信息傳播到所有體素。最后,對體素特征進行上采樣以進行語義分割。VoxFormer的總體架構如圖11所示。
Occ3D nuScenes數據集上特征增強方法的性能比較如表3所示。結果表明,直接處理體素表示的方法通常能夠實現強大的性能,因為它們在計算過程中不會遭受顯著的信息損失。此外,盡管基于BEV的方法只有一個投影視點用于特征表示,但由于鳥瞰圖中包含的豐富信息以及它們對遮擋和比例變化的不敏感性,它們仍然可以實現可比較的性能。此外,通過從多個互補視圖重建3D信息,基于三視角視圖(TPV)的方法能夠減輕潛在的幾何模糊性,并捕捉更全面的場景背景,從而實現有效的3D占用預測。值得注意的是,FB-OCC同時利用了前向和后向視圖轉換模塊,使它們能夠相互增強,以獲得更高質量的純電動汽車表示,并取得了優異的性能。這表明,通過有效的特征增強,基于BEV的方法在改善3D占用預測方面也有很大的潛力。
部署友好方法
由于其廣泛的范圍和復雜的數據性質,直接從3D空間學習占用表示是極具挑戰性的。與3D體素表示相關的高維度和密集的計算使得學習過程對資源的要求很高,這不利于實際部署應用。因此,設計部署友好的3D表示的方法旨在降低計算成本并提高學習效率。本節介紹了解決3D場景占用估計中計算挑戰的方法,重點是開發準確高效的方法,而不是直接處理整個3D空間。所討論的技術包括透視分解和從粗到細的細化,這些技術已在最近的工作中得到證明,以提高3D占用預測的計算效率。
Perspective decomposition methods
通過將視點信息從3D場景特征中分離出來或將其投影到統一的表示空間中,可以有效地降低計算復雜度,使模型更加穩健和可推廣。這種方法的核心思想是將三維場景的表示與視點信息解耦,從而減少特征學習過程中需要考慮的變量數量,降低計算復雜度。解耦視點信息使模型能夠更好地泛化,適應不同的視點變換,而無需重新學習整個模型。
為了解決從整個3D空間學習的計算負擔,一種常見的方法是使用鳥瞰圖(BEV)和三視角圖(TPV)表示。通過將3D空間分解為這些單獨的視圖表示,計算復雜度顯著降低,同時仍然捕獲用于占用預測的基本信息。關鍵思想是首先從BEV和TPV的角度學習,然后通過結合從這些不同視圖中獲得的見解來恢復完整的3D占用信息。與直接從整個3D空間學習相比,這種透視分解策略允許更高效和有效的占用估計。
Coarse-to-fine methods
直接從大規模3D空間學習高分辨率細粒度全局體素特征是耗時且具有挑戰性的。因此,一些方法已經開始探索采用從粗到細的特征學習范式。具體而言,網絡最初從圖像中學習粗略的表示,然后細化和恢復整個場景的細粒度表示。這兩步過程有助于實現對場景占用率的更準確和有效的預測。
OpenOccupancy采用兩步方法來學習3D空間中的占用表示。如圖14所示。
預測3D占用率需要詳細的幾何表示,并且利用所有3D體素標記與多視圖圖像中的ROI進行交互將產生顯著的計算和內存成本。如圖15所示,Occ3D提出了一種增量令牌選擇策略,在交叉注意力計算過程中選擇性地選擇前景和不確定的體素令牌,從而在不犧牲精度的情況下實現自適應高效計算。具體地,在每個金字塔層的開始,每個體素標記被輸入到二進制分類器中,以預測體素是否為空,由二進制地面實況占用圖來監督以訓練分類器。PanoOcc提出在聯合學習框架內無縫集成對象檢測和語義分割,促進對3D環境的更全面理解。該方法利用體素查詢來聚合來自多幀和多視圖圖像的時空信息,將特征學習和場景表示合并為統一的占用表示。此外,它通過引入占用稀疏性模塊來探索3D空間的稀疏性,該模塊在從粗到細的上采樣過程中逐漸稀疏占用,顯著提高了存儲效率。
Occ3D nuScenes數據集上部署友好方法的性能比較如表4所示。由于結果是從不同的論文中收集的,在主干、圖像大小和計算平臺方面存在差異,因此只能得出一些初步結論。通常,在類似的實驗設置下,由于信息丟失較少,從粗到細的方法在性能方面優于透視分解方法,而透視分解通常表現出更好的實時性能和更低的內存使用率。此外,采用較重主干和處理較大圖像的模型可以獲得更好的精度,但也會削弱實時性能。盡管FlashOcc和FastOcc等方法的輕量級版本已經接近實際部署的要求,但它們的準確性還需要進一步提高。對于部署友好的方法,透視分解策略和從粗到細策略都致力于在保持3D占用預測準確性的同時,不斷減少計算負載。
Label-efficient methods
在現有的創建精確占用標簽的方法中,有兩個基本步驟。第一個是收集與多視圖圖像相對應的激光雷達點云,并進行語義分割注釋。另一種是利用動態物體的跟蹤信息,通過復雜的算法融合多幀點云。這兩個步驟都相當昂貴,這限制了占用網絡利用自動駕駛場景中大量多視圖圖像的能力。近年來,神經輻射場(Nerf)在二維圖像繪制中得到了廣泛的應用。有幾種方法以類似Nerf的方式將預測的三維占用繪制成二維地圖,并在沒有細粒度標注或激光雷達點云參與的情況下訓練占用網絡,這顯著降低了數據標注的成本。
Annotation-free methods
SimpleOccupancy首先通過視圖變換從圖像特征中生成場景的顯式3D體素特征,然后按照Nerf風格的方式將其渲染為2D深度圖。二維深度圖由激光雷達點云生成的稀疏深度圖監督。深度圖還用于合成用于自我監督的環繞圖像。UniOcc使用兩個單獨的MLP將3D體素logits轉換為體素的密度和體素的語義logits。之后,UniOCC按照一般的體積渲染來獲得多視圖深度圖和語義圖,如圖17所示。這些2D地圖由分割的LiDAR點云生成的標簽進行監督。RenderOcc從多視圖圖像中構建類似于NeRF的3D體積表示,并使用先進的體積渲染技術來生成2D渲染,該技術可以僅使用2D語義和深度標簽來提供直接的3D監督。通過這種2D渲染監督,該模型通過分析來自各種相機截頭體的光線交點來學習多視圖一致性,從而更深入地了解3D空間中的幾何關系。此外,它引入了輔助光線的概念,以利用來自相鄰幀的光線來增強當前幀的多視圖一致性約束,并開發了一種動態采樣訓練策略來過濾未對準的光線。為了解決動態和靜態類別之間的不平衡問題,OccFlowNet進一步引入了占用流,基于3D邊界框預測每個動態體素的場景流。使用體素流,可以將動態體素移動到時間幀中的正確位置,從而無需在渲染過程中進行動態對象過濾。在訓練過程中,使用流對正確預測的體素和邊界框內的體素進行轉換,以與時間幀中目標位置對齊,然后使用基于距離的加權插值進行網格對齊。
上述方法消除了對顯式3D占用注釋的需要,大大減少了手動注釋的負擔。然而,他們仍然依賴激光雷達點云來提供深度或語義標簽來監督渲染的地圖,這還不能實現3D占用預測的完全自監督框架。
LiDAR-free methods
OccNerf不利用激光雷達點云來提供深度和語義標簽。相反,如圖18所示,它使用參數化占用字段來處理無邊界的室外場景,重新組織采樣策略,并使用體積渲染將占用字段轉換為多相機深度圖,最終通過多幀光度一致性進行監督。此外,該方法利用預先訓練的開放詞匯語義分割模型來生成2D語義標簽,監督該模型將語義信息傳遞給占用字段。幕后使用單一視圖圖像序列來重建駕駛場景。它將輸入圖像的截頭體特征視為密度場,并渲染其他視圖的合成。通過專門設計的圖像重建損失來訓練整個模型。SelfOcc預測BEV或TPV特征的帶符號距離場值,以渲染2D深度圖。此外,原始顏色和語義圖也由多視圖圖像序列生成的標簽進行渲染和監督。
這些方法避開了對來自激光雷達點云的深度或語義標簽的必要性。相反,他們利用圖像數據或預訓練的模型來獲得這些標簽,從而實現3D占用預測的真正的自監督框架。盡管這些方法可以實現最符合實際應用經驗的訓練模式,但仍需進一步探索才能獲得令人滿意的性能。
表5顯示了Occ3D nuScenes數據集上標簽高效方法的性能比較。大多數無注釋方法使用2D渲染監督作為顯式3D占用監督的補充,并獲得了一定的性能改進。其中,UniOcc和RadOcc甚至在所有方法中分別獲得了3和4的優異排名,充分證明了無注釋機制可以促進額外有價值信息的提取。當僅采用2D渲染監督時,它們仍然可以實現相當的精度,說明了節省顯式3D占用注釋成本的可行性。無激光雷達的方法為3D占用預測建立了一個全面的自我監督框架,進一步消除了對標簽和激光雷達數據的需求。然而,由于點云本身缺乏精確的深度和幾何信息,其性能受到極大限制。
未來展望
在上述方法的推動下,我們總結了當前的趨勢,并提出了幾個重要的研究方向,這些方向有可能從數據、方法和任務的角度顯著推進基于視覺的自動駕駛3D占用預測領域。
數據層面
獲取充足的真實駕駛數據對于提高自動駕駛感知系統的整體能力至關重要。數據生成是一種很有前途的途徑,因為它不會產生任何獲取成本,并提供了根據需要操縱數據多樣性的靈活性。雖然一些方法利用文本等提示來控制生成的駕駛數據的內容,但它們不能保證空間信息的準確性。相比之下,3D Occupancy提供了場景的細粒度和可操作的表示,與點云、多視圖圖像和BEV布局相比,有助于可控的數據生成和空間信息顯示。WoVoGen提出了體積感知擴散,可以將3D占用映射到逼真的多視圖圖像。在對3D占用進行修改后,例如添加一棵樹或更換一輛汽車,擴散模型將合成相應的新駕駛場景。修改后的三維占用記錄了三維位置信息,保證了合成數據的真實性。
自動駕駛的世界模型越來越突出,它提供了一個簡單而優雅的框架,增強了模型基于環境輸入觀測來理解整個場景并直接輸出合適的動態場景演化數據的能力。鑒于其能夠熟練地詳細表示整個駕駛場景數據,利用3D占用率作為世界模型中的環境觀測具有明顯的優勢。如圖19所示,OccWorld選擇3D占用率作為世界模型的輸入,并使用類似GPT的模塊來預測未來的3D占用率數據應該是什么樣子。UniWorld利用了現成的基于BEV的3D occ-pancy模型,但通過處理過去的多視圖圖像來預測未來的3D占用數據,這也構建了一個世界模型。然而,無論機制如何,生成的數據和真實數據之間不可避免地存在領域差距。為了解決這個問題,一種可行的方法是將3D占用預測與新興的3D人工智能生成內容(3D AIGC)方法相結合,以生成更真實的場景數據,而另一種方法是將領域自適應方法相結合以縮小領域差距。
方法論層面
當涉及到3D占用預測方法時,在我們之前概述的類別中,存在著需要進一步關注的持續挑戰:功能增強方法、部署友好方法和標簽高效方法。特征增強方法需要朝著顯著提高性能的方向發展,同時保持可控的計算資源消耗。部署友好的方法應該記住,減少內存使用和延遲,同時確保將性能下降降至最低。標簽高效的方法應該朝著減少昂貴的注釋需求的方向發展,同時實現令人滿意的性能。最終目標可能是實現一個統一的框架,該框架結合了功能增強、部署友好性和標簽效率,以滿足實際自動駕駛應用的期望。
此外,現有的單智能體自動駕駛感知系統天生無法解決關鍵問題,如對遮擋的敏感性、遠程感知能力不足和視野有限,這使得實現全面的環境意識具有挑戰性。為了克服單智能體的瓶頸,多智能體協同感知方法開辟了一個新的維度,允許車輛與其他交通元素共享互補信息,以獲得對周圍環境的整體感知。如圖20所示,多智能體協同3D占用預測方法利用協同感知和學習的力量進行3D占用預測,通過在連接的自動化車輛之間共享特征,能夠更深入地了解3D道路環境。CoHFF是第一個基于視覺的協作語義占用預測框架,它通過語義和occupancy任務特征的混合融合,以及車輛之間共享的壓縮正交注意力特征,改進了局部3D語義占用預測,在性能上顯著優于單車系統。然而,這種方法往往需要同時與多個代理進行通信,面臨準確性和帶寬之間的矛盾。因此,確定哪些代理最需要協調,以及確定最有價值的協作領域,以實現準確性和速度之間的最佳平衡,是一個有趣的研究方向。
任務層面
在當前的3D占用基準中,某些類別具有明確的語義,如“汽車”、“行人”和“卡車”。相反,“人造”和“植被”等其他類別的語義往往是模糊和籠統的。這些類別包含了廣泛的未定義語義,應該細分為更細粒度的類別,以提供駕駛場景的詳細描述。此外,對于以前從未見過的未知類別,它們通常被視為一般障礙,無法根據人類提示靈活擴展新的類別感知。對于這個問題,開放詞匯任務在2D圖像感知方面表現出了強大的性能,并且可以擴展到改進3D占用預測任務。OVO提出了一個支持開放詞匯表3D占用預測的框架。它利用凍結的2D分割器和文本編碼器來獲得開放詞匯的語義參考。然后,采用三個不同級別的比對來提取3D占用模型,使其能夠進行開放詞匯預測。POP-3D設計了一個自監督框架,在強大的預訓練視覺語言模型的幫助下,結合了三種模式。它方便了諸如零樣本占用分割和基于文本的3D檢索之類的開放式詞匯任務。
感知周圍環境的動態變化對于自動駕駛中下游任務的安全可靠執行至關重要。雖然3D占用預測可以基于當前觀測提供大規模場景的密集占用表示,但它們大多局限于表示當前3D空間,并且不考慮周圍物體沿時間軸的未來狀態。最近,人們提出了幾種方法來進一步考慮時間信息,并引入4D占用預測任務,這在真實的自動駕駛場景中更實用。Cam4Occ首次使用廣泛使用的nuScenes數據集為4D占用率預測建立了一個新的基準。該基準包括不同的指標,用于分別評估一般可移動物體(GMO)和一般靜態物體(GSO)的占用預測。此外,它還提供了幾個基線模型來說明4D占用預測框架的構建。盡管開放詞匯3D占用預測任務和4D占用預測任務旨在從不同角度增強開放動態環境中自動駕駛的感知能力,但它們仍然被視為獨立的任務進行優化。模塊化的基于任務的范式,其中多個模塊具有不一致的優化目標,可能導致信息丟失和累積錯誤。將開集動態占用預測與端到端自動駕駛任務相結合,將原始傳感器數據直接映射到控制信號是一個很有前途的研究方向。