成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最新綜述!萬字長文徹底搞懂單目3D車道線檢測

人工智能 智能汽車
在人工智能的推動下,自動駕駛技術近年來取得了快速發展,逐漸重塑了人類交通運輸的范式。配備了一系列傳感器,自動駕駛車輛模仿人類的視覺和聽覺等感知能力,以感知周圍環境并解釋交通場景以確保安全導航。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

3D車道檢測在自動駕駛中起著至關重要的作用,通過從三維空間中提取道路的結構和交通信息,協助自動駕駛汽車進行合理、安全和舒適的路徑規劃和運動控制。考慮到傳感器成本和視覺數據在顏色信息方面的優勢,在實際應用中,基于單目視覺的3D車道檢測是自動駕駛領域的重要研究方向之一,引起了工業界和學術界越來越多的關注。不幸的是,最近在視覺感知方面的進展似乎不足以開發出完全可靠的3D車道檢測算法,這也妨礙了基于視覺傳感器的完全自動駕駛汽車的發展,即實現L5級自動駕駛,像人類控制的汽車一樣駕駛。

這是這篇綜述論文得出的結論之一:在使用視覺傳感器的自動駕駛汽車的3D車道檢測算法中仍有很大的改進空間,仍然需要顯著的改進。在此基礎上,本綜述定義、分析和審查了3D車道檢測研究領域的當前成就,目前絕大部分進展都嚴重依賴于計算復雜的深度學習模型。此外,本綜述涵蓋了3D車道檢測流程,調查了最先進算法的性能,分析了前沿建模選擇的時間復雜度,并突出了當前研究工作的主要成就和局限性。該調查還包括了可用的3D車道檢測數據集的全面討論以及研究人員面臨但尚未解決的挑戰。最后,概述了未來的研究方向,并歡迎研究人員和從業者進入這個激動人心的領域。

在人工智能的推動下,自動駕駛技術近年來取得了快速發展,逐漸重塑了人類交通運輸的范式。配備了一系列傳感器,自動駕駛車輛模仿人類的視覺和聽覺等感知能力,以感知周圍環境并解釋交通場景以確保安全導航。其中關鍵的傳感器包括激光雷達、高分辨率相機、毫米波雷達和超聲波雷達,它們促進了特征提取和目標分類,并結合高精度地圖制圖來識別障礙物和車輛交通景觀。視覺傳感器是自動駕駛車輛中最廣泛使用的,它們作為環境感知的主要手段,包括車道檢測、交通信號燈分析、路標檢測和識別、車輛跟蹤、行人檢測和短期交通預測。在自動駕駛中處理和理解視覺場景,包括交通信號燈的分析、交通標志的識別、車道檢測以及附近行人和車輛的檢測,為轉向、超車、變道或剎車等操作提供更穩健和更安全的指令。傳感器數據和環境理解的整合無縫地過渡到自動駕駛中的場景理解領域,這對于推進車輛自主性和確保道路安全至關重要。

場景理解代表了自動駕駛領域中最具挑戰性的方面之一。缺乏全面的場景理解能力,使得自動駕駛車輛在交通車道中安全導航就像對于人類來說眼睛被蒙住的情況下行走一樣艱難。車道檢測尤其在場景理解的領域中是一個至關重要且具有挑戰性的任務。車道是道路上最常見的交通要素,是分割道路以確保車輛安全高效通過的關鍵標志。自動識別道路標線的車道檢測技術是不可或缺的;缺乏此功能的自動駕駛車輛可能導致交通擁堵甚至嚴重碰撞,從而危及乘客安全。因此,車道檢測在自動駕駛生態系統中起著至關重要的作用。與典型的物體不同,車道標線僅占道路場景的一小部分,并且分布廣泛,這使得它們在檢測方面具有獨特的挑戰性。此任務由于多種車道標線、光照不足、障礙物以及來自相似紋理的干擾而變得更加復雜,這些在許多駕駛場景中都很常見,因此加劇了車道檢測所固有的挑戰。

基于單目視覺的車道檢測方法主要可以分為傳統手動特征方法和基于深度學習的方法。早期的努力主要集中在提取低級手動特征,如邊緣和顏色信息。然而,這些方法通常涉及復雜的特征提取和后處理設計,并且在動態變化的場景中表現出有限的魯棒性?;谑謩犹卣魈崛〉膫鹘y車道檢測算法首先通過識別車道線的顏色、紋理、邊緣、方向和形狀等特征,構建近似直線或高階曲線的檢測模型。然而,由于缺乏明顯特征并且對動態環境的適應性差,基于手動特征的傳統方法通常不夠可靠且計算開銷較大。

隨著深度學習的迅速發展,在計算機視覺領域的圖像分類、目標檢測和語義分割方面取得了重大進展,為車道檢測的研究帶來了創新的視角。深度學習中根植于深度學習的深度神經網絡(DNNs)在從圖像數據中提取特征方面具有深刻的能力,其中卷積神經網絡(CNNs)是應用最廣泛的。CNNs代表了DNNs的一種特殊類別,其特點是多個卷積層和基礎層,使其特別適用于處理結構化數據,如視覺圖像,并為各種后續任務提供高效的特征提取。在車道檢測的上下文中,這意味著利用深度CNNs實時提取高級特征,然后由模型處理以準確確定車道線的位置。

背景和相關工作

由于深度學習技術的進步,研究人員開發了許多策略,大大簡化、加快和增強了車道檢測的任務。與此同時,隨著深度學習的普及和新概念的不斷涌現,車道檢測領域的方法也得到了進一步的專業化和完善。在這個領域的主流研究軌跡上反思,基于相機的車道檢測方法可以主要分為二維(2D)和三維(3D)車道檢測范式。

2D車道檢測方法 旨在準確地描繪圖像中的車道形狀和位置,主要采用四種不同的方法:基于分割、基于anchor、基于關鍵點和基于曲線的策略。

  • 基于分割的方法將2D車道檢測看作像素級分類挑戰,生成車道mask。
  • 基于anchor的方法以其簡單和高效而受到贊譽,通常利用線性anchor來回歸相對于目標的位置偏移。
  • 基于關鍵點的方法提供了對車道位置更靈活和稀疏的建模,首先估計點位置,然后使用不同的方案關聯屬于同一車道的關鍵點。
  • 基于曲線的方法通過各種曲線方程和特定參數來擬合車道線,通過檢測起始點和結束點以及曲線參數,將2D車道檢測轉化為曲線參數回歸挑戰。

盡管2D車道檢測取得了一些進展,但在2D結果與實際應用要求之間仍存在顯著差距,尤其是對于精確的三維定位。

3D車道檢測。 由于2D車道檢測中固有的深度信息缺乏,將這些檢測投影到3D空間可能會導致不準確和降低魯棒性。因此,許多研究人員已經將他們的關注點轉向了3D領域內的車道檢測?;谏疃葘W習的3D車道檢測方法主要分為基于CNN和基于Transformer的方法,最初構建稠密的鳥瞰特征圖,然后從這些中間表示中提取3D車道信息。

基于CNN的方法主要包括D-LaneNet,它提出了一種雙路徑架構,利用逆透視映射(IPM)將特征轉置,并通過垂直anchor回歸檢測車道。3D-LaneNet+將BEV特征分割為不重疊的單元,通過相對于單元中心的橫向偏移、角度和高度變化來解決anchor方向的限制。GenLaneNet首創使用虛構的俯視坐標系來更好地對齊特征,并引入了一個兩階段框架來解耦車道分割和幾何編碼。BEVLaneDet通過虛擬相機來確保空間一致性,并通過基于關鍵點的3D車道表示適應更復雜的場景。GroupLane在BEV中引入了基于行的分類方法,適應任何方向的車道,并與實例組內的特征信息進行交互。

基于Transformer的方法包括CLGo,提出了一個兩階段框架,能夠從圖像中估計攝像機姿態,并基于BEV特征進行車道解碼。PersFormer使用離線相機姿態構建稠密的BEV查詢,將2D和3D車道檢測統一到基于Transformer的框架下。STLanes3D使用融合的BEV特征預測3D車道,并引入了3DLane-IOU損失來耦合橫向和高度誤差。Anchor3DLane是一種基于CNN的方法,直接從圖像特征中基于3D anchor回歸3D車道,大大減少了計算開銷。CurveFormer利用稀疏查詢表示和Transformer內的交叉注意機制,有效地回歸3D車道的多項式系數。LATR在CurveFormer的查詢anchor建?;A上構建了車道感知查詢生成器和動態3D地面位置嵌入。CurveFormer++提出了一種單階段Transformer檢測方法,不需要圖像特征視圖轉換,并直接從透視圖像特征推斷3D車道檢測結果。

挑戰與動機

準確估計車道標線的三維位置需要具有魯棒的深度感知能力,特別是在光照和天氣條件多變的復雜城市環境中。此外,由于各種因素如不同的道路類型、標線和環境條件,現實世界中用于三維車道檢測的數據表現出很高的變異性,使得在不同場景中訓練具有良好泛化能力的模型變得艱難。處理用于車道檢測的三維數據需要大量的計算資源;這在低延遲至關重要的實時應用中尤為關鍵。此外,車道標線可能會被各種環境因素如遮擋、陰影、雨雪等遮擋或破壞,給在惡劣條件下可靠檢測帶來挑戰。此外,將三維車道檢測集成到綜合感知系統中,同時使用其他傳感器如相機、激光雷達和雷達,并處理它們的聯合輸出,也面臨著集成挑戰。不幸的是,社區缺乏一個統一的、單一的參考點,以確定基于相機的三維車道檢測技術在自動駕駛中的當前成熟水平。

考慮到上述挑戰和基于視覺傳感器的語義分割在準確場景理解和解析中的重要性,在本調查中積累了現有的研究成果和成果。本調查中突出顯示的主要研究問題如下:

  • 現有數據集在復雜視覺場景中具備進行3D車道檢測的潛力嗎?
  • 當前方法的模型大小和推斷速度如何,這些方法能夠滿足自動駕駛車輛的實時要求嗎?
  • 當前方法是否能夠有效地在包含霧和雨等不確定性的復雜視覺場景中進行三維車道檢測?

貢獻

本調查向前邁出了一步,對近年來三維車道檢測技術的最新狀態進行了批判性審查,并為社區做出了以下主要貢獻:

  • 1)全面介紹了3D車道檢測技術,定義了通用流程并逐步解釋了每個步驟。這有助于該領域的新人們迅速掌握先前的知識和研究成果,特別是在自動駕駛的背景下。據我們所知,這是第一份關于基于相機的3D車道檢測的調查。
  • 2)討論和批判性分析了近年來在三維車道檢測領域受到重視的最相關的論文和數據集。
  • 3)對當前最先進的方法進行性能研究,考慮它們的計算資源需求以及開發這些方法的平臺。
  • 4)基于分析的文獻,推導出未來研究的指導方針,確定該領域的開放問題和挑戰,以及可以有效探索的研究機會,以解決這些問題。

綜述方法論

本調查中討論的研究作品是使用不同的關鍵詞檢索而來的,例如自動駕駛中的3D車道檢測、基于視覺的3D車道檢測和基于學習的3D車道檢測。大多數檢索到的論文與研究主題直接相關,但也有一些例外,例如多模態方法和基于點云的方法,與本調查的主題關系較小。此外,上述關鍵詞在多個庫中進行了搜索,包括Web of Science和Google Scholar,以確保檢索到相關內容。包含標準確保了一篇論文被自動駕駛專家所認可,基于諸如引用次數或先前工作的影響等因素。值得一提的是,在查閱文獻時,并沒有找到基于傳統方法的單目3D車道檢測工作。這可能是因為,與單目相機的二維車道檢測不同,后者僅需要在二維圖像中識別屬于車道的像素,單目3D車道檢測需要使用二維圖像確定車道在三維空間中的三維位置信息。如果沒有像LiDAR這樣的距離測量傳感器的幫助,或者沒有通過深度學習進行預測,這是很難實現的。

自動駕駛中的單目3D車道檢測

隨著深度學習和自動駕駛技術的快速發展,基于深度學習的單目車道檢測引起了工業界和學術界的越來越多的關注。在單目車道檢測領域,早期工作主要集中在二維車道檢測上。隨著自動駕駛技術的成熟,對車道檢測提出了更高的要求,即從單張圖像中預測車道線的三維信息。因此,從2018年開始,陸續出現了關于單目3D車道檢測的工作。如圖1所示,該圖提供了單目3D車道檢測算法的時間線概述。可以看到,隨著時間的推移,越來越多的研究工作涌現出來,表明這一領域越來越受到關注。在該圖中,綠色箭頭代表基于CNN的方法,橙色箭頭代表基于Transformer的方法。

圖片

在這些方法中,3D-LaneNet是單目3D車道檢測領域的開創性工作。3D-LaneNet引入了一個網絡,可以從單目圖像中直接預測道路場景中的三維車道信息。該工作首次使用車載單目視覺傳感器解決了三維車道檢測任務。3D-LaneNet引入了兩個新概念:網絡內部特征圖逆透視映射(IPM)和基于anchor的車道表示。網絡內部IPM投影在前視圖和鳥瞰圖中促進了雙重表示信息流?;赼nchor的車道輸出表示支持端到端的訓練方法,這與將檢測三維車道線的問題等同于目標檢測問題的常見啟發式方法不同。3D-LaneNet的概述如圖2所示。

受到FCOS和CenterNet等工作的啟發,3D LaneNet+是一種無anchor的三維車道檢測算法,可以檢測任意拓撲結構的三維車道線。3D LaneNet+的作者遵循了3D LaneNet的雙流網絡,分別處理圖像視圖和鳥瞰圖,并將其擴展到支持檢測具有更多拓撲結構的三維車道線。3D LaneNet+不是將整個車道預測為整體,而是檢測位于單元內的小車道段及其屬性(位置、方向、高度)。此外,該方法學習了每個單元的全局嵌入,將小車道段聚類為完整的三維車道信息。姜等設計了一個兩階段的三維車道檢測網絡,其中每個階段分別訓練。第一個子網絡專注于車道圖像分割,而第二個子網絡專注于根據第一個子網絡的分割輸出預測三維車道結構。在每個階段分別引入了高效通道注意(ECA)注意機制和卷積塊注意模塊(CBAM)注意機制,分別提高了分割性能和三維車道檢測的準確性。

郭等提出了GenLaneNet,這是一種通用且可擴展的三維車道檢測方法,用于從單張圖像中檢測三維車道線,如圖3所示。作者引入了一種新穎的幾何引導車道anchor表示,并對網絡輸出直接進行了特定的幾何變換,以計算真實的三維車道點。該anchor設計是對3D-LaneNet中anchor設計的直觀擴展。該方法將anchor坐標與底層鳥瞰圖特征對齊,使其更能處理不熟悉的場景。此外,該論文提出了一個可擴展的兩階段框架,允許獨立學習圖像分割子網絡和幾何編碼子網絡,從而顯著減少了訓練所需的三維標簽數量。此外,該論文還介紹了一個高度真實的合成圖像數據集,其中包含豐富的視覺變化,用于開發和評估三維車道檢測方法。

劉等人提出了CLGo,這是一個用于從單張圖像預測三維車道和相機姿態的兩階段框架。第一階段專注于相機姿態估計,并引入了輔助的三維車道任務和幾何約束進行多任務學習。第二階段針對三維車道任務,并使用先前估計的姿態生成鳥瞰圖像,以準確預測三維車道。PersFormer引入了第一個基于Transformer的三維車道檢測方法,并提出了一種稱為Perspective Transformer的新型架構,如圖4所示。這種基于Transformer的架構能夠進行空間特征轉換,從而實現對三維車道線的準確檢測。此外,該提出的框架具有同時處理2D和3D車道檢測任務的獨特能力,提供了一個統一的解決方案。此外,該論文還提出了OpenLane,這是一個基于具有影響力的Waymo Open數據集建立的大規模三維車道檢測數據集。OpenLane是第一個提供高質量標注和多樣化實際場景的數據集,為推動該領域的研究提供了寶貴資源。

在[108]中,研究人員介紹了最大的真實世界三維車道檢測數據集,ONCE-3DLanes數據集,并提供了更全面的評估指標,以重新激發人們對這一任務在真實場景中的興趣。此外,該論文提出了一種名為SALAD的方法,該方法可以直接從前視圖圖像生成三維車道布局,無需將特征映射轉換為鳥瞰圖(BEV),SALAD的網絡架構如圖5所示。

文章[45]提出了一種新穎的損失函數,利用了三維空間車道的幾何結構先驗,實現了從局部到全局的穩定重建,并提供了明確的監督。它引入了一個2D車道特征提取模塊,利用了來自頂視圖的直接監督,確保車道結構信息的最大保留,特別是在遠處區域,整體流程如圖7所示。此外,該論文還提出了一種針對三維車道檢測的任務特定數據增強方法,以解決地面坡度和攝像機姿態的數據分布不平衡問題,增強了在罕見情況下的泛化性能。

Bai等人提出了CurveFormer,這是一種基于Transformer的三維車道檢測算法。在這篇論文中,研究人員將解碼器層中的查詢形式化為一個動態的anchor集,并利用曲線交叉注意力模塊計算查詢與圖像特征之間的相似度。此外,他們還引入了一個上下文采樣單元,通過組合參考特征和查詢來預測偏移量,引導采樣偏移的學習過程。Ai等人提出了WS-3D-Lane,這是首次提出了一種弱監督的三維車道檢測方法,只使用2D車道標簽,并在評估中勝過了之前的3D-LaneNet 方法。此外,作者提出了一種攝像機俯仰自校準方法,可以實時在線計算攝像機的俯仰角,從而減少由不平整的路面引起的攝像機和地平面之間的俯仰角變化導致的誤差。在BEV-LaneDet 中,作者提出了虛擬攝像機,這是一個新穎的數據預測處理模塊,用于統一攝像機的外部參數和數據分布的一致性,作者提出了關鍵點表示,一種簡單而有效的三維車道結構表示。此外,還提出了基于MLP的空間轉換金字塔,這是一種輕量級結構,實現了從多角度視覺特征到BEV特征的轉換。黃等人提出了Anchor3DLane框架,直接定義了三維空間中的anchor,并且直接從前視圖中回歸出三維車道,如圖6所示。作者還提出了Anchor3DLane的多幀擴展,以利用良好對齊的時間信息并進一步提高性能。此外,還開發了一種全局優化方法,通過利用車道等寬屬性對車道進行微調。

Li等人提出了一種方法[45],可以直接從前視圖圖像中提取頂視圖車道信息,減少了2D車道表示中的結構損失。該方法的整體流程如圖7所示。作者將3D車道檢測視為從2D圖像到3D空間的重建問題。他們提出,在訓練過程中明確地施加3D車道的幾何先驗是充分利用車道間和車道內部關系的結構約束,以及從2D車道表示中提取3D車道高度信息的關鍵。作者分析了3D車道與其2D表示之間的幾何關系,并提出了一種基于幾何結構先驗的輔助損失函數。他們還證明了顯式幾何監督可以增強對3D車道的噪聲消除、異常值拒絕和結構保留。

Bai等人提出了CurveFormer 和CurveFormer++ ,這是基于Transformer的單階段方法,可以直接計算3D車道的參數,并且可以繞過具有挑戰性的視圖轉換步驟。具體來說,他們使用曲線查詢將3D車道檢測形式化為曲線傳播問題。3D車道查詢由動態和有序的anchor集表示。通過在Transformer解碼器中使用具有曲線表示的查詢,對3D車道檢測結果進行迭代細化。此外,他們引入了曲線交叉注意力模塊來計算曲線查詢與圖像特征之間的相似性。此外,提供了一個上下文采樣模塊,以捕獲更相關的曲線查詢圖像特征,進一步提高了3D車道檢測的性能。

與[66]類似,Li等人提出了GroupLane,這是一種基于按行分類的3D車道檢測方法。GroupLane的設計由兩組卷積頭組成,每組對應一個車道預測。這種分組將不同車道之間的信息交互分離開來,降低了優化的難度。在訓練過程中,使用單贏一對一匹配(SOM)策略將預測與車道標簽匹配,該策略將預測分配給最適合的標簽進行損失計算。為了解決單目圖像中不可避免的深度模糊所引起的在車道檢測過程中構建的替代特征圖與原始圖像之間的不對齊問題,Luo等人提出了一種新穎的LATR模型 。這是一個端到端的3D車道檢測器,它使用不需要轉換視圖表示的3D感知前視圖特征。具體來說,LATR通過基于車道感知的查詢生成器和動態3D地面位置嵌入構造的查詢和鍵值對之間的交叉注意力來檢測3D車道。一方面,每個查詢基于2D車道感知特征生成,并采用混合嵌入以增強車道信息。另一方面,3D空間信息作為位置嵌入從一個迭代更新的3D地面平面注入。

為了解決在將圖像視圖特征轉換為鳥瞰圖時由于忽略道路高度變化而引起的視圖轉換不準確的問題,Chen等人提出了一種高效的用于3D車道檢測的Transformer 。與傳統的Transformer不同,該模型包括一個分解的交叉注意力機制,可以同時學習車道和鳥瞰圖表示。這種方法與基于IPM的方法相比,允許更準確的視圖轉換,并且更高效。以前的研究假設所有車道都在一個平坦的地面上。然而,Kim等人認為,基于這種假設的算法在檢測實際駕駛環境中的各種車道時存在困難,并提出了一種新的算法,D-3DLD。與以前的方法不同,此方法通過利用深度感知體素映射將圖像域中的豐富上下文特征擴展到3D空間。此外,該方法基于體素化特征確定3D車道。作者設計了一種新的車道表示,結合不確定性,并使用拉普拉斯損失預測了3D車道點的置信區間。

Li等人提出了一種輕量級方法 [46],該方法使用MobileNet作為骨干網絡,以減少對計算資源的需求。所提出的方法包括以下三個階段。首先,使用MobileNet模型從單個RGB圖像生成多尺度的前視圖特征。然后,透視transformer從前視圖特征計算鳥瞰圖(BEV)特征。最后,使用兩個卷積神經網絡預測2D和3D坐標及其各自的車道類型。在論文[26]中,Han等人認為,基于曲線的車道表示可能不適用于現實場景中許多不規則車道線,這可能會導致與間接表示(例如基于分割或基于點的方法)相比的性能差距。文中作者提出了一種新的車道檢測方法,該方法可以分解為兩部分:曲線建模和地面高度回歸。具體來說,使用參數化曲線來表示鳥瞰圖空間中的車道,以反映車道的原始分布。對于第二部分,由于地面高度由路況等自然因素決定,因此地面高度與曲線建模分開回歸。此外,作者設計了一個新的框架和一系列損失函數,以統一2D和3D車道檢測任務,引導具有或不具有3D車道標簽的模型的優化。

這些方法的直觀總結如表II所示,包括方法描述、使用的數據集、開源狀態以及網絡架構。

圖片圖片

3D車道檢測性能評估

本節將討論單目3D車道檢測模型的性能評估。在此,我們解釋評估指標、不同類型的目標函數、分析計算復雜度,并最終提供各種模型的定量比較。所使用變量的命名方式見表I。首先,呈現了3D車道線檢測的可視化結果。由于一些算法未公開源代碼,我們只在ApolloSim數據集上對一些開源算法進行了可視化測試。這些算法已在ApolloSim數據集上進行了訓練,可視化結果如圖8所示,其中紅色線表示預測的車道線,藍色線表示真值車道線。接下來,將介紹評估指標、用于訓練算法的損失函數以及在公共數據集上進行的3D車道線檢測的定量測試結果。

3D車道檢測的評估指標

僅建立預測的單目3D車道檢測模型并不明智也不可信,除非在未見數據上進行測試。大多數模型在用于訓練的相同數據集的不相交集上評估其性能,即測試數據對訓練模型來說是新的。用于單目3D車道檢測任務的深度學習模型使用一些通用指標來評估基于真實值的最佳結果。對于單目3D車道檢測任務,有不同類型的評估指標可供選擇,將在接下來的內容中進行回顧:

3D車道檢測的損失函數

在單目3D車道檢測任務中,常見的基本損失函數包括以下幾種:

MSE損失:這是最常用的損失函數之一,它計算模型預測值與真實值之間的平方差,然后取平均值。其數學表達式為:

MAE損失:這是另一種常用的損失函數,它計算模型預測值與真實值之間的絕對差值,然后取平均值。其數學表達式為:

Huber損失:Huber損失結合了MSE和MAE的優點,使其對異常值更加穩健。其數學表達式為:

交叉熵損失:交叉熵通常用于分類任務,但也可應用于回歸任務。在車道檢測中,通過確定像素是否屬于車道來將問題轉化為分類任務。其數學表達式為:

二元交叉熵損失:二元交叉熵損失常用于訓練二元分類任務,旨在最小化損失函數以提高模型對二元分類樣本的預測準確性。它廣泛應用于深度學習任務,如圖像分類、文本分類和分割。其數學表達式為:

Focal Loss:Focal Loss是一種設計用于解決類別不平衡問題的損失函數,這種不平衡經常出現在目標檢測或語義分割等任務中,其中一個類別的示例數量遠遠超過另一個類別。這種類別不平衡可能導致模型偏向于多數類,尤其是在少數類上表現不佳。

IoU損失:IoU損失基于交并比(IoU),用于衡量模型預測區域與真值區域之間的重疊程度。

不同的方法使用特定的損失函數的方式各不相同,但基本上大多數都是基于上述基本損失函數的變體或組合。此外,通常使用匈牙利算法來將預測車道與真值車道匹配。

單目3D車道檢測模型的定量分析

本節詳細闡述了本文調查的單目3D車道檢測方法的定量實證分析,這有助于實現自動駕駛。對于定量評估,利用四個評估指標來檢查每種單目3D車道檢測方法在ApolloSim數據集上的性能:AP、F-Score、x誤差和z誤差,并在表IV中報告結果。在Openlane數據集上,評估了每個模型的F-Score,如表V所示。在ONCE3DLane數據集上,我們評估了四個指標,即:F-Score、Precision、Recall和CD誤差,結果報告在表VI中。此外,還考慮了計算效率,通過報告每種方法在推理過程中可達到的每秒幀數(FPS)。這些模型的總運行時間在表IV、V和VI中報告。在一些論文中,報告了算法的推理時間及其相應的硬件平臺,直接使用。然而,在其他一些論文中,未顯示算法的推理時間,因此我們在我們的實驗平臺上進行了自己的實驗來測試推理時間。我們的實驗平臺的CPU配置包括運行Ubuntu 20.04操作系統的Intel(R) Core i9-12900K CPU處理器,而實驗中使用的GPU是一塊具有12GB顯存的NVIDIA GeForce RTX 3080Ti GPU。在上述表格中,我們指定了每種方法推理所使用的硬件。

數據集

在基于深度學習的視覺任務中,同樣重要的組成部分是數據集。在本節中,將介紹當前用于單目3D車道線檢測任務的數據集。其中一些數據集是開放源代碼且受到社區廣泛使用的,而另一些僅在論文中描述,未公開。無論是開源還是專有數據集,為了更直觀地了解這些數據集,我們編制了一張詳細的表格,展示了所有現有的單目3D車道線檢測數據集,如表III所示。

Apollo 3D Lane合成數據集

Apollo 3D Lane合成數據集是一個穩健的合成數據集,包括10,500幀高分辨率的1080 × 1920單目RGB圖像,使用Unity 3D引擎構建。每個幀都附帶相應的3D車道標簽和攝像機俯仰數據。它基于美國硅谷,涵蓋了各種環境,包括高速公路、城市區域、住宅區和市區設置。該數據集的圖像囊括了廣泛的日間和天氣條件、各種交通/障礙情況以及不同的道路表面質量,從而使數據集具有高度的多樣性和逼真度。數據集分為三種不同的場景類別:平衡場景、罕見觀察到的場景和具有視覺變化的場景。

平衡場景用于作為全面和無偏見的數據集,用于基準標準駕駛場景。罕見觀察到的場景用于測試算法對于復雜城市地圖中罕見遇到的情況的適應能力,其中包括急劇的高程變化和急轉彎。具有視覺變化的場景旨在評估算法在不同照明條件下的表現,通過在訓練期間排除特定白天時段并在測試期間專注于它們。數據集中攝像機的固定內參參數,攝像機高度范圍在1.4到1.8米之間,俯仰角范圍從0到10度。

OpenLane

OpenLane是第一個大規模、真實世界的3D車道檢測數據集,擁有超過200,000幀和880,000個精心標注的車道。OpenLane建立在具有影響力的Waymo Open數據集的基礎上,采用相同的數據格式、評估管道和10Hz的采樣率,由64束LiDAR在20秒內進行。該數據集為每個幀提供了詳盡的細節,包括攝像機內參和外參,以及車道類別,其中包括14種不同類型,如白色虛線和路邊。幾乎90%的車道由雙黃色實線和單白色實線和虛線組成。OpenLane數據集典型地展示了現實世界的情景,充分凸顯了長尾分布問題。OpenLane包含幀中的所有車道,甚至包括相反方向的車道,前提是沒有隔離路邊。由于復雜的車道拓撲結構,如交叉口和環形交叉口,一個幀可以容納多達24條車道。約25%的幀中包含超過六條車道,超過了大多數當前車道數據集的最大值。除此之外,該數據集還提供了場景標簽的注釋,例如天氣和位置,以及最接近路徑的目標(CIPO)-定義為與自車相關的最相關目標。這些輔助數據對于規劃和控制中的后續模塊至關重要,而不僅僅是感知。OpenLane的3D地面真值是使用LiDAR合成的,因此具有高精度和準確性。數據集分為包含157,000張圖像的訓練集和包含39,000張圖像的驗證集。

ONCE-3DLanes

ONCE-3DLanes數據集是另一個實用的3D車道檢測數據集,精心從ONCE自動駕駛存儲庫中提取而來。該數據集包括由前置相機捕獲的211,000個圖像,以及相應的匹配LiDAR點云數據。展示了一系列不同時間和天氣條件下的場景,如陽光明媚、陰天和雨天等,數據集涵蓋了城市中心、住宅區、高速公路、橋梁和隧道等多種地形。這種多樣性使數據集成為在各種真實世界場景下開發和驗證強大的3D車道檢測模型的關鍵資源。該數據集分為三個部分:用于驗證的3,000個場景,用于測試的8,000個場景,以及剩余的5,000個場景用于訓練。訓練組件還額外補充了200,000個未標注的場景,以充分利用原始數據。雖然數據集提供了的攝像機內參,但省略了攝像機外參。

其他數據集

論文“3D-LaneNet: End-to-End 3D Multiple Lane Detection”介紹了兩個不同的數據集:Synthetic3D-Lanes數據集和3D-Lanes數據集。通過開源圖形引擎Blender創建的Synthetic3D-Lanes數據集包括300K個訓練示例和5K個測試示例,每個示例都包含一個360×480像素的圖像以及與之關聯的真值參數,如3D車道、攝像機高度和俯仰。這個數據集在車道拓撲、目標位置和場景渲染方面具有重大的多樣性,為方法開發和消融研究提供了寶貴的資源。此外,3D-Lanes數據集是一個真實世界的真值標注數據集,通過利用多傳感器設置-前向相機、Velodine HDL32激光雷達掃描儀和高精度IMU來編制。該數據集由六個獨立的行駛記錄組成,每個記錄在不同的路段上錄制,總計近兩個小時的行駛時間。借助激光雷達和IMU數據,生成了聚合的激光雷達俯視圖像,并與半手動注釋工具一起使用,建立了真值??偣矘俗⒘?5,000張圖像,其中1,000張來自一個單獨的駕駛記錄,被指定為測試集,其余作為訓練集。3D-Lanes數據集在驗證所提出的方法對真實世界數據的可轉移性以及進行定性分析方面發揮了重要作用。盡管Synthetic-3D-Lanes數據集已經向研究界開放,但真實世界的3D-Lanes數據集仍然是專有的,無法公開獲取。值得注意的是,盡管Synthetic-3D-Lanes數據集是可用的,但在后續領域研究中并沒有得到廣泛采用作為基準進行評估。

自動駕駛中的3D車道檢測:挑戰與方向

上述介紹的數據集涵蓋了各種公開可用的道路場景。當前主流研究主要集中在適合進行三維車道檢測的有利白天場景上,這些場景具有充足的照明和有利的天氣條件。然而,許多汽車公司和原始設備制造商擁有大量數據,但由于涉及知識產權、產業競爭和《通用數據保護條例》(GDPR)等問題,他們不愿意公開分享這些數據。因此,在自動駕駛研究中,缺乏足夠的帶標注數據來準確理解動態天氣條件,如夜間、霧霾天氣和邊緣情況,仍然是一個具有挑戰性的任務。

這個研究領域是社區尚未充分解決的挑戰之一。在本節中,對當前自動駕駛中三維車道檢測的現狀提出了關鍵觀點,總結了一系列挑戰,并提出了研究方向建議,以幫助社區進一步取得進展,有效地克服這些挑戰。

開放性挑戰

雖然研究人員在自動駕駛領域進行了大量研究,自動駕駛行業也在蓬勃發展,但仍然存在一些需要研究人員關注的開放性挑戰,以實現完全智能的自動駕駛。這些挑戰已經在相關文獻的支持下進行了單獨討論:

粗結構化信息: 大多數文獻中介紹的用于自動駕駛中3D車道檢測的數據集記錄在先進城市的正常和良好結構化基礎設施中。當前開發的深度學習模型可能在結構化數據集上取得最佳結果,但它們在許多非結構化環境中的泛化能力較差。自動駕駛中的這個問題需要在數據收集方面進一步關注,同時在深度學習模型中引入新的有效表示機制。

不確定性感知決策: 車道檢測和自動駕駛決策中一個被大部分忽視的方面是模型對輸入數據進行預測的置信度。然而,模型輸出的置信度在確保自動駕駛安全性方面起著至關重要的作用。車輛周圍固有的不確定性本質似乎沒有說服社區深入研究這個問題,因為目前的方法論趨勢僅關注預測分數。幸運的是,置信度估計最近在社區中引起了關注。然而,來自證據深度學習的元素、深度神經網絡的貝葉斯公式、近似神經網絡輸出置信度的簡單機制(如蒙特卡洛丟失或集成)以及其他各種不確定性量化方法,應逐步作為決策的一個額外但至關重要的標準進行融合。在處理復雜環境時,由于缺乏能夠完全代表所有可能場景的數據,模型會輸出大量的認識不確定性。如果不將置信度作為AD的一個附加因素,或者當前研究僅關注預測和/或計算效率方面,那么科學界新興的3D車道檢測模型是否會實際上有用并且可轉移至工業領域就無法保證。

弱監督學習策略: 在當前基于深度學習的模型中,大多數依賴于完全監督的學習策略,這對標注數據有很高的要求。在3D車道檢測領域,特別具有挑戰性,因為一般的視覺傳感器數據缺乏深度信息。僅憑圖像本身很難將3D信息簡單地分配給車道,需要使用LiDAR等替代傳感器獲取3D車道信息。這導致了標注3D車道數據的成本高昂和勞動密集性。幸運的是,學術界和工業界已經意識到了這個問題,并且在深度學習領域對弱監督學習策略進行了廣泛的研究和關注。然而,在3D車道檢測的特定分支中,目前針對弱監督學習策略的研究仍然有限。如果我們能夠有效地利用自監督/弱監督學習策略,將極大地降低數據收集成本,并允許更多的訓練數據來增強3D車道檢測算法的性能,從而進一步推動自動駕駛行業的發展。

未來方向

基于視頻的自動駕駛3D車道檢測: 借鑒基于視頻目標檢測、語義分割和2D車道檢測的進展,可以明顯看出,將基于視頻的技術納入其中顯著提高了3D車道檢測系統的精度和可靠性?;谝曨l的方法的核心優勢在于它們能夠利用時間數據,提供靜態圖像所缺乏的動態視角。這種動態視角在理解和預測三維空間中復雜的駕駛情況中尤其重要,其中車道位置和車輛相互作用的復雜性增加。像遞歸視頻車道檢測(RVLD)這樣的方法展示了視頻捕捉持續車道變化的能力,隨時間的推移變化,這一特征對于3D建模的準確性極其有益。此外,將視頻數據納入這些系統還增強了我們對駕駛環境中空間動態的理解,這對于3D車道檢測至關重要。通過將基于視頻的目標檢測和語義分割中使用的復雜深度學習技術納入3D車道檢測系統的未來版本,可以實現先進的空間意識,顯著提高自動駕駛車輛的導航能力和安全性。

混合方法和多模態: 多模態3D車道檢測技術的進展大大加快了各種傳感器輸入(如相機、LiDAR和雷達)的整合。這種整合標志著克服現有依賴相機的系統所面臨挑戰的一個有希望的途徑。這種方法,強調了在多模態3D目標檢測和語義分割中的成功,利用了每種傳感器類型的互補優勢,以提高檢測精度和可靠性,特別是在具有挑戰性的環境和復雜駕駛場景中。回顧了“深度多傳感器車道檢測”和“M2-3DLaneNet”等開創性模型,這些模型已經有效地利用了多傳感器輸入來優化車道邊界估計,并在遮擋和光照條件變化方面表現出色,明顯的發展潛力。這一領域未來的發展軌跡應強調對先進數據融合方法、細致的傳感器校準和同步技術的探索,以及利用新興技術如邊緣計算進行實時多模態數據處理。

主動學習和增量學習: 機器學習中的主動學習指的是模型在測試階段和部署后隨時間和遇到新數據而適應和學習的能力。在現實世界的環境中,車輛可能會遇到隨機出現的陌生場景和車道拓撲,這可能需要AI模型為進一步的操作做出決策,如剎車或加速以實現合理的駕駛操作。因此,車道檢測技術應允許交互式方法來處理各種類型的場景和車道拓撲,涉及人類標注者來標注未標注的數據實例,以及人類參與訓練過程。有不同類型的主動學習技術,如成員查詢綜合,其中生成合成數據,并且根據數據的結構調整合成數據的參數,這源于數據的基礎物種。另一方面,3D車道檢測模型能夠增量地更新其對新數據的捕獲知識,對于其可持續性和持續改進至關重要。我們預計,在未來的研究中,3D車道檢測模型在道路理解方面的這兩個能力將變得越來越重要。

惡劣天氣條件: 對于自動駕駛的基于相機的3D車道檢測系統的發展受到惡劣天氣條件的明顯阻礙,這些條件嚴重影響了能見度。如大雨、霧、雪和沙塵暴等事件會嚴重影響這些系統的功能。這主要問題源于視覺數據質量的損害,這些數據對于車道標線的精確檢測和分割是必要的,導致可靠性下降,假陰性或假陽性的可能性增加。這種系統效能的降低不僅提高了安全隱患,而且限制了自動駕駛車輛的操作范圍。然而,最近在目標檢測和語義分割方面的突破,如“ACDC:適應不良條件的數據集及其對語義駕駛場景理解的對應關系”和“使用深度學習框架在惡劣天氣下的車輛檢測和跟蹤”,展示了在挑戰性天氣條件下增強3D車道檢測的途徑。這些研究提出了利用深度學習算法在包括各種惡劣天氣實例的數據集上訓練,展示了有效的數據增強、針對特定條件的領域適應和使用語義分割技術的重要性。通過采用這些方法,基于相機的檢測系統的能力可以得到大幅提升,以準確解釋車道標線,并確保在能見度差的情況下安全導航,為自動駕駛技術領域的持續研究和發展奠定了樂觀的路徑。

大型語言模型(LLM)在3D車道檢測中的應用: 大型語言模型(LLM)的出現,如ChatGPT,已經改變了人工通用智能(AGI)領域,展示了它們在使用定制用戶提示或語言指令處理各種自然語言處理(NLP)任務方面remarkable zero-shot能力。計算機視覺涵蓋了一系列與NLP中的挑戰和概念迥然不同的挑戰。視覺基礎模型通常遵循預訓練和后續微調的過程,雖然有效,但對于適應一系列下游應用而言,這意味著顯著的額外成本。技術,如多任務統一化,旨在賦予系統一系列廣泛的功能,但它們往往無法突破預先確定的任務的約束,與LLM相比,在開放式任務中留下明顯的能力缺口。視覺提示調整的出現提供了一種通過視覺mask來劃分特定視覺任務(如目標檢測、實例分割和姿態估計)的新方法。然而,目前還沒有將LLM與3D車道線檢測相結合的工作。隨著大型語言模型越來越普遍,其能力繼續提升,LLM基于車道線檢測的研究為未來的探索提供了有趣和有前途的途徑。

實現更準確高效的自動駕駛3D車道檢測方法: 當前3D車道檢測技術的定性性能如表IV所示??梢杂^察到只有少數方法能夠在模型準確性和推理延遲之間取得平衡。這些方法的實驗結果表明,需要進一步改進以減輕計算負擔,同時保持其無與倫比的性能。此外,從3D車道檢測數據集中選擇了一些具有挑戰性的數據,并測試了3D車道線檢測算法在這些挑戰性數據樣本上的性能。然而,算法在極端天氣條件下的檢測性能也不令人滿意,如圖9所示。改善算法在極端天氣條件下的檢測性能也是至關重要的。此外,表IV、V和VI中報告的時間復雜性表明,一些方法在部署在GPU設備上時可以實現實時執行。然而,考慮到當今自動駕駛系統中受限的計算資源,3D車道檢測方法的重點也應轉向計算復雜性。

基于事件相機的3D車道檢測: RGB相機受其成像原理的限制,在高速或低光場景下會產生圖像質量差的問題。幸運的是,事件相機可以克服這一限制。事件相機是具有高時間分辨率、高動態范圍、低延遲和低能耗的視覺傳感器。與傳統相機根據光的強度和顏色捕獲圖像不同,事件相機是基于光強度變化捕獲圖像的。因此,只要光強度發生變化,事件相機就可以在低光場景下捕獲圖像。目前,關于基于事件相機的3D車道檢測的研究還很有限。我們認為,在使用事件相機進行3D車道檢測領域存在重大且廣泛的研究潛力,包括開發專門用于使用事件相機進行3D車道檢測的數據集,以及設計適用于僅使用事件相機或與RGB相機結合進行3D車道檢測的算法。

考慮不確定性的3D車道檢測: 在過去幾年中,深度神經網絡(DNNs)在眾多計算機視覺任務中取得了顯著的成功,鞏固了它們作為高效自動感知的不可或缺的工具的地位。盡管在不同的基準測試和任務中始終提供出色的結果,但在廣泛實施之前,仍然有一些重要的障礙需要克服。關于DNNs最常見和最著名的批評之一是在面對數據分布水平變化時,它們容易出現性能不穩定的問題,突顯了迫切需要解決這一限制的問題。

目前,大多數深度學習模型提供確定性輸出,即給出一個結果。然而,在真實世界的駕駛場景中,希望模型能夠為其預測提供不確定性估計。下游決策模塊可以利用這些不確定性信息做出更合理和更安全的駕駛指令。例如,在3D車道檢測的情況下,如果模型輸出的車道位置具有較高的不確定性,應該對模型的檢測結果持懷疑態度,并采取保守的駕駛風格。相反,如果模型的輸出具有較低的不確定性,我們可以對算法的預測感到有信心,并做出更自信的駕駛決策。

結論

視覺傳感器是自動駕駛車輛的關鍵組成部分,在決策過程中起著關鍵作用。作為近年來增長最快的領域之一,計算機視覺技術被用于分析視覺傳感器捕獲的數據,以獲取諸如交通燈檢測、交通標志識別、可駕駛區域檢測和三維障礙物感知等有用信息。隨著傳感器技術、算法能力和計算能力的進步,視覺傳感器數據在自動駕駛車輛感知中的應用越來越受到關注。例如,基于單目圖像的3D車道檢測利用單個相機圖像獲取三維物理世界中車道線的位置,融合深度信息。了解車道線的深度信息對于自動駕駛車輛的安全和舒適的決策制定和規劃至關重要。雖然可以使用其他傳感器(如激光雷達)獲取三維車道信息,但由于其成本效益和豐富的結構化彩色信息,視覺傳感器在自動駕駛領域中發揮著至關重要的作用。

基于單目圖像的3D車道檢測在自動駕駛領域已經發展了多年。然而,現有文獻中缺乏全面的、總結性的分析。本調查回顧了現有的車道檢測方法,介紹了現有的3D車道檢測數據集,并討論了現有車道檢測方法在公共數據集上的性能比較。還分析了當前3D車道檢測面臨的挑戰和局限性。主要結論是,基于單目圖像的3D車道檢測領域的研究尚未達到完美,當前的方法存在許多限制,在調查中進行了詳細討論,并提供了相關建議和展望。涵蓋了處理深度學習模型的基線工作,它們在3D車道檢測任務中的層次結構,以及與每個模型類別相關的挑戰。此外,深入探討了自動駕駛領域中用于3D車道檢測模型的性能評估策略、損失函數和廣泛使用的數據集。通過提出開放挑戰和未來研究方向來總結這項工作,并列舉了最近文獻中的基線參考。

最后,不可否認的是,智能交通系統社區的專家們不斷努力改進3D車道檢測策略,以有效利用視覺傳感器的數據。主流研究致力于通過神經網絡的能力提高模型的準確性,或者探索新穎的神經網絡架構。然而,解決其他挑戰是實現可靠、值得信賴和安全自動駕駛的必要條件。從3D車道檢測的角度來看,這些挑戰需要更強大的模型,具備預測車道遮擋、處理粗略結構信息和提供風險警報的能力。此外,當前的3D車道檢測模型主要依賴于監督學習,這需要高質量的標注數據。然而,標注3D 車道數據是一項耗時且費力的任務。探索有價值且具有挑戰性的方法,如自監督或弱監督學習,以實現3D車道檢測是這一領域進一步發展的開放機會。如果能及時充分利用這些機會,將推動智能交通系統的研究,并將3D車道檢測提升到一個新的水平。這將使無人駕駛車輛能夠更有效地在現實環境中部署,并支持更安全、更可靠和更舒適的出行和物流服務。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-12-11 10:55:05

2022-07-19 16:03:14

KubernetesLinux

2022-09-06 08:02:40

死鎖順序鎖輪詢鎖

2021-10-18 11:58:56

負載均衡虛擬機

2022-09-14 09:01:55

shell可視化

2021-01-19 05:49:44

DNS協議

2023-12-04 08:10:34

Spring循環依賴

2020-07-09 07:54:35

ThreadPoolE線程池

2024-03-07 18:11:39

Golang采集鏈接

2022-10-10 08:35:17

kafka工作機制消息發送

2020-07-15 08:57:40

HTTPSTCP協議

2020-11-16 10:47:14

FreeRTOS應用嵌入式

2024-01-11 09:53:31

面試C++

2021-08-26 05:02:50

分布式設計

2022-09-08 10:14:29

人臉識別算法

2024-01-05 08:30:26

自動駕駛算法

2022-07-15 16:31:49

Postman測試

2024-05-10 12:59:58

PyTorch人工智能

2023-06-12 08:49:12

RocketMQ消費邏輯

2023-10-19 13:47:58

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕av一区 | 亚洲狠狠| 国产观看 | 精品乱码一区二区三四区 | 久久天天躁狠狠躁夜夜躁2014 | 精品国产乱码久久久久久蜜柚 | 亚洲国产成人精 | 在线日韩视频 | 麻豆亚洲| 午夜天堂精品久久久久 | 在线亚州 | 日本精品视频在线观看 | 中文字幕日韩在线观看 | 天天草天天操 | 我我色综合 | 香蕉一区 | 日韩中文一区 | 久久国产香蕉 | 精品国产1区2区3区 一区二区手机在线 | 国产亚洲精品久久久久动 | 久久av一区二区三区 | 久草在线在线精品观看 | 国产成人免费视频网站视频社区 | 日韩另类视频 | 欧美又大粗又爽又黄大片视频 | 国产视频观看 | 成人黄色在线 | 国产精品久久久久久久久久免费看 | 麻豆精品国产91久久久久久 | 国产激情免费视频 | 成人黄色在线 | 翔田千里一区二区 | 午夜三级网站 | 美女毛片免费看 | 午夜精品久久久久久久久久久久久 | 日韩在线小视频 | 激情国产 | 日韩美女一区二区三区在线观看 | 黄色在线免费观看视频网站 | 国产精品视频不卡 | 精品欧美乱码久久久久久1区2区 |