成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

UniBEV:統一BEV編碼器助力多模態融合新SOTA!

新聞 智能汽車
這篇論文強調了一個魯棒的多傳感器目標檢測系統在面對傳感器故障時仍然保持魯棒性的必要性。通過UniBEV,它不僅提供了一個解決方案,而且還探討了特征融合和對齊的細節,為自動駕駛汽車感知系統領域增加了重要價值。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

背景介紹

智能汽車通常利用多個傳感器進行魯棒的目標檢測,包括激光雷達(LiDARs)和camera。這些設備每個都有其獨特的優勢。camera提供豐富的紋理數據,而激光雷達通過密集的點云提供準確的幾何信息。傳統上,大多數多傳感器模型都專注于在所有傳感器都正常工作時最大化檢測性能。然而,在現實世界中,一個或多個傳感器可能會失敗或缺失。為了解決這個問題,這項研究旨在設計一個"魯棒的"多傳感器目標檢測模型。這樣的模型將無縫地融合camera和激光雷達的數據,但也可以僅使用一個傳感器的輸入有效地運作。

之前的工作與挑戰

在多傳感器目標檢測的最新技術中,通常使用鳥瞰視圖 (Bird's-Eye view,簡稱BEV) 功能作為中介步驟來合并多傳感器信息。

其中一個著名的例子是 BEVFusion,它融合了來自激光雷達和camera的多模態BEV特征。但是,從這兩個來源提取這些特征的方法存在差異,可能導致camera和激光雷達BEV特征之間的不對齊。

近期的 MetaBEV 優化了BEVFusion,采用了一個包含多個可變形注意層的模塊來更好地對齊特征,盡管并沒有完全解決底層特征的不對齊問題。

提出的解決方案 - UniBEV

本文介紹了名為 UniBEV 的端到端模型,重點是對多模態3D目標檢測的魯棒性。UniBEV的新穎之處在于其從不同傳感器統一提取BEV特征的方法,確保了特征的良好對齊。

UniBEV的關鍵設計組件:

  • 統一架構camera和激光雷達分支都采用統一的可變形注意力為基礎的架構。這樣就避免了對camera進行明確的深度預測。
  • 共享查詢:該模型在兩個分支之間使用共享查詢來進一步加強特征對齊并刺激兩個分支之間的互動。
  • 特征融合:論文探討了不同的特征融合策略,包括連接、平均和新提出的通道歸一化權重 (Channel Normalized Weights,簡稱CNW)。當考慮到模態丟失的情況時,與傳統的連接方法相比,CNW提供了更好的性能。

主要貢獻:

  1. 魯棒模型提議 - UniBEV:這項研究介紹了UniBEV,一個針對模態缺失的魯棒性的3D目標檢測模型。在nuScenes數據集上的實驗表明,UniBEV比最先進的模型BEVFusion和MetaBEV表現更好。
  2. 特征融合技術的探討:該論文深入探討了各種特征融合方法,并強調了它們提出的通道歸一化權重 (CNW) 在模態掉出的情境中相對于傳統的連接方法的優勢。
  3. 共享BEV查詢的影響:通過比較所有模態的BEV編碼器之間的共享BEV查詢與使用單獨的查詢,研究表明共享查詢在所有輸入組合中都提供了持續的小幅改進。

這篇論文強調了一個魯棒的多傳感器目標檢測系統在面對傳感器故障時仍然保持魯棒性的必要性。通過UniBEV,它不僅提供了一個解決方案,而且還探討了特征融合和對齊的細節,為自動駕駛汽車感知系統領域增加了重要價值。

主要方法

圖片

Feature Extractors

特征提取器是機器學習和深度學習模型中的關鍵組件,它負責從輸入數據(如圖像或點云)中提取有意義的特征,這些特征隨后被用于進一步的分析和決策。

從上述描述中,UniBEV使用了兩種主要的特征提取器:

圖像特征提取器

  • 輸入:來自多個camera視角的圖像。
  • 使用的主要工具:ResNet-101,它是一個深度的卷積神經網絡。
  • 操作:圖像首先經過ResNet-101網絡,產生一個特征圖,該特征圖在原始圖像坐標中有一個確定的分辨率,同時具有特定的特征維度。所得到的特征可以表示圖像中的各種目標、形狀、紋理和其他重要信息。
  • 輸出:圖像特征  

LiDAR點云特征提取器

  • 輸入:LiDAR scan,通常包括三維空間中的點云數據。
  • 使用的主要工具:VoxelNet,這是一個專為點云數據設計的特征提取網絡。
  • 操作:LiDAR數據首先被體素化,這意味著連續的三維空間被劃分成體素(即小的、離散的三維單元)。VoxelNet然后對這些體素化的數據進行處理,提取鳥瞰圖中的網格狀特征。
  • 輸出:LiDAR特征  ,它在鳥瞰圖中具有確定的空間形狀和特征維度。

這兩個特征提取器從各自的輸入數據中提取特征,這些特征隨后可以用于目標檢測、分類或其他任務。

Uniform BEV Feature Encoders

在特征提取之后,LiDAR和攝像機得到的特征(即  )仍然在不同的坐標系統中表示。 使用與目標BEV空間相似的3D空間坐標,而 則使用2D圖像坐標。雖然現有的方法通常會進一步將圖像特征轉移到鳥瞰圖中并通過連接來簡單地融合兩個BEV特征,但UniBEV引入了一個為所有傳感器模態設計的統一方案,以獲得更好對齊的BEV特征。

  1. 查詢:首先定義了一組可學習的BEV查詢向量與相應的3D空間位置。這些查詢向量在所有模態中都是共享的。具體來說,查詢參數 表示BEV查詢,其中  是車輛本地空間坐標中的2D BEV空間網格分辨率,而  是BEV查詢中的通道數。此外, 包含BEV參考點在3D空間網格中的相應空間坐標。
  2. 投影:這一階段的目的是將BEV空間位置投影到每個模態的特征圖的本地空間坐標系統中。對于每個攝像機,3D點被投影到其2D基于圖像的坐標 。對于LiDAR, 被投影到LiDAR特征圖的空間坐標。
  3. 編碼:使用3層的可變自注意力和可變跨注意力,對每個模態的BEV特征圖進行構建。對于攝像機,第一層的BEV編碼器的特征圖是通過對所有可見參考的所有視圖和每個查詢的所有D位置進行求和來獲得的。而對于LiDAR,LiDAR BEV編碼器執行相同的操作,其第一特征圖同樣表示為。

    這個過程確保從攝像機和LiDAR得到的BEV特征在同一個坐標系中,并具有相同的尺寸和結構。這樣,當特征從不同的傳感器融合時,它們可以更好地對齊。

Fusion Module: Channel Normalized Weights

這段內容討論了兩種用于融合Bird's Eye View (BEV)特征圖的策略:均值融合和Channel Normalized Weights (CNW)。以下是對這段內容的解釋和總結:

均值融合 (Averaging Fusion)

此策略很簡單,它通過對所有可用模態特征圖進行平均(或求和)來融合BEV特征圖。此方法的潛在缺點是可能會稀釋來自更可靠傳感器的信息,但其優點是永遠不需要使用占位符值,并確保融合的BEV特征圖總是與每個模態BEV特征圖具有相同的通道數。

Channel Normalized Weights (CNW)

CNW是均值融合的一個推廣。對于每種模態,它學習一個-維權重向量,該權重向量在訓練后保持不變。每個元素表示在融合結果的第個通道中模態的相對重要性。在融合之前,所有權重會被標準化,以確保它們每個通道的和為1。

對于兩種模態(LiDAR和攝像機),有以下標準化公式:

融合的公式為:

其中,表示與空間維度的廣播相結合的逐通道乘法。

當只有一個模態可用時,對每個通道應用softmax,并將完整的權重分配給該模態。例如,。

CNW有一個特點,當在 和中所有學到的通道權重都接近時,它會退化為平均融合。另一方面,CNW也可以通過允許融合輸出的通道僅從一個模態獲取信息來反映串聯融合,如果這些通道的學到的權重僅接近0或1。

直觀地說,CNW為模型添加了少量的可學習參數,以在這些特殊情況之間提供更多的靈活性,允許它優化每種模態融合的相對重要性,并仍然為單一模態輸入提供有意義的值。實驗結果將展示UniBEV為每種模態構建的BEV特征具有相似的大小分布,確保我們的CNW能夠區分不同通道的重要性,而不是隨機的尺度函數。

Detection Head and Modality Dropout Strategy

基于之前的研究,我們將邊界框檢測視為一種集合預測問題,并采用BEVFormer的解碼器進行3D目標檢測任務。為了針對傳感器失效進行模型訓練,我們采用了常見的"模態丟失" (Modality Dropout, MD) 訓練策略。因此,在訓練過程中,我們以概率隨機丟棄一個模態的BEV特征,即   

實驗對比

圖片

在nuScenes的驗證集上,對比了多種3D目標檢測方法的性能后,我們可以明確地看到,本文提出的方法UniBEV在各種模態和輸入條件下都展現了卓越的性能。首先,從單模態模型的性能來看,盡管BEVFormer_SCenterPoint在各自的專業模態(相機和LiDAR)上展現了很好的效果,但它們在其他模態中不具備適用性。然而,當我們考慮多模態模型時,尤其是那些使用了模態丟失策略的模型,UniBEV在所有的評估指標上均勝過了其它方法。無論是使用LiDAR和相機的組合,還是單獨的LiDAR或相機,UniBEV都保持了最高的NDS和mAP得分。

更為重要的是,從總結指標來看,UniBEV的NDS和mAP分數分別為58.7和52.5,這遠遠超過了其他被評估的方法。這一結果進一步強調了UniBEV在3D目標檢測任務中的卓越性能,尤其是在處理來自不同傳感器的多模態數據時。它不僅能夠有效地融合和利用這些模態的信息,還可以在某個模態不可用時維持高水平的性能。總的來說,根據這些實驗數據,我們可以自信地說,本文提出的UniBEV方法在3D目標檢測領域中是一種高效和魯棒的解決方案。

這個表格是為了比較在固定解碼器維度為256的情況下,不同融合方法在nuScenes驗證集上的性能。這些方法分別是:UniBEV_catUniBEV_avgUniBEV_CNW

從這些數據中,我們可以觀察到以下幾點:

  1. 融合方法的影響: UniBEV_cat采用拼接(concatenation)作為其融合方法,它的編碼器維度為128,而其他兩種方法(平均和CNW)都有一個256的編碼器維度。即使如此,UniBEV_cat的整體性能略低于其他兩種方法。
  2. 平均融合 (UniBEV_avg) vs 通道歸一化權重融合 (UniBEV_CNW): 平均融合方法的性能與UniBEV_CNW非常接近,但在LiDAR和相機的組合(L+C)以及僅使用相機(C)時的性能略低。這表明UniBEV_CNW融合策略對于利用不同模態的特征提供了一個更優化的策略。
  3. 性能指標: 在摘要度量中,UniBEV_CNW獲得了最高的評分52.5,而UniBEV_avg緊隨其后,得分為52.3。UniBEV_cat的摘要度量為51.9,這進一步證明了通道歸一化權重融合方法的優越性。
  4. 編碼器維度的影響: 從數據中,我們可以看到UniBEV_cat具有較小的編碼器維度,這可能會影響其性能,尤其是與其他兩種方法相比。

在固定解碼器維度的情況下,UniBEV_CNW融合方法提供了最佳的性能,尤其是在考慮使用多模態信息時。這證明了這種融合策略能夠更有效地利用來自不同傳感器的信息。而UniBEV_avg作為一種簡單的平均融合策略,其性能也相當出色,與UniBEV_CNW相當接近。這顯示了簡單的平均方法在某些情況下也可以表現得非常好。然而,使用拼接作為融合策略的UniBEV_cat在性能上稍微遜色一些,這可能與其編碼器維度較小有關。

一些討論

本文提出的UniBEV方法是一種強大的3D目標檢測策略,尤其是在多模態場景中,它能有效地融合LiDAR和相機的信息,從而達到了卓越的性能。通過引入通道歸一化權重(CNW)作為其核心融合機制,該方法不僅能夠根據不同的信息源動態地分配權重,而且還可以在單一模態輸入的情況下提供出色的性能,這在某種程度上表明了它的魯棒性和靈活性。

然而,雖然其表現出色,但也存在一些潛在的限制。首先,盡管它在單一模態情況下具有良好的性能,但它在設計上仍旨在處理多模態數據,這可能意味著在純粹的單一模態任務上可能不如專門為該任務設計的模型。其次,它的性能依賴于學習到的通道權重,這可能在某些極端情況下引入噪聲或過擬合。

在此基礎上,為了進一步創新和提高性能,我們可以考慮以下幾個方向:

  1. 深入探索融合策略:盡管CNW是一個有效的融合策略,但仍然有可能找到其他更強大的策略,或者將多個策略結合以實現更強的表現。
  2. 模型正則化:為了防止過擬合,我們可以考慮引入更先進的正則化技術或增強數據。
  3. 多模態數據的先進表示:除了直接的特征融合,我們還可以探索如何更有效地表示和處理多模態數據,例如通過更深入地理解每種模態的語義內容。

綜上所述,雖然UniBEV方法在多模態3D目標檢測任務中取得了很大的成功,但仍有進一步提高和創新的空間,這為未來的研究提供了廣闊的機會。

結論分析

在本文中,我們提出了UniBEV,一種新穎且高效的3D目標檢測方法,特別強調了在多模態場景中的LiDAR和相機數據的融合。通過獨特的通道歸一化權重融合策略,該方法實現了對不同信息來源的動態權重分配,確保了在多種輸入情境下的強大性能。實驗結果不僅展示了UniBEV在多模態數據上的優勢,而且還顯示了其在單一模態輸入下的出色表現,證明了其在3D目標檢測任務上的魯棒性和靈活性。盡管該方法已經取得了很大的進步,但仍然存在進一步探索和優化的空間,以更好地適應不斷變化和發展的應用場景。總的來說,UniBEV為多模態3D目標檢測領域開辟了新的可能性,為未來的研究和應用提供了堅實的基礎。

原文鏈接:https://mp.weixin.qq.com/s/kHmdEhQynz41Un_kDNZO_A

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-09-18 11:41:26

論文3D

2025-04-07 03:30:00

2025-04-10 11:52:55

2025-04-10 06:30:00

2024-12-18 09:34:13

2025-02-12 10:20:00

2024-03-04 09:48:26

3D自動駕駛

2025-02-28 10:15:00

3D模型編碼器

2024-03-25 12:40:19

訓練模型

2025-04-07 06:30:00

2025-04-08 04:20:00

2024-02-21 09:25:50

3D自動駕駛

2025-04-11 00:16:00

模態編碼器MAECLIP

2025-04-07 05:30:00

2011-01-06 11:03:36

2024-01-22 09:54:09

模型數據

2024-10-22 13:33:48

2022-12-14 10:21:25

目標檢測框架

2024-04-02 09:17:50

AI數據開源

2022-07-28 12:18:40

視覺語言模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线区| 成人福利电影 | 国产精品久久久久久久久久久新郎 | 精品国产欧美一区二区 | 国产性网 | 亚洲av毛片成人精品 | 中文字幕国产精品 | 羞羞视频在线观看 | 免费黄色片在线观看 | 亚洲顶级毛片 | 一区二区三区亚洲视频 | 欧美男人天堂 | 国产在线精品一区二区三区 | 国产精品久久久av | 一级a性色生活片久久毛片 一级特黄a大片 | 日韩视频一区二区 | 欧美 视频 | 伊人伊人 | 日韩欧美在线不卡 | 韩日三级| 日韩视频在线一区 | 日韩精品一区二区三区在线 | 在线观看日韩精品视频 | 色欧美综合| 日韩超碰 | 日韩欧美三级 | 国产精品美女久久久久久免费 | 久久久精品国产 | 欧美视频第三页 | 91精品国产综合久久精品 | 亚洲精品国产成人 | 91av在线电影 | 成人一区在线观看 | 国产精品久久国产精品99 | 欧美日韩在线观看一区二区三区 | 精品久久久久久久久久久 | 欧美极品在线视频 | 日韩一区不卡 | 欧美精品一区二区在线观看 | 国产91网址 | 一区二区在线观看av |