量產(chǎn)殺器！P-Mapnet：利用低精地圖SDMap先驗(yàn)，建圖性能暴力提升近20個(gè)點(diǎn)！

作者：Zhou Jiang 2024-03-28 10:00:04

為大家分享北理工&清華最新的工作—P-Mapnet，利用低精度地圖大幅提升局部高精地圖性能，量產(chǎn)殺器！

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面

在線HD Map生成算法是當(dāng)前自動(dòng)駕駛系統(tǒng)擺脫對(duì)高精地圖依賴(lài)的方法之一，現(xiàn)有的算法在遠(yuǎn)距離范圍下的感知表現(xiàn)依然較差。為此，我們提出了P-MapNet，其中的“P”強(qiáng)調(diào)我們專(zhuān)注于融合地圖先驗(yàn)以提高模型性能。具體來(lái)說(shuō)，我們利用了SDMap和HDMap中的先驗(yàn)信息：一方面，我們從OpenStreetMap中提取了弱對(duì)齊的SDMap數(shù)據(jù)，并將其編碼為單獨(dú)的條件分支輸入。盡管改輸入與實(shí)際HD Map存在弱對(duì)齊的問(wèn)題，我們基于Cross-attention機(jī)制的架構(gòu)能夠自適應(yīng)地關(guān)注SDMap骨架，并帶來(lái)顯著的性能提升；另一方面，我們提出了一種用MAE來(lái)捕捉HDMap的先驗(yàn)分布的refine模塊，該模塊有助于讓生成的HD Map更符合實(shí)際Map的分布，有助于減小遮擋、偽影等影響。我們?cè)趎uScenes和Argoverse2數(shù)據(jù)集上進(jìn)行了廣泛的的實(shí)驗(yàn)。

圖 1

總結(jié)來(lái)說(shuō)我們的貢獻(xiàn)如下：

（1）我們的SDMap先驗(yàn)?zāi)軌蛱嵘诰€地圖生成性能，包含了柵格化（最多可提高18.73 mIoU）和矢量化（最多可提高8.50 mAP）兩種地圖表示。

（2）我們的HDMap先驗(yàn)?zāi)軌驅(qū)⒌貓D感知指標(biāo)提升最多6.34%。

（3）P-MapNet可以切換到不同的推理模式，以在精度和效率之間進(jìn)行權(quán)衡。

（4）P-MapNet是一個(gè)遠(yuǎn)距離HD Map生成的解決方案，對(duì)于較遠(yuǎn)的感知范圍能夠帶來(lái)更大的改進(jìn)。我們的代碼和模型已公開(kāi)發(fā)布在https://jike5.github.io/P-MapNet/。

概述P-MapNet

整體框架如圖 2所示。

圖 2

輸入： 系統(tǒng)輸入為點(diǎn)云：、環(huán)視相機(jī)：，其中為環(huán)視相機(jī)數(shù)量。通常的HDMap生成任務(wù)(例如HDMapNet)可以定義為：

其中表示特征提取，表示segmentation head，則是HDMap的預(yù)測(cè)結(jié)果。

我們所提出的P-MapNet融合了SD Map和HD Map先驗(yàn)，這種新任務(wù)( setting)可以表示為：

其中，表示SDMap先驗(yàn)，表示本文所提的refinement模塊。模塊通過(guò)預(yù)訓(xùn)練的方式學(xué)習(xí)HD Map分布先驗(yàn)。類(lèi)似的，當(dāng)只使用SDMap先驗(yàn)時(shí)，則得到 -only setting：

輸出：對(duì)于地圖生成任務(wù)，通常有兩種地圖表示形式：柵格化和矢量化。在本文的研究中，由于本文所設(shè)計(jì)的兩個(gè)先驗(yàn)?zāi)K更適合柵格化輸出，因此我們主要集中在柵格化的表示上。

3.1 SDMap Prior 模塊

SDMap數(shù)據(jù)生成

本文基于nuScenes和Argoverse2數(shù)據(jù)集進(jìn)行研究，使用OpenStreetMap數(shù)據(jù)生成以上數(shù)據(jù)集對(duì)應(yīng)區(qū)域的SD Map數(shù)據(jù)，并通過(guò)車(chē)輛GPS進(jìn)行坐標(biāo)系變換，以獲取對(duì)應(yīng)區(qū)域的SD Map。

BEV Query

如圖2中所示，我們首先分別對(duì)圖像數(shù)據(jù)進(jìn)行特征提取和視角轉(zhuǎn)換、對(duì)點(diǎn)云進(jìn)行特征提取，得到BEV特征。然后將BEV特征通過(guò)卷積網(wǎng)絡(luò)進(jìn)行下采樣后得到新的BEV特征：，將該特征圖展平得到BEV Query。

SD Map先驗(yàn)融合

對(duì)于SD Map數(shù)據(jù)，通過(guò)卷積網(wǎng)絡(luò)進(jìn)行特征提取后，得到的特征與BEV Query進(jìn)行Cross-attention機(jī)制：

經(jīng)過(guò)交叉注意力機(jī)制后得到的BEV特征通過(guò)segmentation head可以獲得地圖元素的初始預(yù)測(cè)。

3.2、HDMap Prior 模塊

直接將柵格化的HD Map作為原始MAE的輸入，MAE則會(huì)通過(guò)MSE Loss進(jìn)行訓(xùn)練，從而導(dǎo)致無(wú)法作為refinement模塊。因此在本文中，我們通過(guò)將MAE的輸出替換為我們的segmentation head。為了讓預(yù)測(cè)的地圖元素具有連續(xù)性和真實(shí)性(與實(shí)際HD Map的分布更貼近)，我們使用了一個(gè)預(yù)訓(xùn)練的MAE模塊來(lái)進(jìn)行refine。訓(xùn)練該模塊包含兩步：第一步上使用自監(jiān)督學(xué)習(xí)訓(xùn)練MAE模塊來(lái)學(xué)習(xí)HD Map的分布，第二步是通過(guò)使用第一步得到的權(quán)重作為初始權(quán)重，對(duì)網(wǎng)絡(luò)的所有模塊進(jìn)行微調(diào)。

第一步預(yù)訓(xùn)練時(shí)，從數(shù)據(jù)集中獲取的真實(shí)HD Map經(jīng)過(guò)隨機(jī)mask后作為網(wǎng)絡(luò)輸入，訓(xùn)練目標(biāo)則為補(bǔ)全HD Map：

第二步fine-tune時(shí)，則使用第一步預(yù)訓(xùn)練的權(quán)重作為初始權(quán)重，完整的網(wǎng)絡(luò)為：

4、實(shí)驗(yàn)

4.1 數(shù)據(jù)集和指標(biāo)

我們?cè)趦蓚€(gè)主流的數(shù)據(jù)集上進(jìn)行了評(píng)測(cè)：nuScenes和Argoverse2。為了證明我們所提方法在遠(yuǎn)距離上的有效性，我們?cè)O(shè)置了在三種不同的探測(cè)距離：, , 。其中，范圍中BEV Grid的分辨率為0.15m，另外兩種范圍下分辨率為0.3m。我們使用mIOU指標(biāo)來(lái)評(píng)估柵格化預(yù)測(cè)結(jié)果，使用mAP來(lái)評(píng)估矢量化預(yù)測(cè)結(jié)果。為了評(píng)估地圖的真實(shí)性，我們還使用了LPIPS指標(biāo)作為地圖感知指標(biāo)。

4.2 結(jié)果

與SOTA結(jié)果對(duì)比：我們對(duì)所提的方法與當(dāng)前SOTA方法在短距離（60m × 30m）和長(zhǎng)距離（90m × 30m）下的地圖生成結(jié)果進(jìn)行比較。如表II所示，我們的方法在與現(xiàn)有的僅視覺(jué)和多模態(tài)（RGB+LiDAR）方法相比表現(xiàn)出更優(yōu)越的性能。

我們?cè)诓煌嚯x和使用不同傳感器模式下，與HDMapNet [14] 進(jìn)行了性能比較，結(jié)果總結(jié)在表I和表III中。我們的方法在240m×60m范圍的mIOU上取得了13.4%改進(jìn)。隨著感知距離超出或甚至超過(guò)傳感器檢測(cè)范圍，SDMap先驗(yàn)的有效性變得更加顯著，從而驗(yàn)證了SDMap先驗(yàn)的功效。最后，我們利用HD地圖先驗(yàn)通過(guò)將初始預(yù)測(cè)結(jié)果精細(xì)化以使其更加真實(shí)，并消除了錯(cuò)誤結(jié)果，進(jìn)一步帶來(lái)了性能提升。

HDMap先驗(yàn)的感知度量指標(biāo)。HDMap先驗(yàn)?zāi)K將網(wǎng)絡(luò)的初始預(yù)測(cè)映射到HD地圖的分布上，使其更加真實(shí)。為了評(píng)估HDMap先驗(yàn)?zāi)K輸出的真實(shí)性，我們利用了感知度量LPIPS 數(shù)值越低表示性能越好）進(jìn)行評(píng)測(cè)。如表IV所示，在 setting 中LPIPS指標(biāo)要比 -only setting 中的提升更大。