量產(chǎn)殺器!P-Mapnet:利用低精地圖SDMap先驗(yàn),建圖性能暴力提升近20個(gè)點(diǎn)!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫(xiě)在前面
在線HD Map生成算法是當(dāng)前自動(dòng)駕駛系統(tǒng)擺脫對(duì)高精地圖依賴(lài)的方法之一,現(xiàn)有的算法在遠(yuǎn)距離范圍下的感知表現(xiàn)依然較差。為此,我們提出了P-MapNet,其中的“P”強(qiáng)調(diào)我們專(zhuān)注于融合地圖先驗(yàn)以提高模型性能。具體來(lái)說(shuō),我們利用了SDMap和HDMap中的先驗(yàn)信息:一方面,我們從OpenStreetMap中提取了弱對(duì)齊的SDMap數(shù)據(jù),并將其編碼為單獨(dú)的條件分支輸入。盡管改輸入與實(shí)際HD Map存在弱對(duì)齊的問(wèn)題,我們基于Cross-attention機(jī)制的架構(gòu)能夠自適應(yīng)地關(guān)注SDMap骨架,并帶來(lái)顯著的性能提升;另一方面,我們提出了一種用MAE來(lái)捕捉HDMap的先驗(yàn)分布的refine模塊,該模塊有助于讓生成的HD Map更符合實(shí)際Map的分布,有助于減小遮擋、偽影等影響。我們?cè)趎uScenes和Argoverse2數(shù)據(jù)集上進(jìn)行了廣泛的的實(shí)驗(yàn)。
圖 1
總結(jié)來(lái)說(shuō)我們的貢獻(xiàn)如下:
(1)我們的SDMap先驗(yàn)?zāi)軌蛱嵘诰€地圖生成性能,包含了柵格化(最多可提高18.73 mIoU)和矢量化(最多可提高8.50 mAP)兩種地圖表示。
(2)我們的HDMap先驗(yàn)?zāi)軌驅(qū)⒌貓D感知指標(biāo)提升最多6.34%。
(3)P-MapNet可以切換到不同的推理模式,以在精度和效率之間進(jìn)行權(quán)衡。
(4)P-MapNet是一個(gè)遠(yuǎn)距離HD Map生成的解決方案,對(duì)于較遠(yuǎn)的感知范圍能夠帶來(lái)更大的改進(jìn)。我們的代碼和模型已公開(kāi)發(fā)布在https://jike5.github.io/P-MapNet/。
相關(guān)工作回顧
(1)在線地圖生成
傳統(tǒng)的HD Map的制作主要包含SLAM建圖、自動(dòng)標(biāo)注、人工標(biāo)注等步驟[1],這導(dǎo)致了HD Map的成本高、鮮度有限。因此,在線地圖生成對(duì)于自動(dòng)駕駛系統(tǒng)是至關(guān)重要的。HDMapNet[2]將地圖元素通過(guò)柵格化進(jìn)行表示,使用pixel-wise的預(yù)測(cè)和啟發(fā)式后處理方法獲得矢量化的預(yù)測(cè)結(jié)果。最近的一些方法,如MapTR[4], PivotNet[3], Streammapnet[5]等則基于Transformer架構(gòu)實(shí)現(xiàn)了端到端的矢量化預(yù)測(cè),但這些方法僅使用傳感器輸入,在遮擋、極端天氣等復(fù)雜環(huán)境下性能仍有限。
(2)遠(yuǎn)距離地圖感知
為了讓在線地圖生成的結(jié)果能夠更好的被下游模塊使用,一些研究嘗試將地圖感知范圍進(jìn)一步拓展。SuperFusion[7]通過(guò)融合激光雷達(dá)和相機(jī),通過(guò)depth-aware BEV變換,實(shí)現(xiàn)了前向90m的遠(yuǎn)距離預(yù)測(cè)。NeuralMapPrior[8]通過(guò)維護(hù)和更新全局神經(jīng)地圖先驗(yàn)來(lái)增強(qiáng)當(dāng)前在線觀測(cè)的質(zhì)量、拓展感知的范圍。[6]通過(guò)將衛(wèi)星圖像與車(chē)載傳感器數(shù)據(jù)進(jìn)行特征聚合來(lái)獲得BEV特征,進(jìn)一步再進(jìn)行預(yù)測(cè)。MV-Map則專(zhuān)注于離線、長(zhǎng)距離的地圖生成,該方法通過(guò)聚合所有關(guān)聯(lián)幀特征,并使用神經(jīng)輻射場(chǎng)來(lái)對(duì)BEV特征進(jìn)行優(yōu)化。
概述P-MapNet
整體框架如圖 2所示。
圖 2
輸入: 系統(tǒng)輸入為點(diǎn)云: 、環(huán)視相機(jī):,其中 為環(huán)視相機(jī)數(shù)量。通常的HDMap生成任務(wù)(例如HDMapNet)可以定義為:
其中 表示特征提取, 表示segmentation head, 則是HDMap的預(yù)測(cè)結(jié)果。
我們所提出的P-MapNet融合了SD Map和HD Map先驗(yàn),這種新任務(wù)( setting)可以表示為:
其中, 表示SDMap先驗(yàn), 表示本文所提的refinement模塊。 模塊通過(guò)預(yù)訓(xùn)練的方式學(xué)習(xí)HD Map分布先驗(yàn)。類(lèi)似的,當(dāng)只使用SDMap先驗(yàn)時(shí),則得到 -only setting:
輸出:對(duì)于地圖生成任務(wù),通常有兩種地圖表示形式:柵格化和矢量化。在本文的研究中,由于本文所設(shè)計(jì)的兩個(gè)先驗(yàn)?zāi)K更適合柵格化輸出,因此我們主要集中在柵格化的表示上。
3.1 SDMap Prior 模塊
SDMap數(shù)據(jù)生成
本文基于nuScenes和Argoverse2數(shù)據(jù)集進(jìn)行研究,使用OpenStreetMap數(shù)據(jù)生成以上數(shù)據(jù)集對(duì)應(yīng)區(qū)域的SD Map數(shù)據(jù),并通過(guò)車(chē)輛GPS進(jìn)行坐標(biāo)系變換,以獲取對(duì)應(yīng)區(qū)域的SD Map。
BEV Query
如圖2中所示,我們首先分別對(duì)圖像數(shù)據(jù)進(jìn)行特征提取和視角轉(zhuǎn)換、對(duì)點(diǎn)云進(jìn)行特征提取,得到BEV特征。然后將BEV特征通過(guò)卷積網(wǎng)絡(luò)進(jìn)行下采樣后得到新的BEV特征:,將該特征圖展平得到BEV Query。
SD Map先驗(yàn)融合
對(duì)于SD Map數(shù)據(jù),通過(guò)卷積網(wǎng)絡(luò)進(jìn)行特征提取后,得到的特征 與BEV Query進(jìn)行Cross-attention機(jī)制:
經(jīng)過(guò)交叉注意力機(jī)制后得到的BEV特征通過(guò)segmentation head可以獲得地圖元素的初始預(yù)測(cè)。
3.2、HDMap Prior 模塊
直接將柵格化的HD Map作為原始MAE的輸入,MAE則會(huì)通過(guò)MSE Loss進(jìn)行訓(xùn)練,從而導(dǎo)致無(wú)法作為refinement模塊。因此在本文中,我們通過(guò)將MAE的輸出替換為我們的segmentation head。為了讓預(yù)測(cè)的地圖元素具有連續(xù)性和真實(shí)性(與實(shí)際HD Map的分布更貼近),我們使用了一個(gè)預(yù)訓(xùn)練的MAE模塊來(lái)進(jìn)行refine。訓(xùn)練該模塊包含兩步:第一步上使用自監(jiān)督學(xué)習(xí)訓(xùn)練MAE模塊來(lái)學(xué)習(xí)HD Map的分布,第二步是通過(guò)使用第一步得到的權(quán)重作為初始權(quán)重,對(duì)網(wǎng)絡(luò)的所有模塊進(jìn)行微調(diào)。
第一步預(yù)訓(xùn)練時(shí),從數(shù)據(jù)集中獲取的真實(shí)HD Map經(jīng)過(guò)隨機(jī)mask后作為網(wǎng)絡(luò)輸入 ,訓(xùn)練目標(biāo)則為補(bǔ)全HD Map:
第二步fine-tune時(shí), 則使用第一步預(yù)訓(xùn)練的權(quán)重作為初始權(quán)重,完整的網(wǎng)絡(luò)為:
4、實(shí)驗(yàn)
4.1 數(shù)據(jù)集和指標(biāo)
我們?cè)趦蓚€(gè)主流的數(shù)據(jù)集上進(jìn)行了評(píng)測(cè):nuScenes和Argoverse2。為了證明我們所提方法在遠(yuǎn)距離上的有效性,我們?cè)O(shè)置了在三種不同的探測(cè)距離:, , 。其中, 范圍中BEV Grid的分辨率為0.15m,另外兩種范圍下分辨率為0.3m。我們使用mIOU指標(biāo)來(lái)評(píng)估柵格化預(yù)測(cè)結(jié)果,使用mAP來(lái)評(píng)估矢量化預(yù)測(cè)結(jié)果。為了評(píng)估地圖的真實(shí)性,我們還使用了LPIPS指標(biāo)作為地圖感知指標(biāo)。
4.2 結(jié)果
與SOTA結(jié)果對(duì)比:我們對(duì)所提的方法與當(dāng)前SOTA方法在短距離(60m × 30m)和長(zhǎng)距離(90m × 30m)下的地圖生成結(jié)果進(jìn)行比較。如表II所示,我們的方法在與現(xiàn)有的僅視覺(jué)和多模態(tài)(RGB+LiDAR)方法相比表現(xiàn)出更優(yōu)越的性能。
我們?cè)诓煌嚯x和使用不同傳感器模式下,與HDMapNet [14] 進(jìn)行了性能比較,結(jié)果總結(jié)在表I和表III中。我們的方法在240m×60m范圍的mIOU上取得了13.4%改進(jìn)。隨著感知距離超出或甚至超過(guò)傳感器檢測(cè)范圍,SDMap先驗(yàn)的有效性變得更加顯著,從而驗(yàn)證了SDMap先驗(yàn)的功效。最后,我們利用HD地圖先驗(yàn)通過(guò)將初始預(yù)測(cè)結(jié)果精細(xì)化以使其更加真實(shí),并消除了錯(cuò)誤結(jié)果,進(jìn)一步帶來(lái)了性能提升。
HDMap先驗(yàn)的感知度量指標(biāo)。HDMap先驗(yàn)?zāi)K將網(wǎng)絡(luò)的初始預(yù)測(cè)映射到HD地圖的分布上,使其更加真實(shí)。為了評(píng)估HDMap先驗(yàn)?zāi)K輸出的真實(shí)性,我們利用了感知度量LPIPS 數(shù)值越低表示性能越好)進(jìn)行評(píng)測(cè)。如表IV所示,在 setting 中LPIPS指標(biāo)要比 -only setting 中的提升更大。
可視化: