成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2024 | 面向真實(shí)感場(chǎng)景生成的激光雷達(dá)擴(kuò)散模型

人工智能 智能汽車
本文提出了激光雷達(dá)擴(kuò)散模型(LiDMs),這是一個(gè)用于激光雷達(dá)場(chǎng)景生成的通用條件化框架。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

原標(biāo)題:Towards Realistic Scene Generation with LiDAR Diffusion Models

論文鏈接:https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

代碼鏈接:https://lidar-diffusion.github.io

作者單位:CMU 豐田研究院 南加州大學(xué)

圖片

論文思路:

擴(kuò)散模型(DMs)在逼真的圖像合成方面表現(xiàn)出色,但將其適配到激光雷達(dá)場(chǎng)景生成中卻面臨著重大挑戰(zhàn)。這主要是因?yàn)樵邳c(diǎn)空間運(yùn)作的DMs 難以保持激光雷達(dá)場(chǎng)景的曲線樣式和三維幾何特性,這消耗了它們大部分的表征能力。本文提出了激光雷達(dá)擴(kuò)散模型(LiDMs),這一模型通過(guò)在學(xué)習(xí)流程中融入幾何先驗(yàn),能夠從為捕獲激光雷達(dá)場(chǎng)景的真實(shí)感而定制的隱空間中生成逼真的激光雷達(dá)場(chǎng)景。本文的方法針對(duì)三個(gè)主要愿望:模式的真實(shí)性、幾何的真實(shí)性和物體的真實(shí)性。具體來(lái)說(shuō),本文引入了曲線壓縮來(lái)模擬現(xiàn)實(shí)世界的激光雷達(dá)模式,點(diǎn)級(jí)(point-wise)坐標(biāo)監(jiān)督來(lái)學(xué)習(xí)場(chǎng)景幾何,以及塊級(jí)(patch-wise)編碼以獲得完整的三維物體上下文。憑借這三個(gè)核心設(shè)計(jì),本文在無(wú)條件激光雷達(dá)生成的64線場(chǎng)景中建立了新的SOTA,同時(shí)與基于點(diǎn)的DMs相比保持了高效率(最高可快107倍)。此外,通過(guò)將激光雷達(dá)場(chǎng)景壓縮到隱空間,本文使 DMs 能夠在各種條件下控制,例如語(yǔ)義地圖、相機(jī)視圖和文本提示。

主要貢獻(xiàn):

本文提出了一種新穎的激光雷達(dá)擴(kuò)散模型(LiDM),這是一種生成模型,能夠用于基于任意輸入條件的逼真激光雷達(dá)場(chǎng)景生成。據(jù)本文所知,這是第一個(gè)能夠從多模態(tài)條件生成激光雷達(dá)場(chǎng)景的方法。

本文引入了曲線級(jí)壓縮以保持逼真的激光雷達(dá)模式,點(diǎn)級(jí)坐標(biāo)監(jiān)督以規(guī)范場(chǎng)景級(jí)幾何的模型,并且引入了塊級(jí)編碼以完全捕捉3D物體的上下文。

本文引入了三個(gè)指標(biāo),用于在感知空間中全面且定量地評(píng)估生成的激光雷達(dá)場(chǎng)景質(zhì)量,比較包括距離圖像、稀疏體積和點(diǎn)云等多種表示形式。

本文的方法在64線激光雷達(dá)場(chǎng)景的無(wú)條件場(chǎng)景合成上實(shí)現(xiàn)了最新水平,并且相比于基于點(diǎn)的擴(kuò)散模型實(shí)現(xiàn)了高達(dá)107倍的速度提升。

網(wǎng)絡(luò)設(shè)計(jì):

近年來(lái),條件生成模型的發(fā)展迅猛,這些模型能夠生成視覺(jué)上吸引人且高度逼真的圖像。在這些模型中,擴(kuò)散模型(DMs)憑借其無(wú)可挑剔的性能,已經(jīng)成為最受歡迎的方法之一。為了實(shí)現(xiàn)任意條件下的生成,隱擴(kuò)散模型(LDMs)[51] 結(jié)合了交叉注意力機(jī)制和卷積自編碼器,以生成高分辨率圖像。其后續(xù)擴(kuò)展(例如,Stable Diffusion [2], Midjourney [1], ControlNet [72])進(jìn)一步增強(qiáng)了其條件圖像合成的潛力。

這一成功引發(fā)了本文的思考:我們能否將可控的擴(kuò)散模型(DMs)應(yīng)用于自動(dòng)駕駛和機(jī)器人技術(shù)中的激光雷達(dá)場(chǎng)景生成?例如,給定一組邊界框,這些模型能否合成相應(yīng)的激光雷達(dá)場(chǎng)景,從而將這些邊界框轉(zhuǎn)化為高質(zhì)量且昂貴的標(biāo)注數(shù)據(jù)?或者,是否有可能僅從一組圖像生成一個(gè)3D場(chǎng)景?甚至更有野心地,我們能設(shè)計(jì)出一個(gè)由語(yǔ)言驅(qū)動(dòng)的激光雷達(dá)生成器來(lái)進(jìn)行可控模擬嗎?為了回答這些交織在一起的問(wèn)題,本文的目標(biāo)是設(shè)計(jì)出能夠結(jié)合多種條件(例如,布局、相機(jī)視角、文本)來(lái)生成逼真激光雷達(dá)場(chǎng)景的擴(kuò)散模型。

為此,本文從最近自動(dòng)駕駛領(lǐng)域的擴(kuò)散模型(DMs)工作中獲取了一些見(jiàn)解。在[75]中,介紹了一種基于點(diǎn)的擴(kuò)散模型(即LiDARGen),用于無(wú)條件的激光雷達(dá)場(chǎng)景生成。然而,這個(gè)模型往往會(huì)產(chǎn)生嘈雜的背景(如道路、墻壁)和模糊不清的物體(如汽車),導(dǎo)致生成的激光雷達(dá)場(chǎng)景與現(xiàn)實(shí)情況相去甚遠(yuǎn)(參見(jiàn)圖1)。此外,在沒(méi)有任何壓縮的情況下對(duì)點(diǎn)進(jìn)行擴(kuò)散,會(huì)使得推理過(guò)程計(jì)算速度變慢。而且,直接應(yīng)用 patch-based 擴(kuò)散模型(即 Latent Diffusion [51])到激光雷達(dá)場(chǎng)景生成,無(wú)論是在質(zhì)量上還是數(shù)量上,都未能達(dá)到令人滿意的性能(參見(jiàn)圖1)。

為了實(shí)現(xiàn)條件化的逼真激光雷達(dá)場(chǎng)景生成,本文提出了一種基于曲線的生成器,稱為激光雷達(dá)擴(kuò)散模型(LiDMs),以回答上述問(wèn)題并解決近期工作中的不足。LiDMs 能夠處理任意條件,例如邊界框、相機(jī)圖像和語(yǔ)義地圖。LiDMs 利用距離圖像作為激光雷達(dá)場(chǎng)景的表征,這在各種下游任務(wù)中非常普遍,如檢測(cè)[34, 43]、語(yǔ)義分割[44, 66]以及生成[75]。這一選擇是基于距離圖像與點(diǎn)云之間可逆且無(wú)損的轉(zhuǎn)換,以及從高度優(yōu)化的二維卷積操作中獲得的顯著優(yōu)勢(shì)。為了在擴(kuò)散過(guò)程中把握激光雷達(dá)場(chǎng)景的語(yǔ)義和概念本質(zhì),本文的方法在擴(kuò)散過(guò)程之前,將激光雷達(dá)場(chǎng)景的編碼點(diǎn)轉(zhuǎn)換到一個(gè)感知等效的隱空間(perceptually equivalent latent space)中。

為了進(jìn)一步提高真實(shí)世界激光雷達(dá)數(shù)據(jù)的逼真模擬效果,本文專注于三個(gè)關(guān)鍵組成部分:模式真實(shí)性、幾何真實(shí)性和物體真實(shí)性。首先,本文利用曲線壓縮在自動(dòng)編碼過(guò)程中保持點(diǎn)的曲線圖案,這一做法受到[59]的啟發(fā)。其次,為了實(shí)現(xiàn)幾何真實(shí)性,本文引入了點(diǎn)級(jí)坐標(biāo)監(jiān)督,以教會(huì)本文的自編碼器理解場(chǎng)景級(jí)別的幾何結(jié)構(gòu)。最后,本文通過(guò)增加額外的塊級(jí)下采樣策略來(lái)擴(kuò)大感受野,以捕捉視覺(jué)上較大物體的完整上下文。通過(guò)這些提出的模塊增強(qiáng),所產(chǎn)生的感知空間使得擴(kuò)散模型能夠高效地合成高質(zhì)量的激光雷達(dá)場(chǎng)景(參見(jiàn)圖1),同時(shí)在性能上也表現(xiàn)出色,與基于點(diǎn)的擴(kuò)散模型相比速度提升了107倍(在一臺(tái)NVIDIA RTX 3090上評(píng)估),并支持任意類型的基于圖像和基于 token 的條件。

圖片

圖1. 本文的方法(LiDM)在無(wú)條件的激光雷達(dá)逼真場(chǎng)景生成方面確立了新的SOTA,并標(biāo)志著從不同輸入模態(tài)生成條件化激光雷達(dá)場(chǎng)景方向上的一個(gè)里程碑。

圖2. 64線數(shù)據(jù)上 LiDMs 的概覽,包括三個(gè)部分:激光雷達(dá)壓縮(參見(jiàn)第3.3節(jié)和3.5節(jié))、多模態(tài)條件化(參見(jiàn)第3.4節(jié))以及激光雷達(dá)擴(kuò)散(參見(jiàn)第3.5節(jié))。

實(shí)驗(yàn)結(jié)果:

圖3. 在64線場(chǎng)景下,來(lái)自 LiDARGen [75]、Latent Diffusion [51] 以及本文的 LiDMs 的例子。

圖4. 在32線場(chǎng)景下,來(lái)自本文 LiDMs 的例子。

圖5. 在SemanticKITTI [5]數(shù)據(jù)集上,用于語(yǔ)義地圖到激光雷達(dá)生成的本文的 LiDM 的例子。

圖6. 在KITTI-360 [37]數(shù)據(jù)集上,用于條件相機(jī)到激光雷達(dá)生成的 LiDM 的例子。橙色框表示輸入圖像所覆蓋的區(qū)域。對(duì)于每個(gè)場(chǎng)景,KITTI-360提供一個(gè)視角,它只覆蓋了場(chǎng)景的一部分。因此,LiDM 對(duì)相機(jī)覆蓋的區(qū)域執(zhí)行條件生成,對(duì)其余未觀測(cè)到的區(qū)域執(zhí)行無(wú)條件生成。

圖7. 在64線場(chǎng)景下,用于 zero-shot 文本到激光雷達(dá)生成的 LiDM 的例子。橙色虛線框起的區(qū)域表示受條件影響的區(qū)域,綠色框突出顯示了可能與提示詞相關(guān)聯(lián)的物體。

圖8. 總體縮放因子()與采樣質(zhì)量(FRID和FSVD)的對(duì)比。本文在KITTI-360 [37]數(shù)據(jù)集上比較了不同規(guī)模的曲線級(jí)編碼(Curve)、塊級(jí)編碼(Patch)以及帶有一(C+1P)或兩(C+2P)階段塊級(jí)編碼的曲線級(jí)編碼。

圖9. LiDM 的例子,包括有或沒(méi)有點(diǎn)級(jí)監(jiān)督,如第3.3節(jié)所提出的。

圖片

總結(jié):

本文提出了激光雷達(dá)擴(kuò)散模型(LiDMs),這是一個(gè)用于激光雷達(dá)場(chǎng)景生成的通用條件化框架。本文的設(shè)計(jì)著重于保留曲線狀的圖案以及場(chǎng)景級(jí)別和物體級(jí)別的幾何結(jié)構(gòu),為擴(kuò)散模型設(shè)計(jì)了一個(gè)高效的隱空間,以實(shí)現(xiàn)激光雷達(dá)逼真生成。這種設(shè)計(jì)使得本文的 LiDMs 在64線場(chǎng)景下能夠在無(wú)條件生成方面取得有競(jìng)爭(zhēng)力的性能,并在條件生成方面達(dá)到了最先進(jìn)的水平,可以使用多種條件對(duì) LiDMs 進(jìn)行控制,包括語(yǔ)義地圖、相機(jī)視圖和文本提示。據(jù)本文所知,本文的方法是首次成功將條件引入到激光雷達(dá)生成中的方法。

引用:

@inproceedings{ran2024towards,
title={Towards Realistic Scene Generation with LiDAR Diffusion Models},
author={Ran, Haoxi and Guizilini, Vitor and Wang, Yue},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2024}
}

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-13 13:49:00

模型訓(xùn)練

2024-05-09 09:34:53

雷達(dá)數(shù)據(jù)

2025-04-09 08:23:49

2023-09-08 11:55:19

雷達(dá)視覺(jué)

2011-04-27 13:25:56

佳能傳真機(jī)用戶體驗(yàn)

2012-06-26 10:05:40

程序員

2021-06-01 09:57:39

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2024-04-12 10:46:26

2024-02-07 09:31:19

自動(dòng)駕駛3D

2019-04-24 23:02:25

激光雷達(dá)3D檢測(cè)

2022-01-04 17:52:13

激光雷達(dá)高精地圖

2022-01-13 13:38:29

激光雷達(dá)車燈

2023-05-22 10:00:09

雷達(dá)激光

2024-04-15 10:30:59

自動(dòng)駕駛框架

2023-01-31 15:31:36

2024-04-19 12:38:20

3D檢測(cè)

2023-09-06 09:59:12

雷達(dá)技術(shù)

2023-05-09 11:28:03

雷達(dá)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 在线激情视频 | 中文字幕一区二区三区四区五区 | 亚洲免费精品一区 | 久久精片 | 可以免费观看的av片 | 久久亚洲一区 | 国产日韩免费观看 | 中文字幕在线第二页 | 午夜一级大片 | 中文字幕一区二区三区不卡 | 国产美女视频黄a视频免费 国产精品福利视频 | 男人的天堂在线视频 | 久久99精品久久久久久国产越南 | 久久99视频 | 中文精品视频 | 91精品国产综合久久精品 | 亚洲国产成人精品女人久久久 | 欧美成年网站 | av资源中文在线天堂 | 久久精品成人 | 黄色网址免费在线观看 | 国产精品久久精品 | 特级做a爰片毛片免费看108 | 亚洲精品一区二区网址 | 91在线看网站 | 国产视频福利一区 | 精品三级在线观看 | 精品成人一区二区 | 天天天天天天天干 | av网站在线看 | 高清人人天天夜夜曰狠狠狠狠 | 盗摄精品av一区二区三区 | 777777777亚洲妇女 | 亚洲男人的天堂网站 | 99re视频在线| 中文字幕在线三区 | 一级黄在线观看 | 国产乱码精品一区二区三区五月婷 | 久草网址 | 99色播| 欧美激情综合五月色丁香小说 |