成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直接干到未來!浙大&華為Drive-OccWorld:且看世界模型如何拿下端到端!

人工智能 智能汽車
今天為大家分享浙大&華為最新的工作Drive-OccWorld!基于Occ世界模型的端到端自動(dòng)駕駛,直接干到未來!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面 & 筆者的個(gè)人理解

世界模型基于各種自車行為預(yù)測潛在的未來狀態(tài)。它們嵌入了關(guān)于駕駛環(huán)境的廣泛知識(shí),促進(jìn)了安全和可擴(kuò)展的自動(dòng)駕駛。大多數(shù)現(xiàn)有方法主要關(guān)注數(shù)據(jù)生成或世界模型的預(yù)訓(xùn)練范式。與上述先前的工作不同,我們提出了Drive-OccWorld,它將以視覺為中心的4D預(yù)測世界模型應(yīng)用于自動(dòng)駕駛的端到端規(guī)劃。具體來說,我們首先在內(nèi)存模塊中引入語義和運(yùn)動(dòng)條件規(guī)范化,該模塊從歷史BEV嵌入中積累語義和動(dòng)態(tài)信息。然后將這些BEV特征傳輸?shù)绞澜缃獯a器,以進(jìn)行未來時(shí)刻的OCC和flow預(yù)測,同時(shí)考慮幾何和時(shí)空建模。此外我們在世界模型中注入靈活的動(dòng)作條件,如速度、轉(zhuǎn)向角、軌跡和命令,以實(shí)現(xiàn)可控發(fā)電,并促進(jìn)更廣泛的下游應(yīng)用。此外,我們探索將4D世界模型的生成能力與端到端規(guī)劃相結(jié)合,從而能夠使用基于職業(yè)的成本函數(shù)對未來狀態(tài)進(jìn)行連續(xù)預(yù)測并選擇最佳軌跡。對nuScenes數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,Drive-OccWorld可以生成合理可控的4D占用,為推動(dòng)世界生成和端到端規(guī)劃開辟了新途徑。

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  • 提出了Drive OccWorld,這是一個(gè)以視覺為中心的世界模型,旨在預(yù)測4D Occ和flow,我們探索了世界模型的未來預(yù)測能力與端到端規(guī)劃的整合。
  • 設(shè)計(jì)了一個(gè)簡單而高效的語義和運(yùn)動(dòng)條件歸一化模塊,用于語義增強(qiáng)和運(yùn)動(dòng)補(bǔ)償,提高了預(yù)測和規(guī)劃性能。
  • 提供了一個(gè)統(tǒng)一的調(diào)節(jié)接口,將靈活的動(dòng)作條件集成到后代中,增強(qiáng)了Drive OccWorld的可控性,并促進(jìn)了更廣泛的下游應(yīng)用。

相關(guān)工作回顧

World Models for Autonomous Driving

基于未來狀態(tài)的生成模式,現(xiàn)有的自動(dòng)駕駛世界模型主要可分為基于2D圖像的模型和基于3D體積的模型。2D Image-based Models:旨在使用參考圖像和其他條件(例如動(dòng)作、HDMaps、3D框和文本提示)預(yù)測未來的駕駛視頻。GAIA-1使用自回歸Transformer作為世界模型,根據(jù)過去的圖像、文本和動(dòng)作標(biāo)記預(yù)測未來的圖像標(biāo)記。其他方法,如DriveDreamer、ADriver-I、DrivengDiffusion,GenAD、Vista、Delphi和Drive-WM,使用潛在擴(kuò)散模型(LDMs)生成圖像到輸出視頻。這些方法側(cè)重于設(shè)計(jì)模塊,將動(dòng)作、BEV布局和其他先驗(yàn)元素納入去噪過程,從而產(chǎn)生更連貫、更合理的未來視頻代。

3D Volume-based Models:以點(diǎn)云或占領(lǐng)的形式預(yù)測未來的狀態(tài)。Copilot4D使用VQVAE對LiDAR觀測進(jìn)行標(biāo)記,并通過離散擴(kuò)散預(yù)測未來的點(diǎn)云。ViDAR實(shí)現(xiàn)了視覺點(diǎn)云預(yù)測任務(wù),以預(yù)訓(xùn)練視覺編碼器。UnO根據(jù)激光雷達(dá)數(shù)據(jù)預(yù)測了一個(gè)具有自我監(jiān)督功能的持續(xù)占領(lǐng)區(qū)。OccWorld和OccSora使用場景標(biāo)記器壓縮職業(yè)輸入,并使用生成變換器預(yù)測未來的職業(yè)。UniWorld和DriveWorld提出通過4D職業(yè)重建進(jìn)行4D預(yù)訓(xùn)練。

在這項(xiàng)工作中通過輸入動(dòng)作條件來實(shí)現(xiàn)動(dòng)作可控生成,并將這種生成能力與端到端的安全駕駛規(guī)劃者相結(jié)合,從而研究了世界模型的潛在應(yīng)用。

Drive-OccWorld方法詳解

準(zhǔn)備工作

端到端的自動(dòng)駕駛模型旨在直接基于傳感器輸入和自我行為來控制車輛(即規(guī)劃軌跡)。從形式上講,給定歷史傳感器觀測值和h個(gè)時(shí)間戳上的自我軌跡,端到端模型A預(yù)測了未來f個(gè)時(shí)間戳的理想自車軌跡:

圖片

駕駛世界模型W可以被視為一種生成模型,它將先前的觀察和自車行為作為輸入,生成環(huán)境的合理未來狀態(tài):

圖片

鑒于世界模型預(yù)測未來狀態(tài)的能力,我們建議將其與規(guī)劃器集成,以充分利用世界模型在端到端規(guī)劃中的能力。具體來說引入了一個(gè)名為Drive-OccWorld的自回歸框架,該框架由一個(gè)用于預(yù)測未來職業(yè)和流動(dòng)狀態(tài)的生成世界模型W和一個(gè)基于職業(yè)的規(guī)劃器P組成,該規(guī)劃器P使用成本函數(shù)來基于評(píng)估未來預(yù)測來選擇最佳軌跡。從形式上講,我們將Drive OccWorld公式化如下,它自動(dòng)回歸預(yù)測下一個(gè)時(shí)間戳的未來狀態(tài)和軌跡:

圖片

在接下來的部分中,我們將詳細(xì)介紹世界模型的結(jié)構(gòu),為W配備動(dòng)作可控生成,并將其與P集成以進(jìn)行端到端規(guī)劃。

4D Forecasting with World Model

圖片

如圖2所示,Drive-OccWorld包括三個(gè)組件:(1)歷史編碼器WE,它將歷史相機(jī)圖像作為輸入,提取多視圖幾何特征,并將其轉(zhuǎn)換為BEV嵌入。根據(jù)之前的工作,我們使用視覺BEV編碼器作為我們的歷史編碼器。(2)具有語義和運(yùn)動(dòng)條件歸一化的記憶隊(duì)列WM,它在潛在空間中采用簡單而高效的歸一化操作來聚合語義信息并補(bǔ)償動(dòng)態(tài)運(yùn)動(dòng),從而積累更具代表性的BEV特征。(3)世界解碼器WD,其通過具有歷史特征的時(shí)間建模來提取世界知識(shí),以預(yù)測未來的語義職業(yè)和流動(dòng)。靈活的動(dòng)作條件可以注入WD,以實(shí)現(xiàn)可控生成。集成了基于occ的規(guī)劃器P,用于連續(xù)預(yù)測和規(guī)劃。

Semantic- and Motion-Conditional Normalization旨在通過結(jié)合語義和動(dòng)態(tài)信息來增強(qiáng)歷史BEV嵌入。

如圖3所示,我們實(shí)現(xiàn)了一個(gè)輕量級(jí)的預(yù)測頭來生成體素語義概率:

圖片

在運(yùn)動(dòng)條件歸一化中,我們補(bǔ)償自車和其他代理在不同時(shí)間戳上的運(yùn)動(dòng)。具體來說,自車姿態(tài)變換矩陣(考慮了自我載體從時(shí)間戳-t到+t的移動(dòng))被展平并編碼到MLP處理的嵌入中,以生成仿射變換參數(shù)。

具體來說,WD將可學(xué)習(xí)的BEV查詢作為輸入,并執(zhí)行可變形的自注意、與歷史嵌入的時(shí)間交叉注意、與動(dòng)作條件的條件交叉注意力以及前饋網(wǎng)絡(luò)來生成未來的BEV嵌入。條件層在BEV查詢和動(dòng)作嵌入之間執(zhí)行交叉注意力,這將在下一節(jié)中說明,將動(dòng)作可控信息注入預(yù)測過程。在獲得下一個(gè)BEV嵌入后,預(yù)測頭利用通道到高度操作來預(yù)測語義占用和3D backward centripetal flow。

Action-Controllable Generation

由于現(xiàn)實(shí)世界的固有復(fù)雜性,自我載體的運(yùn)動(dòng)狀態(tài)對于世界模型理解主體如何與其環(huán)境交互至關(guān)重要。因此,為了全面涵蓋環(huán)境,我們建議利用各種行動(dòng)條件,使Drive OccWorld具有可控生成的能力。

Unified Conditioning Interface旨在將異質(zhì)動(dòng)作條件整合到連貫的嵌入中。我們首先將所需的動(dòng)作編碼到傅里葉嵌入中(,通過額外的學(xué)習(xí)投影將其連接和融合,以與WD中條件交叉注意力層的維度對齊。該方法有效地將靈活的條件集成到可控的生成中。

End-to-End Planning with World Model

現(xiàn)有的世界模型主要關(guān)注數(shù)據(jù)生成或自動(dòng)駕駛的相關(guān)范式。盡管最近的一項(xiàng)開創(chuàng)性工作Drive WM提出將生成的駕駛視頻與基于圖像的獎(jiǎng)勵(lì)函數(shù)相結(jié)合來規(guī)劃軌跡,但環(huán)境的幾何3D特征并沒有完全用于運(yùn)動(dòng)規(guī)劃。如圖2所示,鑒于我們的世界模型提供的未來occ預(yù)測能力,我們引入了一個(gè)基于occ的規(guī)劃器,對代理和可駕駛區(qū)域的占用網(wǎng)格進(jìn)行采樣,以確定安全約束。此外,未來的BEV嵌入用于學(xué)習(xí)考慮細(xì)粒度3D結(jié)構(gòu)的成本量,為安全規(guī)劃提供更全面的環(huán)境信息。

基于占用的成本函數(shù)旨在確保自駕車的安全駕駛。它由多個(gè)成本因素組成:(1)代理安全成本限制了自車與其他代理(如行人和車輛)的碰撞。它懲罰與其他道路使用者占用的網(wǎng)格重疊的軌跡候選者。此外,在橫向或縱向距離方面與其他主體太近的軌跡也受到限制,以避免潛在的碰撞。(2)道路安全成本確保車輛在道路上行駛。它從占用預(yù)測中提取道路布局,懲罰超出可駕駛區(qū)域的軌跡。(3)學(xué)習(xí)量成本受ST-P3的啟發(fā)。它使用基于F bev+t的可學(xué)習(xí)頭部來生成成本量,從而對復(fù)雜的世界進(jìn)行更全面的評(píng)估。

規(guī)劃損失Lplan由三個(gè)部分組成:引入的max-margin損失,用于約束軌跡候選的安全性;用于模仿學(xué)習(xí)的l2損失;以及確保規(guī)劃軌跡避開障礙物占用的網(wǎng)格的碰撞損失。

實(shí)驗(yàn)結(jié)果

Main Results of 4D Occupancy Forecasting

Inflated Occupancy and Flow Forecasting。表1展示了nuScenes數(shù)據(jù)集上Inflated的占用率和流量預(yù)測的比較。盡管Drive OccWorld在當(dāng)前時(shí)刻的結(jié)果mIoUc上表現(xiàn)稍差,但它在mIoUf上的表現(xiàn)比Cam4DOcc高出2.0%,表明其預(yù)測未來狀態(tài)的能力更強(qiáng)。

圖片

Fine-grained Occupancy Forecasting:表2展示了nuScenes占用率的細(xì)粒度占用預(yù)測比較。結(jié)果表明,與所有其他方法相比,Drive OccWorld實(shí)現(xiàn)了最佳性能。值得注意的是,對于當(dāng)前和未來時(shí)間戳的一般可移動(dòng)對象,Drive OccWorldP在mIoU上分別比Cam4DOcc高出1.6%和1.1%,這表明它能夠準(zhǔn)確定位可移動(dòng)對象以進(jìn)行安全規(guī)劃。圖4提供了跨框架的職業(yè)預(yù)測和流量預(yù)測的定性結(jié)果。

圖片

可控性。在表3中,我們考察了各種作用條件下的可控性。與基線變量相比,注入任何動(dòng)作條件都會(huì)產(chǎn)生收益。值得注意的是,低水平條件,即軌跡和速度,為未來的預(yù)測提供了更大的改進(jìn)。相比之下,最高級(jí)別的命令條件改善了當(dāng)前時(shí)間戳的mIoUc結(jié)果,但對未來的預(yù)測提供了有限的增強(qiáng)。可以這么理解,結(jié)合更多的低級(jí)條件,如軌跡,可以為自車提供更具體的行動(dòng),以了解其與世界的相互作用,從而有效地增強(qiáng)未來的預(yù)測。

圖片

有趣的是,如表4所示,與使用預(yù)測軌跡相比,使用地面真實(shí)軌跡作為行動(dòng)條件可以獲得更好的規(guī)劃結(jié)果。相反,在入住率和流量預(yù)測質(zhì)量方面觀察到相反的趨勢。表3中第2行和第7行的比較表明,使用預(yù)測軌跡而不是地面真實(shí)軌跡可以略微提高預(yù)測質(zhì)量。表1和表2中的結(jié)果進(jìn)一步支持了這一觀察結(jié)果,其中Drive OccWorldP的表現(xiàn)優(yōu)于Drive OccWorldA。我們認(rèn)為,在使用預(yù)測軌跡時(shí),對BEV特征施加的軌跡約束可能會(huì)導(dǎo)致占用率和流量質(zhì)量的性能提高。這一發(fā)現(xiàn)表明,應(yīng)用軌跡預(yù)測也可以提高感知性能,這與UniAD的結(jié)果一致。

圖片

此外,在圖5中,我們展示了Drive OccWorld基于特定自我運(yùn)動(dòng)模擬各種未來職業(yè)的能力,展示了Drive OccWorld作為神經(jīng)仿真為自動(dòng)駕駛生成合理職業(yè)的潛力。

End-to-end Planning with Drive-OccWorld

表5展示了與現(xiàn)有端到端方法相比,L2錯(cuò)誤和沖突率方面的規(guī)劃性能。我們提供ST-P3和UniAD不同評(píng)估方案設(shè)置下的結(jié)果。具體來說,NoAvg表示相應(yīng)時(shí)間戳的結(jié)果,而TemAvg則通過0.5秒到相應(yīng)時(shí)間戳之間的平均性能來計(jì)算指標(biāo)。

如表5所示,與現(xiàn)有方法相比,Drive OccWorldP實(shí)現(xiàn)了更優(yōu)的規(guī)劃性能。例如,Drive OccWorldP?在以下方面分別獲得了33%、22%和9.7%的相對改善L2@1s、L2@2s和L2@3s與UniAD相比?。我們將這一改進(jìn)歸因于世界模型積累世界知識(shí)和展望未來狀態(tài)的能力。它有效地增強(qiáng)了未來時(shí)間戳的規(guī)劃結(jié)果,并提高了端到端規(guī)劃的安全性和魯棒性。

最近的研究考察了將自車狀態(tài)納入規(guī)劃模塊的影響。根據(jù)這項(xiàng)研究,我們還對我們的自我狀態(tài)模型和之前的工作進(jìn)行了公平的比較。我們的研究結(jié)果表明,Drive OccWorld在遙遠(yuǎn)的未來時(shí)間戳仍然達(dá)到了最高的性能,證明了持續(xù)預(yù)測和規(guī)劃的有效性。

圖片

消融實(shí)驗(yàn)結(jié)果如下:

圖片圖片

其他可視化結(jié)果:

圖片圖片圖片

結(jié)論

本文提出了Drive OccWorld,這是一個(gè)用于自動(dòng)駕駛的4D Occ預(yù)測和規(guī)劃世界模型。靈活的動(dòng)作條件可以注入到動(dòng)作可控發(fā)電的世界模型中,促進(jìn)更廣泛的下游應(yīng)用。基于職業(yè)的規(guī)劃器與運(yùn)動(dòng)規(guī)劃的世界模型相結(jié)合,考慮了安全性和環(huán)境的3D結(jié)構(gòu)。實(shí)驗(yàn)表明,我們的方法在職業(yè)和流量預(yù)測方面表現(xiàn)出了顯著的性能。通過利用世界模型積累世界知識(shí)和展望未來狀態(tài)的能力來提高規(guī)劃結(jié)果,從而增強(qiáng)端到端規(guī)劃的安全性和穩(wěn)健性。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-01 10:37:20

自動(dòng)駕駛3D

2024-03-15 09:37:26

語言模型駕駛

2024-07-09 10:24:13

2024-10-10 09:37:49

2010-05-28 11:56:10

IPv6網(wǎng)絡(luò)

2025-02-14 10:56:58

2025-01-16 10:11:58

2022-09-02 10:20:44

網(wǎng)絡(luò)切片網(wǎng)絡(luò)5G

2025-07-02 09:46:30

2010-03-20 09:32:34

LTE試驗(yàn)網(wǎng)端到端服務(wù)華為

2024-04-18 12:16:37

MetaAIOpenEQA

2022-09-21 11:48:40

端到端音視頻測試用戶體驗(yàn)

2022-10-19 09:27:39

2023-01-26 11:43:03

線程池CPUJava

2010-03-15 08:37:00

程序員35歲

2014-06-25 10:43:43

華為

2024-09-10 12:11:18

2010-01-20 16:12:16

專家答疑端到端加密保護(hù)數(shù)據(jù)

2024-04-12 09:31:34

端到端自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品国产乱码久久久久久蜜臀 | 97免费视频在线观看 | 成人影院网站ww555久久精品 | 日本久久久一区二区三区 | 国产成人一区二区三区 | 亚洲情侣视频 | 99久久精品国产毛片 | 亚洲国产高清高潮精品美女 | 天天操人人干 | www.黄色在线观看 | 国产男女视频网站 | 精品国产一区二区在线 | 午夜国产精品视频 | 国产特一级黄色片 | 日本视频在线 | 日韩中文一区 | 福利色导航 | 国产成人jvid在线播放 | 99精品视频在线 | 亚洲欧美视频 | 精品久久国产 | 91久久久久久久久久久久久 | 狠狠综合久久av一区二区老牛 | 欧美精品tv | 一区二区三区四区电影 | 久久久久久国产精品免费免费 | 一区二区精品 | 95国产精品| 伊人网站在线观看 | 欧美精品免费观看二区 | 天天夜夜人人 | 99成人 | 激情国产 | 亚洲精品成人网 | 九一精品 | 一本大道久久a久久精二百 国产成人免费在线 | 亚洲国产精品久久久久婷婷老年 | 精品国产一区探花在线观看 | 国产网站在线免费观看 | 国产精品久久久久久久久久久免费看 | av在线播放一区二区 |