成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

魔法降臨!港中文MagicDriveDiT:暴力提升生成質(zhì)量40%!

人工智能 智能汽車
今天為大家分享港中文&華為最新的工作—MagicDriveDiT!自動(dòng)駕駛場(chǎng)景生成最新SOTA。

寫在前面 & 筆者的個(gè)人理解

擴(kuò)散模型的快速發(fā)展極大地改善了視頻合成,特別是在可控視頻生成方面,這對(duì)自動(dòng)駕駛等應(yīng)用至關(guān)重要。然而,現(xiàn)有的方法受到可擴(kuò)展性和控制條件集成方式的限制,無(wú)法滿足自動(dòng)駕駛應(yīng)用對(duì)高分辨率和長(zhǎng)視頻的需求。本文介紹了一種基于DiT架構(gòu)的新方法MagicDriveDiT,并解決了這些挑戰(zhàn)。我們的方法通過流匹配增強(qiáng)了可擴(kuò)展性,并采用漸進(jìn)式訓(xùn)練策略來(lái)管理復(fù)雜的場(chǎng)景。通過結(jié)合時(shí)空條件編碼,MagicDriveDiT實(shí)現(xiàn)了對(duì)時(shí)空延遲的精確控制。綜合實(shí)驗(yàn)表明,它在生成具有更高分辨率和更多幀的逼真街道場(chǎng)景視頻方面具有優(yōu)越的性能。Magic-DriveDiT顯著提高了視頻生成質(zhì)量和時(shí)空控制,擴(kuò)大了其在自動(dòng)駕駛各種任務(wù)中的潛在應(yīng)用。

  • 項(xiàng)目主頁(yè):https://gaoruiyuan.com/magicdrivedit/

圖片

總結(jié)來(lái)說,本文的主要貢獻(xiàn)如下:

  • 本文設(shè)計(jì)了一個(gè)高效的框架MagicDriveDiT,利用漸進(jìn)式引導(dǎo)來(lái)實(shí)現(xiàn)高質(zhì)量的高分辨率長(zhǎng)視頻生成。
  • 為目標(biāo)位置、道路語(yǔ)義和相機(jī)軌跡開發(fā)了新的時(shí)空控制,同時(shí)保持了多幀、多視圖的一致性。
  • MagicDriveDiT通過混合分辨率和持續(xù)時(shí)間訓(xùn)練,從圖像到視頻生成都得到了很好的推廣,具有外推能力,大大超過了之前工作中的分辨率和幀數(shù)。

相關(guān)工作回顧

自動(dòng)駕駛中的視頻生成。視頻生成對(duì)于自動(dòng)駕駛至關(guān)重要,可應(yīng)用于訓(xùn)練感知模型、測(cè)試和場(chǎng)景重建。它需要廣闊的視野和動(dòng)態(tài)目標(biāo)運(yùn)動(dòng)處理,需要生成模型可控性和具有更多幀和多相機(jī)視角的高分辨率視頻制作。擴(kuò)散模型改進(jìn)了可控多視圖視頻生成,但現(xiàn)有模型缺乏足夠的分辨率和幀數(shù),無(wú)法用于數(shù)據(jù)引擎應(yīng)用和策略測(cè)試。如表1所示,我們的工作MagicDriveDiT在自動(dòng)駕駛視頻生成方面實(shí)現(xiàn)了前所未有的分辨率和幀數(shù)。

圖片

擴(kuò)散模型和DiT架構(gòu)。擴(kuò)散模型通過學(xué)習(xí)從高斯噪聲到樣本的去噪步驟來(lái)生成數(shù)據(jù),廣泛應(yīng)用于圖像和視頻生成。從建模的角度來(lái)看,流匹配簡(jiǎn)化了擴(kuò)散模型的建模,提高了訓(xùn)練和推理的效率。從實(shí)現(xiàn)的角度來(lái)看,由于更好的可擴(kuò)展性,擴(kuò)散模型的架構(gòu)從UNet轉(zhuǎn)變?yōu)镈iT,特別是對(duì)于高分辨率任務(wù)。我們的MagicDriveDiT還利用流匹配和DiT來(lái)擴(kuò)展到高分辨率和長(zhǎng)視頻生成。

圖片

有條件生成。條件生成對(duì)于使用生成模型的各種應(yīng)用程序至關(guān)重要。LDM和ControlNet的網(wǎng)格形控制信號(hào)加性編碼的交叉關(guān)注層是可控?cái)U(kuò)散生成的領(lǐng)先方法。在街景生成中,MagicDrive和MagicDrive3D集成了3D邊界框、BEV地圖、自車軌跡和相機(jī)姿態(tài),用于多視圖街景合成。然而,這些方法僅限于空間編碼,并不直接適用于時(shí)空VAE延遲,如圖2所示。MagicDriveDiT為時(shí)空壓縮的VAE延遲提供了一種新的控制范式,使高分辨率長(zhǎng)視頻的生成可控。

MagicDriveDiT方法詳解

圖片

對(duì)于圖3所示的模型架構(gòu),MagicDriveDiT引入了一種基于DiT的新型擴(kuò)散模型,用于可控街景生成,,該模型利用STDiT-3塊。這些塊具有單獨(dú)的空間和時(shí)間模塊,以增強(qiáng)信息處理。

架構(gòu)設(shè)計(jì)包含兩個(gè)重大修改。首先為了促進(jìn)多視圖生成,多視圖DiT(MVDiT)塊集成了一個(gè)跨視圖注意力層,如圖3左側(cè)所示。其次,考慮到需要處理多個(gè)控制元素,MagicDriveDiT對(duì)文本、框、相機(jī)視圖和軌跡采用交叉注意力,同時(shí)對(duì)地圖采用額外的分支來(lái)輸入控制信號(hào)。

然而如圖2所示,控制信號(hào)的空間編碼與時(shí)空潛伏期不兼容。因此,每個(gè)控制信號(hào)的編碼器都被重新制定,如圖3右側(cè)的時(shí)空框編碼器所示。

此外,MagicDriveDiT采用漸進(jìn)式引導(dǎo)訓(xùn)練策略,從圖像過渡到低分辨率和短視頻,最終過渡到高分辨率和長(zhǎng)視頻,以增強(qiáng)擴(kuò)散模型的收斂性。最后的訓(xùn)練階段包含可變長(zhǎng)度和分辨率的視頻,使模型能夠生成不同分辨率的圖像和視頻,并推斷出訓(xùn)練設(shè)置之外的更長(zhǎng)幀數(shù)。

Design for High-Resolution Long Video

DiT和3D VAE。用于高分辨率和長(zhǎng)視頻生成的訓(xùn)練擴(kuò)散模型是計(jì)算密集型的,需要大量的GPU內(nèi)存。DiT和3D VAE在這些方面對(duì)擴(kuò)散模型的縮放至關(guān)重要。

正如Peebles和Xie所指出的那樣,模型Gflops和FID之間存在很強(qiáng)的負(fù)相關(guān)關(guān)系,這使得DiT在計(jì)算效率方面優(yōu)于UNet等架構(gòu)。對(duì)于GPU內(nèi)存,3D VAE提供時(shí)間降采樣。典型的2D VAE在高度和寬度上都將圖像壓縮8倍,達(dá)到64倍的壓縮比。相比之下,3D VAE將時(shí)間信息壓縮了4倍,得到了256倍的壓縮比,顯著減少了壓縮后的潛在序列長(zhǎng)度和內(nèi)存消耗,這對(duì)轉(zhuǎn)換器特別有利。此外,架構(gòu)統(tǒng)一的趨勢(shì)允許DiT利用先進(jìn)的并行化方法,例如序列并行,來(lái)克服單個(gè)GPU內(nèi)存的限制,從而促進(jìn)更高的分辨率和更長(zhǎng)的視頻生成。

采用3D VAE的一個(gè)主要挑戰(zhàn)是幾何控制。如圖2所示,幾何控制在空間上管理每幀內(nèi)容。使用2D VAE,T幀被編碼為T延遲。使用T幾何描述符,視頻幾何控制降級(jí)為對(duì)圖像的空間控制,因?yàn)榭刂菩盘?hào)和延遲在時(shí)間上是對(duì)齊的。然而,3D VAE會(huì)產(chǎn)生T/f延遲(其中f是時(shí)間壓縮比),使控制信號(hào)與延遲不匹配,并使之前的控制技術(shù)無(wú)效。

Spatial-Temporal Conditioning Techniques。對(duì)于MagicDriveDiT中的幾何控制,我們引入了時(shí)空編碼來(lái)將控制信號(hào)與時(shí)空延遲對(duì)齊。這涉及重新對(duì)齊場(chǎng)景描述符中的貼圖、框和軌跡。以網(wǎng)格數(shù)據(jù)表示的地圖易于管理。通過擴(kuò)展ControlNet的設(shè)計(jì),我們利用3D VAE中具有新可訓(xùn)練參數(shù)的時(shí)間下采樣模塊來(lái)對(duì)齊控制塊和基塊之間的特征,如圖4(a)所示。

圖片

對(duì)于3D框,填充應(yīng)用于不可見的框,以保持視圖和幀之間框序列長(zhǎng)度的一致性,如圖3右側(cè)所示。我們使用帶有時(shí)間變換器和RoPE的下采樣模塊來(lái)捕獲時(shí)間相關(guān)性,創(chuàng)建與視頻延遲對(duì)齊的時(shí)空嵌入,如圖4(b)所示。通過用相機(jī)姿勢(shì)的MLP替換盒子的MLP,盒子的時(shí)空編碼器也可以適應(yīng)自車軌跡。所有下采樣比都與采用的3D VAE對(duì)齊,即分別以8n或8n+1作為輸入,2n或2n+1作為輸出。

Progressive Bootstrap Training

為了在訓(xùn)練過程中加快模型收斂,我們根據(jù)單次訓(xùn)練迭代的持續(xù)時(shí)間來(lái)調(diào)度訓(xùn)練數(shù)據(jù)。具體來(lái)說,我們采用三階段訓(xùn)練方法:最初使用低分辨率圖像進(jìn)行引導(dǎo)訓(xùn)練,過渡到低分辨率短視頻,最終采用高分辨率長(zhǎng)視頻訓(xùn)練。

這種訓(xùn)練策略基于兩個(gè)觀察結(jié)果。首先,在可控生成中,我們注意到,在學(xué)習(xí)可控性之前,該模型最初會(huì)針對(duì)更高的內(nèi)容質(zhì)量進(jìn)行優(yōu)化,Gao等人也觀察到了這種模式。從頭開始訓(xùn)練模型需要多次迭代才能收斂。我們的漸進(jìn)過渡方法使模型能夠更快地獲得可控性。其次,在階段轉(zhuǎn)換期間,我們發(fā)現(xiàn)與長(zhǎng)視頻可控性相比,該模型更快地適應(yīng)高分辨率。因此,我們從第一階段開始訓(xùn)練可控性,并專注于用(短)視頻而不是圖像優(yōu)化更多的迭代。

Variable Length and Resolution Adaptation

如前文所述,我們采用三階段訓(xùn)練流程。在最后兩個(gè)階段,我們將不同分辨率和長(zhǎng)度的視頻用于訓(xùn)練。具體來(lái)說,在第二階段,我們使用長(zhǎng)度不超過65幀、最大分辨率為424×800的視頻混合進(jìn)行訓(xùn)練。在第三階段,我們混合了高達(dá)241幀(數(shù)據(jù)集的最大幀數(shù))和高達(dá)848×1600(數(shù)據(jù)集最大分辨率)的視頻。

與單一分辨率和長(zhǎng)度的訓(xùn)練相比,這種混合方法使模型能夠快速理解分辨率和幀數(shù)維度的信息。因此,我們的最終模型支持生成各種分辨率(224×400、424×800、848×1600)和幀數(shù)(1-241幀)。它還支持跨兩個(gè)維度的外推,允許在訓(xùn)練配置之外進(jìn)行采樣,例如129幀時(shí)的848×1600或241幀時(shí)的424×800。

實(shí)驗(yàn)

結(jié)果和分析

生成質(zhì)量。MagicDriveDiT在視頻和圖像生成任務(wù)方面都表現(xiàn)出色。在視頻任務(wù)中,與MagicDrive相比,它顯著降低了FVD(表2),這是由于DiT架構(gòu)增強(qiáng)了幀間一致性和時(shí)空條件編碼,用于精確控制目標(biāo)運(yùn)動(dòng)和定位。如圖6所示,MagicDriveDiT生成的高分辨率視頻不僅可以提高質(zhì)量,還可以包含更復(fù)雜的細(xì)節(jié),與真實(shí)相機(jī)拍攝的鏡頭非常相似。這一增強(qiáng)是通過我們對(duì)可變長(zhǎng)度和分辨率的高級(jí)訓(xùn)練實(shí)現(xiàn)的,可以實(shí)現(xiàn)更真實(shí)和詳細(xì)的輸出。

圖片圖片

MagicDriveDiT也受益于混合訓(xùn)練方法,能夠生成圖像。如表3所示,MagicDriveDiT在多視圖街景任務(wù)中與基線性能相匹配,在車輛分割mIoU和目標(biāo)檢測(cè)mAP中超越了基線。這展示了我們時(shí)空條件編碼的強(qiáng)大泛化能力。

圖片圖片

可控性。表2和表3中的定量結(jié)果表明,MagicDriveDiT生成的圖像和視頻有效地反映了控制條件。此外,圖8提供了可視化結(jié)果,表明多個(gè)控制條件可以獨(dú)立影響生成的內(nèi)容。例如,天氣可以通過文本輸入(從晴天到雨天)來(lái)改變,同時(shí)保持道路結(jié)構(gòu)以及其他車輛和自車的軌跡。通過改變條件的組合,MagicDriveDiT能夠制作各種高質(zhì)量的街景視頻。

圖片

消融實(shí)驗(yàn)

圖片

街道景觀的VAE比較。在訓(xùn)練擴(kuò)散模型之前,我們?cè)u(píng)估了開源3D VAE(即CogVAE和Open Sora)在街景上的性能,并與2D SD VAE進(jìn)行了比較。如圖7所示,CogVAE在重建能力方面始終優(yōu)于同行。此外,如附錄E所示,CogVAE在較長(zhǎng)的視頻序列上表現(xiàn)出最小的性能下降,使其特別適合長(zhǎng)視頻生成任務(wù)。此外,我們發(fā)現(xiàn)所有VAE都表現(xiàn)出隨著分辨率的提高而提高的重建能力。這種見解有助于通過專注于更高分辨率的輸出來(lái)提高我們的模型生成高質(zhì)量圖像和視頻的能力。

圖片

時(shí)空Conditioning。我們通過過擬合實(shí)驗(yàn)中的驗(yàn)證損失(圖9)和可視化比較(圖10)證明了時(shí)空編碼器的有效性。我們比較了兩種基線:全局時(shí)間維度縮減(Reduce)和時(shí)間維度插值(Interp.)進(jìn)行對(duì)齊。在16個(gè)樣本的過擬合訓(xùn)練中,4×下采樣技術(shù)(我們的4×下)加速了收斂,并實(shí)現(xiàn)了最低的最終驗(yàn)證損失,如圖9所示。此外,圖10顯示,與全局縮減基線不同,4×down可以減少偽影并保持精確的運(yùn)動(dòng)軌跡。這些結(jié)果證實(shí)了時(shí)空編碼器利用時(shí)空延遲增強(qiáng)數(shù)據(jù)編碼和提高視頻生成性能的能力。

圖片

漸進(jìn)式Bootstrap訓(xùn)練。與直接的第3階段訓(xùn)練相比,三階段漸進(jìn)訓(xùn)練方法顯著提高了模型訓(xùn)練效率。表4顯示,例如,在4天內(nèi),階段1執(zhí)行的迭代次數(shù)比階段3多約60倍,階段2實(shí)現(xiàn)的迭代次數(shù)多約7倍。漸進(jìn)式訓(xùn)練對(duì)于受控生成模型至關(guān)重要,可控生成模型需要大量迭代才能有效收斂。漸進(jìn)式策略能夠快速獲得高質(zhì)量的視頻生成能力,在早期階段利用更快的迭代來(lái)增強(qiáng)收斂性和加快學(xué)習(xí)速度。

圖片

可變長(zhǎng)度和分辨率訓(xùn)練。MagicDriveDiT采用了一種混合不同長(zhǎng)度和分辨率視頻的訓(xùn)練策略。我們的消融研究證明了這一策略的有效性。如表5所示,當(dāng)僅使用低分辨率視頻(17×224×400)時(shí),VAE的局限性是顯而易見的,與其他設(shè)置相比,F(xiàn)VD較差,mAP和mIoU評(píng)分較低。合并較長(zhǎng)的視頻可以提高模型的可控性(mAP和mIoU都更高),而合并高分辨率視頻可以提高整體質(zhì)量(所有三個(gè)指標(biāo)都得到了顯著改善)。

圖片

盡管混合不同的幀長(zhǎng)度會(huì)略微降低FVD,但這對(duì)于使模型能夠生成各種長(zhǎng)度的視頻并推斷出看不見的長(zhǎng)度至關(guān)重要(見第6節(jié))。因此,我們結(jié)合了分辨率和幀長(zhǎng),有效地平衡了視頻質(zhì)量、可控性和模型功能之間的權(quán)衡。

圖片

結(jié)論和討論

在這篇論文中,我們介紹了MagicDriveDiT,這是一個(gè)具有精確控制的高分辨率和長(zhǎng)視頻合成的創(chuàng)新框架,專門為自動(dòng)駕駛等應(yīng)用量身定制。通過利用DiT架構(gòu)和流匹配,MagicDriveDiT有效地解決了視頻生成中可擴(kuò)展性和幾何控制的挑戰(zhàn)。我們的方法引入了新穎的時(shí)空條件編碼和具有可變長(zhǎng)度和分辨率自適應(yīng)的漸進(jìn)自舉策略,增強(qiáng)了模型的泛化能力。大量實(shí)驗(yàn)表明,MagicDriveDiT可以生成保持空間和時(shí)間連貫性的逼真視頻,在分辨率和幀數(shù)方面大大超過了以前的方法。這項(xiàng)工作推進(jìn)了視頻合成,并為自動(dòng)駕駛中的模擬和其他應(yīng)用開辟了新的可能性。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2022-03-25 09:22:42

代碼開發(fā)

2025-04-09 09:10:00

AI生成模型

2009-05-07 08:48:16

iPhone蘋果移動(dòng)OS

2020-09-07 14:15:16

AI 數(shù)據(jù)人工智能

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2025-01-14 11:00:00

視覺生成模型

2024-12-03 09:49:07

2017-01-20 09:45:20

JavaScript代碼質(zhì)量

2024-12-12 10:20:00

自動(dòng)駕駛生成

2022-01-06 16:05:16

戴爾

2024-09-11 09:36:13

2025-03-04 00:00:33

2021-12-02 09:54:11

Python 開發(fā)編程語(yǔ)言

2024-12-30 13:40:00

2024-11-05 13:40:00

2022-07-17 13:07:26

模型開源

2017-05-26 10:45:49

云計(jì)算公有云質(zhì)量
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 在线免费观看视频黄 | 啪啪免费网站 | 亚洲国产成人av好男人在线观看 | 欧美一区二区三区大片 | 日韩www| 一级电影免费看 | 国产日韩欧美一区二区 | 日韩久久久一区二区 | 欧美精品一区免费 | 狠狠综合网 | 国产精品视频区 | 激情综合五月 | 精品视频一区二区三区在线观看 | 午夜欧美一区二区三区在线播放 | 中文字幕不卡在线观看 | 精品亚洲永久免费精品 | 一区二区在线免费观看 | 国产精品视频久久久久久 | 国产亚洲精品久久久久久豆腐 | 久久精品国产一区 | 成人在线精品视频 | 国产九九精品视频 | 久在线| 99re在线视频| 综合国产在线 | 中文字幕丁香5月 | 日韩在线观看网站 | 黄色大片免费网站 | 国产精品视频一区二区三区 | 国内精品视频免费观看 | 中文字幕国产精品视频 | 精品欧美一区免费观看α√ | 麻豆av电影网 | 日韩精品视频中文字幕 | 久久久久久久久久久久91 | 超碰97干| 亚洲人成网站777色婷婷 | 久久久毛片| 综合久久av | 96久久久久久 | 日韩一三区|