魔法降臨!港中文MagicDriveDiT:暴力提升生成質(zhì)量40%!
寫在前面 & 筆者的個(gè)人理解
擴(kuò)散模型的快速發(fā)展極大地改善了視頻合成,特別是在可控視頻生成方面,這對(duì)自動(dòng)駕駛等應(yīng)用至關(guān)重要。然而,現(xiàn)有的方法受到可擴(kuò)展性和控制條件集成方式的限制,無(wú)法滿足自動(dòng)駕駛應(yīng)用對(duì)高分辨率和長(zhǎng)視頻的需求。本文介紹了一種基于DiT架構(gòu)的新方法MagicDriveDiT,并解決了這些挑戰(zhàn)。我們的方法通過流匹配增強(qiáng)了可擴(kuò)展性,并采用漸進(jìn)式訓(xùn)練策略來(lái)管理復(fù)雜的場(chǎng)景。通過結(jié)合時(shí)空條件編碼,MagicDriveDiT實(shí)現(xiàn)了對(duì)時(shí)空延遲的精確控制。綜合實(shí)驗(yàn)表明,它在生成具有更高分辨率和更多幀的逼真街道場(chǎng)景視頻方面具有優(yōu)越的性能。Magic-DriveDiT顯著提高了視頻生成質(zhì)量和時(shí)空控制,擴(kuò)大了其在自動(dòng)駕駛各種任務(wù)中的潛在應(yīng)用。
- 項(xiàng)目主頁(yè):https://gaoruiyuan.com/magicdrivedit/
總結(jié)來(lái)說,本文的主要貢獻(xiàn)如下:
- 本文設(shè)計(jì)了一個(gè)高效的框架MagicDriveDiT,利用漸進(jìn)式引導(dǎo)來(lái)實(shí)現(xiàn)高質(zhì)量的高分辨率長(zhǎng)視頻生成。
- 為目標(biāo)位置、道路語(yǔ)義和相機(jī)軌跡開發(fā)了新的時(shí)空控制,同時(shí)保持了多幀、多視圖的一致性。
- MagicDriveDiT通過混合分辨率和持續(xù)時(shí)間訓(xùn)練,從圖像到視頻生成都得到了很好的推廣,具有外推能力,大大超過了之前工作中的分辨率和幀數(shù)。
相關(guān)工作回顧
自動(dòng)駕駛中的視頻生成。視頻生成對(duì)于自動(dòng)駕駛至關(guān)重要,可應(yīng)用于訓(xùn)練感知模型、測(cè)試和場(chǎng)景重建。它需要廣闊的視野和動(dòng)態(tài)目標(biāo)運(yùn)動(dòng)處理,需要生成模型可控性和具有更多幀和多相機(jī)視角的高分辨率視頻制作。擴(kuò)散模型改進(jìn)了可控多視圖視頻生成,但現(xiàn)有模型缺乏足夠的分辨率和幀數(shù),無(wú)法用于數(shù)據(jù)引擎應(yīng)用和策略測(cè)試。如表1所示,我們的工作MagicDriveDiT在自動(dòng)駕駛視頻生成方面實(shí)現(xiàn)了前所未有的分辨率和幀數(shù)。
擴(kuò)散模型和DiT架構(gòu)。擴(kuò)散模型通過學(xué)習(xí)從高斯噪聲到樣本的去噪步驟來(lái)生成數(shù)據(jù),廣泛應(yīng)用于圖像和視頻生成。從建模的角度來(lái)看,流匹配簡(jiǎn)化了擴(kuò)散模型的建模,提高了訓(xùn)練和推理的效率。從實(shí)現(xiàn)的角度來(lái)看,由于更好的可擴(kuò)展性,擴(kuò)散模型的架構(gòu)從UNet轉(zhuǎn)變?yōu)镈iT,特別是對(duì)于高分辨率任務(wù)。我們的MagicDriveDiT還利用流匹配和DiT來(lái)擴(kuò)展到高分辨率和長(zhǎng)視頻生成。
有條件生成。條件生成對(duì)于使用生成模型的各種應(yīng)用程序至關(guān)重要。LDM和ControlNet的網(wǎng)格形控制信號(hào)加性編碼的交叉關(guān)注層是可控?cái)U(kuò)散生成的領(lǐng)先方法。在街景生成中,MagicDrive和MagicDrive3D集成了3D邊界框、BEV地圖、自車軌跡和相機(jī)姿態(tài),用于多視圖街景合成。然而,這些方法僅限于空間編碼,并不直接適用于時(shí)空VAE延遲,如圖2所示。MagicDriveDiT為時(shí)空壓縮的VAE延遲提供了一種新的控制范式,使高分辨率長(zhǎng)視頻的生成可控。
MagicDriveDiT方法詳解
對(duì)于圖3所示的模型架構(gòu),MagicDriveDiT引入了一種基于DiT的新型擴(kuò)散模型,用于可控街景生成,,該模型利用STDiT-3塊。這些塊具有單獨(dú)的空間和時(shí)間模塊,以增強(qiáng)信息處理。
架構(gòu)設(shè)計(jì)包含兩個(gè)重大修改。首先為了促進(jìn)多視圖生成,多視圖DiT(MVDiT)塊集成了一個(gè)跨視圖注意力層,如圖3左側(cè)所示。其次,考慮到需要處理多個(gè)控制元素,MagicDriveDiT對(duì)文本、框、相機(jī)視圖和軌跡采用交叉注意力,同時(shí)對(duì)地圖采用額外的分支來(lái)輸入控制信號(hào)。
然而如圖2所示,控制信號(hào)的空間編碼與時(shí)空潛伏期不兼容。因此,每個(gè)控制信號(hào)的編碼器都被重新制定,如圖3右側(cè)的時(shí)空框編碼器所示。
此外,MagicDriveDiT采用漸進(jìn)式引導(dǎo)訓(xùn)練策略,從圖像過渡到低分辨率和短視頻,最終過渡到高分辨率和長(zhǎng)視頻,以增強(qiáng)擴(kuò)散模型的收斂性。最后的訓(xùn)練階段包含可變長(zhǎng)度和分辨率的視頻,使模型能夠生成不同分辨率的圖像和視頻,并推斷出訓(xùn)練設(shè)置之外的更長(zhǎng)幀數(shù)。
Design for High-Resolution Long Video
DiT和3D VAE。用于高分辨率和長(zhǎng)視頻生成的訓(xùn)練擴(kuò)散模型是計(jì)算密集型的,需要大量的GPU內(nèi)存。DiT和3D VAE在這些方面對(duì)擴(kuò)散模型的縮放至關(guān)重要。
正如Peebles和Xie所指出的那樣,模型Gflops和FID之間存在很強(qiáng)的負(fù)相關(guān)關(guān)系,這使得DiT在計(jì)算效率方面優(yōu)于UNet等架構(gòu)。對(duì)于GPU內(nèi)存,3D VAE提供時(shí)間降采樣。典型的2D VAE在高度和寬度上都將圖像壓縮8倍,達(dá)到64倍的壓縮比。相比之下,3D VAE將時(shí)間信息壓縮了4倍,得到了256倍的壓縮比,顯著減少了壓縮后的潛在序列長(zhǎng)度和內(nèi)存消耗,這對(duì)轉(zhuǎn)換器特別有利。此外,架構(gòu)統(tǒng)一的趨勢(shì)允許DiT利用先進(jìn)的并行化方法,例如序列并行,來(lái)克服單個(gè)GPU內(nèi)存的限制,從而促進(jìn)更高的分辨率和更長(zhǎng)的視頻生成。
采用3D VAE的一個(gè)主要挑戰(zhàn)是幾何控制。如圖2所示,幾何控制在空間上管理每幀內(nèi)容。使用2D VAE,T幀被編碼為T延遲。使用T幾何描述符,視頻幾何控制降級(jí)為對(duì)圖像的空間控制,因?yàn)榭刂菩盘?hào)和延遲在時(shí)間上是對(duì)齊的。然而,3D VAE會(huì)產(chǎn)生T/f延遲(其中f是時(shí)間壓縮比),使控制信號(hào)與延遲不匹配,并使之前的控制技術(shù)無(wú)效。
Spatial-Temporal Conditioning Techniques。對(duì)于MagicDriveDiT中的幾何控制,我們引入了時(shí)空編碼來(lái)將控制信號(hào)與時(shí)空延遲對(duì)齊。這涉及重新對(duì)齊場(chǎng)景描述符中的貼圖、框和軌跡。以網(wǎng)格數(shù)據(jù)表示的地圖易于管理。通過擴(kuò)展ControlNet的設(shè)計(jì),我們利用3D VAE中具有新可訓(xùn)練參數(shù)的時(shí)間下采樣模塊來(lái)對(duì)齊控制塊和基塊之間的特征,如圖4(a)所示。
對(duì)于3D框,填充應(yīng)用于不可見的框,以保持視圖和幀之間框序列長(zhǎng)度的一致性,如圖3右側(cè)所示。我們使用帶有時(shí)間變換器和RoPE的下采樣模塊來(lái)捕獲時(shí)間相關(guān)性,創(chuàng)建與視頻延遲對(duì)齊的時(shí)空嵌入,如圖4(b)所示。通過用相機(jī)姿勢(shì)的MLP替換盒子的MLP,盒子的時(shí)空編碼器也可以適應(yīng)自車軌跡。所有下采樣比都與采用的3D VAE對(duì)齊,即分別以8n或8n+1作為輸入,2n或2n+1作為輸出。
Progressive Bootstrap Training
為了在訓(xùn)練過程中加快模型收斂,我們根據(jù)單次訓(xùn)練迭代的持續(xù)時(shí)間來(lái)調(diào)度訓(xùn)練數(shù)據(jù)。具體來(lái)說,我們采用三階段訓(xùn)練方法:最初使用低分辨率圖像進(jìn)行引導(dǎo)訓(xùn)練,過渡到低分辨率短視頻,最終采用高分辨率長(zhǎng)視頻訓(xùn)練。
這種訓(xùn)練策略基于兩個(gè)觀察結(jié)果。首先,在可控生成中,我們注意到,在學(xué)習(xí)可控性之前,該模型最初會(huì)針對(duì)更高的內(nèi)容質(zhì)量進(jìn)行優(yōu)化,Gao等人也觀察到了這種模式。從頭開始訓(xùn)練模型需要多次迭代才能收斂。我們的漸進(jìn)過渡方法使模型能夠更快地獲得可控性。其次,在階段轉(zhuǎn)換期間,我們發(fā)現(xiàn)與長(zhǎng)視頻可控性相比,該模型更快地適應(yīng)高分辨率。因此,我們從第一階段開始訓(xùn)練可控性,并專注于用(短)視頻而不是圖像優(yōu)化更多的迭代。
Variable Length and Resolution Adaptation
如前文所述,我們采用三階段訓(xùn)練流程。在最后兩個(gè)階段,我們將不同分辨率和長(zhǎng)度的視頻用于訓(xùn)練。具體來(lái)說,在第二階段,我們使用長(zhǎng)度不超過65幀、最大分辨率為424×800的視頻混合進(jìn)行訓(xùn)練。在第三階段,我們混合了高達(dá)241幀(數(shù)據(jù)集的最大幀數(shù))和高達(dá)848×1600(數(shù)據(jù)集最大分辨率)的視頻。
與單一分辨率和長(zhǎng)度的訓(xùn)練相比,這種混合方法使模型能夠快速理解分辨率和幀數(shù)維度的信息。因此,我們的最終模型支持生成各種分辨率(224×400、424×800、848×1600)和幀數(shù)(1-241幀)。它還支持跨兩個(gè)維度的外推,允許在訓(xùn)練配置之外進(jìn)行采樣,例如129幀時(shí)的848×1600或241幀時(shí)的424×800。
實(shí)驗(yàn)
結(jié)果和分析
生成質(zhì)量。MagicDriveDiT在視頻和圖像生成任務(wù)方面都表現(xiàn)出色。在視頻任務(wù)中,與MagicDrive相比,它顯著降低了FVD(表2),這是由于DiT架構(gòu)增強(qiáng)了幀間一致性和時(shí)空條件編碼,用于精確控制目標(biāo)運(yùn)動(dòng)和定位。如圖6所示,MagicDriveDiT生成的高分辨率視頻不僅可以提高質(zhì)量,還可以包含更復(fù)雜的細(xì)節(jié),與真實(shí)相機(jī)拍攝的鏡頭非常相似。這一增強(qiáng)是通過我們對(duì)可變長(zhǎng)度和分辨率的高級(jí)訓(xùn)練實(shí)現(xiàn)的,可以實(shí)現(xiàn)更真實(shí)和詳細(xì)的輸出。
MagicDriveDiT也受益于混合訓(xùn)練方法,能夠生成圖像。如表3所示,MagicDriveDiT在多視圖街景任務(wù)中與基線性能相匹配,在車輛分割mIoU和目標(biāo)檢測(cè)mAP中超越了基線。這展示了我們時(shí)空條件編碼的強(qiáng)大泛化能力。
可控性。表2和表3中的定量結(jié)果表明,MagicDriveDiT生成的圖像和視頻有效地反映了控制條件。此外,圖8提供了可視化結(jié)果,表明多個(gè)控制條件可以獨(dú)立影響生成的內(nèi)容。例如,天氣可以通過文本輸入(從晴天到雨天)來(lái)改變,同時(shí)保持道路結(jié)構(gòu)以及其他車輛和自車的軌跡。通過改變條件的組合,MagicDriveDiT能夠制作各種高質(zhì)量的街景視頻。
消融實(shí)驗(yàn)
街道景觀的VAE比較。在訓(xùn)練擴(kuò)散模型之前,我們?cè)u(píng)估了開源3D VAE(即CogVAE和Open Sora)在街景上的性能,并與2D SD VAE進(jìn)行了比較。如圖7所示,CogVAE在重建能力方面始終優(yōu)于同行。此外,如附錄E所示,CogVAE在較長(zhǎng)的視頻序列上表現(xiàn)出最小的性能下降,使其特別適合長(zhǎng)視頻生成任務(wù)。此外,我們發(fā)現(xiàn)所有VAE都表現(xiàn)出隨著分辨率的提高而提高的重建能力。這種見解有助于通過專注于更高分辨率的輸出來(lái)提高我們的模型生成高質(zhì)量圖像和視頻的能力。
時(shí)空Conditioning。我們通過過擬合實(shí)驗(yàn)中的驗(yàn)證損失(圖9)和可視化比較(圖10)證明了時(shí)空編碼器的有效性。我們比較了兩種基線:全局時(shí)間維度縮減(Reduce)和時(shí)間維度插值(Interp.)進(jìn)行對(duì)齊。在16個(gè)樣本的過擬合訓(xùn)練中,4×下采樣技術(shù)(我們的4×下)加速了收斂,并實(shí)現(xiàn)了最低的最終驗(yàn)證損失,如圖9所示。此外,圖10顯示,與全局縮減基線不同,4×down可以減少偽影并保持精確的運(yùn)動(dòng)軌跡。這些結(jié)果證實(shí)了時(shí)空編碼器利用時(shí)空延遲增強(qiáng)數(shù)據(jù)編碼和提高視頻生成性能的能力。
漸進(jìn)式Bootstrap訓(xùn)練。與直接的第3階段訓(xùn)練相比,三階段漸進(jìn)訓(xùn)練方法顯著提高了模型訓(xùn)練效率。表4顯示,例如,在4天內(nèi),階段1執(zhí)行的迭代次數(shù)比階段3多約60倍,階段2實(shí)現(xiàn)的迭代次數(shù)多約7倍。漸進(jìn)式訓(xùn)練對(duì)于受控生成模型至關(guān)重要,可控生成模型需要大量迭代才能有效收斂。漸進(jìn)式策略能夠快速獲得高質(zhì)量的視頻生成能力,在早期階段利用更快的迭代來(lái)增強(qiáng)收斂性和加快學(xué)習(xí)速度。
可變長(zhǎng)度和分辨率訓(xùn)練。MagicDriveDiT采用了一種混合不同長(zhǎng)度和分辨率視頻的訓(xùn)練策略。我們的消融研究證明了這一策略的有效性。如表5所示,當(dāng)僅使用低分辨率視頻(17×224×400)時(shí),VAE的局限性是顯而易見的,與其他設(shè)置相比,F(xiàn)VD較差,mAP和mIoU評(píng)分較低。合并較長(zhǎng)的視頻可以提高模型的可控性(mAP和mIoU都更高),而合并高分辨率視頻可以提高整體質(zhì)量(所有三個(gè)指標(biāo)都得到了顯著改善)。
盡管混合不同的幀長(zhǎng)度會(huì)略微降低FVD,但這對(duì)于使模型能夠生成各種長(zhǎng)度的視頻并推斷出看不見的長(zhǎng)度至關(guān)重要(見第6節(jié))。因此,我們結(jié)合了分辨率和幀長(zhǎng),有效地平衡了視頻質(zhì)量、可控性和模型功能之間的權(quán)衡。
結(jié)論和討論
在這篇論文中,我們介紹了MagicDriveDiT,這是一個(gè)具有精確控制的高分辨率和長(zhǎng)視頻合成的創(chuàng)新框架,專門為自動(dòng)駕駛等應(yīng)用量身定制。通過利用DiT架構(gòu)和流匹配,MagicDriveDiT有效地解決了視頻生成中可擴(kuò)展性和幾何控制的挑戰(zhàn)。我們的方法引入了新穎的時(shí)空條件編碼和具有可變長(zhǎng)度和分辨率自適應(yīng)的漸進(jìn)自舉策略,增強(qiáng)了模型的泛化能力。大量實(shí)驗(yàn)表明,MagicDriveDiT可以生成保持空間和時(shí)間連貫性的逼真視頻,在分辨率和幀數(shù)方面大大超過了以前的方法。這項(xiàng)工作推進(jìn)了視頻合成,并為自動(dòng)駕駛中的模擬和其他應(yīng)用開辟了新的可能性。