魔法降臨！港中文MagicDriveDiT：暴力提升生成質(zhì)量40%！

作者：Ruiyuan Gao等 2024-11-28 09:31:44

今天為大家分享港中文&華為最新的工作—MagicDriveDiT！自動(dòng)駕駛場(chǎng)景生成最新SOTA。

寫在前面 & 筆者的個(gè)人理解

擴(kuò)散模型的快速發(fā)展極大地改善了視頻合成，特別是在可控視頻生成方面，這對(duì)自動(dòng)駕駛等應(yīng)用至關(guān)重要。然而，現(xiàn)有的方法受到可擴(kuò)展性和控制條件集成方式的限制，無(wú)法滿足自動(dòng)駕駛應(yīng)用對(duì)高分辨率和長(zhǎng)視頻的需求。本文介紹了一種基于DiT架構(gòu)的新方法MagicDriveDiT，并解決了這些挑戰(zhàn)。我們的方法通過流匹配增強(qiáng)了可擴(kuò)展性，并采用漸進(jìn)式訓(xùn)練策略來(lái)管理復(fù)雜的場(chǎng)景。通過結(jié)合時(shí)空條件編碼，MagicDriveDiT實(shí)現(xiàn)了對(duì)時(shí)空延遲的精確控制。綜合實(shí)驗(yàn)表明，它在生成具有更高分辨率和更多幀的逼真街道場(chǎng)景視頻方面具有優(yōu)越的性能。Magic-DriveDiT顯著提高了視頻生成質(zhì)量和時(shí)空控制，擴(kuò)大了其在自動(dòng)駕駛各種任務(wù)中的潛在應(yīng)用。

項(xiàng)目主頁(yè)：https://gaoruiyuan.com/magicdrivedit/

總結(jié)來(lái)說，本文的主要貢獻(xiàn)如下：

本文設(shè)計(jì)了一個(gè)高效的框架MagicDriveDiT，利用漸進(jìn)式引導(dǎo)來(lái)實(shí)現(xiàn)高質(zhì)量的高分辨率長(zhǎng)視頻生成。
為目標(biāo)位置、道路語(yǔ)義和相機(jī)軌跡開發(fā)了新的時(shí)空控制，同時(shí)保持了多幀、多視圖的一致性。
MagicDriveDiT通過混合分辨率和持續(xù)時(shí)間訓(xùn)練，從圖像到視頻生成都得到了很好的推廣，具有外推能力，大大超過了之前工作中的分辨率和幀數(shù)。

MagicDriveDiT方法詳解

對(duì)于圖3所示的模型架構(gòu)，MagicDriveDiT引入了一種基于DiT的新型擴(kuò)散模型，用于可控街景生成，，該模型利用STDiT-3塊。這些塊具有單獨(dú)的空間和時(shí)間模塊，以增強(qiáng)信息處理。

架構(gòu)設(shè)計(jì)包含兩個(gè)重大修改。首先為了促進(jìn)多視圖生成，多視圖DiT（MVDiT）塊集成了一個(gè)跨視圖注意力層，如圖3左側(cè)所示。其次，考慮到需要處理多個(gè)控制元素，MagicDriveDiT對(duì)文本、框、相機(jī)視圖和軌跡采用交叉注意力，同時(shí)對(duì)地圖采用額外的分支來(lái)輸入控制信號(hào)。

然而如圖2所示，控制信號(hào)的空間編碼與時(shí)空潛伏期不兼容。因此，每個(gè)控制信號(hào)的編碼器都被重新制定，如圖3右側(cè)的時(shí)空框編碼器所示。

此外，MagicDriveDiT采用漸進(jìn)式引導(dǎo)訓(xùn)練策略，從圖像過渡到低分辨率和短視頻，最終過渡到高分辨率和長(zhǎng)視頻，以增強(qiáng)擴(kuò)散模型的收斂性。最后的訓(xùn)練階段包含可變長(zhǎng)度和分辨率的視頻，使模型能夠生成不同分辨率的圖像和視頻，并推斷出訓(xùn)練設(shè)置之外的更長(zhǎng)幀數(shù)。

Design for High-Resolution Long Video

DiT和3D VAE。用于高分辨率和長(zhǎng)視頻生成的訓(xùn)練擴(kuò)散模型是計(jì)算密集型的，需要大量的GPU內(nèi)存。DiT和3D VAE在這些方面對(duì)擴(kuò)散模型的縮放至關(guān)重要。

正如Peebles和Xie所指出的那樣，模型Gflops和FID之間存在很強(qiáng)的負(fù)相關(guān)關(guān)系，這使得DiT在計(jì)算效率方面優(yōu)于UNet等架構(gòu)。對(duì)于GPU內(nèi)存，3D VAE提供時(shí)間降采樣。典型的2D VAE在高度和寬度上都將圖像壓縮8倍，達(dá)到64倍的壓縮比。相比之下，3D VAE將時(shí)間信息壓縮了4倍，得到了256倍的壓縮比，顯著減少了壓縮后的潛在序列長(zhǎng)度和內(nèi)存消耗，這對(duì)轉(zhuǎn)換器特別有利。此外，架構(gòu)統(tǒng)一的趨勢(shì)允許DiT利用先進(jìn)的并行化方法，例如序列并行，來(lái)克服單個(gè)GPU內(nèi)存的限制，從而促進(jìn)更高的分辨率和更長(zhǎng)的視頻生成。

采用3D VAE的一個(gè)主要挑戰(zhàn)是幾何控制。如圖2所示，幾何控制在空間上管理每幀內(nèi)容。使用2D VAE，T幀被編碼為T延遲。使用T幾何描述符，視頻幾何控制降級(jí)為對(duì)圖像的空間控制，因?yàn)榭刂菩盘?hào)和延遲在時(shí)間上是對(duì)齊的。然而，3D VAE會(huì)產(chǎn)生T/f延遲（其中f是時(shí)間壓縮比），使控制信號(hào)與延遲不匹配，并使之前的控制技術(shù)無(wú)效。

Spatial-Temporal Conditioning Techniques。對(duì)于MagicDriveDiT中的幾何控制，我們引入了時(shí)空編碼來(lái)將控制信號(hào)與時(shí)空延遲對(duì)齊。這涉及重新對(duì)齊場(chǎng)景描述符中的貼圖、框和軌跡。以網(wǎng)格數(shù)據(jù)表示的地圖易于管理。通過擴(kuò)展ControlNet的設(shè)計(jì)，我們利用3D VAE中具有新可訓(xùn)練參數(shù)的時(shí)間下采樣模塊來(lái)對(duì)齊控制塊和基塊之間的特征，如圖4（a）所示。

對(duì)于3D框，填充應(yīng)用于不可見的框，以保持視圖和幀之間框序列長(zhǎng)度的一致性，如圖3右側(cè)所示。我們使用帶有時(shí)間變換器和RoPE的下采樣模塊來(lái)捕獲時(shí)間相關(guān)性，創(chuàng)建與視頻延遲對(duì)齊的時(shí)空嵌入，如圖4（b）所示。通過用相機(jī)姿勢(shì)的MLP替換盒子的MLP，盒子的時(shí)空編碼器也可以適應(yīng)自車軌跡。所有下采樣比都與采用的3D VAE對(duì)齊，即分別以8n或8n+1作為輸入，2n或2n+1作為輸出。

Progressive Bootstrap Training

為了在訓(xùn)練過程中加快模型收斂，我們根據(jù)單次訓(xùn)練迭代的持續(xù)時(shí)間來(lái)調(diào)度訓(xùn)練數(shù)據(jù)。具體來(lái)說，我們采用三階段訓(xùn)練方法：最初使用低分辨率圖像進(jìn)行引導(dǎo)訓(xùn)練，過渡到低分辨率短視頻，最終采用高分辨率長(zhǎng)視頻訓(xùn)練。

這種訓(xùn)練策略基于兩個(gè)觀察結(jié)果。首先，在可控生成中，我們注意到，在學(xué)習(xí)可控性之前，該模型最初會(huì)針對(duì)更高的內(nèi)容質(zhì)量進(jìn)行優(yōu)化，Gao等人也觀察到了這種模式。從頭開始訓(xùn)練模型需要多次迭代才能收斂。我們的漸進(jìn)過渡方法使模型能夠更快地獲得可控性。其次，在階段轉(zhuǎn)換期間，我們發(fā)現(xiàn)與長(zhǎng)視頻可控性相比，該模型更快地適應(yīng)高分辨率。因此，我們從第一階段開始訓(xùn)練可控性，并專注于用（短）視頻而不是圖像優(yōu)化更多的迭代。

Variable Length and Resolution Adaptation

如前文所述，我們采用三階段訓(xùn)練流程。在最后兩個(gè)階段，我們將不同分辨率和長(zhǎng)度的視頻用于訓(xùn)練。具體來(lái)說，在第二階段，我們使用長(zhǎng)度不超過65幀、最大分辨率為424×800的視頻混合進(jìn)行訓(xùn)練。在第三階段，我們混合了高達(dá)241幀（數(shù)據(jù)集的最大幀數(shù)）和高達(dá)848×1600（數(shù)據(jù)集最大分辨率）的視頻。

與單一分辨率和長(zhǎng)度的訓(xùn)練相比，這種混合方法使模型能夠快速理解分辨率和幀數(shù)維度的信息。因此，我們的最終模型支持生成各種分辨率（224×400、424×800、848×1600）和幀數(shù)（1-241幀）。它還支持跨兩個(gè)維度的外推，允許在訓(xùn)練配置之外進(jìn)行采樣，例如129幀時(shí)的848×1600或241幀時(shí)的424×800。

實(shí)驗(yàn)

結(jié)果和分析

生成質(zhì)量。MagicDriveDiT在視頻和圖像生成任務(wù)方面都表現(xiàn)出色。在視頻任務(wù)中，與MagicDrive相比，它顯著降低了FVD（表2），這是由于DiT架構(gòu)增強(qiáng)了幀間一致性和時(shí)空條件編碼，用于精確控制目標(biāo)運(yùn)動(dòng)和定位。如圖6所示，MagicDriveDiT生成的高分辨率視頻不僅可以提高質(zhì)量，還可以包含更復(fù)雜的細(xì)節(jié)，與真實(shí)相機(jī)拍攝的鏡頭非常相似。這一增強(qiáng)是通過我們對(duì)可變長(zhǎng)度和分辨率的高級(jí)訓(xùn)練實(shí)現(xiàn)的，可以實(shí)現(xiàn)更真實(shí)和詳細(xì)的輸出。

MagicDriveDiT也受益于混合訓(xùn)練方法，能夠生成圖像。如表3所示，MagicDriveDiT在多視圖街景任務(wù)中與基線性能相匹配，在車輛分割mIoU和目標(biāo)檢測(cè)mAP中超越了基線。這展示了我們時(shí)空條件編碼的強(qiáng)大泛化能力。

可控性。表2和表3中的定量結(jié)果表明，MagicDriveDiT生成的圖像和視頻有效地反映了控制條件。此外，圖8提供了可視化結(jié)果，表明多個(gè)控制條件可以獨(dú)立影響生成的內(nèi)容。例如，天氣可以通過文本輸入（從晴天到雨天）來(lái)改變，同時(shí)保持道路結(jié)構(gòu)以及其他車輛和自車的軌跡。通過改變條件的組合，MagicDriveDiT能夠制作各種高質(zhì)量的街景視頻。

消融實(shí)驗(yàn)

街道景觀的VAE比較。在訓(xùn)練擴(kuò)散模型之前，我們?cè)u(píng)估了開源3D VAE（即CogVAE和Open Sora）在街景上的性能，并與2D SD VAE進(jìn)行了比較。如圖7所示，CogVAE在重建能力方面始終優(yōu)于同行。此外，如附錄E所示，CogVAE在較長(zhǎng)的視頻序列上表現(xiàn)出最小的性能下降，使其特別適合長(zhǎng)視頻生成任務(wù)。此外，我們發(fā)現(xiàn)所有VAE都表現(xiàn)出隨著分辨率的提高而提高的重建能力。這種見解有助于通過專注于更高分辨率的輸出來(lái)提高我們的模型生成高質(zhì)量圖像和視頻的能力。

時(shí)空Conditioning。我們通過過擬合實(shí)驗(yàn)中的驗(yàn)證損失（圖9）和可視化比較（圖10）證明了時(shí)空編碼器的有效性。我們比較了兩種基線：全局時(shí)間維度縮減（Reduce）和時(shí)間維度插值（Interp.）進(jìn)行對(duì)齊。在16個(gè)樣本的過擬合訓(xùn)練中，4×下采樣技術(shù)（我們的4×下）加速了收斂，并實(shí)現(xiàn)了最低的最終驗(yàn)證損失，如圖9所示。此外，圖10顯示，與全局縮減基線不同，4×down可以減少偽影并保持精確的運(yùn)動(dòng)軌跡。這些結(jié)果證實(shí)了時(shí)空編碼器利用時(shí)空延遲增強(qiáng)數(shù)據(jù)編碼和提高視頻生成性能的能力。

漸進(jìn)式Bootstrap訓(xùn)練。與直接的第3階段訓(xùn)練相比，三階段漸進(jìn)訓(xùn)練方法顯著提高了模型訓(xùn)練效率。表4顯示，例如，在4天內(nèi)，階段1執(zhí)行的迭代次數(shù)比階段3多約60倍，階段2實(shí)現(xiàn)的迭代次數(shù)多約7倍。漸進(jìn)式訓(xùn)練對(duì)于受控生成模型至關(guān)重要，可控生成模型需要大量迭代才能有效收斂。漸進(jìn)式策略能夠快速獲得高質(zhì)量的視頻生成能力，在早期階段利用更快的迭代來(lái)增強(qiáng)收斂性和加快學(xué)習(xí)速度。

可變長(zhǎng)度和分辨率訓(xùn)練。MagicDriveDiT采用了一種混合不同長(zhǎng)度和分辨率視頻的訓(xùn)練策略。我們的消融研究證明了這一策略的有效性。如表5所示，當(dāng)僅使用低分辨率視頻（17×224×400）時(shí)，VAE的局限性是顯而易見的，與其他設(shè)置相比，F(xiàn)VD較差，mAP和mIoU評(píng)分較低。合并較長(zhǎng)的視頻可以提高模型的可控性（mAP和mIoU都更高），而合并高分辨率視頻可以提高整體質(zhì)量（所有三個(gè)指標(biāo)都得到了顯著改善）。

盡管混合不同的幀長(zhǎng)度會(huì)略微降低FVD，但這對(duì)于使模型能夠生成各種長(zhǎng)度的視頻并推斷出看不見的長(zhǎng)度至關(guān)重要（見第6節(jié)）。因此，我們結(jié)合了分辨率和幀長(zhǎng)，有效地平衡了視頻質(zhì)量、可控性和模型功能之間的權(quán)衡。

結(jié)論和討論

在這篇論文中，我們介紹了MagicDriveDiT，這是一個(gè)具有精確控制的高分辨率和長(zhǎng)視頻合成的創(chuàng)新框架，專門為自動(dòng)駕駛等應(yīng)用量身定制。通過利用DiT架構(gòu)和流匹配，MagicDriveDiT有效地解決了視頻生成中可擴(kuò)展性和幾何控制的挑戰(zhàn)。我們的方法引入了新穎的時(shí)空條件編碼和具有可變長(zhǎng)度和分辨率自適應(yīng)的漸進(jìn)自舉策略，增強(qiáng)了模型的泛化能力。大量實(shí)驗(yàn)表明，MagicDriveDiT可以生成保持空間和時(shí)間連貫性的逼真視頻，在分辨率和幀數(shù)方面大大超過了以前的方法。這項(xiàng)工作推進(jìn)了視頻合成，并為自動(dòng)駕駛中的模擬和其他應(yīng)用開辟了新的可能性。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心