阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律

發(fā)布于 2024-8-5 09:13

瀏覽

0收藏

目前，擴(kuò)散模型能夠生成多樣化且高質(zhì)量的圖像或視頻。此前，視頻擴(kuò)散模型采用 U-Net 架構(gòu) ，主要側(cè)重于合成有限時(shí)長(zhǎng)（通常約為兩秒）的視頻，并且分辨率和縱橫比受到固定限制。

Sora 的出現(xiàn)打破了這一限制，其采用 Diffusion Transformer（DiT）架構(gòu)，不僅擅長(zhǎng)制作 10 到 60 秒的高質(zhì)量視頻，而且還因其生成不同分辨率、各種縱橫比、且遵守實(shí)際物理定律的能力而脫穎而出。

可以說(shuō) Sora 是 DiT 架構(gòu)最有利的證明，然而，基于 Transformer 的擴(kuò)散模型在有效生成可控動(dòng)作視頻方面還未被充分探索。

針對(duì)這一問(wèn)題，來(lái)自阿里的研究者提出了 Tora，這是第一個(gè)面向軌跡的 DiT 架構(gòu)，它將文本、視覺(jué)和軌跡條件同時(shí)集成在一起以生成視頻。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

Tora 的設(shè)計(jì)與 DiT 的可擴(kuò)展性無(wú)縫契合，允許精確控制具有不同持續(xù)時(shí)間、寬高比和分辨率的視頻內(nèi)容。大量實(shí)驗(yàn)證明，Tora 在實(shí)現(xiàn)高運(yùn)動(dòng)保真度方面表現(xiàn)出色，同時(shí)還能細(xì)致模擬物理世界的運(yùn)動(dòng)。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

論文地址：https://arxiv.org/pdf/2407.21705
論文主頁(yè)：https://ali-videoai.github.io/tora_video/
論文標(biāo)題：Tora: Trajectory-oriented Diffusion Transformer for Video Generation

一艘老式的木制帆船沿著規(guī)定好的路線在迷霧籠罩的河流上平穩(wěn)地滑行，周?chē)敲艿木G色森林。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

一條鯽魚(yú)優(yōu)雅地游過(guò)火星的紅色巖石表面，魚(yú)的軌跡向左，火星的軌跡向右。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

熱氣球沿著不同的軌跡升入夜空，一個(gè)沿著規(guī)定的斜線，另一個(gè)沿著有彎度的軌跡。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

兩只可愛(ài)的小貓并排走在寧?kù)o的金色沙灘上。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

氣泡沿著軌跡輕輕地漂浮在盛開(kāi)的野花中。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

楓葉在清澈的湖面上顫動(dòng)，映照著秋天的森林。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

山間的瀑布傾瀉而下，主題、背景的運(yùn)動(dòng)都可以按照不同的路線運(yùn)動(dòng)。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

在 Tora 與其他方法的比較中，可以看出 Tora 生成的視頻流暢度更高，更遵循軌跡，且物體不會(huì)存在變形的問(wèn)題，保真度更好。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

方法介紹

Tora 采用 OpenSora 作為其 DiT 架構(gòu)的基礎(chǔ)模型，包含一個(gè)軌跡提取器 (TE，Trajectory Extractor)、時(shí)空 DiT（Spatial-Temporal DiT ）和一個(gè)運(yùn)動(dòng)引導(dǎo)融合器 (MGF，Motion-guidance Fuser) 。TE 使用 3D 視頻壓縮網(wǎng)絡(luò)將任意軌跡編碼為分層時(shí)空運(yùn)動(dòng) patch。MGF 將運(yùn)動(dòng) patch 集成到 DiT 塊中，以生成遵循軌跡的一致視頻。圖 3 概述了 Tora 的工作流程。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

時(shí)空 DiT（ST-DiT）

ST-DiT 架構(gòu)包含兩種不同的塊類(lèi)型：空間 DiT 塊 (S-DiT-B) 和時(shí)間 DiT 塊 (T-DiT-B)，它們交替排列。S-DiT-B 包含兩個(gè)注意力層，每個(gè)層按順序執(zhí)行空間自注意力 (SSA) 和交叉注意力，后面跟著一個(gè)逐點(diǎn)前饋層，用于連接相鄰的 T-DiT-B 塊。T-DiT-B 僅通過(guò)用時(shí)間自注意力 (TSA) 替換 SSA 來(lái)修改此架構(gòu)，從而保持架構(gòu)一致性。在每個(gè)塊中，輸入在經(jīng)過(guò)規(guī)范化后，通過(guò)跳躍連接連接回塊的輸出。通過(guò)利用處理可變長(zhǎng)度序列的能力，去噪 ST-DiT 可以處理可變持續(xù)時(shí)間的視頻。

軌跡提取器

軌跡已被證明是一種更加用戶友好的方法來(lái)控制生成視頻的運(yùn)動(dòng)。然而，DiT 模型采用視頻自編碼器和 patch 化過(guò)程將視頻轉(zhuǎn)換為視頻 patch。在這里，每個(gè) patch 都是跨多個(gè)幀導(dǎo)出，因此直接采用幀間偏移是不合適的。為了解決這個(gè)問(wèn)題，本文提出的 TE 將軌跡轉(zhuǎn)換為運(yùn)動(dòng) patch，運(yùn)動(dòng) patch 與視頻 patch 位于相同的潛在空間。

運(yùn)動(dòng)引導(dǎo)融合器

為了將基于 DiT 的視頻生成與軌跡結(jié)合起來(lái)，本文探索了三種融合架構(gòu)變體，將運(yùn)動(dòng) patch 注入每個(gè) ST-DiT 塊。這些設(shè)計(jì)如圖 4 所示。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

在實(shí)現(xiàn)細(xì)節(jié)上，研究者基于 OpenSora v1.2 權(quán)重來(lái)訓(xùn)練 Tora。訓(xùn)練視頻的分辨率由 144p 到 720p 不等。為了平衡訓(xùn)練 FLOP 以及每次迭代不同分辨率和幀數(shù)所需的內(nèi)存，研究者相應(yīng)地將批大小從 1 調(diào)整到 25。

至于訓(xùn)練基礎(chǔ)設(shè)施，研究者使用了 4 塊英偉達(dá) A100 和 Adam 優(yōu)化器，學(xué)習(xí)率為 2 × 10^?5。

研究者將 Tora 與流行的運(yùn)動(dòng)指導(dǎo)視頻生成方法進(jìn)行了比較。評(píng)估中使用了三種設(shè)置，分別為 16、64 和 128 幀，所有設(shè)置都是 512×512 的分辨率。

結(jié)果如下表 1 所示，在 U-Net 方法常用的 16 幀設(shè)置下，MotionCtrl 和 DragNUWA 能夠更好地與所提供的軌跡實(shí)現(xiàn)對(duì)齊，但仍弱于 Tora。隨著幀數(shù)增加，U-Net 方法在某些幀中出現(xiàn)明顯偏差，并且錯(cuò)位誤差傳播會(huì)導(dǎo)致后續(xù)序列中出現(xiàn)變形、運(yùn)動(dòng)模糊或物體消失。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

相比之下，得益于集成了 Transformer 的縮放能力，Tora 對(duì)幀數(shù)變化表現(xiàn)出很高的穩(wěn)健性。Tora 產(chǎn)生的運(yùn)動(dòng)更加流暢，且更符合物理世界。對(duì)于 128 幀測(cè)試設(shè)置下的評(píng)估，Tora 的軌跡精度達(dá)到其他方法的 3 到 5 倍，展現(xiàn)出了卓越的運(yùn)動(dòng)控制能力。

在下圖 5 中，研究者對(duì)不同分辨率和持續(xù)時(shí)長(zhǎng)的軌跡誤差進(jìn)行分析。結(jié)果顯示，不同于 U-Net 隨時(shí)間推移出現(xiàn)明顯的軌跡誤差，Tora 的軌跡誤差隨時(shí)間推移出現(xiàn)漸進(jìn)增加。這與 DiT 模型中視頻質(zhì)量隨時(shí)間增加而下降相一致。Tora 在更長(zhǎng)的時(shí)間下保持了有效的軌跡控制。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

下圖 6 展示了 Tora 與主流運(yùn)動(dòng)控制方法的比較分析，在包含兩人共同運(yùn)動(dòng)的場(chǎng)景中，所有方法都能生成相對(duì)準(zhǔn)確的運(yùn)動(dòng)軌跡。不過(guò)，Tora 的視覺(jué)質(zhì)量更好，這要?dú)w功于更長(zhǎng)序列幀的使用，有助于實(shí)現(xiàn)更平滑的運(yùn)動(dòng)軌跡和更逼真的背景渲染。

可以看到，在 Tora 生成的自行車(chē)場(chǎng)景中，人的雙腿表現(xiàn)出逼真的踩踏動(dòng)作，而 DragNUWA 的雙腿幾乎水平漂浮，違反了物理真實(shí)性。此外，DragNUWA 和 MotionCtrl 在視頻結(jié)尾處都出現(xiàn)了嚴(yán)重的運(yùn)動(dòng)模糊。

在另一個(gè)生成燈籠的場(chǎng)景中，DragNUWA 隨著所提供軌跡的持續(xù)升降出現(xiàn)了嚴(yán)重的變形。MotionCtrl 的軌跡雖然相對(duì)準(zhǔn)確，但生成的視頻與兩個(gè)燈籠的描述不相符。Tora 不僅嚴(yán)格地遵循了軌跡，而且最大程度地減少了物體變形，確保了更高保真度的動(dòng)作表示。

阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律-AI.x社區(qū)