成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律

發(fā)布于 2024-8-5 09:13
瀏覽
0收藏

目前,擴(kuò)散模型能夠生成多樣化且高質(zhì)量的圖像或視頻。此前,視頻擴(kuò)散模型采用 U-Net 架構(gòu) ,主要側(cè)重于合成有限時(shí)長(zhǎng)(通常約為兩秒)的視頻,并且分辨率和縱橫比受到固定限制。


Sora 的出現(xiàn)打破了這一限制,其采用 Diffusion Transformer(DiT)架構(gòu),不僅擅長(zhǎng)制作 10 到 60 秒的高質(zhì)量視頻,而且還因其生成不同分辨率、各種縱橫比、且遵守實(shí)際物理定律的能力而脫穎而出。


可以說(shuō) Sora 是 DiT 架構(gòu)最有利的證明,然而,基于 Transformer 的擴(kuò)散模型在有效生成可控動(dòng)作視頻方面還未被充分探索。


針對(duì)這一問(wèn)題,來(lái)自阿里的研究者提出了 Tora,這是第一個(gè)面向軌跡的 DiT 架構(gòu),它將文本、視覺(jué)和軌跡條件同時(shí)集成在一起以生成視頻。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


Tora 的設(shè)計(jì)與 DiT 的可擴(kuò)展性無(wú)縫契合,允許精確控制具有不同持續(xù)時(shí)間、寬高比和分辨率的視頻內(nèi)容。大量實(shí)驗(yàn)證明,Tora 在實(shí)現(xiàn)高運(yùn)動(dòng)保真度方面表現(xiàn)出色,同時(shí)還能細(xì)致模擬物理世界的運(yùn)動(dòng)。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


  • 論文地址:https://arxiv.org/pdf/2407.21705
  • 論文主頁(yè):https://ali-videoai.github.io/tora_video/
  • 論文標(biāo)題:Tora: Trajectory-oriented Diffusion Transformer for Video Generation


一艘老式的木制帆船沿著規(guī)定好的路線在迷霧籠罩的河流上平穩(wěn)地滑行,周?chē)敲艿木G色森林。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


一條鯽魚(yú)優(yōu)雅地游過(guò)火星的紅色巖石表面,魚(yú)的軌跡向左,火星的軌跡向右。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


熱氣球沿著不同的軌跡升入夜空,一個(gè)沿著規(guī)定的斜線,另一個(gè)沿著有彎度的軌跡。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


兩只可愛(ài)的小貓并排走在寧?kù)o的金色沙灘上。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


氣泡沿著軌跡輕輕地漂浮在盛開(kāi)的野花中。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


楓葉在清澈的湖面上顫動(dòng),映照著秋天的森林。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


山間的瀑布傾瀉而下,主題、背景的運(yùn)動(dòng)都可以按照不同的路線運(yùn)動(dòng)。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


在 Tora 與其他方法的比較中,可以看出 Tora 生成的視頻流暢度更高,更遵循軌跡,且物體不會(huì)存在變形的問(wèn)題,保真度更好。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

方法介紹

Tora 采用 OpenSora 作為其 DiT 架構(gòu)的基礎(chǔ)模型,包含一個(gè)軌跡提取器 (TE,Trajectory Extractor)、時(shí)空 DiT(Spatial-Temporal DiT )和一個(gè)運(yùn)動(dòng)引導(dǎo)融合器 (MGF,Motion-guidance Fuser) 。TE 使用 3D 視頻壓縮網(wǎng)絡(luò)將任意軌跡編碼為分層時(shí)空運(yùn)動(dòng) patch。MGF 將運(yùn)動(dòng) patch 集成到 DiT 塊中,以生成遵循軌跡的一致視頻。圖 3 概述了 Tora 的工作流程。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

時(shí)空 DiT(ST-DiT)

ST-DiT 架構(gòu)包含兩種不同的塊類(lèi)型:空間 DiT 塊 (S-DiT-B) 和時(shí)間 DiT 塊 (T-DiT-B),它們交替排列。S-DiT-B 包含兩個(gè)注意力層,每個(gè)層按順序執(zhí)行空間自注意力 (SSA) 和交叉注意力,后面跟著一個(gè)逐點(diǎn)前饋層,用于連接相鄰的 T-DiT-B 塊。T-DiT-B 僅通過(guò)用時(shí)間自注意力 (TSA) 替換 SSA 來(lái)修改此架構(gòu),從而保持架構(gòu)一致性。在每個(gè)塊中,輸入在經(jīng)過(guò)規(guī)范化后,通過(guò)跳躍連接連接回塊的輸出。通過(guò)利用處理可變長(zhǎng)度序列的能力,去噪 ST-DiT 可以處理可變持續(xù)時(shí)間的視頻。

軌跡提取器

軌跡已被證明是一種更加用戶友好的方法來(lái)控制生成視頻的運(yùn)動(dòng)。然而,DiT 模型采用視頻自編碼器和 patch 化過(guò)程將視頻轉(zhuǎn)換為視頻 patch。在這里,每個(gè) patch 都是跨多個(gè)幀導(dǎo)出,因此直接采用幀間偏移是不合適的。為了解決這個(gè)問(wèn)題,本文提出的 TE 將軌跡轉(zhuǎn)換為運(yùn)動(dòng) patch,運(yùn)動(dòng) patch 與視頻 patch 位于相同的潛在空間。

運(yùn)動(dòng)引導(dǎo)融合器

為了將基于 DiT 的視頻生成與軌跡結(jié)合起來(lái),本文探索了三種融合架構(gòu)變體,將運(yùn)動(dòng) patch 注入每個(gè) ST-DiT 塊。這些設(shè)計(jì)如圖 4 所示。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

在實(shí)現(xiàn)細(xì)節(jié)上,研究者基于 OpenSora v1.2 權(quán)重來(lái)訓(xùn)練 Tora。訓(xùn)練視頻的分辨率由 144p 到 720p 不等。為了平衡訓(xùn)練 FLOP 以及每次迭代不同分辨率和幀數(shù)所需的內(nèi)存,研究者相應(yīng)地將批大小從 1 調(diào)整到 25。


至于訓(xùn)練基礎(chǔ)設(shè)施,研究者使用了 4 塊英偉達(dá) A100 和 Adam 優(yōu)化器,學(xué)習(xí)率為 2 × 10^?5。


研究者將 Tora 與流行的運(yùn)動(dòng)指導(dǎo)視頻生成方法進(jìn)行了比較。評(píng)估中使用了三種設(shè)置,分別為 16、64 和 128 幀,所有設(shè)置都是 512×512 的分辨率。


結(jié)果如下表 1 所示,在 U-Net 方法常用的 16 幀設(shè)置下,MotionCtrl 和 DragNUWA 能夠更好地與所提供的軌跡實(shí)現(xiàn)對(duì)齊,但仍弱于 Tora。隨著幀數(shù)增加,U-Net 方法在某些幀中出現(xiàn)明顯偏差,并且錯(cuò)位誤差傳播會(huì)導(dǎo)致后續(xù)序列中出現(xiàn)變形、運(yùn)動(dòng)模糊或物體消失。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


相比之下,得益于集成了 Transformer 的縮放能力,Tora 對(duì)幀數(shù)變化表現(xiàn)出很高的穩(wěn)健性。Tora 產(chǎn)生的運(yùn)動(dòng)更加流暢,且更符合物理世界。對(duì)于 128 幀測(cè)試設(shè)置下的評(píng)估,Tora 的軌跡精度達(dá)到其他方法的 3 到 5 倍,展現(xiàn)出了卓越的運(yùn)動(dòng)控制能力。


在下圖 5 中,研究者對(duì)不同分辨率和持續(xù)時(shí)長(zhǎng)的軌跡誤差進(jìn)行分析。結(jié)果顯示,不同于 U-Net 隨時(shí)間推移出現(xiàn)明顯的軌跡誤差,Tora 的軌跡誤差隨時(shí)間推移出現(xiàn)漸進(jìn)增加。這與 DiT 模型中視頻質(zhì)量隨時(shí)間增加而下降相一致。Tora 在更長(zhǎng)的時(shí)間下保持了有效的軌跡控制。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

下圖 6 展示了 Tora 與主流運(yùn)動(dòng)控制方法的比較分析,在包含兩人共同運(yùn)動(dòng)的場(chǎng)景中,所有方法都能生成相對(duì)準(zhǔn)確的運(yùn)動(dòng)軌跡。不過(guò),Tora 的視覺(jué)質(zhì)量更好,這要?dú)w功于更長(zhǎng)序列幀的使用,有助于實(shí)現(xiàn)更平滑的運(yùn)動(dòng)軌跡和更逼真的背景渲染。


可以看到,在 Tora 生成的自行車(chē)場(chǎng)景中,人的雙腿表現(xiàn)出逼真的踩踏動(dòng)作,而 DragNUWA 的雙腿幾乎水平漂浮,違反了物理真實(shí)性。此外,DragNUWA 和 MotionCtrl 在視頻結(jié)尾處都出現(xiàn)了嚴(yán)重的運(yùn)動(dòng)模糊。


在另一個(gè)生成燈籠的場(chǎng)景中,DragNUWA 隨著所提供軌跡的持續(xù)升降出現(xiàn)了嚴(yán)重的變形。MotionCtrl 的軌跡雖然相對(duì)準(zhǔn)確,但生成的視頻與兩個(gè)燈籠的描述不相符。Tora 不僅嚴(yán)格地遵循了軌跡,而且最大程度地減少了物體變形,確保了更高保真度的動(dòng)作表示。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。


本文轉(zhuǎn)自 機(jī)器之心,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/GMN9lsFsM-5uMabStLoKEQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久久久国产精品一区二区 | 91.com视频| 国产91九色 | 午夜www| 日韩一区二区免费视频 | 欧美男人天堂 | 羞羞的视频免费看 | 亚洲天堂一区 | 成人在线精品视频 | 精品久久香蕉国产线看观看亚洲 | 亚洲成人免费视频在线观看 | 中文字幕av亚洲精品一部二部 | 亚洲精品在线看 | 福利网址 | 亚洲精品成人在线 | 中文字幕乱码一区二区三区 | 波多野结衣一区二区 | 热久久久久 | 久久精品99| 超碰在线国产 | 亚洲精品18| 精品综合久久久 | 亚洲免费三级 | 成人在线观看网站 | 国产午夜精品视频 | 精品久久久久久久久久久久久久 | 国产高清在线精品一区二区三区 | 日本午夜一区二区三区 | 国产精品久久久久久网站 | 视频三区 | 国产精品久久久久久久久久妞妞 | 久久国产欧美日韩精品 | 成人免费小视频 | 国产精品影视在线观看 | www狠狠爱com | av在线播放国产 | 麻豆久久久久久久 | 久久久久黄 | 999久久久 | 亚洲精品一区二区三区丝袜 | 欧美黄在线观看 |