物理視頻真實(shí)生成!大連理工&莫納什大學(xué)團(tuán)隊(duì)提出物理合理的視頻生成框架
最近,來(lái)自大連理工和莫納什大學(xué)的團(tuán)隊(duì)提出了物理真實(shí)的視頻生成框架 VLIPP。通過(guò)利用視覺(jué)語(yǔ)言模型來(lái)將物理規(guī)律注入到視頻擴(kuò)散模型的方法來(lái)提升視頻生成中的物理真實(shí)性。
- 論文主頁(yè): https://madaoer.github.io/projects/physically_plausible_video_generation/
- 論文鏈接: https://arxiv.org/abs/2503.23368
視頻擴(kuò)散模型近年來(lái)取得了顯著進(jìn)展,能夠生成高度逼真的視頻內(nèi)容,其作為世界模擬器的潛力已引起學(xué)界廣泛關(guān)注。然而,盡管功能強(qiáng)大,這類模型由于內(nèi)在物理理解的缺失,相信大家在使用 VDMs 的時(shí)候一定會(huì)發(fā)現(xiàn)問(wèn)題:VDMs 生成的視頻并不符合物理規(guī)律。即使是商用的閉源模型,在物理場(chǎng)景上的表現(xiàn)也不夠理想。
本文認(rèn)為這樣的局限有兩個(gè)原因,首先是視頻擴(kuò)散模型的訓(xùn)練數(shù)據(jù)一般是文本 - 視頻對(duì),其中包含物理現(xiàn)象的數(shù)據(jù)占比很少,且物理現(xiàn)象在視頻中表現(xiàn)存在高度的抽象性和多樣性,很難去獲取合適的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。其次,擴(kuò)散模型更多依賴記憶和案例模仿,無(wú)法抽象出一般的物理規(guī)則,無(wú)法真正理解物理。
為突破這一局限,本文提出了一種新穎的符合物理規(guī)律的視頻生成框架,通過(guò)顯式引入物理約束來(lái)解決該問(wèn)題。作者發(fā)現(xiàn)語(yǔ)言模型對(duì)于物理有一定的理解能力,如果告訴語(yǔ)言模型兩個(gè)正在發(fā)生碰撞的小球的位置,它能夠大概地預(yù)測(cè)出這兩個(gè)小球在發(fā)生碰撞之后的后續(xù)位置。受此啟發(fā),本文提出的生成框架包含兩個(gè)階段,第一階段將視覺(jué)語(yǔ)言模型作為粗粒度的運(yùn)動(dòng)規(guī)劃器,使其提供一個(gè)粗略的物理可能的運(yùn)動(dòng)路徑,第二階段將視頻擴(kuò)散模型作為一個(gè)細(xì)粒度的運(yùn)動(dòng)合成器,根據(jù)上一階段預(yù)測(cè)的物理可能的路徑來(lái)生成細(xì)粒度的運(yùn)動(dòng)。
實(shí)驗(yàn)結(jié)果表明,本文提出的框架能生成符合物理規(guī)律的運(yùn)動(dòng)序列,對(duì)比評(píng)估顯示了該方法相較于現(xiàn)有技術(shù)在物理視頻生成上的顯著優(yōu)越性。這一成果證明了將語(yǔ)言模型的物理知識(shí)先驗(yàn)引入擴(kuò)散模型的可能性,并為擴(kuò)散模型作為世界模擬器帶來(lái)了更大的可能性。
方法
在這項(xiàng)工作中,研究者們提出了一種針對(duì)物理場(chǎng)景的視頻生成框架,如上圖所示,利用視覺(jué)語(yǔ)言模型理解物理定律和規(guī)劃可能的運(yùn)動(dòng)路徑,根據(jù)預(yù)測(cè)的路徑在運(yùn)動(dòng)可控的擴(kuò)散模型中生成視頻。
具體來(lái)說(shuō),在第一階段中,作者將視頻中常見(jiàn)的物理現(xiàn)象分為六類:重力、動(dòng)量守恒、光學(xué)、熱力學(xué)、磁學(xué)和流體力學(xué),語(yǔ)言模型根據(jù)視頻的場(chǎng)景描述提取符合該場(chǎng)景的物理定律,結(jié)合物理定律和圖像信息進(jìn)行思維鏈?zhǔn)酵评?,逐步分析物理定律帶?lái)的影響,以及其在視覺(jué)空間上的對(duì)應(yīng),最終預(yù)測(cè)出圖像空間內(nèi)對(duì)象的未來(lái)邊界框位置。
第二階段中,擴(kuò)散模型需要根據(jù)預(yù)測(cè)的運(yùn)動(dòng)路徑進(jìn)行視頻生成。作者認(rèn)為在上一階段中視覺(jué)語(yǔ)言模型可能存在幻覺(jué)和規(guī)劃錯(cuò)誤的情況,因此規(guī)劃的路徑只能作為粗粒度的運(yùn)動(dòng)引導(dǎo)。在本階段通過(guò)規(guī)劃的運(yùn)動(dòng)路徑合成運(yùn)動(dòng)序列,并根據(jù)光流計(jì)算得到結(jié)構(gòu)化噪聲,結(jié)合視頻擴(kuò)散模型的生成先驗(yàn)來(lái)細(xì)化粗略的生成先驗(yàn),以生成與真實(shí)世界動(dòng)態(tài)一致的物理上合理的運(yùn)動(dòng)。
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)環(huán)節(jié),本文在兩個(gè)評(píng)估物理場(chǎng)景視頻真實(shí)性的指標(biāo)上與現(xiàn)有的方法進(jìn)行了定性和定量的對(duì)比。如圖和表所示,本文的方法在兩個(gè)評(píng)估指標(biāo) Physical-IQ 和 PhyGenBench 上都取得了最佳的表現(xiàn)效果,并在機(jī)械運(yùn)動(dòng)、流體運(yùn)動(dòng)、熱力學(xué)和材料學(xué)等方面表現(xiàn)突出。
下面展示更多的實(shí)驗(yàn)結(jié)果。
結(jié)論
雖然 VDMs 現(xiàn)在能夠生成視覺(jué)真實(shí)程度非常高的視頻,但由于它本身缺乏對(duì)于物理定律的理解從而無(wú)法生成物理可能的視頻。本論文提出了新穎的視頻生成框架,通過(guò)將物理定律注入到 VDMs 中來(lái)提升對(duì)物理的理解。實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的視頻生成框架要明顯優(yōu)于現(xiàn)在的方法。這一成果證明了將語(yǔ)言模型的物理知識(shí)先驗(yàn)引入擴(kuò)散模型的可能性,并為擴(kuò)散模型作為世界模擬器帶來(lái)了更大的可能性。