讓創(chuàng)意起飛!用戶可控的電影級圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas 精華
論文鏈接:https://arxiv.org/pdf/2502.04299
git 鏈接:https://motion-canvas25.github.io/
亮點直擊
- 將電影鏡頭設(shè)計引入圖像到視頻的合成過程中。
- 推出了MotionCanvas,這是一種簡化的視頻合成系統(tǒng),用于電影鏡頭設(shè)計,提供整體運動控制,以場景感知的方式聯(lián)合操控相機和對象的運動。
- 設(shè)計了專門的運動條件機制,以控制信號引導基于DiT的視頻擴散模型,這些信號捕捉相機和對象的運動。結(jié)合了一個運動信號翻譯模塊,將描繪的場景空間運動意圖翻譯為屏幕空間的條件信號,用于視頻生成。
- 在多樣的真實世界照片上的評估證實了MotionCanvas在電影鏡頭設(shè)計中的有效性,突顯了其在各種創(chuàng)意應用中的潛力。
總結(jié)速覽
解決的問題
- 如何在圖像到視頻生成系統(tǒng)中實現(xiàn)直觀的電影鏡頭設(shè)計。
- 如何有效捕捉用戶在運動設(shè)計上的意圖,包括相機運動和場景空間對象運動。
- 如何表示運動信息,使其能夠被視頻擴散模型有效利用,以合成圖像動畫。
提出的方案
- 引入MotionCanvas,將用戶驅(qū)動的控制集成到圖像到視頻(I2V)生成模型中。
- 提供整體運動控制,以場景感知的方式聯(lián)合操控相機和對象的運動。
- 設(shè)計專門的運動條件機制,以控制信號引導基于DiT的視頻擴散模型。
- 開發(fā)運動信號翻譯模塊,將場景空間的運動意圖轉(zhuǎn)化為屏幕空間的條件信號,用于視頻生成。
應用的技術(shù)
- 結(jié)合經(jīng)典計算機圖形學和當代視頻生成技術(shù)。
- 使用視頻擴散模型(基于DiT)來合成圖像動畫。
- 運動信號翻譯模塊,用于將用戶的運動意圖轉(zhuǎn)化為可用于視頻生成的信號。
達到的效果
- 實現(xiàn)了3D感知的運動控制,而無需昂貴的3D相關(guān)訓練數(shù)據(jù)。
- 在各種真實世界圖像內(nèi)容和鏡頭設(shè)計場景中展示了方法的有效性。
- 增強了數(shù)字內(nèi)容創(chuàng)作的創(chuàng)意工作流程。
- 適應了各種圖像和視頻編輯應用,展現(xiàn)出在創(chuàng)意應用中的潛力。
MotionCanvas
本文的方法將靜態(tài)圖像動畫化為短視頻,反映用戶的運動設(shè)計意圖。如下圖2所示,MotionCanvas由三個主要組件組成:(1) 運動設(shè)計模塊,用于捕捉多樣的場景感知運動意圖,(2) 翻譯模塊,用于將這些意圖轉(zhuǎn)換為屏幕空間的運動信號,以及 (3) 運動條件視頻生成模型。
運動設(shè)計模塊 —— 捕捉用戶意圖
利用輸入圖像作為運動設(shè)計的畫布,建立一個運動設(shè)計所依托的起始場景。此設(shè)置在運動設(shè)計中實現(xiàn)了3D場景感知,捕捉對象、相機和場景之間的空間關(guān)系。本文的統(tǒng)一界面便于對相機運動、對象的全局和局部運動以及它們的時間進行獨立控制。
使用場景anchor的邊界框進行對象全局運動控制。 在設(shè)計視頻鏡頭時,控制對象在場景中的移動位置至關(guān)重要。認為這種全局對象控制應該以場景感知的方式定義,其中對象位置anchor在底層3D場景中的位置。為此,通過最小化地指定起始和結(jié)束框以及(可選的)中間關(guān)鍵框在輸入圖像上實現(xiàn)場景anchor邊界框(bbox)的放置。通過將邊界框放置anchor到由輸入圖像建立的固定視圖,用戶可以通過調(diào)整位置、比例和形狀來描繪想象中的目標位置。這種場景感知的邊界框放置為對象的位置、比例、姿態(tài)和相對于相機的距離提供了直觀的控制。根據(jù)提供的關(guān)鍵位置和輸出視頻的預期持續(xù)時間,我們通過Catmull-Rom樣條插值生成平滑的框軌跡。
使用點跟蹤進行對象局部運動控制。 雖然全局對象運動定義了對象在場景中的位置變化,并且是我們鏡頭設(shè)計過程的主要關(guān)注點,但局部對象運動——描繪對象在位置上的運動(例如,抬起手臂、旋轉(zhuǎn)頭部)——也可以通過增加細節(jié)和逼真性來豐富鏡頭設(shè)計體驗。受近期基于拖動編輯成功的啟發(fā),我們使用稀疏點軌跡來描繪局部運動。由于局部運動通常涉及復雜的幾何關(guān)系和變形,稀疏點軌跡提供了一種靈活的方式來定義和操控這種運動。
定時控制。 對象和相機運動的定時控制能夠?qū)崿F(xiàn)協(xié)調(diào)設(shè)計,增強敘事流暢性和視覺連貫性。本文的系統(tǒng)自然支持這一點,允許用戶直接沿運動軌跡分配時間線。
運動信號翻譯模塊
盡管運動意圖最好在具有3D感知的場景中心方式中設(shè)計,視頻生成模型通常更有效地針對2D屏幕空間的運動條件進行訓練,這些數(shù)據(jù)在視圖依賴投影后將所有運動類型混合在一起。這種差異產(chǎn)生的原因在于,從大規(guī)模普通視頻中提取可靠的3D信息(如相機運動和3D對象跟蹤)具有挑戰(zhàn)性。為了解決這個問題,本文的關(guān)鍵思路不是設(shè)計一個直接處理場景空間運動信息的視頻生成模型,而是將從上節(jié)中獲得的場景空間運動設(shè)計翻譯為可以從野外視頻中可靠提取的時空定位的屏幕空間運動信號。
通過點跟蹤實現(xiàn)相機運動。尋求一種屏幕空間運動信號,(1) 可以從普通視頻中穩(wěn)健提取,(2) 編碼關(guān)于視頻中相機運動的詳細信息。關(guān)于人類視覺感知的研究提供了一個重要的見解:通過投影到圖像平面上的稀疏場景點跟蹤,能夠可靠地恢復自我中心運動。這一見解已廣泛應用于計算機視覺中的相機姿態(tài)估計和SLAM。受此啟發(fā),我們使用點跟蹤來表示相機運動。注意,這些信息可以從真實視頻中穩(wěn)健提取。
在推理時,通過在輸入圖像上隨機采樣一組點,將3D相機路徑轉(zhuǎn)換為2D點軌跡。為了專注于屬于靜態(tài)背景的點,這些點更能反映相機運動,排除掉從YOLOv11 生成的 mask 中估計出的可能移動的對象區(qū)域。然后,使用一個現(xiàn)成的單目深度估計器來獲取內(nèi)在相機參數(shù)和深度圖。最后,根據(jù)3D相機路徑和深度扭曲這些點以創(chuàng)建相應的2D屏幕空間軌跡。
基于運動條件的視頻生成
視頻擴散模型已成為視頻生成的主要范式。基于預訓練的DiT I2V模型構(gòu)建了本文的運動條件視頻生成模型。該模型是DiT到視頻生成的內(nèi)部標準適配,類似于現(xiàn)有的開源適配。通過使用屏幕空間運動條件微調(diào)模型來適應本文的運動條件生成問題。
通過自回歸生成可變長度視頻
生成可變長度視頻對于電影敘事很有益。通過自回歸生成實現(xiàn)了這一點,這比直接建模長視頻更具計算效率,并反映了復雜視頻鏡頭通常由短而簡單的鏡頭順序拼接而成的事實。雖然本文的圖像到視頻框架自然支持無需訓練的自回歸長視頻生成,但發(fā)現(xiàn)這通常會導致明顯的運動不連續(xù)性,因為單個條件圖像缺乏足夠的時間運動信息。為了解決這個問題,在訓練MotionCanvasAR時增加了對短視頻剪輯Cvid(16幀)的額外條件。這種重疊短剪輯策略使每個生成步驟都基于先前的時空上下文,從而實現(xiàn)自然過渡。在推理過程中,模型生成任意長度的視頻,每次生成迭代時獨立控制運動。為了進一步優(yōu)化輸入的運動信號并使其與訓練設(shè)置對齊,我們通過結(jié)合用戶意圖與反向追蹤的運動重新計算屏幕空間運動信號。這種方法確保了更平滑和一致的運動生成。
應用
MotionCanvas允許靈活控制場景中相機和對象的運動。這使得本文的主要應用成為電影鏡頭設(shè)計框架,允許用戶交互式地管理鏡頭的關(guān)鍵運動方面。此外,運動表示的靈活性使得在各種簡單的視頻編輯任務中自然應用本文的框架成為可能。
聯(lián)合相機和對象控制的鏡頭設(shè)計
如下圖 4 所示,框架能夠在場景感知的方式下精確且獨立地控制對象和相機的運動,從而設(shè)計出高度動態(tài)且視覺吸引力強的鏡頭,同時緊密遵循所提供的運動設(shè)計。
在上圖 4 中,值得注意的是,在兩個示例中,每列的結(jié)果都遵循相同的相機運動,而對象運動則根據(jù)相應的指定對象控制進行變化。通過在場景感知的方式下放置邊界框,用戶可以實現(xiàn)各種場景空間效果。例如,這使得在底部示例中,可以讓汽車保持靜止(第一行)或在道路上前進(第二行)和后退(第三行)。重要的是,這種場景anchor的運動在相機運動獨立變化時得以保留。這突顯了場景感知對象運動控制的重要性。
具有復雜軌跡的長視頻。為了生成具有復雜相機和對象運動的長視頻,本文的框架采用“規(guī)范-生成”循環(huán)。這種方法允許用戶為每個段定義運動信號,然后以自回歸方式生成視頻片段。受動畫工作流程的啟發(fā) [39, 50],MotionCanvas結(jié)合關(guān)鍵幀和插值來創(chuàng)建復雜的運動路徑。具體而言,用戶可以為對象和相機運動設(shè)置關(guān)鍵幀,然后系統(tǒng)在這些關(guān)鍵幀之間插值以生成平滑且連貫的軌跡。
如下圖 5 所示,本文的方法可以生成具有復雜相機運動控制序列的長視頻。為每個輸入圖像展示了兩個視頻結(jié)果,這些結(jié)果來自相同的相機控制(請注意,這兩個視頻生成了幾乎相同的相機運動),同時有意控制不同的對象運動。
對象局部運動控制
MotionCanvas還支持控制對象的局部運動,以潛在支持基于拖拽的編輯和生成。用戶可以通過直接在對象自身坐標內(nèi)指定拖拽軌跡來定義局部對象運動。這些點軌跡然后被轉(zhuǎn)換為合適的屏幕空間點軌跡,以對視頻生成模型進行條件化,考慮到相機和對象的全局運動。如下圖 6 所示,本文的方法可以生成多樣且細致的局部運動,使得生成對象運動的不同變體成為可能(例如,嬰兒手臂移動的不同方式)。
此外,得益于專門的運動翻譯模塊,該模塊考慮了局部運動與相機運動以及對象全局運動之間的協(xié)調(diào),可以在不同的相機和對象動態(tài)下實現(xiàn)一致的對象局部運動控制(上圖 6 底部)。這為將局部對象運動控制納入上述鏡頭設(shè)計框架打開了可能性。
附加應用:簡單的視頻編輯
運動遷移。本文的方法可以適應于從源視頻向與初始幀具有結(jié)構(gòu)相似性的輸入圖像執(zhí)行運動遷移。通過利用多功能的屏幕空間條件表示,框架能夠有效捕捉并遷移對象和相機運動,即使是涉及3D變換的情況,也無需顯式3D相機姿態(tài)提取。如下圖 7 所示,蘋果的旋轉(zhuǎn)運動可以被遷移到獅子的頭部旋轉(zhuǎn)。
視頻編輯。運動遷移的概念可以擴展以促進視頻編輯,其中輸入圖像通過圖像編輯從第一幀派生。利用多功能的屏幕空間條件表示,本文的方法將提取的對象和相機運動傳播到派生圖像,確保一致且真實的動態(tài),類似于 [25]。上圖 7 顯示了兩個示例,其中在初始幀上執(zhí)行的編輯通過從原始視頻中提取的運動信號傳播,生成了一個完整編輯的視頻。
實驗
實現(xiàn)細節(jié)
數(shù)據(jù)。 從內(nèi)部數(shù)據(jù)集中收集了約110萬高質(zhì)量視頻。通過使用DEVA 進行全景分割,從視頻中提取邊界框,并將這些邊界框擬合到提取的 mask 上。通過鏈式光流(使用RAFT)計算稀疏點跟蹤注釋。為了確保可靠的運動數(shù)據(jù),設(shè)定了有效跟蹤長度的閾值。還根據(jù)關(guān)鍵詞(如向量、動畫)過濾掉了一部分視頻,以專注于自然視頻數(shù)據(jù)。邊界框進一步通過相鄰幀的交并比(IoU)、尺寸變化比、位置變化(歐幾里得距離)以及相關(guān)對象與我們移動對象列表的相關(guān)性進行優(yōu)化。最終,獲得了約60萬條具有良好運動質(zhì)量和高保真注釋的視頻。在訓練過程中,以80%的概率隨機選擇N個點軌跡,其中N ~ U(0, 100)。此外,有10%的概率選擇僅來自移動對象區(qū)域的點,另有10%的概率選擇來自非移動對象區(qū)域的點。
相機運動控制質(zhì)量
本文采用旋轉(zhuǎn)誤差(RotErr.)、平移誤差(TransErr.)和CamMC作為指標,遵循[15, 46]。此外,還計算了Frechet Inception Distance(FID)和Frechet Video Distance(FVD)來評估生成視頻的質(zhì)量。這些指標是在從RealEstate-10K 測試集中隨機抽取的1K視頻上計算的(@640×352,14幀)。將本文的方法與兩種最先進的相機運動控制圖像到視頻方法進行比較:MotionCtrl和CameraCtrl。定量結(jié)果如下表1所示。需要注意的是,MotionCtrl和CameraCtrl都是在RealEstate10K訓練集上訓練的,該訓練集包含與測試集相同領(lǐng)域的視頻。然而,本文的方法在零樣本設(shè)置中在所有指標上都優(yōu)于它們。
下圖8中的視覺比較顯示,由MotionCtrl和CameraCtrl生成的運動質(zhì)量較低,主要是因為它們依賴于包含3D相機姿態(tài)標簽的視頻數(shù)據(jù)集(RealEstate10K)進行訓練,這些數(shù)據(jù)集缺乏多樣性,僅包含靜態(tài)場景。此外,本文的方法允許控制內(nèi)在參數(shù),從而能夠制作更高級的電影鏡頭,如推拉鏡頭(見下圖8右側(cè)),這是現(xiàn)有方法難以實現(xiàn)的。
3D感知對象運動控制質(zhì)量
根據(jù)[49],在VIPSeg過濾后的驗證集上計算ObjMC和FID,該驗證集在排除沒有移動物體的視頻后包含116個樣本(@640×352,14幀)。我們與DragAnything、MOFA-Video和TrackDiffusion進行比較,量化結(jié)果如下表2所示。本文的方法在控制精度(ObjMC)和幀質(zhì)量(FID)上都優(yōu)于其他基線,如圖9進一步證實。DragAnything和MOFA-Video中的顯式變形引入了對象失真,而TrackDiffusion對歐幾里得坐標的依賴阻礙了收斂,導致不準確。通過為邊界框引入時空表示,本文的方法實現(xiàn)了精確的對象運動控制(例如,位置、大小和姿態(tài))。
聯(lián)合相機和對象控制
進行了一項用戶研究,以評估在3D場景感知上下文中聯(lián)合相機和對象運動控制的感知質(zhì)量。將本文的方法與基于拖拽的I2V方法進行比較:DragAnything和MOFA-Video。注意,現(xiàn)有方法沒有設(shè)計用于3D感知控制,因此我們直接采用場景空間點軌跡作為基線的輸入,遵循其原始設(shè)置。除了用于對象局部運動控制的點軌跡外,還提供了來自邊界框序列和基于深度的變形的點軌跡,用于對象和相機的全局運動控制。參與者被要求根據(jù)運動依從性、運動質(zhì)量和幀保真度選擇最佳結(jié)果。35名參與者的回應統(tǒng)計結(jié)果匯總在下表3中。本文的方法在所有評估方面始終優(yōu)于競爭對手。視覺結(jié)果如下圖10所示,其中兩個基線方法均未能在3D感知的方式下共同捕捉復雜對象的全局運動(即身體的移動)、局部運動(即放下手)和相機運動。相比之下,本文的MotionCanvas生成了遵循所有類型控制的運動,這要歸功于其統(tǒng)一的框架和運動表示設(shè)計。
消融研究
相機運動表示。 構(gòu)建了幾個基線來研究本文的相機運動表示的有效性:高斯圖(2D高斯模糊稀疏光流圖)、Plucker embedding和我們提出的基于DCT系數(shù)的軌跡編碼。量化比較如下表4所示。由于固有的模糊性(特別是在更密集的控制下),高斯圖變體在精確相機控制方面表現(xiàn)不佳,傾向于生成靜態(tài)相機運動(高FVD)。值得注意的是,Plucker embedding 變體需要在帶有3D相機姿態(tài)標簽的視頻數(shù)據(jù)集上進行訓練(即,遵循[15]的RealEstate10K訓練集)。它在這個域內(nèi)靜態(tài)測試集上表現(xiàn)良好,但未能生成對象運動(下圖11‘貓’)且缺乏普適性。此外,本文的軌跡編碼效率極高,僅引入少量系數(shù) token ,同時為相機內(nèi)在和外在控制提供穩(wěn)健的性能。
邊界框條件。 進一步評估了本文的邊界框條件。應用了[43]中提出的另一種條件設(shè)計,將邊界框坐標連接到視覺 token 上(Ourscoord)。上表2的最后兩列結(jié)果表明本文的時空顏色編碼圖條件的優(yōu)越性。歐幾里得坐標 token 與視覺 token 融合的難度導致低ObjMC。
結(jié)論
MotionCanvas,一個統(tǒng)一的I2V合成系統(tǒng),能夠靈活控制相機和對象運動,實現(xiàn)電影鏡頭設(shè)計。通過運動信號翻譯模塊,MotionCanvas將直觀的3D運動規(guī)劃轉(zhuǎn)換為精確的2D控制信號,用于訓練視頻模型,而無需依賴3D注釋,從而拓寬了訓練數(shù)據(jù)的來源。綜合評估顯示,MotionCanvas在生成多樣化、高質(zhì)量的視頻方面有效地反映了用戶的運動意圖。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
