CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"
文章鏈接:https://arxiv.org/pdf/2503.21781
項(xiàng)目鏈接:https://jasper0314-huang.github.io/videomage-customization
亮點(diǎn)直擊
- 提出了 VideoMage,一個(gè)統(tǒng)一框架,首次實(shí)現(xiàn)了針對(duì)多個(gè)主體身份及其交互運(yùn)動(dòng)的視頻概念定制。
- 引入了一種新穎的外觀無(wú)關(guān)運(yùn)動(dòng)學(xué)習(xí)方法,通過(guò)改進(jìn)負(fù)分類器自由引導(dǎo),解耦潛在的運(yùn)動(dòng)模式與外觀之間的關(guān)系。
- 開發(fā)了一種時(shí)空協(xié)作組合方案,以組合獲得的多主體和運(yùn)動(dòng) LoRA,從而生成所需運(yùn)動(dòng)模式下連貫的多主體交互。
總結(jié)速覽
解決的問(wèn)題
定制化的文本到視頻生成旨在制作高質(zhì)量的視頻,包含用戶指定的主體身份或運(yùn)動(dòng)模式。然而,現(xiàn)有的方法主要集中在個(gè)性化單一概念上,即主體身份或運(yùn)動(dòng)模式,這限制了它們?cè)诙鄠€(gè)主體及其所需運(yùn)動(dòng)模式下的有效性。
提出的方案
為了解決這一挑戰(zhàn),提出了一個(gè)統(tǒng)一框架 VideoMage,用于對(duì)多個(gè)主體及其交互運(yùn)動(dòng)進(jìn)行視頻定制。
應(yīng)用的技術(shù)
- VideoMage 采用主體和運(yùn)動(dòng) LoRA,從用戶提供的圖像和視頻中捕捉個(gè)性化內(nèi)容。
- 引入了一種新穎的外觀無(wú)關(guān)運(yùn)動(dòng)學(xué)習(xí)方法,通過(guò)改進(jìn)負(fù)分類器自由引導(dǎo),解耦潛在的運(yùn)動(dòng)模式與外觀之間的關(guān)系。
- 開發(fā)了一種時(shí)空組合方案,以組合獲得的多主體和運(yùn)動(dòng) LoRA,從而生成所需運(yùn)動(dòng)模式下連貫的多主體交互。
達(dá)到的效果
大量實(shí)驗(yàn)表明,VideoMage 的表現(xiàn)優(yōu)于現(xiàn)有方法,能夠生成連貫的、用戶控制的視頻,并保持一致的主體身份和交互。
方法
為了解決上述問(wèn)題,提出了 VideoMage,這是一個(gè)統(tǒng)一框架,用于定制多個(gè)主體和交互運(yùn)動(dòng)以進(jìn)行文本到視頻生成。在快速回顧視頻擴(kuò)散模型后,詳細(xì)說(shuō)明了如何利用 LoRA 模塊分別從輸入圖像和參考視頻中學(xué)習(xí)視覺(jué)和運(yùn)動(dòng)信息。本文提出了一種獨(dú)特的時(shí)空協(xié)作組合方案,以整合學(xué)習(xí)到的主體/運(yùn)動(dòng) LoRA 進(jìn)行視頻生成。
初步:視頻擴(kuò)散模型
主體和運(yùn)動(dòng)定制
為了避免干擾時(shí)間動(dòng)態(tài),主體 LoRA 僅應(yīng)用于 UNet 的空間層。目標(biāo)定義為:
因此,整體目標(biāo)定義為:
為了解決這個(gè)問(wèn)題,本文提出了一種新穎的與外觀無(wú)關(guān)的目標(biāo),如下圖 3 所示,能夠有效地從參考視頻中隔離運(yùn)動(dòng)模式。受到 [12, 22] 中概念消除方法的啟發(fā),本文推進(jìn)了基于視覺(jué)主體外觀的負(fù)分類器自由引導(dǎo),專注于在運(yùn)動(dòng)學(xué)習(xí)過(guò)程中消除外觀信息。這將確保運(yùn)動(dòng) LoRA 專注于運(yùn)動(dòng)動(dòng)態(tài)。
為了實(shí)現(xiàn)這一點(diǎn),本文首先通過(guò)在從參考視頻中采樣的單幀上應(yīng)用文本反演 [11] 來(lái)學(xué)習(xí)參考視頻中主體的特殊標(biāo)記(例如,上圖 3 中的“人”和“馬”)。這在最小化運(yùn)動(dòng)影響的同時(shí)捕捉主體外觀,有效地將外觀與運(yùn)動(dòng)解耦。利用上述特殊標(biāo)記,本文使用與外觀無(wú)關(guān)的目標(biāo)訓(xùn)練一個(gè)運(yùn)動(dòng) LoRA,該目標(biāo)采用負(fù)引導(dǎo)來(lái)抑制外觀信息,使運(yùn)動(dòng) LoRA 能夠獨(dú)立于主體外觀學(xué)習(xí)運(yùn)動(dòng)模式。
更具體地說(shuō),訓(xùn)練目標(biāo)定義為:
空間-時(shí)間協(xié)作合成
通過(guò)獲得多個(gè)主體 LoRA 和互動(dòng)運(yùn)動(dòng) LoRA,本文的目標(biāo)是生成這些主體使用所需運(yùn)動(dòng)模式進(jìn)行互動(dòng)的視頻。然而,結(jié)合具有不同屬性的 LoRA(即視覺(jué)外觀與空間-時(shí)間運(yùn)動(dòng))并不是一項(xiàng)簡(jiǎn)單的任務(wù)。
在本文的工作中,本文提出了一種空間-時(shí)間協(xié)作合成的測(cè)試時(shí)間優(yōu)化方案,使上述 LoRA 之間能夠協(xié)作生成具有所需外觀和運(yùn)動(dòng)屬性的視頻。本文現(xiàn)在討論所提出的方案。
具體而言,本文通過(guò)將主體分支的時(shí)間自注意力圖與運(yùn)動(dòng)分支的時(shí)間自注意力圖對(duì)齊來(lái)強(qiáng)制運(yùn)動(dòng)的正確性。類似地,本文通過(guò)將運(yùn)動(dòng)分支的空間交叉注意力圖與主體分支的空間交叉注意力圖對(duì)齊,確保準(zhǔn)確的空間排列。協(xié)作引導(dǎo)的損失計(jì)算如下:
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集。 為了評(píng)估多主體和運(yùn)動(dòng)任務(wù)的視頻定制方法,本文從 WebVid [2] 收集了 6 個(gè)運(yùn)動(dòng)視頻,展示了人類與動(dòng)物之間的各種互動(dòng)。對(duì)于每個(gè)運(yùn)動(dòng),本文提供了來(lái)自 [26, 33] 的 3 對(duì)主體,包括動(dòng)物、機(jī)器人、玩具和毛絨玩具等多種不同物種,每個(gè)設(shè)置有 4 個(gè)不同的背景提示。
評(píng)估指標(biāo)。 遵循之前的工作 [43, 44, 51],本文使用以下指標(biāo)評(píng)估性能:1)CLIP-T,測(cè)量生成幀與文本提示之間的余弦相似度,使用 CLIP [29];2)CLIP-I,通過(guò)比較生成幀和目標(biāo)圖像的 CLIP 圖像嵌入來(lái)評(píng)估主體身份;3)DINO-I,類似于 CLIP-I,但使用 DINO [4] 的嵌入;4)時(shí)間一致性 [10],通過(guò)計(jì)算連續(xù)幀之間的相似度來(lái)測(cè)量逐幀一致性,使用 CLIP。此外,本文進(jìn)行人類評(píng)估以進(jìn)行定性評(píng)估。
比較。 本文將本文的 VideoMage 與最先進(jìn)的視頻定制方法進(jìn)行比較,包括通過(guò)應(yīng)用適配器和 LoRA 分別對(duì)單一主體進(jìn)行運(yùn)動(dòng)定制的 DreamVideo [44] 和 MotionDirector [51]。為了公平比較,本文首先對(duì)多個(gè)主體模塊的輸出進(jìn)行平均,并將其與運(yùn)動(dòng)模塊結(jié)合以進(jìn)行多主體和運(yùn)動(dòng)定制。
主要結(jié)果
定性結(jié)果。 在下圖 5 中,本文展示了定制視頻生成的示例,結(jié)合了用戶提供的各種主體圖像和特定的運(yùn)動(dòng)參考視頻。正如本文所觀察到的,DreamVideo 和 MotionDirector 都遭遇了顯著的外觀泄漏和屬性混合問(wèn)題,難以正確安排多個(gè)主體以遵循參考運(yùn)動(dòng)模式。例如,在右下角,運(yùn)動(dòng)視頻中黑狗的外觀無(wú)意中轉(zhuǎn)移到了 MotionDirector 的輸出中,而在左下角的 DreamVideo 輸出中,的顏色屬性與錯(cuò)誤混合,導(dǎo)致不理想的視覺(jué)細(xì)節(jié)。此外,這兩種方法未能建立主體之間的預(yù)期互動(dòng),未能捕捉到它們之間的微妙動(dòng)態(tài)。相比之下,本文的 VideoMage 有效地解決了這些挑戰(zhàn),保留了主體身份,防止了外觀泄漏,并成功實(shí)現(xiàn)了生成視頻中主體之間的預(yù)期互動(dòng)。
定量結(jié)果。 本文對(duì)收集的多主體和運(yùn)動(dòng)數(shù)據(jù)集進(jìn)行了定量評(píng)估。通過(guò) 72 種主體、運(yùn)動(dòng)和背景的組合,本文為每種組合生成了 10 個(gè)視頻,并使用四個(gè)指標(biāo)進(jìn)行評(píng)估。如下表 1 所示,本文的 VideoMage 生成的視頻更好地保留了主體的身份,相較于最先進(jìn)的方法 MotionDirector,在 CLIP-I 和 DINO-I 上分別提高了 5.7% 和 10%。此外,VideoMage 在 CLIP-T 性能上達(dá)到了最高,并且在時(shí)間一致性方面與最先進(jìn)的方法相當(dāng),展示了其生成與文本提示緊密對(duì)齊的連貫視頻的能力。
用戶研究。 為了進(jìn)一步評(píng)估本文方法的有效性,本文進(jìn)行了一項(xiàng)人類偏好研究,將本文的方法與 DreamVideo [44] 和 MotionDirector [51] 進(jìn)行比較。在這項(xiàng)研究中,參與者獲得參考主體圖像和運(yùn)動(dòng)視頻,以及分別由本文的 VideoMage 和比較方法生成的兩個(gè)定制視頻。參與者被要求根據(jù)四個(gè)標(biāo)準(zhǔn)選擇他們偏好的視頻:文本對(duì)齊(視頻與提示的匹配程度)、主體保真度(主體與參考圖像的匹配程度,且沒(méi)有錯(cuò)誤的屬性混合)、運(yùn)動(dòng)保真度(運(yùn)動(dòng)與參考視頻的反映程度)、視頻質(zhì)量(平滑度和無(wú)閃爍)。共生成了 360 個(gè)視頻,參與評(píng)估的參與者有 25 位。如下圖 6 所示,在所有標(biāo)準(zhǔn)中,參與者更傾向于選擇本文的 VideoMage。
消融研究
結(jié)論
本文提出了一個(gè)統(tǒng)一框架 VideoMage,以實(shí)現(xiàn)用戶提供的主體身份和所需運(yùn)動(dòng)模式之間的文本到視頻擴(kuò)散模型的視頻定制。在 VideoMage 中,本文采用多主體和無(wú)外觀運(yùn)動(dòng)學(xué)習(xí)來(lái)推導(dǎo)定制的 LoRA,同時(shí)提出了一種時(shí)空協(xié)作組合方案,以相互對(duì)齊主體和運(yùn)動(dòng)組件,從而合成具有足夠視覺(jué)和時(shí)間保真度的視頻。本文對(duì) VideoMage 進(jìn)行了廣泛的定量和定性評(píng)估,驗(yàn)證了其相較于以前視頻定制方法的優(yōu)越可控性。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
