CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"

angel

發(fā)布于 2025-4-2 10:03

瀏覽

0收藏

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2503.21781
項(xiàng)目鏈接：https://jasper0314-huang.github.io/videomage-customization

亮點(diǎn)直擊

提出了 VideoMage，一個(gè)統(tǒng)一框架，首次實(shí)現(xiàn)了針對(duì)多個(gè)主體身份及其交互運(yùn)動(dòng)的視頻概念定制。
引入了一種新穎的外觀無(wú)關(guān)運(yùn)動(dòng)學(xué)習(xí)方法，通過(guò)改進(jìn)負(fù)分類器自由引導(dǎo)，解耦潛在的運(yùn)動(dòng)模式與外觀之間的關(guān)系。
開發(fā)了一種時(shí)空協(xié)作組合方案，以組合獲得的多主體和運(yùn)動(dòng) LoRA，從而生成所需運(yùn)動(dòng)模式下連貫的多主體交互。

總結(jié)速覽

解決的問(wèn)題

定制化的文本到視頻生成旨在制作高質(zhì)量的視頻，包含用戶指定的主體身份或運(yùn)動(dòng)模式。然而，現(xiàn)有的方法主要集中在個(gè)性化單一概念上，即主體身份或運(yùn)動(dòng)模式，這限制了它們?cè)诙鄠€(gè)主體及其所需運(yùn)動(dòng)模式下的有效性。

提出的方案

為了解決這一挑戰(zhàn)，提出了一個(gè)統(tǒng)一框架 VideoMage，用于對(duì)多個(gè)主體及其交互運(yùn)動(dòng)進(jìn)行視頻定制。

應(yīng)用的技術(shù)

VideoMage 采用主體和運(yùn)動(dòng) LoRA，從用戶提供的圖像和視頻中捕捉個(gè)性化內(nèi)容。
引入了一種新穎的外觀無(wú)關(guān)運(yùn)動(dòng)學(xué)習(xí)方法，通過(guò)改進(jìn)負(fù)分類器自由引導(dǎo)，解耦潛在的運(yùn)動(dòng)模式與外觀之間的關(guān)系。
開發(fā)了一種時(shí)空組合方案，以組合獲得的多主體和運(yùn)動(dòng) LoRA，從而生成所需運(yùn)動(dòng)模式下連貫的多主體交互。

達(dá)到的效果

大量實(shí)驗(yàn)表明，VideoMage 的表現(xiàn)優(yōu)于現(xiàn)有方法，能夠生成連貫的、用戶控制的視頻，并保持一致的主體身份和交互。

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

方法

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

為了解決上述問(wèn)題，提出了 VideoMage，這是一個(gè)統(tǒng)一框架，用于定制多個(gè)主體和交互運(yùn)動(dòng)以進(jìn)行文本到視頻生成。在快速回顧視頻擴(kuò)散模型后，詳細(xì)說(shuō)明了如何利用 LoRA 模塊分別從輸入圖像和參考視頻中學(xué)習(xí)視覺(jué)和運(yùn)動(dòng)信息。本文提出了一種獨(dú)特的時(shí)空協(xié)作組合方案，以整合學(xué)習(xí)到的主體/運(yùn)動(dòng) LoRA 進(jìn)行視頻生成。

初步：視頻擴(kuò)散模型

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

主體和運(yùn)動(dòng)定制

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

為了避免干擾時(shí)間動(dòng)態(tài)，主體 LoRA 僅應(yīng)用于 UNet 的空間層。目標(biāo)定義為：

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

因此，整體目標(biāo)定義為：

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

為了解決這個(gè)問(wèn)題，本文提出了一種新穎的與外觀無(wú)關(guān)的目標(biāo)，如下圖 3 所示，能夠有效地從參考視頻中隔離運(yùn)動(dòng)模式。受到 [12, 22] 中概念消除方法的啟發(fā)，本文推進(jìn)了基于視覺(jué)主體外觀的負(fù)分類器自由引導(dǎo)，專注于在運(yùn)動(dòng)學(xué)習(xí)過(guò)程中消除外觀信息。這將確保運(yùn)動(dòng) LoRA 專注于運(yùn)動(dòng)動(dòng)態(tài)。

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

為了實(shí)現(xiàn)這一點(diǎn)，本文首先通過(guò)在從參考視頻中采樣的單幀上應(yīng)用文本反演 [11] 來(lái)學(xué)習(xí)參考視頻中主體的特殊標(biāo)記（例如，上圖 3 中的“人”和“馬”）。這在最小化運(yùn)動(dòng)影響的同時(shí)捕捉主體外觀，有效地將外觀與運(yùn)動(dòng)解耦。利用上述特殊標(biāo)記，本文使用與外觀無(wú)關(guān)的目標(biāo)訓(xùn)練一個(gè)運(yùn)動(dòng) LoRA，該目標(biāo)采用負(fù)引導(dǎo)來(lái)抑制外觀信息，使運(yùn)動(dòng) LoRA 能夠獨(dú)立于主體外觀學(xué)習(xí)運(yùn)動(dòng)模式。

更具體地說(shuō)，訓(xùn)練目標(biāo)定義為：

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

空間-時(shí)間協(xié)作合成

通過(guò)獲得多個(gè)主體 LoRA 和互動(dòng)運(yùn)動(dòng) LoRA，本文的目標(biāo)是生成這些主體使用所需運(yùn)動(dòng)模式進(jìn)行互動(dòng)的視頻。然而，結(jié)合具有不同屬性的 LoRA（即視覺(jué)外觀與空間-時(shí)間運(yùn)動(dòng)）并不是一項(xiàng)簡(jiǎn)單的任務(wù)。

在本文的工作中，本文提出了一種空間-時(shí)間協(xié)作合成的測(cè)試時(shí)間優(yōu)化方案，使上述 LoRA 之間能夠協(xié)作生成具有所需外觀和運(yùn)動(dòng)屬性的視頻。本文現(xiàn)在討論所提出的方案。

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

具體而言，本文通過(guò)將主體分支的時(shí)間自注意力圖與運(yùn)動(dòng)分支的時(shí)間自注意力圖對(duì)齊來(lái)強(qiáng)制運(yùn)動(dòng)的正確性。類似地，本文通過(guò)將運(yùn)動(dòng)分支的空間交叉注意力圖與主體分支的空間交叉注意力圖對(duì)齊，確保準(zhǔn)確的空間排列。協(xié)作引導(dǎo)的損失計(jì)算如下：

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。 為了評(píng)估多主體和運(yùn)動(dòng)任務(wù)的視頻定制方法，本文從 WebVid [2] 收集了 6 個(gè)運(yùn)動(dòng)視頻，展示了人類與動(dòng)物之間的各種互動(dòng)。對(duì)于每個(gè)運(yùn)動(dòng)，本文提供了來(lái)自 [26, 33] 的 3 對(duì)主體，包括動(dòng)物、機(jī)器人、玩具和毛絨玩具等多種不同物種，每個(gè)設(shè)置有 4 個(gè)不同的背景提示。

評(píng)估指標(biāo)。 遵循之前的工作 [43, 44, 51]，本文使用以下指標(biāo)評(píng)估性能：1）CLIP-T，測(cè)量生成幀與文本提示之間的余弦相似度，使用 CLIP [29]；2）CLIP-I，通過(guò)比較生成幀和目標(biāo)圖像的 CLIP 圖像嵌入來(lái)評(píng)估主體身份；3）DINO-I，類似于 CLIP-I，但使用 DINO [4] 的嵌入；4）時(shí)間一致性 [10]，通過(guò)計(jì)算連續(xù)幀之間的相似度來(lái)測(cè)量逐幀一致性，使用 CLIP。此外，本文進(jìn)行人類評(píng)估以進(jìn)行定性評(píng)估。

比較。 本文將本文的 VideoMage 與最先進(jìn)的視頻定制方法進(jìn)行比較，包括通過(guò)應(yīng)用適配器和 LoRA 分別對(duì)單一主體進(jìn)行運(yùn)動(dòng)定制的 DreamVideo [44] 和 MotionDirector [51]。為了公平比較，本文首先對(duì)多個(gè)主體模塊的輸出進(jìn)行平均，并將其與運(yùn)動(dòng)模塊結(jié)合以進(jìn)行多主體和運(yùn)動(dòng)定制。

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

主要結(jié)果

定性結(jié)果。 在下圖 5 中，本文展示了定制視頻生成的示例，結(jié)合了用戶提供的各種主體圖像和特定的運(yùn)動(dòng)參考視頻。正如本文所觀察到的，DreamVideo 和 MotionDirector 都遭遇了顯著的外觀泄漏和屬性混合問(wèn)題，難以正確安排多個(gè)主體以遵循參考運(yùn)動(dòng)模式。例如，在右下角，運(yùn)動(dòng)視頻中黑狗的外觀無(wú)意中轉(zhuǎn)移到了 MotionDirector 的輸出中，而在左下角的 DreamVideo 輸出中，的顏色屬性與錯(cuò)誤混合，導(dǎo)致不理想的視覺(jué)細(xì)節(jié)。此外，這兩種方法未能建立主體之間的預(yù)期互動(dòng)，未能捕捉到它們之間的微妙動(dòng)態(tài)。相比之下，本文的 VideoMage 有效地解決了這些挑戰(zhàn)，保留了主體身份，防止了外觀泄漏，并成功實(shí)現(xiàn)了生成視頻中主體之間的預(yù)期互動(dòng)。

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

定量結(jié)果。 本文對(duì)收集的多主體和運(yùn)動(dòng)數(shù)據(jù)集進(jìn)行了定量評(píng)估。通過(guò) 72 種主體、運(yùn)動(dòng)和背景的組合，本文為每種組合生成了 10 個(gè)視頻，并使用四個(gè)指標(biāo)進(jìn)行評(píng)估。如下表 1 所示，本文的 VideoMage 生成的視頻更好地保留了主體的身份，相較于最先進(jìn)的方法 MotionDirector，在 CLIP-I 和 DINO-I 上分別提高了 5.7% 和 10%。此外，VideoMage 在 CLIP-T 性能上達(dá)到了最高，并且在時(shí)間一致性方面與最先進(jìn)的方法相當(dāng)，展示了其生成與文本提示緊密對(duì)齊的連貫視頻的能力。

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

用戶研究。 為了進(jìn)一步評(píng)估本文方法的有效性，本文進(jìn)行了一項(xiàng)人類偏好研究，將本文的方法與 DreamVideo [44] 和 MotionDirector [51] 進(jìn)行比較。在這項(xiàng)研究中，參與者獲得參考主體圖像和運(yùn)動(dòng)視頻，以及分別由本文的 VideoMage 和比較方法生成的兩個(gè)定制視頻。參與者被要求根據(jù)四個(gè)標(biāo)準(zhǔn)選擇他們偏好的視頻：文本對(duì)齊（視頻與提示的匹配程度）、主體保真度（主體與參考圖像的匹配程度，且沒(méi)有錯(cuò)誤的屬性混合）、運(yùn)動(dòng)保真度（運(yùn)動(dòng)與參考視頻的反映程度）、視頻質(zhì)量（平滑度和無(wú)閃爍）。共生成了 360 個(gè)視頻，參與評(píng)估的參與者有 25 位。如下圖 6 所示，在所有標(biāo)準(zhǔn)中，參與者更傾向于選擇本文的 VideoMage。

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

消融研究

CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時(shí)代!英偉達(dá)等發(fā)布VideoMage巧用"時(shí)空組合拳"-AI.x社區(qū)

結(jié)論

本文提出了一個(gè)統(tǒng)一框架 VideoMage，以實(shí)現(xiàn)用戶提供的主體身份和所需運(yùn)動(dòng)模式之間的文本到視頻擴(kuò)散模型的視頻定制。在 VideoMage 中，本文采用多主體和無(wú)外觀運(yùn)動(dòng)學(xué)習(xí)來(lái)推導(dǎo)定制的 LoRA，同時(shí)提出了一種時(shí)空協(xié)作組合方案，以相互對(duì)齊主體和運(yùn)動(dòng)組件，從而合成具有足夠視覺(jué)和時(shí)間保真度的視頻。本文對(duì) VideoMage 進(jìn)行了廣泛的定量和定性評(píng)估，驗(yàn)證了其相較于以前視頻定制方法的優(yōu)越可控性。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/gxh9l-N4lJavpJqazhXLMQ??

標(biāo)簽

模型

生成

贊

回復(fù)