ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現(xiàn)多粒度控制,精準(zhǔn)到像素級
論文鏈接:https://arxiv.org/pdf/2502.17258
git 鏈接:https://knightyxp.github.io/VideoGrain_project_page/
亮點直擊
- 首次嘗試多粒度視頻編輯的方法。支持類別級、實例級和局部級的編輯。
- 提出了一個新穎的框架,稱為VideoGrain,該框架通過調(diào)節(jié)時空跨注意力和自注意力,實現(xiàn)文本到區(qū)域的控制以及區(qū)域間特征的分離。
- 在無需調(diào)整任何參數(shù)的情況下,在現(xiàn)有基準(zhǔn)測試和真實世界視頻上都取得了定性和定量的最新成果。
總結(jié)速覽
解決的問題
- 多粒度視頻編輯的挑戰(zhàn),特別是文本到區(qū)域控制的語義不匹配和擴散模型內(nèi)部的特征耦合問題。
提出的方案
- 提出了一種名為VideoGrain的零樣本方法,通過調(diào)節(jié)時空(跨注意力和自注意力)機制,實現(xiàn)對視頻內(nèi)容的精細化控制。
應(yīng)用的技術(shù)
- 增強局部提示對其對應(yīng)空間解耦區(qū)域的注意力,減少跨注意力中與無關(guān)區(qū)域的交互。
- 提升區(qū)域內(nèi)部的感知能力,減少區(qū)域之間的干擾,以改進特征分離。
達到的效果
- 實現(xiàn)了支持類別級、實例級和局部級的多粒度視頻編輯。
- 在無需調(diào)整參數(shù)的情況下,在現(xiàn)有基準(zhǔn)測試和真實世界視頻上取得了定性和定量的SOTA成果。
方法
動機
為了解釋為什么以往的方法在實例級視頻編輯中失敗(見下圖2),首先對擴散模型中的自注意力和跨注意力特征進行了基本分析。
如下圖3(b)所示,在DDIM反演過程中對每幀的自注意力特征應(yīng)用了K-Means聚類。雖然聚類捕捉到了清晰的語義布局,但未能區(qū)分不同的實例(例如,“左邊的男人”和“右邊的男人”)。增加聚類數(shù)量會導(dǎo)致部分級別的更細分割,但無法解決這個問題,這表明實例間特征的同質(zhì)性限制了擴散模型在多粒度視頻編輯中的有效性。
接下來,嘗試使用SDEdit將同一類的兩個男人編輯為不同的實例。然而,上圖3(d)顯示,“鋼鐵俠”和“蜘蛛俠”的權(quán)重在左邊的男人上重疊,“花朵”的權(quán)重泄漏到右邊的男人上,導(dǎo)致了(c)中的編輯失敗。因此,為了實現(xiàn)有效的多粒度編輯,提出以下問題:我們能否調(diào)節(jié)注意力,以確保每個局部編輯的注意力權(quán)重準(zhǔn)確分布在預(yù)期區(qū)域?
本文提出了VideoGrain的兩個關(guān)鍵設(shè)計:(1) 調(diào)節(jié)跨注意力以引導(dǎo)文本特征聚集在相應(yīng)的空間解耦區(qū)域,從而實現(xiàn)文本到區(qū)域的控制。(2) 在時空軸上調(diào)節(jié)自注意力,以增強區(qū)域內(nèi)的焦點并減少區(qū)域間的干擾,避免擴散模型中的特征耦合。
問題表述
本工作的目的是基于給定的提示在多個區(qū)域進行多粒度視頻編輯。這涉及三個層次的編輯:
(1) 類別級編輯: 編輯同一類別內(nèi)的對象。(例如,將兩個男人變?yōu)椤爸┲雮b”,兩者都屬于人類類別,如上圖2第二列所示)
(2) 實例級編輯: 將每個單獨實例編輯為不同的對象。(例如,將左邊的男人編輯為“蜘蛛俠”,右邊的男人編輯為“北極熊”,如圖2第三列所示)
(3) 部分級編輯: 對單個實例的特定元素進行部分級別的編輯。(例如,在將右邊的男人編輯為“北極熊”時添加“太陽鏡”,如上圖2第四列所示)
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現(xiàn)多粒度控制,精準(zhǔn)到像素級-AI.x社區(qū)
整體框架
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現(xiàn)多粒度控制,精準(zhǔn)到像素級-AI.x社區(qū)
與通過一個全局文本提示控制所有幀的方法不同,VideoGrain 允許在去噪過程中指定配對的實例級或部分級提示及其位置。我們的方法還可以靈活地結(jié)合 ControlNet 條件e ,例如深度圖或姿態(tài)圖,以提供結(jié)構(gòu)化條件。
時空布局引導(dǎo)的注意力
基于前文的觀察,跨注意力權(quán)重分布與編輯結(jié)果密切相關(guān)。同時,自注意力對于生成時間一致性視頻也至關(guān)重要。然而,一個區(qū)域內(nèi)的像素可能會關(guān)注到外部或相似的區(qū)域,這對多粒度視頻編輯造成了障礙。因此需要調(diào)節(jié)自注意力和跨注意力,使每個像素或局部提示僅關(guān)注正確的區(qū)域。
為實現(xiàn)這一目標(biāo),通過統(tǒng)一的“增強正向關(guān)聯(lián)、減少負向關(guān)聯(lián)”機制調(diào)節(jié)跨注意力和自注意力。具體而言,對于查詢特征的第i幀,我們對查詢-鍵(Query-Key)條件映射QK進行如下調(diào)節(jié):
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現(xiàn)多粒度控制,精準(zhǔn)到像素級-AI.x社區(qū)
調(diào)節(jié)跨注意力以實現(xiàn)文本到區(qū)域控制 在跨注意力層中,文本特征作為鍵(key)和值(value),并與來自視頻潛變量的查詢特征進行交互。由于每個實例的外觀和位置與跨注意力權(quán)重分布密切相關(guān),我們的目標(biāo)是將每個實例的文本特征聚集到對應(yīng)的位置。
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現(xiàn)多粒度控制,精準(zhǔn)到像素級-AI.x社區(qū)
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現(xiàn)多粒度控制,精準(zhǔn)到像素級-AI.x社區(qū)
如上圖4(中右)所示,在添加正值和減去負值后,“Spiderman”的原始跨注意力權(quán)重(例如p,)被放大并集中在左邊的人身上。而“polar”“bear”的干擾權(quán)重則集中在右邊的人身上。這表明我們的調(diào)節(jié)將每個提示的權(quán)重重新分配到目標(biāo)區(qū)域上,實現(xiàn)了精確的文本到區(qū)域控制。
調(diào)節(jié)自注意力以保持特征分離 為了使T2I模型適應(yīng)T2V編輯,將整個視頻視為“一個更大的圖像”,用時空自注意力替換空間注意力,同時保留預(yù)訓(xùn)練權(quán)重。這增強了跨幀交互,并提供了更廣泛的視覺上下文。然而,簡單的自注意力可能導(dǎo)致區(qū)域關(guān)注不相關(guān)或相似的區(qū)域(例如,圖4底部,調(diào)節(jié)前查詢p關(guān)注兩個人),這會導(dǎo)致紋理混合。為了解決這個問題,需要加強同一區(qū)域內(nèi)的正向關(guān)注,并限制不同區(qū)域之間的負向交互。
如上圖4(左下)所示,最大跨幀擴散特征表示同一區(qū)域內(nèi)標(biāo)記之間的最強響應(yīng)。請注意,DIFT使用這一點來匹配不同的圖像,而我們專注于生成過程中的跨幀對應(yīng)和區(qū)域內(nèi)部注意力調(diào)節(jié)。然而,負向的區(qū)域間對應(yīng)對于解耦特征混合同樣重要。超越DIFT,我們發(fā)現(xiàn)最小的跨幀擴散特征相似性可以有效地捕捉不同區(qū)域之間標(biāo)記的關(guān)系。因此,定義時空正/負值為:
為了確保每個patch關(guān)注區(qū)域內(nèi)的特征,同時避免區(qū)域間特征的交互,我們定義了時空查詢-鍵條件映射:
對于幀索引i和j,當(dāng)token屬于跨幀的不同實例時,其值為零。
如上圖4底部右側(cè)所示,在應(yīng)用我們的自注意力調(diào)節(jié)后,來自左側(cè)人物鼻子(例如,)的查詢特征僅關(guān)注左側(cè)實例,避免了對右側(cè)實例的干擾。這表明,我們的自注意力調(diào)節(jié)打破了擴散模型的類別級特征對應(yīng)性,確保了實例級的特征分離。
實驗
實驗設(shè)置
在實驗中,采用預(yù)訓(xùn)練的Stable Diffusion v1.5作為基礎(chǔ)模型,使用50步的DDIM反演和去噪過程。
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現(xiàn)多粒度控制,精準(zhǔn)到像素級-AI.x社區(qū)
所有實驗均在NVIDIA A40 GPU上進行。使用包含76個視頻-文本對的數(shù)據(jù)集評估VideoGrain,包括來自DAVIS (Perazzi et al., 2016)、TGVE1以及互聯(lián)網(wǎng)的視頻,每個視頻包含16-32幀。使用四個自動化指標(biāo)進行評估:CLIP-T、CLIP-F、Warp-Err和Q-edit,這些指標(biāo)參考(Wu et al., 2022; Cong et al., 2023),并全部縮放為100以便于展示。
對于基線方法,與以下T2I方法進行比較,包括FateZero、ControlVideo、TokenFlow、GroundVideo以及T2V方法DMT。為了確保時間一致性,我們采用FLATTEN和PnP。為了公平起見,所有T2I基線均配備相同的ControlNet條件。
結(jié)果
在涵蓋類別級、實例級和部分級編輯的視頻上評估了VideoGrain。本文的方法展示了在處理動物方面的多功能性,例如將“狼”轉(zhuǎn)變?yōu)椤柏i”(下圖5,左上)。對于實例級編輯,可以分別修改車輛(例如,將“SUV”轉(zhuǎn)變?yōu)椤跋儡嚒?,將“貨車”轉(zhuǎn)變?yōu)椤靶\嚒保缦聢D5右上所示。VideoGrain在編輯復(fù)雜遮擋場景中的多個實例方面表現(xiàn)出色,例如“蜘蛛俠和神奇女俠打羽毛球”(下圖5,中左)。以前的方法往往在處理這種非剛性運動時表現(xiàn)不佳。此外,本文的方法能夠進行多區(qū)域編輯,既可以編輯前景也可以編輯背景,如肥皂盒場景中,背景變?yōu)椤吧种械暮祥L滿苔蘚的石橋”(下圖5,中右)。得益于精確的注意力權(quán)重分配,可以無縫交換身份,例如在慢跑場景中,“鋼鐵俠”和“蜘蛛俠”交換身份(下圖5,左下)。對于部分級編輯,VideoGrain在調(diào)整角色穿上超人服裝的同時保持太陽鏡不變方面表現(xiàn)出色(下圖5,右下)??傮w而言,對于多粒度編輯,VideoGrain表現(xiàn)出色。
定性和定量比較
定性比較。下圖6展示了VideoGrain與基線方法之間的比較,包括T2I和T2V方法的實例級和部分級編輯。為公平起見,所有T2I方法都使用ControlNet條件。(1) 動物實例:在左列,T2I方法如FateZero、ControlVideo和TokenFlow由于擴散模型中相同類別特征耦合,將兩只貓都編輯成熊貓,未能進行單獨編輯。即使是具有視頻生成先驗的DMT,也仍然將熊貓和玩具貴賓犬的特征混合在一起。相比之下,VideoGrain成功地將一個編輯成熊貓,另一個編輯成玩具貴賓犬。(2) 人類實例:在中間列,基線方法在相同類別特征耦合方面表現(xiàn)不佳,部分將兩個人都編輯成鋼鐵俠。DMT和Ground-A-Video也未能遵循用戶意圖,錯誤地編輯了左右實例。VideoGrain則正確地將右側(cè)人物轉(zhuǎn)變?yōu)楹镒樱蚱屏巳祟愵悇e的限制。(3) 部分級編輯:在第三列,VideoGrain處理部分級編輯,如太陽鏡和拳擊手套。ControlVideo編輯了手套,但在太陽鏡和運動一致性方面表現(xiàn)不佳。TokenFlow和DMT編輯了太陽鏡,但未能修改手套或背景。相比之下,VideoGrain實現(xiàn)了實例級和部分級編輯,顯著優(yōu)于以前的方法。
定量比較。使用自動化指標(biāo)和人工評估來比較不同方法的性能。CLIP-T計算輸入提示與所有視頻幀之間的平均余弦相似度,而CLIP-F測量連續(xù)幀之間的平均余弦相似度。此外,Warp-Err通過根據(jù)源視頻的光流(使用RAFT-Large提取)扭曲編輯后的視頻幀來捕捉像素級差異。為了提供更全面的視頻編輯質(zhì)量度量,遵循(Cong et al., 2023)并使用Q-edit,定義為CLIP-T/Warp-Err。為了清晰起見,我們將所有自動化指標(biāo)縮放為100。在人工評估方面,我們評估了三個關(guān)鍵方面:編輯準(zhǔn)確性(每個局部編輯是否準(zhǔn)確應(yīng)用)、時間一致性(參與者評估視頻幀之間的連貫性)和整體編輯質(zhì)量。
本工作邀請了20名參與者對76個視頻-文本對在這三個標(biāo)準(zhǔn)上進行評分,評分范圍為20到100,遵循(Jeong & Ye, 2023)。如下表1所示,VideoGrain在T2I和T2V方法中始終表現(xiàn)優(yōu)異。這主要歸功于ST-Layout Attn的精確文本到區(qū)域控制和保持區(qū)域之間的特征分離。因此,我們的方法在CLIP-T和編輯準(zhǔn)確性得分上顯著高于其他基線。改進的Warp-Err和時間一致性指標(biāo)進一步表明VideoGrain提供了時間上連貫的視頻編輯。
效率比較。為了評估效率,在單個A6000 GPU上比較了基線方法和VideoGrain對16幀視頻的編輯。指標(biāo)包括編輯時間(執(zhí)行一次編輯所需的時間)以及GPU和CPU內(nèi)存使用情況。從下表2可以看出,我們的方法以最低的內(nèi)存使用實現(xiàn)了最快的編輯時間,表明其計算效率。
消融研究
為了評估提出的ST-Layout Attn中不同組件的貢獻,首先評估我們的注意力機制是否能夠?qū)崿F(xiàn)注意力權(quán)重分布,然后解耦自注意力調(diào)制和交叉注意力調(diào)制以評估它們各自的有效性。
注意力權(quán)重分布。評估ST-Layout Attn對注意力權(quán)重分布的影響。如下圖7所示,目標(biāo)提示為“鋼鐵俠在雪地網(wǎng)球場打網(wǎng)球?!蔽覀兛梢暬恕叭恕钡慕徊孀⒁饬D以評估權(quán)重分布。沒有ST-Layout Attn時,特征混合發(fā)生,“雪”的權(quán)重溢出到“鋼鐵俠”上。有了ST-Layout Attn,人物的權(quán)重被正確分配。這是因為我們在交叉和自注意力中增強了正對配對分數(shù)并抑制了負對配對分數(shù)。這使得“鋼鐵俠”和“雪”的精確、獨立編輯成為可能。
交叉注意力調(diào)制。在下圖8和下表3中,展示了不同設(shè)置下的視頻編輯結(jié)果:(1) 基線 (2) 基線 + 交叉注意力調(diào)制 (3) 基線 + 交叉注意力調(diào)制 + 自注意力調(diào)制。如下圖8右上所示,直接編輯未能區(qū)分左右實例,導(dǎo)致錯誤(左)或無編輯(右)。然而,當(dāng)配備交叉注意力調(diào)制時,我們實現(xiàn)了準(zhǔn)確的文本到區(qū)域控制,從而分別將左側(cè)人物編輯為“鋼鐵俠”和右側(cè)人物為“蜘蛛俠”。下表3中的定量結(jié)果表明,使用交叉注意力調(diào)制(第二行),CLIP-T增加了7.4%,Q-edit增加了63.9%。這證明了我們交叉注意力調(diào)制的有效性。
自注意力調(diào)制。然而,僅調(diào)制交叉注意力仍會導(dǎo)致結(jié)構(gòu)失真,例如蜘蛛網(wǎng)出現(xiàn)在左側(cè)人物上。這是由于相同類別特征(例如,人類)的耦合造成的。使用我們的自注意力調(diào)制時,特征混合顯著減少,左側(cè)人物保留了獨特的物體特征。這是通過降低不同實例之間的負對分數(shù),同時增加同一實例內(nèi)的正對分數(shù)來實現(xiàn)的。因此,在優(yōu)化區(qū)域中生成了更多部分級細節(jié),例如獨特的藍色側(cè)面。表3中Warp-Err減少43.9%和Q-edit增加80.6%的定量結(jié)果進一步證明了自注意力調(diào)制的有效性。
結(jié)論
本文旨在解決多粒度視頻編輯的問題,包括類別級、實例級和部分級的視頻編輯。據(jù)我們所知,這是對該任務(wù)的首次嘗試。在這個任務(wù)中,我們發(fā)現(xiàn)關(guān)鍵問題是擴散模型將不同實例視為同類特征,直接的全局編輯會混合不同的局部區(qū)域。為了解決這些問題,我們提出了VideoGrain,以調(diào)制時空交叉和自注意力進行文本到區(qū)域的控制,同時保持區(qū)域之間的特征分離。在交叉注意力中,我們增強每個局部提示對其對應(yīng)空間解耦區(qū)域的關(guān)注,同時抑制對不相關(guān)區(qū)域的注意力,從而實現(xiàn)文本到區(qū)域的控制。在自注意力中,我們增加區(qū)域內(nèi)的感知并減少區(qū)域間的交互以保持區(qū)域之間的特征分離。大量實驗表明,我們的VideoGrain在類別級、實例級和部分級視頻編輯上均優(yōu)于以往的視頻編輯方法。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
