視頻編輯最新SOTA!港中文&Adobe等發布統一視頻生成傳播框架——GenProp
文章鏈接:https://arxiv.org/pdf/2412.19761
項目鏈接:https://genprop.github.io
亮點直擊
- 定義了一個新的生成視頻傳播問題,目標是利用 I2V 模型的生成能力,將視頻第一幀的各種變化傳播到整個視頻中。
- 精心設計了模型 GenProp,包含選擇性內容編碼器(Selective Content Encoder, SCE)、專用損失函數以及mask預測頭,并提出了一個用于訓練模型的合成數據生成pipeline。
- 本文的模型支持多種下游應用,如移除、插入、替換、編輯和跟蹤。實驗還表明,即使沒有特定任務的數據進行訓練,模型也能支持視頻擴展(outpainting)。
- 實驗結果顯示,本文的模型在視頻編輯和對象移除任務中優于 SOTA 方法,同時擴展了包括跟蹤在內的現有任務范圍。
總結速覽
解決的問題
當前大規模視頻生成模型在處理各種視頻編輯任務時,往往聚焦于單一任務(如視頻修復、外觀編輯、對象插入等),而傳統的視頻傳播方法(如光流或深度傳播)易受錯誤積累影響,缺乏魯棒性和泛化能力。現有方法還需要密集標注或專門針對任務進行重新訓練,流程復雜且效率較低。
提出的方案
- 框架設計:提出了一個統一的視頻生成傳播框架——GenProp。
- 使用選擇性內容編碼器(Selective Content Encoder, SCE)對原視頻的未變部分進行編碼。
- 使用圖像到視頻生成模型(Image-to-Video, I2V)將第一幀的編輯傳播至整段視頻。
- 損失函數設計:引入區域感知損失(region-aware loss),確保SCE只編碼未編輯區域的內容,同時優化I2V模型在修改區域的生成能力。
- 數據生成方案:利用實例級視頻分割數據集生成合成數據,覆蓋多種視頻任務。
應用的技術
- 生成模型:通過 I2V 生成模型進行內容傳播,無需依賴光流或運動預測。
- 輔助訓練模塊:加入輔助解碼器預測修改區域,以提高編輯區域的生成質量。
- 選擇性編碼:通過區域感知機制,減少對已修改區域的編碼干擾,增強未編輯內容的保真度。
達到的效果
- 編輯:支持對對象形狀進行顯著修改。
- 插入:插入的對象能夠獨立運動。
- 移除:可有效移除陰影、反射等對象效果。
- 跟蹤:能夠精確跟蹤對象及其相關效果。
- 統一性:無需密集標注或任務特定的重新訓練,簡化了編輯流程。
方法
生成視頻傳播面臨以下關鍵挑戰:
- 真實性– 第一幀中的變化應自然傳播到后續幀中。
- 一致性– 所有其他區域應與原始視頻保持一致。
- 通用性– 模型應具有足夠的通用性,適用于多種視頻任務。
在 GenProp 中,通過 I2V 生成模型解決 真實性(1);引入選擇性內容編碼器和掩膜預測解碼器,并使用區域感知損失進行訓練以解決 一致性(2);通過數據生成方案和通用 I2V 模型,滿足 通用性(3)。
問題定義
其中, L是一個區域感知損失,用于解耦修改區域和未修改區域,保證未修改區域的穩定性,同時允許在編輯區域進行準確的傳播。為了確保最終輸出符合真實視頻數據的分布,合成數據僅輸入到內容編碼器。I2V 生成模型則使用原始視頻,防止模型無意中學習到合成偽影。
模型設計
為了保持原始視頻的未修改部分,并僅傳播修改區域,我們將兩個額外的組件集成到基本的 I2V 模型中:選擇性內容編碼器(Selective Content Encoder,SCE)和mask預測解碼器(Mask Prediction Decoder,MPD),如下圖 4 所示。
選擇性內容編碼器 (SCE)
SCE 架構是主生成模型初始N個塊的復制版本,類似于 ControlNet 。在每個編碼器塊后,提取的特征將添加到 I2V 模型中的相應特征中,從而實現內容信息的平滑和層次化流動。注入層是一個具有零初始化的多層感知機(MLP),該層也會進行訓練。此外,為了實現雙向信息交換,I2V 模型的特征在第一個塊之前與 SCE 的輸入進行融合。這使得 SCE 能夠識別修改區域,從而能夠選擇性地編碼未修改區域的信息。
Mask預測解碼器 (MPD)
區域感知損失 (Region-Aware Loss)
在訓練過程中,使用實例分割數據來確保編輯和未編輯區域都能得到適當的監督。本文設計了區域感知損失(RA Loss),如下圖 5 所示,旨在平衡兩個區域的損失,即使編輯區域相對較小。
RA損失L是三個項的加權和,以確保對mask區域和非mask區域都有足夠的監督。
合成數據生成
創建大規模配對視頻數據集可能既昂貴又具有挑戰性,尤其是對于視頻傳播任務,因為很難涵蓋所有視頻任務。為了解決這個問題,本文提出使用從視頻實例分割數據集中派生的合成數據。在訓練中,使用了Youtube-VOS、SAM-V2 和一個內部數據集。然而,這一數據生成pipeline可以應用于任何可用的視頻實例分割數據集。
采用了多種增強技術來處理分割數據,針對不同的傳播子任務進行了定制:
- 復制并粘貼:從一個視頻中隨機分割對象并粘貼到另一個視頻中,模擬物體插入;
- Mask填充:對mask區域進行修復,在選定區域內創建逼真的編輯;
- 顏色填充:用特定的顏色填充mask區域,表示基本的物體追蹤場景。
實驗
實現細節
比較
由于生成視頻傳播是一個新問題,在GenProp的三個子任務中與現有的最先進方法進行了比較。請注意,本文的模型能夠在同一個模型中處理這些任務,并進一步涵蓋了如外延(outpainting)以及這些子任務的組合等附加任務,如下圖1底部所示。
基于擴散的視頻編輯
在下圖6(a)和(b)中,將GenProp與其他基于擴散的視頻編輯方法進行了比較,包括文本引導和圖像引導的方法。InsV2V依賴于指令文本來控制生成。然而,由于訓練數據有限,它在形狀變化較大時表現不佳,并且不支持對象插入。Pika也使用文本提示在框選區域內進行編輯,但當物體形狀發生顯著變化時,它表現較差,且無法處理背景編輯或對象插入。AnyV2V是一個無需訓練的方法,使用第一幀來引導編輯。雖然它能夠處理外觀變化,但在發生大規模形狀或背景修改時會失敗,通常會導致退化或鬼影效果。像InsV2V和Pika一樣,它也無法插入物體。使用ReVideo通過先移除一個物體再重新插入來處理大規模的形狀變化,但這種兩階段過程有缺點。基于框的區域可能導致模糊的邊界,并且物體運動會受到原始點跟蹤的影響,導致錯誤累積。此外,框選區域限制了它有效編輯復雜背景的能力。
視頻物體移除
對于物體移除,將GenProp與傳統的修補pipeline進行了比較,其中級聯了兩個最先進的模型來實現類似傳播的修補,因為傳統方法需要對所有幀進行密集的遮罩注釋:SAM-V2用于遮罩跟蹤,然后Propainter用于修補估計遮罩中的區域。如上圖6(c)和(d)所示,GenProp具有幾個優點:(1)不需要密集的遮罩注釋作為輸入;(2)去除物體的反射和陰影等效果;(3)去除大物體并在大面積內進行自然填充。
視頻物體跟蹤
在上圖6(e)中將GenProp與SAM-V2在跟蹤性能上進行了比較。由于SAM-V2是在大規模SA-V數據集上訓練的,因此SAM-V2通常會生成比GenProp更精確的跟蹤遮罩。此外,GenProp比像SAM-V2這樣的實時跟蹤方法要慢。然而,它有顯著的優勢。由于其視頻生成的預訓練,GenProp具有強大的物理規則理解能力。如圖6所示,與SAM-V2不同,后者由于訓練數據有限且偏倚,難以處理物體的反射和陰影等效果,GenProp能夠穩定地跟蹤這些效果。這突顯了通過生成模型處理經典視覺任務的潛力。
定量結果
對多個測試集進行了定量評估。在視頻編輯(如表1所示)中,在兩種類型的測試集上進行了評估:(1)經典測試集,使用TGVE的DAVIS部分及其“對象變化描述”作為文本提示,重點關注對象替換和外觀編輯;(2)挑戰性測試集,包括從Pexels和Adobe Stock收集的30個手動選擇的視頻,涵蓋了大規模物體替換、物體插入和背景替換。對于(2),第一幀使用商業圖像編輯工具進行了編輯。對于Pika,使用在線框選工具,每個結果運行三次。
對于ReVideo,選擇一個框選區域,然后使用其代碼提取原始物體的運動點以跟蹤外觀變化。對于具有顯著形狀變化的編輯,首先移除原始物體,再插入新物體并分配未來軌跡。
為了評估未編輯區域的一致性,在編輯遮罩外計算PSNR,記作PSNRm。對于形狀變化較大的情況,我們在原始和編輯區域上應用粗略的遮罩,僅計算這些遮罩外區域的PSNR。對于文本對齊,我們計算編輯幀與文本提示的CLIP嵌入之間的余弦相似度(CLIP-T)。對于結果質量,計算跨幀的CLIP特征距離(CLIP-I)。
如下表1所示,GenProp在大多數指標上優于其他方法,特別是在挑戰性測試集上。Pika在經典測試集上表現出較好的一致性,因為當物體形狀相對不變時,其邊界框表現得相當好。ReVideo在多個物體上效果較差。對于物體移除,收集了15個復雜場景的視頻,包括物體效果和遮擋,因為現有的測試集沒有覆蓋這些情況。對于SAM,我們點擊物體和副作用以確保完整的覆蓋。
如表2所示,GenProp實現了最高的一致性,而ReVideo可能會產生邊界框偽影,ProPainter在物體效果方面表現較差。
由于質量指標往往不能準確捕捉生成結果的真實感,使用Amazon MTurk進行了用戶研究,共有121名參與者。每個參與者查看由GenProp和隨機基線生成的幾個視頻,以及原始視頻和文本提示。他們被問到兩個問題:
- 哪個視頻與說明更匹配?
- 哪個視頻在視覺上更好?
然后參與者為每個問題選擇一個視頻。在上面表1和表2中,展示了用戶在對齊/質量上的偏好,GenProp在所有基線上均大幅領先,特別是在挑戰性測試集上。
消融研究
Mask預測解碼器(MPD)
在下表3中,評估了MPD在挑戰性測試集上的效果,結果顯示它可以改善文本對齊和一致性。如圖7的第1和第2行所示,未使用MPD時,輸出mask往往嚴重退化,導致移除質量更差。如果沒有MPD的顯式監督,模型可能會混淆應該傳播的部分和應該保留的部分,導致在后續幀中部分移除的物體重新出現。MPD有助于解耦,使得移除結果和預測掩碼更加準確,即使在嚴重遮擋的情況下也能實現完全物體移除。
區域感知損失 (RA Loss)
在表3中,進一步測試了所提議的RA Loss在挑戰性測試集上的有效性。GenProp中的一個核心挑戰是,SCE可能錯誤地選擇原始視頻的所有區域,包括編輯區域,這會因為重建損失而削弱I2V生成能力。
如下圖7的第3至第5行所示,在沒有RA Loss的情況下,原始物體往往會逐漸重新出現,從而阻礙了第一幀編輯(綠色摩托車)的傳播。使用RA Loss后,編輯區域能夠以穩定一致的方式傳播。
顏色填充增強 (Color Fill Augmentation)
顏色填充增強是解決傳播失敗的另一個關鍵因素。盡管復制粘貼和遮罩填充增強使得模型能夠隱式學習物體修改、替換和刪除,但顏色填充增強明確地訓練模型進行跟蹤,引導模型在整個序列中保持第一幀所做的修改,提示為“跟蹤彩色區域”。如上圖7的第6至第8行所示,由于形狀差異顯著,將女孩變成一只小貓是具有挑戰性的。然而,使用顏色填充增強后,GenProp成功地將這一大幅修改在整個序列中傳播。
結論
本文設計了一種新型的生成視頻傳播框架——GenProp,利用I2V模型固有的視頻生成能力,實現了包括物體移除、插入和跟蹤等多種下游應用。通過展示其能夠擴展可實現的編輯范圍(例如,移除或跟蹤物體及其相關效果)并生成高度逼真的視頻,且不依賴于傳統的中間表示(如光流或深度圖),我們展示了其潛力。通過集成選擇性內容編碼器并利用I2V生成模型,GenProp能夠始終保持未改變的內容,同時動態傳播變化。合成數據和區域感知損失進一步提升了其在跨幀解耦和細化編輯方面的能力。實驗結果表明,GenProp在范圍和精度上均優于現有方法,確立了其作為一種強大、靈活的解決方案的地位。未來,計劃擴展該模型以支持多個關鍵幀的編輯,并探索可以支持的其他視頻任務。
本文轉自AI生成未來 ,作者:AI生成未來
