視頻一鍵拆分PS層!DeepMind新模型效果碾壓同級,物體、背景完美分離,還能腦補
視頻數據中通常會包含動態世界中的復雜信號,比如相機運動、關節移動、復雜的場景效果以及物體之間的交互。
如果能自動化地把視頻分解成一組語義上有意義的、半透明的層,分離前景對象和背景的話,類似PS中的圖片,就可以極大提升視頻的編輯效率和直觀性。
現有方法在推斷對象及其效果之間復雜的時空相關性時,只能處理靜態背景或帶有精確相機和深度估計數據的視頻,并且無法補全被遮擋區域,極大限制了可應用范圍。
最近,Google DeepMind、馬里蘭大學帕克分校和魏茨曼科學研究所的研究人員共同提出了一個全新的分層視頻分解框架,無需假設背景是靜態的,也不需要相機姿態或深度信息,就能生成清晰、完整的圖像層,甚至還能對被遮擋動態區域進行補全。
論文鏈接:https://arxiv.org/pdf/2411.16683
項目地址:https://gen-omnimatte.github.io/
該框架的其核心思想是訓練一個視頻擴散模型,利用其強大生成式先驗知識來克服之前方法的限制。
1. 模型的內部特征可以揭示物體與視頻效果之間的聯系,類似于把視頻擴散模型的內部特征應用于分析任務;
2. 模型可以直接利用先驗補全層分解中的被遮擋區域,包括動態區域,而之前方法在先驗信息有限的情況下無法實現。
在實驗階段,研究人員驗證了,只需要一個小型、精心策劃的數據集,就能夠處理包含軟陰影、光澤反射、飛濺的水等多種元素的日常拍攝視頻,最終輸出高質量的分解和編輯結果。
最?!敢曨l分層」模型
由于真實的分層視頻數據很少,并且預訓練模型已經在生成任務中學習到了物體及其效果之間的關聯,所以希望通過微調模型來發揮這種能力,使用小型的分層視頻數據集進行微調。
基礎視頻擴散模型
研究人員基于文本到視頻的生成器Lumiere,開發出了一個可用于移除物體及其效果的模型Casper
基礎模型Lumiere先從文本提示生成一個80幀、分辨率為128×128像素的視頻,再利用空間超分辨率(SSR)模型將基礎模型的輸出上采樣到1024×1024像素的分辨率。
Lumiere inpainting模型對原模型進行微調,輸入條件為「遮罩的RGB視頻」和「二進制掩碼視頻」,然后使用相同的SSR,以實現高分辨率質量。
Casper基于inpainting模型進行微調,對物體及視頻效果進行移除,保持相同的模型架構。
使用三元掩碼進行物體和效果移除
原始的Lumiere inpainting模型需要輸入一個二元掩碼來指示需要修復(inpaint)的區域和需要保留的區域。
Casper還引入了額外的不確定性,即所謂的「保留」區域并不完全保留,也可能為了擦除陰影而修改目標區域。
研究人員提出了三元掩碼(Trimask)條件M,區分出需要移除的對象(M=0)、需要保留的對象(M=1)以及可能包含需要移除或保留效果的背景區域(M=0.5)。
為了獲得干凈的背景視頻,再使用一個背景三元掩碼,將所有物體都標記為需要移除的區域,背景標記為可能需要修改的區域。
使用SegmentAnything2獲得二進制對象掩碼,然后將單個物體作為保留區域,其余物體標記為移除區域。
在推理過程中,Casper的輸入包括描述目標移除場景的文本提示、輸入視頻、三元掩碼和128px分辨率的噪聲視頻的拼接。
模型在沒有分類器自由引導的情況下進行256個DDPM采樣步驟進行推理(一個80幀的視頻大約需要12分鐘),采用時間多擴散技術來處理更長的視頻。
視頻生成器中的效果關聯先驗
為了探究Lumiere對對象效果關聯的內在理解,研究人員分析了使用SDEdit在給定視頻去噪過程中的自注意力模式,測量了與感興趣對象相關的查詢token和鍵token之間的自注意力權重。
可以觀察到,陰影區域的查詢token對對象區域展現出更高的注意力值,表明預訓練模型能夠有效關聯對象及其效果。
訓練數據構造
研究人員從四個類別中構造了一個包含真實和合成視頻示例的訓練數據集。
Omnimatte,從現有方法的結果中收集了31個場景,形成輸入視頻、輸入三元掩碼和目標背景視頻的訓練元組。場景大多來自DAVIS數據集,以靜態背景和單個對象為特色,包含現實世界視頻中陰影和反射。
Tripod,通過互聯網補充了15個視頻,由固定相機拍攝,包含進出場景的對象、水效果(例如,反射、飛濺、波紋)和環境背景運動。然后通過Ken Burns效果增強視頻,以模擬相機運動。
Kubric,包含569個合成視頻,在Blender中渲染多對象場景并使對象透明。此外,研究人員觀察到許多現實世界場景在一個場景中會展示同一類型對象的多個實例,例如狗、行人或車輛,所以還特意生成了包含重復對象的場景,以訓練模型處理多個相似對象。
對象粘貼(Object-Paste),從YouTube-VOS數據集中的真實視頻合成了1024個視頻元組,使用SegmentAnything2從隨機視頻裁剪對象,并將其粘貼到目標視頻上。訓練輸入和目標分別是合成的視頻和原始視頻,可以加強模型的修復和背景保留能力。
訓練數據的文本提示由BLIP-2描述,描述了對象效果移除模型應該學會生成的目標視頻;通過空間水平翻轉、時間翻轉和隨機裁剪到128×128像素分辨率來增強數據集。
實驗結果
定性分析
在下圖「船」(boat)的例子中,現有的方法無法將船的尾跡從背景層中分離出來,而文中提出的方法可以正確地將其放置在船的層中。
「馬」的例子中,Omnimatte3D和OmnimatteRF因為3D感知背景表示對相機姿態估計的質量很敏感,所以背景層很模糊,無法在最后一行中恢復出被遮擋的馬。
在物體移除方面,視頻修復模型無法移除輸入掩碼外的軟陰影和反射;ObjectDrop可以移除cartoon和parkour中的陰影,但獨立處理每一幀,并且沒有全局上下文的情況下修復區域,會導致不一致的幻覺。
定量分析
研究人員采用OmnimatteRF評估協議來評估十個合成場景的背景層重建效果,包括5個電影場景和5個由Kubric生成的場景,每個場景都有一個對應的真實背景,不包含前景對象和效果。
使用峰值信噪比(PSNR)和Learned Perceptual Image Patch Similarity(LPIPS)作為評估指標。
結果顯示,Omnimatte和Layered Neural Atlas使用2D運動模型,因此難以處理視差;Omnimatte3D在兩個案例中未能構建背景場景模型,并且在電影場景中的靜止前景對象處理上存在困難。
總體而言,文中的方法在兩個指標上都取得了最佳性能。