18項任務200萬視頻編輯對,云天勵飛聯(lián)合多高校打造出大規(guī)模編輯數(shù)據(jù)集
目前的視頻編輯算法主要分為兩種:一種是利用 DDIM-Inversion 完成視頻編輯,另一種是利用訓練好的編輯模型。然而,前者在視頻的一致性和文本對齊方面存在較大缺陷;后者由于缺乏高質量的視頻編輯對,難以獲得理想的編輯模型。
為了解決視頻編輯模型缺乏訓練數(shù)據(jù)的問題,本文作者(來自香港中文大學、香港理工大學、清華大學等高校和云天勵飛)提出了一個名為 Se?orita-2M 的數(shù)據(jù)集。該數(shù)據(jù)集包含 200 萬高質量的視頻編輯對,囊括了 18 種視頻編輯任務。
數(shù)據(jù)集中所有編輯視頻都是由經過訓練的專家模型生成,其中最關鍵的部分由作者提出的視頻編輯專家模型完成,其余部分則由一些計算機視覺模型標注,例如 Grounded-SAM2 和深度圖檢測模型等。
- 論文標題:Se?orita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists
- 論文地址: https://arxiv.org/abs/2502.06734
- 項目地址: https://senorita-2m-dataset.github.io
數(shù)據(jù)分布見下圖。
專家模型的開發(fā)和數(shù)據(jù)集的構造
除了常見的計算機視覺模型,作者提出的視頻編輯專家模型一共有 4 個,負責五種編輯任務。
第一個編輯專家模型稱為 Global Stylizer,負責對輸入視頻進行風格轉換,它基于現(xiàn)有的視頻生成基模型開發(fā)。
然而,作者發(fā)現(xiàn)視頻生成基模型在接受風格信息方面存在不足,因此無法利用 ControlNet 的思想進行風格轉換。
為了解決這一問題,作者首先利用圖像 ControlNet 對首幀進行處理,然后使用視頻 ControlNet 對剩余的幀進行處理,將首幀的風格信息推廣到剩余的視頻幀中。在訓練過程中,采用了兩階段策略,并通過凍結部分層以降低成本。在第一階段,模型在低分辨率視頻上訓練;在第二階段,微調模型以提高分辨率。
在生成數(shù)據(jù)階段,作者采用 Midjourney 和 Stable Diffusion 常用的 290 種風格 prompt,對視頻進行風格轉換,并使用 LLM 對風格 prompt 轉換成指令。
第二個編輯專家模型稱為 Local Stylizer,與 Global Stylizer 不同的是,它負責對某些物體進行風格方面的編輯。
由于對物體進行風格編輯,不需要接受復雜的風格指令,因此這個模型不使用首幀引導。除此之外,作者使用與 Global Stylizer 相同的 ControlNet 架構,并引入了 inpainting 的思想,保證只有物體本身被修改。
在生成數(shù)據(jù)階段,作者采用 LLM 對物體進行改寫并產生指令。在獲取新的信息后,使用作者的模型對物體進行重繪。
第三個專家模型是 Text-guided Video Inpainter,用來完成物體的替換。
在實踐中,作者發(fā)現(xiàn)直接開發(fā)一個視頻 inpainter 的效果會遠遠弱于基于首幀引導的視頻 inpainter。因此,作者使用 Flux-Fill 這一高效的圖像 inpainter 對首幀進行處理,并使用作者的 inpainter 對剩下的視頻進行補全。這樣做的好處是將作者的視頻 inpainter 只負責將首幀的視頻補全內容推廣到剩余的視頻幀,減少了編輯的難度。
為了進一步減小視頻標注過程中引入的數(shù)據(jù)噪聲,作者將編輯的視頻作為源視頻,將原始視頻作為目標視頻。這樣做的好處是避免基于數(shù)據(jù)集訓練的視頻編輯模型學到扭曲和抖動。作者利用 LLM 對源物體和目標物體進行組合并產生用于編輯的指令。
第四個專家模型是 Object Remover。作者用這個專家模型來完成物體去除和物體添加兩部分的數(shù)據(jù)構造。物體添加任務為物體去除任務的逆任務,只需要將標注視頻當作源視頻,原始視頻當作目標視頻即可完成數(shù)據(jù)對的構造。
對于這個專家模型的構造,作者提出了一種反轉訓練的策略,將訓練的 90% 數(shù)據(jù)的 mask 替換為與視頻內容無關的 mask,訓練視頻恢復的背景和 mask 形狀無關。這樣可以有效避免視頻 remover 根據(jù) mask 形狀再次生成物體。
作者還將 10% 的數(shù)據(jù)設置為和視頻物體嚴格一致的 mask,這樣可以訓練 remover 產生物體,在推理時將這一條件設置為負 prompt 來避免去除區(qū)域內的物體的產生。作者使用 LLM 對使用的 prompt 轉換成用于物體去除和物體添加的指令。
除此之外,作者還使用了多種計算機視覺模型對視頻進行標注。例如,使用了 Grounded-SAM2 來標注經過 Grounding 的視頻,目的是用來訓練模型對物體的感知能力,幫助編輯模型對區(qū)域的編輯。作者還使用了其他多種專家模型,這些模型一共標注了 13 種視頻編輯任務。相似的,這些數(shù)據(jù)對應的指令也使用 LLM 進行增強。
數(shù)據(jù)集的清洗
為了保證視頻對的可靠性,作者使用多種過濾算法對生成的視頻進行清洗。
具體來講,首先訓練了一個檢測器用來檢測編輯失敗的數(shù)據(jù),去除那些有害的視頻。其次,使用 CLIP 對文本和視頻的匹配度進行檢測,丟棄匹配度過小的數(shù)據(jù)。最后,比對了原始視頻和編輯視頻的相似度,丟棄掉沒有明顯編輯變化的視頻。
基于 Se?orita-2M 數(shù)據(jù)集的編輯模型訓練
作者使用 CogVideoX-5B-I2V 作為基模型,利用首幀引導的方式,使用 Se?orita-2M 訓練了一個編輯模型。這個模型和之前方法的實驗比較結果表明,基于該數(shù)據(jù)集訓練的模型具有更強的一致性、文本視頻對齊,以及更好的用戶偏好度。
為了進一步證明數(shù)據(jù)的有效性,作者做了消融實驗,使用了相同數(shù)據(jù)量的 InsV2V 和 Se?orita-2M 視頻對 CogVideoX-5B-T2V 進行微調。結果發(fā)現(xiàn),使用了 Se?orita-2M 的數(shù)據(jù),可以大大增強文本匹配度。
另外,增加了訓練數(shù)據(jù)的數(shù)量后,這些指標會有明顯的改善。這些實驗證明了該數(shù)據(jù)集可以有效地訓練出高質量的視頻編輯器。更多實驗數(shù)據(jù)詳見表 1。
表 1. 基于 Se?orita-2M 訓練的模型和其他編輯方法的對比
另外,作者還探索了目前的一些編輯架構,采用和 instruct-pix2pix 以及 controlnet 相同的架構,并基于 CogVideoX-5B 來構建視頻編輯模型。另外,作者還采用 omni-edit 圖像編輯對這基于兩個架構的視頻編輯模型進行增強。結果發(fā)現(xiàn),使用圖像數(shù)據(jù)增強的模型會有更好的文本匹配度以及用戶偏好度。
除此之外,作者還采用了首幀引導的方式進行編輯模型。實驗結果證明,在視頻編輯中,使用 ControlNet 相比于 Instruct-pix2pix 會有更好的編輯效果,基于首幀引導的編輯模型可以比非首幀引導的模型獲得更好的編輯效果。具體實驗結果詳見表 2。
表 2. 不同編輯架構之間的對比
總結
作者訓練了一系列視頻編輯專家模型,用它們和其他計算機視覺模型創(chuàng)建了一個高質量的、基于指令的視頻編輯數(shù)據(jù)集。這個數(shù)據(jù)集中包含了 18 種不同的視頻編輯任務,擁有 200 萬的視頻編輯對。作者使用了一系列的過濾算法對產生的數(shù)據(jù)進行篩選,并使用 LLM 對指令進行生成和增強。
實驗證明,該數(shù)據(jù)集可以有效地訓練出高質量的視頻編輯模型,在視覺效果幀間一致性和文本對齊度等指標上有著較大的提升。除此之外,作者采用了不同的編輯架構對視頻編輯進行探索,并得出了一系列結論。作者還設計了消融實驗,證明使用相同基礎模型的情況下,使用該數(shù)據(jù)集的數(shù)據(jù)會大大提升編輯模型的編輯能力。