成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法

發布于 2024-11-22 10:42
瀏覽
0收藏

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

前言

大家好,我是Alonzo。


隨著OpenAI在今年年初公布了Sora的demo,video generation/editing的工作呈現出井噴式發展的趨勢,同時,我們課題組也在積極地進行許多探索。今天,很高興能跟大家分享我們課題組的最新研究成果——StableV2V——一個專注于「人機交互一致性」的視頻編輯方法。


在開始詳細介紹StableV2V的具體工作之前,我們已經將我們的代碼、模型、權重開源,歡迎大家來我們的項目倉庫提issues或PR~關于StableV2V的具體效果,歡迎大家參觀我們的項目主頁,我們提供了大量視頻格式的結果,以及跟現有state-of-the-art方法的直觀對比。以下是相關資源鏈接:

論文:https://arxiv.org/abs/2411.11045
項目主頁:https://alonzoleeeooo.github.io/StableV2V/
GitHub:https://github.com/AlonzoLeeeooo/StableV2V
HuggingFace model repo:https://huggingface.co/AlonzoLeeeooo/StableV2V
HuggingFace dataset repo(DAVIS-Edit):https://huggingface.co/datasets/AlonzoLeeeooo/DAVIS-Edit

如果大家能夠給我們的項目倉庫一個免費的star/like,我們將不勝感激!非常感謝!

What Motivates Us?

在具體介紹StableV2V的具體做法之前,我們想先分享一下關于StableV2V研究的心路歷程。具體來說,我們會從三個方面將我們的研究動機展開:
(1)視頻編輯的基本定義;
(2)現有方法關于視頻編輯的解決方案,以及它們的局限性;
(3)StableV2V的思路。

視頻編輯的基本定義

視頻編輯(video editing)這項任務旨在根據用戶輸入的額外條件,對原視頻中的內容(例如:前景、背景等等)進行編輯。在diffusion model主導的大背景環境下,現有方法的setting大多都是基于文本描述進行的,比較有名的工作有TokenFlow、StableVideo、AVID等等。也就是說,這類方法往往會需要兩個輸入——原視頻的text prompt以及編輯后視頻的text prompt——并且這兩個text prompt之間往往僅有極個別描述視頻主體(物體、背景)的詞語區別。除此之外,也有基于image prompt的方法,例如VASE,呈現出的效果大致類似于圖片模態中的subject-driven generation。這些方法也就形成了目前video editing的兩大主流settings——text-based和image-based editing。

我們給出了兩個具體例子讓大家能夠更直觀地感受這兩種setting的具體效果:

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

Text-based editing效果的演示

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

Image-based editing效果的演示(右下角展示為reference image)


其實從上述兩個例子,大家不難發現video editing這個任務的難點:
(1)生成視頻幀之間的連續一致性
(2)編輯內容與user prompts之間的一致性問題。


第一點可以說是視頻模態相關任務的通病——即我們常說的temporal consistency問題,也就是說,我們在對原視頻進行編輯的同時,也要保證生成視頻幀與幀之間是連貫的;第二點則是由于人機交互帶來的問題,我們知道,用戶在交互過程中給定的prompt(文字或圖片),往往會存在跟生成內容之間不一致的問題。具體來說,這一點可以是模型不能生成出text中描述的內容,亦或是因為模型范式本身存在的問題,生成的內容難以讓人滿意。

據我們觀察,這類現象是相當普遍的,尤其是當用戶期望生成的內容,與原視頻的內容之間有較大形狀差異。例如,上圖中用戶給定了的「斑馬」的prompt,但VASE由于其自身的特性,僅能生成「牛形狀的斑馬」,這樣的效果肯定不會是我們需要的。


于是,StableV2V基于上述我們觀察到的不一致問題為研究動機,展開了對現有方法的調研、綜述、反思、及改進。

現有方法的解決方案及局限性

我們將現有方法分為四類:基于DDIM inversion的方法、基于one-shot tuning的方法、基于學習的方法(learning-based)、基于第一幀編輯的方法。在本章中,我們將詳細討論這些方法的做法,以及它們對于前述問題存在的局限性。


基于DDIM inversion的方法旨在將原視頻通過DDIM inversion的方式,獲得每個timestep對應的特征(CNN features、attention maps)等,然后再在擴散模型采樣時對每一步的對應特征將這些抽取出來的原視頻特征整合進去。這樣的做法其實很直觀,就是想將原視頻的運動模式對采樣過程進行一定程度的引導,從而讓輸出視頻在生成新的編輯內容的基礎上,在其余內容上與原視頻保持一致。具體來說,現在比較常用的一個思路是將PnP(Plug-and-Play Diffusion Features)的思路用到視頻里來(AnyV2V的做法),或者是通過一些一致性的約束設計讓生成視頻與原視頻保持一致性(TokenFlow的做法)。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

PnP是一個image editing工作,通過在采樣過程中替換CNN features和attention maps,讓編輯的內容與原圖像保持一致。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

TokenFlow的流程圖,通過最近鄰去匹配相似的attention maps,并在采樣過程中用這些attention maps去約束生成視頻。



基于one-shot tuning的方法旨在訓練一個video-specific的模型權重,通過這個權重對視頻的motion patterns進行建模,然后在采樣過程中通過調整text prompt的方式生成不同的結果,比較經典的代表作有ICCV 2023的Tune-A-Video,以及后續將prompt2prompt的思路和one-shot tuning整合到一起的Video-P2P。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

Tune-A-Video的流程圖

但值得注意的是,前述這兩種方法很大程度上受限于原視頻的motion patterns——也就是說,它們只能處理「編輯內容」與「原視頻內容」形狀相似的場景——否則的話,這些從原視頻中抽取出來的motion信息,在用在新編輯的內容上時,會存在不匹配的問題,尤其是前文中講到的user prompts期望的內容會導致形狀變化的場景。


相反,基于學習的方法旨在通過微調image diffusion models,通過類似AnimateDiff的范式,往image diffusion models中插入motion modules,再在大規模的文本-視頻數據集上進行微調這些motion modules,以此賦予模型編輯視頻的方式。關于AnimateDiff相關的解讀,可以參考我的往期文章:


從圖像到視頻:淺談Video Diffusion Models背后的底層原理(https://zhuanlan.zhihu.com/p/707359440)


但是,基于學習的方法很大程度受限于image diffusion models的范式——也就是它們的inpainting架構。比方說,AVID是從SD Inpaint開始微調的;VASE是從Paint-by-Example。這些inpainting model在用戶輸入原視頻、text prompt之外,還會要求輸入編輯區域對應的mask。而這樣的mask,通常是依賴于數據集標注(例如VOS數據集),或者需要進行人工標注的,這樣的標注過程將會變得非常費時費力。尤其是在處理前文中說到的場景,用戶不能知道編輯的內容會生成在什么位置,因此也不能夠給出精準的mask標注。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

AVID的方法流程圖

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

VASE的方法流程圖

最后一類方法是基于第一幀編輯的方法,也是近期比較新穎的一類范式,代表性的工作有AnyV2V。這類方法將video editing分成兩個步驟,先對視頻的第一幀進行編輯,然后通過motion transfer的方式,將第一幀編輯的內容擴散到剩余的視頻幀上去,為video editing提供了非常強大的靈活性?,F有相關工作有AnyV2V和I2VEdit,然而,AnyV2V采取的motion transfer思路是前文介紹的DDIM inversion + PnP的范式,I2VEdit則是基于one-shot tuning的范式,這兩者均會受限于原視頻內在的motion patterns。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

AnyV2V的方法流程圖

這樣的研究背景不由得引發了我們對video editing的思考——究竟什么樣的范式才能夠解決好video editing中編輯內容與user prompts不一致的問題?

我們的思路

在設計StableV2V的時候,我們嘗試跳出現有方法的范式局限,專注于思考一個問題——我們究竟能不能拿到跟user prompts對齊的motion patterns?

?

其實在早期研究的時候,我們也嘗試過前述幾種方法的范式,但最終都苦于不能仿真出與user prompts對齊的motion patterns,生成的結果往往不盡人意。但是我們始終清醒的認識到一點——如果我們基于第一幀編輯的范式去設計StableV2V,那么我們是能拿到跟user prompts對齊的內容的——也就是編輯之后的第一幀對應的信息。 如果我們能找到一個方式,從這一幀的信息出發去仿真得到其他幀的信息,那么肯定是能拿到對齊的motion patterns的?;谶@個思路,我們最終將StableV2V呈現在了大家面前:

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

StableV2V的方法流程圖。圖中的綠框代表視頻的第一幀,藍框代表從第k次迭代仿真到第k+1次仿真的過程。

How do we do?

方法細節

StableV2V主要包括三個核心組件——Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)、Conditional Image-to-video Generator(CIG)。

簡單來說,Prompted First-frame Editor(PFE) 主要負責將user prompts轉換成編輯后的第一幀。這里我們考慮了目前開源的諸多圖像編輯工作,例如Paint-by-Example、SD Inpaint、InstructPix2Pix等等,同時發現,通過調整PFE,能夠實現text-based editing、instruction-based editing、image-based editing等多種主流的video editing設定,甚至我們的方法能夠進行很多有趣的應用——例如跟用戶手畫的sketch進行交互。


StableV2V的核心組件是Iterative Shape Aligner(ISA),也就是我們將模型使用的motion patterns與user prompts對齊的組件。前文我們說到,我們能夠拿到的第一編輯幀的信息,是與編輯視頻對齊的?;谶@點,我們考慮到深度圖能夠對視頻運動的motions和形狀同時進行表征,于是采用深度圖作為傳遞motion patterns的中間媒介;并且,我們觀察到編輯后的物體(即使有較大形變),與原視頻中的內容也應該保持一樣的motion——也就是說,編輯后物體的光流與原視頻的「光流」及「深度圖」應該保持一樣的數值?;谶@點,我們找到了仿真編輯視頻對應的深度圖的方法。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

ISA的motion simulation過程

Motion Simulation。具體來說,ISA需要借助「原視頻幀」以及「第一編輯幀」對應的segmentation masks來完成仿真過程,這里我們僅介紹從第1到第2個仿真的光流仿真過程(上圖中的紅色框部分),后續的過程以此類推,展示如下:

  • 首先,我們會計算「原視頻光流」在對應segmentation mask中的均值,并以此來表征「原視頻物體的運動信息」;
  • 由于編輯后物體的光流與原視頻的「光流」及「深度圖」應該保持一樣的數值,并且我們能夠拿到第一編輯幀對應的segmentation mask,我們將前述計算得到的「平均光流值」,賦值到第一編輯幀segmentation mask對應的區域,我們將這一過程稱為motion pasting,仿真后的光流與原光流進行拼接,就能得到「編輯視頻第1幀到第2幀的光流」;
  • 在拿到編輯視頻第1幀到第2幀的光流」后,我們將「第一編輯幀的segmentation mask」warp到下一幀,拿到第2幀對應的segmentation mask;
  • 至此,我們已經具備了從第2幀到第3幀進行仿真的所有輸入條件(即原視頻光流、原視頻segmentation mask、第2編輯幀對應的segmentation mask),因為我們可以通過一種迭代式的仿真方式獲得最終視頻對應的仿真光流。

Depth Simulation。一旦我們拿到了最終視頻對應的光流信息,下一步就是仿真對應的深度信息,仿真深度信息的過程與仿真光流的過程類似,在此不再具體展開,感興趣的朋友歡迎移步原文。


Shape-guided Depth Refinement。到這一步,我們已經拿到了一個仿真的深度圖,但是值得注意的是,這樣仿真出來的深度圖往往會有原視頻中的冗余信息,例如StableV2V方法流程圖中多余的天鵝部分。如果我們用這樣的深度圖去引導視頻生成網絡,那么輸出的視頻中肯定會存在由于不一致導致的artifacts。受到video inpainting研究的啟發,我們提出了一個形狀引導的深度圖修復網絡來解決這個問題,旨在將冗余的深度圖部分移除。

下面我們可視化了前述各個階段仿真的深度圖效果,大家可以直觀地看到,最終送入視頻生成網絡的深度圖與編輯后的內容是一致的,并且,我們很慶幸的是我們的方法具有不錯的精度,能有效保留編輯后物體的形狀一致(例如下圖中的葡萄)。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

ISA各階段仿真的可視化效果

最后,Conditional Image-to-video Generator(CIG) 作為一個深度圖引導的圖生視頻網絡,旨在通過「第一編輯幀」和「修復后的深度圖」將編輯的內容擴散到其他的視頻幀上去,以生成最終編輯后的視頻。

結果對比

另外,我們觀察到現有方法大多在自己搜集到的測試集上對模型的性能進行驗證,因為我們提出了一個基準測試集,名為DAVIS-Edit,數據集已在我們的HuggingFace repo中開源,包含人工標注的text prompts和image prompts為兩大主流settings提供了測試標準。同時,DAVIS-Edit提供了兩套標注,一套對應編輯后物體與原視頻物體相差不大,另一套則會有較大的形狀差異,以此來推動更多相關的研究。

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

DAVIS-Edit樣例的可視化

我們在文章中對StableV2V以及七個現有方法進行了對比??陀^指標上,我們考慮了DOVER、FVD、WE、CLIP-Temporal、CLIP score、推理時間,從視頻質量、幀間一致性、圖文對齊、推理效率等多個方面對現有方法進行評測,同時,我們還考慮了human evaluation。關于實驗結果的對比及分析,歡迎大家參考我們的原文。下面是我們主實驗的結果:

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

StableV2V與其他方法在DAVIS-Edit上的對比結果

更多的可視化生成結果,歡迎大家移步我們的項目主頁,我們提供了視頻格式的結果、應用、及對比。下面我們展示一些圖片格式的結果預覽:

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

StableV2V在text-based editing(左)和image-based editing(右)上的應用

中科大重磅開源StableV2V:專注于「人機交互一致性」的視頻編輯方法-AI.x社區

StableV2V的更多應用

本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/GHJ8-LiKKfnlKujUsQEq0g??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美福利专区 | 亚洲精品9999久久久久 | 99精品久久久国产一区二区三 | 久久草视频 | 女人牲交视频一级毛片 | 永久www成人看片 | 久久国产成人 | 国产精品1区2区 | 免费国产一区二区视频 | 国产精品久久久久久久久久妞妞 | 正在播放亚洲 | 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 | 国产精品毛片一区二区三区 | 成人免费视频在线观看 | 人人玩人人添人人澡欧美 | 国产女人与拘做视频免费 | 欧美在线一区二区三区 | 国产日产精品一区二区三区四区 | 亚洲精品日韩在线 | 米奇7777狠狠狠狠视频 | 欧美视频精品 | 国产欧美日韩 | 美女视频一区二区三区 | 午夜免费电影院 | 国产成人免费一区二区60岁 | 精品一区二区三区不卡 | 欧美1区2区 | 精品欧美激情在线观看 | 国产乱码精品一区二区三区五月婷 | 国产在线精品一区二区三区 | 97中文视频 | 91麻豆蜜桃一区二区三区 | 爱爱视频日本 | 成人动漫视频网站 | 久久久国产一区二区三区 | 欧美日韩精品一区二区三区视频 | 成人在线观看免费 | 一区二区成人 | 亚洲不卡av在线 | 日本特黄特色aaa大片免费 | 国产精品美女久久久久久免费 |