港科大&快手提出統一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網打盡,還可進行多項任務組合!
由香港科技大學、快手科技提出的UNIC(統一上下文視頻編輯)是一個簡單而有效的框架,它以上下文的方式統一單個模型中的各種視頻編輯任務。從此,視頻編輯用著一個工具就夠了!
ID插入
ID交換
刪除ID
相機控制
風格化
第一幀傳播
緊急任務組合
UNIC 還表現出了新興任務組合能力。
重新拍攝+風格化
ID+風格化
相關鏈接
- 論文:https://arxiv.org/pdf/2506.04216
- 主頁:https://zixuan-ye.github.io/UNIC
論文介紹
UNIC:框架和設計
動機
- 基于DDIM反轉的方法(例如Video-P2P、FLATTEN):性能欠佳。 附加階段,使推理步驟和總體成本加倍。
- 基于適配器的方法:需要修改模型架構。通過添加適配器模塊引入參數冗余。
它們通常是針對特定任務的,需要針對每個不同的條件信號訓練單獨的模塊。這嚴重阻礙了任務的可擴展性和各種編輯功能的統一。
統一上下文框架
UNIC 通過將所有輸入(含噪視頻潛伏信號、參考視頻標記以及各種多模態條件標記)處理為一個組合序列來統一視頻編輯。這使得擴散變換器 (DiT) 的原生注意力機制能夠“在上下文中”學習復雜的編輯任務,從而提供靈活性和簡便性。
- 針對不同任務的統一模型。
- 將輸入標記定義為三種類型。
- 沒有特定任務的適配器模塊。
任務感知 RoPE
根據任務類型和視頻長度動態分配唯一的旋轉位置嵌入 (RoPE) 幀索引。這確保了在不同條件下對時間的理解和正確對齊。
條件偏差
為條件標記添加特定于任務的可學習嵌入。這有助于模型在模態重疊時區分目標任務,從而有效解決歧義。
結論
論文提出的統一的上下文內視頻編輯UNIC是一個簡單而有效的框架,它以上下文內的方式將不同的視頻編輯任務統一到一個模型中。為此,我們將不同視頻編輯任務的輸入表示為三種類型的標記,并將它們集成為一個統一的標記序列,并與擴散變換器 (Diffusion Transformer) 的原始全注意力機制聯合建模。憑借設計的任務感知 RoPE 和條件偏差,該方法可以靈活地執行不同的編輯任務并支持它們的組合。為了便于評估,論文還構建了一個統一的視頻編輯基準。在六個代表性視頻編輯任務上進行的大量實驗表明,該模型在每項任務上都表現出卓越的性能,并展現出新興的任務組合能力。
本文轉載自???????AIGC Studio???????,作者:AIGC Studio
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦