數據減少超千倍,500 美金就可訓練一流視頻模型,港城、華為Pusa來了
FVDM & Pusa 一作:劉耀芳目前在香港城市大學攻讀博士學位,導師為著名數學家 Prof. Raymond Chan (陳漢夫) 及 Prof. MOREL Jean-Michel。他也曾在騰訊 AI Lab 實習,主導 / 參與 EvalCrafter , VideoCrafter 等工作,其研究興趣包括擴散模型,視頻生成等;項目主管:劉睿,香港中文大學 MMLab 博士,華為香港研究所小藝團隊技術負責人。
擴散模型為圖像合成帶來了革命,其向視頻領域的延伸雖潛力巨大,卻長期受困于傳統標量時間步對復雜時序動態的束縛。我們去年提出的幀感知視頻擴散模型 (FVDM),通過引入向量化時間步變量 (VTV),賦予每一幀獨立的時間演化路徑,從根本上解決了這一難題,顯著提升了時序建模能力。
然而,范式的轉變需要更多實踐的檢驗和普及。為此,我們與華為香港研究所小藝團隊合作進一步推出了 Pusa 項目。Pusa 不僅是 FVDM 理論的直接應用和驗證,更重要的是,它探索出了一條極低成本微調大規模預訓練視頻模型的有效路徑。
- 論文標題:Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
- FVDM 論文:https://arxiv.org/abs/2410.03160
- Pusa 主頁 / 代碼庫: https://github.com/Yaofang-Liu/Pusa-VidGen
具體而言,Pusa 通過對預訓練模型如 Wan-T2V 14B 進行非破壞性微調,僅需 500 美金訓練成本即可達到比 Wan 官方 I2V(至少O(100k)美金的訓練成本)更好的效果,成本降低超 200 倍,數據更是減少超 2500 倍!不僅如此,Pusa-Wan 同時解鎖了圖生視頻、首尾幀、視頻過渡、視頻拓展等廣泛應用并且還保留了文生視頻能力。
Vbench 圖生視頻測試樣例
文本指令:一只大白鯊在海里游泳(a great white shark swimming in the ocean)
文本指令:一個戴著墨鏡坐在汽車駕駛座上的男人(a man sitting in the driver's seat of a car wearing sunglasses)
文本指令:一頭棕白相間的奶牛正在吃干草(a brown and white cow eating hay)
此外,Pusa-Mochi 更是只要 100 美金訓練成本便可實現如下效果。
圖生視頻效果對比
首尾幀效果對比
更多首尾幀樣例
T2V 結果與基礎模型 Mochi 對比
目前,Pusa 的完整代碼庫、訓練數據集和訓練代碼已全面開源,旨在推動整個領域的共同進步。
方法:FVDM 的幀感知核心與 Pusa 的巧妙實現
FVDM 方法
沿襲自圖像擴散模型,當前的視頻擴散模型也采用一個標量時間變量 ,該變量統一應用于正在生成的視頻的所有幀。在視頻生成的背景下,這種方法無法捕捉視頻序列中各幀間的動態關系。為了解決這個限制,我們引入了一個向量化時間步變量
,定義為:
其中 是視頻幀數,
表示第
幀的獨立時間變量。這種向量化允許對每一幀進行獨立的噪聲擾動,從而實現更靈活、更細致的擴散過程。
我們將傳統的前向隨機微分方程 (SDE) 擴展以適應我們的向量化時間步變量。每一幀 經歷由其特定的
控制的獨立高斯分布的噪聲擾動過程,可表示為:
繼而,我們可將所有幀的 SDE 集成為整個視頻的單個 SDE。我們將視頻定義為 。我們可以將視頻表示為一個矩陣整個視頻
的集成前向 SDE 為:
其中是整個視頻的漂移系數,
是擴散系數的對角矩陣。
在反向過程的背景下,我們定義了一個集成的反向 SDE 來封裝跨聯合幀的依賴關系:
基于分數的模型 被設計為在整個視頻序列上操作。模型的學習目標是近似分數函數:
模型參數的優化問題表述為
其中是一個正權重函數。
模型實現
- 網絡架構適配
我們以 Mochi1 及 Wan 這類先進的開源視頻模型作為基礎。為了引入向量化時間步,我們對其原始的標量時間步輸入機制進行了擴展。
具體而言,原先接受 (B)(批量大小)形狀標量時間步的模塊,被修改為能夠處理 (B, N)(批量大小,幀數)形狀的向量化時間步。通過正弦位置編碼,這些 (B, N) 的時間步被轉換為 (B, N, D) 的嵌入表示,并通過 adaLN-Zero 等條件化機制作用于 Transformer 的注意力和 MLP 層。
關鍵在于,這種改造是「非破壞性的」:當所有幀的 都被設置為相同時,模型的行為與基礎模型完全一致,從而完整保留了其強大的基礎生成能力。
- 訓練策略與驚人效率
在 FVDM 論文中我們以及發現,由于各幀擁有獨立噪聲,整體組合空間爆炸(以 16 幀為例,組合共有 種),訓練極難收斂。
FVDM 獨創的概率性時間步采樣訓練策略 (PTSS) 成功解決了這個問題:在訓練時,我們以概率為每幀采樣隨機獨立的時間步,以概率
為所有幀采樣相同的時間步,如此解耦時序動態與基礎生成能力的學習。
FVDM 論文實驗結果表明該策略可大大加速收斂且取得較原模型 Latte 更好的效果。
而對于 Pusa,我們還可以簡化策略,得益于對基礎模型的非破壞性改造,在訓練初始模型已經具備充足基礎能力,我們只需在此基礎上進行少量獨立時間步微調便可掌握時序動態控制能力。
Pusa 的「十八般武藝」:零樣本解鎖多樣化視頻任務,效果驚艷
基于 FVDM 的 VTV 機制和 Pusa 的高效微調,Pusa 能夠通過在 VTV 中為不同幀設置不同的時間策略來控制噪聲擾動以實現多樣化的視頻生成任務如可將輸入圖像作為任意幀,不加噪或加少量噪聲(某些情況下會減少輸入圖像與生成內容間差異),其余幀保持 T2V 噪聲來進行圖生視頻。 Pusa 的 VTV 機制為更多樣的幀級控制采樣算法和更細致的視頻生成任務打開了大門。
總結與展望:Pusa 引領視頻生成進入低成本、高靈活新時代
FVDM 理論通過其核心的向量化時間步變量 (VTV) 為視頻生成帶來了根本性的變革。而 Pusa 項目則以其驚人的低成本和高效的微調策略,成功地將這一理論付諸實踐,并將其推廣到強大的預訓練模型之上。我們熱切歡迎社區的貢獻與合作,共同提升 Pusa 的性能,擴展其能力,并探索更多可能性。