成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據減少超千倍,500 美金就可訓練一流視頻模型,港城、華為Pusa來了

人工智能 新聞
擴散模型為圖像合成帶來了革命,其向視頻領域的延伸雖潛力巨大,卻長期受困于傳統標量時間步對復雜時序動態的束縛。

FVDM & Pusa 一作:劉耀芳目前在香港城市大學攻讀博士學位,導師為著名數學家 Prof. Raymond Chan (陳漢夫) 及 Prof. MOREL Jean-Michel。他也曾在騰訊 AI Lab 實習,主導 / 參與 EvalCrafter , VideoCrafter 等工作,其研究興趣包括擴散模型,視頻生成等;項目主管:劉睿,香港中文大學 MMLab 博士,華為香港研究所小藝團隊技術負責人。

擴散模型為圖像合成帶來了革命,其向視頻領域的延伸雖潛力巨大,卻長期受困于傳統標量時間步對復雜時序動態的束縛。我們去年提出的幀感知視頻擴散模型 (FVDM),通過引入向量化時間步變量 (VTV),賦予每一幀獨立的時間演化路徑,從根本上解決了這一難題,顯著提升了時序建模能力。

然而,范式的轉變需要更多實踐的檢驗和普及。為此,我們與華為香港研究所小藝團隊合作進一步推出了 Pusa 項目。Pusa 不僅是 FVDM 理論的直接應用和驗證,更重要的是,它探索出了一條極低成本微調大規模預訓練視頻模型的有效路徑。

圖片

  • 論文標題:Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
  • FVDM 論文:https://arxiv.org/abs/2410.03160
  • Pusa 主頁 / 代碼庫: https://github.com/Yaofang-Liu/Pusa-VidGen

具體而言,Pusa 通過對預訓練模型如 Wan-T2V 14B 進行非破壞性微調,僅需 500 美金訓練成本即可達到比 Wan 官方 I2V(至少O(100k)美金的訓練成本)更好的效果,成本降低超 200 倍,數據更是減少超 2500 倍!不僅如此,Pusa-Wan 同時解鎖了圖生視頻、首尾幀、視頻過渡、視頻拓展等廣泛應用并且還保留了文生視頻能力。

圖片

圖片

Vbench 圖生視頻測試樣例

文本指令:一只大白鯊在海里游泳(a great white shark swimming in the ocean)

文本指令:一個戴著墨鏡坐在汽車駕駛座上的男人(a man sitting in the driver's seat of a car wearing sunglasses)

文本指令:一頭棕白相間的奶牛正在吃干草(a brown and white cow eating hay)

此外,Pusa-Mochi 更是只要 100 美金訓練成本便可實現如下效果。

圖生視頻效果對比

首尾幀效果對比

更多首尾幀樣例

T2V 結果與基礎模型 Mochi 對比

目前,Pusa 的完整代碼庫、訓練數據集和訓練代碼已全面開源,旨在推動整個領域的共同進步。

方法:FVDM 的幀感知核心與 Pusa 的巧妙實現

FVDM 方法

沿襲自圖像擴散模型,當前的視頻擴散模型也采用一個標量時間變量圖片 ,該變量統一應用于正在生成的視頻的所有幀。在視頻生成的背景下,這種方法無法捕捉視頻序列中各幀間的動態關系。為了解決這個限制,我們引入了一個向量化時間步變量圖片 ,定義為:

圖片

其中 圖片 是視頻幀數,圖片 表示第圖片幀的獨立時間變量。這種向量化允許對每一幀進行獨立的噪聲擾動,從而實現更靈活、更細致的擴散過程。

我們將傳統的前向隨機微分方程 (SDE) 擴展以適應我們的向量化時間步變量。每一幀 圖片 經歷由其特定的圖片控制的獨立高斯分布的噪聲擾動過程,可表示為:

圖片

繼而,我們可將所有幀的 SDE 集成為整個視頻的單個 SDE。我們將視頻定義為 圖片。我們可以將視頻表示為一個矩陣整個視頻圖片的集成前向 SDE 為:

圖片

其中圖片是整個視頻的漂移系數,圖片是擴散系數的對角矩陣。

在反向過程的背景下,我們定義了一個集成的反向 SDE 來封裝跨聯合幀的依賴關系:

圖片

基于分數的模型 圖片 被設計為在整個視頻序列上操作。模型的學習目標是近似分數函數:

圖片

模型參數圖片的優化問題表述為

圖片

其中圖片是一個正權重函數。

模型實現

  • 網絡架構適配

我們以 Mochi1 及 Wan 這類先進的開源視頻模型作為基礎。為了引入向量化時間步,我們對其原始的標量時間步輸入機制進行了擴展。

具體而言,原先接受 (B)(批量大小)形狀標量時間步的模塊,被修改為能夠處理 (B, N)(批量大小,幀數)形狀的向量化時間步。通過正弦位置編碼,這些 (B, N) 的時間步被轉換為 (B, N, D) 的嵌入表示,并通過 adaLN-Zero 等條件化機制作用于 Transformer 的注意力和 MLP 層。

關鍵在于,這種改造是「非破壞性的」:當所有幀的圖片 都被設置為相同時,模型的行為與基礎模型完全一致,從而完整保留了其強大的基礎生成能力。

  • 訓練策略與驚人效率

在 FVDM 論文中我們以及發現,由于各幀擁有獨立噪聲,整體組合空間爆炸(以 16 幀為例,組合共有 圖片 種),訓練極難收斂。

FVDM 獨創的概率性時間步采樣訓練策略 (PTSS) 成功解決了這個問題:在訓練時,我們以概率圖片為每幀采樣隨機獨立的時間步,以概率圖片為所有幀采樣相同的時間步,如此解耦時序動態與基礎生成能力的學習。

FVDM 論文實驗結果表明該策略可大大加速收斂且取得較原模型 Latte 更好的效果。

而對于 Pusa,我們還可以簡化策略,得益于對基礎模型的非破壞性改造,在訓練初始模型已經具備充足基礎能力,我們只需在此基礎上進行少量獨立時間步微調便可掌握時序動態控制能力。

Pusa 的「十八般武藝」:零樣本解鎖多樣化視頻任務,效果驚艷

基于 FVDM 的 VTV 機制和 Pusa 的高效微調,Pusa 能夠通過在 VTV 中為不同幀設置不同的時間策略來控制噪聲擾動以實現多樣化的視頻生成任務如可將輸入圖像作為任意幀,不加噪或加少量噪聲(某些情況下會減少輸入圖像與生成內容間差異),其余幀保持 T2V 噪聲來進行圖生視頻。 Pusa 的 VTV 機制為更多樣的幀級控制采樣算法和更細致的視頻生成任務打開了大門。

總結與展望:Pusa 引領視頻生成進入低成本、高靈活新時代

FVDM 理論通過其核心的向量化時間步變量 (VTV) 為視頻生成帶來了根本性的變革。而 Pusa 項目則以其驚人的低成本和高效的微調策略,成功地將這一理論付諸實踐,并將其推廣到強大的預訓練模型之上。我們熱切歡迎社區的貢獻與合作,共同提升 Pusa 的性能,擴展其能力,并探索更多可能性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-27 08:42:05

代碼sklearn機器學習

2012-08-22 10:10:18

中國國際通信大會華為IEEE

2019-05-10 14:50:09

Java代碼技巧

2010-01-21 10:22:34

合力金橋軟件呼叫中心SaaS

2023-12-06 13:36:00

模型數據

2011-02-24 17:54:10

IBMwatson

2020-10-13 14:42:42

深度學習Windows人工智能

2025-03-20 09:46:06

OpenAI模型AI

2023-07-10 18:30:48

2025-06-20 17:37:41

2017-12-19 17:24:28

2021-09-24 13:10:01

華為智慧口岸

2009-09-01 11:20:11

Struts 2AJAX支持

2025-05-14 08:51:00

2025-03-07 10:02:10

2023-09-25 07:31:19

算力AI框架

2017-07-17 15:59:03

華為

2024-07-15 08:58:00

2025-06-05 08:40:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费一区二区 | 精品一区二区三区在线观看国产 | 九九久久国产精品 | 美女视频三区 | 成人性生交a做片 | av网站免费看| 久久精品视频一区二区三区 | 久久久久久久一区 | 国产精品一区二区三区在线 | 一区二区三区av | 女女百合av大片一区二区三区九县 | 成人av免费 | 中文字幕国产在线 | 日韩视频在线播放 | 99在线免费观看 | 亚洲精品视频在线观看视频 | 午夜免费福利影院 | 在线区 | 青青青伊人 | 精品久久久久久久久久久院品网 | 99视频精品 | 中国美女撒尿txxxxx视频 | 天天综合亚洲 | 欧美在线观看一区 | 国产一级视频在线 | 日本不卡一区二区三区在线观看 | 欧美一区二区免费电影 | 91精品亚洲| 在线一区| 97综合在线 | www.久久艹| 羞羞视频在线观免费观看 | 精品精品| 免费精品在线视频 | 久久久久久国产精品久久 | 国产精品成人69xxx免费视频 | 亚洲毛片一区二区 | 精品国产一区二区国模嫣然 | 在线观看中文字幕av | 一级毛片观看 | 91爱爱·com|