超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型
全球社交巨頭Meta發布最新大模型Movie Gen,正式進軍文生視頻領域。
Movie Gen共有300億參數,能以每秒16幀直接生成16秒的1080P超高清視頻,還提供精準的視頻剪輯、個性化功、不同寬高比適配等多元化功能。
最大技術亮點是,Movie Gen能直接生成帶精準配樂的視頻,目前Sora、Runway、Luma等一線產品都無法提供該功能。
有網友對Movie Gen的全面化功能相當震驚,表示,Meta比OpenAI更高的發布了Sora。
基本上都是一片Amazing,足以看出Movie Gen的超強性能。
Sora掀起了文生視頻風口,但是它自己卻莫名消失了~
目前,Meta還沒有公布開源該模型,但已經有人迫不及待了。
這是目前最強的文生視頻模型,我們很快能用它制作電影了。
Movie Gen功能簡單介紹
文生視頻是Movie Gen的核心模塊,是基于Transformer架構開發而成,專門優化了文本到圖像和文本到視頻的生成。Movie Gen能夠生成長達16秒、每秒16幀的1080P超高清視頻,支持73K token上下文。
通過理解文本提示,結合預訓練時學習到的視覺知識,生成與文本描述相匹配的視頻內容。這一模塊的技術創新在于其能夠推理對象運動、主體-對象交互和相機運動,從而生成各種概念的合理動作。
在訓練過程中,Meta采用了大規模的互聯網圖像、視頻和音頻數據,通過復雜的數據策劃和過濾流程,確保了模型訓練數據的多樣性和質量。
此外,為了提高生成視頻的質量和一致性,Meta還引入了監督式微調,使用人工策劃的高質量視頻數據對模型進行進一步的訓練。
個性化視頻生成是在基礎視頻模型上進行了擴展,支持生成包含特定人物身份的視頻內容。例如,輸入一個人的圖像和文本提示,模型能夠生成包含該人物并具有豐富細節的視頻。
Meta使用了一種全新的訓練策略,通過在模型訓練中加入人臉圖像和文本提示的配對數據,使模型學會如何將特定的人物身份信息融入到視頻生成過程中。
精確視頻編輯是Movie Gen的另外一大技術創新,允許用戶通過文本提示對視頻進行精確編輯。
Meta通過創新的訓練方法,使模型能夠理解文本提示中的編輯指令,并將其應用于視頻內容的修改中。包括添加、移除或替換視頻中的元素,以及進行背景或風格等全局性的修改。
能生成帶背景音樂的視頻,流匹配和DiT是關鍵技術。流匹配是一種創新的生成式建模方法,通過構建一個最優傳輸路徑來指導生成過程,從而確保生成的內容既連貫又富有創意。與傳統的擴散模型相比,流匹配不僅提高了訓練效率,還增強了推理階段的表現力。
DiT一種經過調整的變壓器架構,能夠更好地處理音頻數據。通過對歸一化層輸出進行縮放和偏移,并對自注意力及前饋網絡層輸出進行縮放,實現了對音頻信號更精細的控制。同時,通過一個多層感知機來預測調制參數,進一步優化了模型性能。
為了適配不同的設備,針對視頻中的位置信息編碼問題,Movie Gen使用了一種因子化的可學習位置嵌入方式。這種方法可以靈活地適應不同尺寸、寬高比以及視頻長度的輸入,避免了傳統固定長度位置編碼帶來的限制。
Movie Gen通過將空間坐標以及時間坐標轉化為獨立的嵌入向量,再將它們相加得到最終的位置表示,從而有效減少了因位置編碼不當導致的畫面扭曲或變形現象,尤其是在時間維度上表現尤為明顯。
為了降低性能消耗,Movie Gen引入了多維度并行化策略,包括數據并行、張量并行、序列并行以及上下文并行。這種三維并行化設計允許模型在參數數量、輸入token數和數據集大小三個軸向上進行擴展,同時也能橫向擴展至更多的GPU設備上。
特別是在處理高分辨率視頻時,由于自注意力機制本身的計算復雜度較高,因此高效的并行化策略對于減少所需的計算資源至關重要。
論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
