360發布FancyVideo:通過跨幀文本指導實現動態且一致的視頻生成SOTA! 精華
文章鏈接:https://arxiv.org/pdf/2408.08189
項目鏈接:https://360cvgroup.github.io/FancyVideo/
亮點直擊
- 本文介紹了FancyVideo,據眾所知的首個探索T2V任務中跨幀文本指導的開創性嘗試。該方法為增強當前的文本控制方法提供了新的視角。
- 本文提出了跨幀文本指導模塊(CTGM),該模塊構建跨幀文本條件,并隨后以強大的時間合理性引導潛在特征的建模。它可以有效地增強視頻的運動性和一致性。
- 本文證明了結合跨幀文本指導是一種實現高質量視頻生成的有效方法。實驗表明,該方法在定量和定性評估中均取得了最先進的結果。
合成動作豐富且時間一致的視頻在人工智能領域仍然是一項挑戰,尤其是在處理較長時間的視頻時?,F有的文本到視頻(T2V)模型通常使用空間交叉注意力來實現文本控制,這等效于在沒有針對特定幀的文本指導的情況下引導不同幀的生成。因此,模型理解提示中所傳達的時間邏輯并生成具有連貫動作的視頻的能力受到限制。
為了解決這一局限性,本文引入了FancyVideo,一種創新的視頻生成器,它通過精心設計的跨幀文本指導模塊(CTGM)改進了現有的文本控制機制。具體來說,CTGM在交叉注意力的開始、中間和結束分別加入了時間信息注入器(TII)、時間相關性精煉器(TAR)和時間特征增強器(TFB),以實現幀特定的文本指導。首先,TII將幀特定的信息從潛在特征中注入到文本條件中,從而獲得跨幀文本條件。然后,TAR在時間維度上優化跨幀文本條件和潛在特征之間的相關矩陣。最后,TFB增強了潛在特征的時間一致性。大量的實驗,包括定量和定性評估,證明了FancyVideo的有效性。本文的方法在EvalCrafter基準測試中實現了最先進的T2V生成結果,并促進了動態且一致的視頻的合成。
方法
預備知識
潛在擴散模型:潛在擴散模型(LDMs)是一類高效的擴散模型,它將去噪過程轉換到壓縮的潛在空間中,而不是像素空間中。具體來說,LDMs使用VAE的編碼器將圖像壓縮為潛在編碼,并通過在潛在編碼上執行正向和反向擴散過程來學習數據分布。它假設一個正向過程,逐漸將高斯噪聲(? ~ N(0, I))引入潛在編碼(z)中,得到:
模型架構
跨幀文本指導模塊
實驗
定量實驗:在定量實驗中,FancyVideo利用T2I基礎模型生成作為第一幀的圖像。在定性實驗中,為了美學目的和去除水印,使用了一個外部模型來生成美麗的第一幀。
定性評估:研究者們選擇了AnimateDiff、DynamiCrafter以及兩個商業化產品,Pika和Gen2,進行綜合定性分析。值得注意的是,在定量實驗中,FancyVideo的第一幀由SDXL生成,以獲得更具美學效果的結果并盡量減少水印的出現(盡管后續幀可能仍會顯示水?。?。如下圖4所示,本文的方法展現了卓越的性能,在時間一致性和動作豐富性方面超過了先前的方法。相比之下,AnimateDiff、DynamiCrafter和Gen2生成的視頻動作較少。Pika在生成物體一致性和高質量視頻幀方面存在困難。值得注意的是,本文的方法能夠準確理解文本提示中的動作指令(例如,“一只泰迪熊走路...美麗的日落”和“一只泰迪熊跑步...城市”的案例)。
定量評估:為了與最先進的方法進行全面比較,采用了三個流行的基準測試(例如,EvalCrafter、UCF-101和MSR-VTT以及人工評估來評估視頻生成的質量。其中,EvalCrafter是目前相對全面的視頻生成基準。UCF-101和MSR-VTT是先前方法中常用的基準。同時,人工評估可以彌補現有文本條件視頻生成評估系統中的不準確性。
EvalCrafter基準測試:EvalCrafter從四個方面(包括視頻質量、文本視頻對齊、動作質量和時間一致性)定量評估文本到視頻生成的質量。每個維度包含多個子類別的指標,如下表1所示。正如社區討論中提到的,作者承認原始的綜合指標計算方式是不適當的。為了更直觀的比較,通過考慮每個子指標的數值規模和正負屬性,引入了每個方面的綜合指標。有關綜合指標的詳細信息可以在補充材料中找到。
具體來說,比較了先前視頻生成SOTA方法的性能(例如,Pika、Gen2、Show-1、ModelScope、DynamiCrafter和AnimateDiff),并展示在上表1中。本文的方法在視頻質量和文本視頻對齊方面表現出色,超過了現有方法。盡管Show-1在動作質量方面表現最佳(81.56),但其視頻質量較差(僅為85.08)。這表明它無法生成具有合理動作的高質量視頻。然而,本文的方法在動作質量(72.99)方面排名第二,在視頻質量(177.72)方面表現最佳,實現了質量與動作之間的權衡。以上結果表明FancyVideo的優越性及其生成時間一致和動作準確的視頻的能力。
UCF-101 & MSR-VTT:根據先前的工作,研究者們在UCF-101和MSR-VTT上評估了零-shot生成性能,如下表2所示。使用Frechet視頻距離(FVD)、Inception評分(IS)、Frechet Inception距離(FID)和CLIP相似度(CLIPSIM)作為評估指標,并與一些當前的SOTA方法進行了比較。FancyVideo取得了競爭力的結果,特別是在IS和CLIPSIM上表現優異,分別為43.66和0.3076。此外,先前的研究指出這些指標不能準確反映人類感知,并受到訓練和測試數據分布之間差距以及圖像低級細節的影響。
人工評估:受到EvalCrafter的啟發,引入了一種多候選排名協議,涵蓋四個方面:視頻質量、文本視頻對齊、動作質量和時間一致性。在該協議中,參與者對每個方面的多個候選模型的結果進行排名。每個候選模型根據其排名獲得一個分數。例如,如果有N個候選模型按視頻質量排名,第一個模型得到N?1分,第二個模型得到N?2分,以此類推,最后一個模型得到0分。遵循這一協議,從EvalCrafter驗證集中選擇了108個樣本,并收集了100名個體的評判。如下圖5所示,本文的方法在所有四個方面顯著優于包括AnimateDiff、Pika和Gen2在內的文本到視頻轉換方法。FancyVideo展現了卓越的動作質量,同時保持了優越的文本視頻一致性。此外,還對四種圖像到視頻的方法進行了類似的比較,包括DynamiCrafter、Pika和Gen2,如下圖5所示。
消融研究:研究者們進行了實驗并展示了在EvalCrafter上的視覺比較,以探討CTGM中關鍵設計的效果。具體而言,消融組件包括三個核心模塊(TII、TAR和TFB)。如下表3所示,TAR可以有效提升兩個指標的性能,表明時間精煉注意力圖操作對視頻生成是有益的。持續插入TFB和TII進一步提升了生成器的性能,這歸因于精煉的潛在特征和幀級個性化文本條件。同時,定性分析包含在附錄中。
結論
本文提出了一種新的視頻生成方法,名為FancyVideo,它通過跨幀文本指導優化了常見的文本控制機制(如空間交叉注意力)。它通過精心設計的跨幀文本指導模塊(CTGM)改進了交叉注意力,實現了針對視頻生成的時間特定文本條件指導。綜合的定性和定量分析表明,該方法能夠生成更具動態性和一致性的視頻。隨著幀數的增加,這一特點變得更加明顯。本文的方法在EvalCrafter基準測試和人工評估中取得了最先進的結果。
本文轉自 AI生成未來 ,作者:Ao Ma等
