CVPR`25 | SOTA!首揭PCA解決長(zhǎng)視頻低質(zhì)問(wèn)題!FreePCA讓長(zhǎng)視頻絲滑如電影!(中科大)
文章鏈接:??https://arxiv.org/pdf/2505.01172??
Git鏈接:https://github.com/JosephTiTan/FreePCA
亮點(diǎn)直擊
- 首次揭示了PCA能夠有效將視頻特征解耦為一致的外觀和運(yùn)動(dòng)強(qiáng)度特征,從而解決長(zhǎng)視頻生成中的不一致性和低質(zhì)量問(wèn)題。
- 提出了一種技術(shù),從整個(gè)視頻序列的全局特征中提取主成分空間中的一致性特征,并逐步將其整合到通過(guò)滑動(dòng)窗口獲得的局部特征中,從而在保證視頻質(zhì)量的同時(shí)確保一致性。
- 大量實(shí)驗(yàn)表明,本文的方法優(yōu)于現(xiàn)有方法,達(dá)到了SOTA性能。此外,該方法無(wú)需額外訓(xùn)練即可應(yīng)用于多種基礎(chǔ)視頻擴(kuò)散模型。
總結(jié)速覽
解決的問(wèn)題
- 長(zhǎng)視頻生成的分布偏移問(wèn)題:
a.使用基于短視頻訓(xùn)練的模型生成長(zhǎng)視頻時(shí),由于幀數(shù)變化導(dǎo)致數(shù)據(jù)分布偏移,出現(xiàn)質(zhì)量下降、物體缺失和運(yùn)動(dòng)緩慢等問(wèn)題。
- 全局與局部信息難以有效融合:
a.現(xiàn)有方法(如全局對(duì)齊或局部滑動(dòng)窗口拼接)無(wú)法兼顧全局一致性和局部質(zhì)量,導(dǎo)致視頻出現(xiàn)運(yùn)動(dòng)不一致或視覺(jué)質(zhì)量下降。
- 外觀與運(yùn)動(dòng)耦合的挑戰(zhàn):
a.視頻中的外觀和運(yùn)動(dòng)高度耦合,直接融合全局和局部特征會(huì)導(dǎo)致生成結(jié)果不協(xié)調(diào)。
提出的方案
FreePCA框架:一種基于主成分分析(PCA)的無(wú)訓(xùn)練長(zhǎng)視頻生成范式,通過(guò)解耦外觀一致性和運(yùn)動(dòng)強(qiáng)度特征,實(shí)現(xiàn)全局一致性與局部質(zhì)量的互補(bǔ)融合。
應(yīng)用的技術(shù)
- 主成分分析(PCA):
a.在時(shí)序維度對(duì)視頻特征進(jìn)行解耦,分離外觀一致性和運(yùn)動(dòng)強(qiáng)度。
- 余弦相似度度量:
b.用于量化全局與局部特征的相似性,劃分主成分空間中的一致性特征。
- 漸進(jìn)式特征融合:
c.動(dòng)態(tài)調(diào)整全局與局部特征的融合權(quán)重,確保生成質(zhì)量與平滑過(guò)渡。
達(dá)到的效果
- 高質(zhì)量長(zhǎng)視頻生成:
a.在無(wú)需額外訓(xùn)練的情況下,顯著提升生成視頻的視覺(jué)質(zhì)量和運(yùn)動(dòng)流暢性。
- 強(qiáng)一致性保持:
b.通過(guò)全局外觀特征的補(bǔ)充和噪聲均值復(fù)用,有效解決跨窗口不一致問(wèn)題。
- 廣泛適用性:
c.可適配多種視頻擴(kuò)散模型(如Stable Video Diffusion),支持多提示詞生成和連續(xù)視頻生成。
- 實(shí)驗(yàn)驗(yàn)證:
d.在多個(gè)基準(zhǔn)模型上驗(yàn)證了方法的有效性,生成結(jié)果在一致性和細(xì)節(jié)豐富性上優(yōu)于現(xiàn)有方法(如局部拼接或純?nèi)謱?duì)齊)。
觀察與分析
本節(jié)首先介紹使用PCA的動(dòng)機(jī),并證明對(duì)視頻應(yīng)用PCA后,主成分空間中的某些成分保留了一致的外觀。還通過(guò)統(tǒng)計(jì)發(fā)現(xiàn),不同長(zhǎng)視頻生成方法中一致性信息的占比存在差異。此外,展示了如何從擴(kuò)散模型的視頻特征中提取一致性特征,并闡明與先前方法的區(qū)別。
使用PCA的動(dòng)機(jī)
受PCA在視頻分割中信息整合能力的啟發(fā),發(fā)現(xiàn)PCA可以衡量時(shí)序維度上幀間的線性相關(guān)性,并將視頻特征解耦為一致外觀和運(yùn)動(dòng)多樣性。對(duì)視頻時(shí)序維度應(yīng)用PCA后,本文將主成分空間中各成分的信息分離,并單獨(dú)映射回原始空間。盡管每個(gè)成分存在顯著信息損失,但某些成分仍保留一致的外觀屬性。
為量化這種一致性,對(duì)每幀應(yīng)用Canny邊緣檢測(cè)并疊加所有幀。若邊緣集中于特定區(qū)域且呈現(xiàn)清晰外觀,則一致性較好;反之,若邊緣分散則一致性較差。本文進(jìn)一步使用PSNR衡量PCA后視頻外觀與原視頻的差異,設(shè)定35 dB為閾值。如下圖2所示,部分PCA成分呈現(xiàn)一致外觀,而其他成分則雜亂不一致。
統(tǒng)計(jì)分析與生成方法關(guān)聯(lián)
為從統(tǒng)計(jì)角度分析一致性成分的分布及其與生成方法的關(guān)系,本文對(duì)100組提示詞生成的視頻(全局方法使用長(zhǎng)幀,局部方法使用短幀)應(yīng)用PCA,并根據(jù)是否含一致性成分分為高一致性和低一致性兩組。結(jié)果表明,局部方法生成的低一致性視頻數(shù)量顯著多于全局方法。這一差異說(shuō)明,主成分空間可量化全局與局部方法的一致性程度,從而激勵(lì)本文利用PCA解決局部方法的不一致性問(wèn)題,同時(shí)保留原始質(zhì)量。
時(shí)序注意力與特征解耦
由于時(shí)序注意力在長(zhǎng)視頻生成中的關(guān)鍵作用,同時(shí)在時(shí)序注意力中應(yīng)用全局和局部方法,并在主成分空間提取其特征。通過(guò)比較各成分的余弦相似度發(fā)現(xiàn):高相似度成分呈現(xiàn)一致外觀屬性,而低相似度成分反映運(yùn)動(dòng)強(qiáng)度屬性。如下圖3所示,逐幀差分結(jié)果顯示,局部特征(b)的變化強(qiáng)度大于全局特征(a),后者因更強(qiáng)的一致性而更穩(wěn)定。但兩者均因外觀與運(yùn)動(dòng)耦合而難以清晰分離。
通過(guò)余弦相似度篩選后,高相似度成分(c/d)展現(xiàn)出明確的結(jié)構(gòu)化外觀,且全局特征(c)更平滑穩(wěn)定,可彌補(bǔ)局部特征(d)的混沌性;低相似度成分(e/f)雖無(wú)清晰外觀,但局部特征(f)保留了更豐富的運(yùn)動(dòng)信息。因此,將高一致性全局特征(c)與高運(yùn)動(dòng)強(qiáng)度局部特征(f)互補(bǔ)融合,可同時(shí)解決長(zhǎng)視頻生成的質(zhì)量與一致性問(wèn)題。
與先前方法的區(qū)別
盡管表面類似[31][28],但本文的方法存在本質(zhì)差異:
- 更強(qiáng)的解耦能力:利用PCA將視頻特征明確解耦為一致外觀和運(yùn)動(dòng)多樣性,并在特征層賦予清晰的物理意義。
- 全局-局部?jī)?yōu)勢(shì)融合:首次提出如何整合全局一致性與局部多樣性以優(yōu)化生成結(jié)果,而此前方法未有效解決該問(wèn)題。
方法
基于上述分析,本文提出FreePCA——一種基于PCA的免訓(xùn)練長(zhǎng)視頻生成方法,利用預(yù)訓(xùn)練擴(kuò)散模型提升一致性與質(zhì)量。如下圖4所示,預(yù)訓(xùn)練模型采用U-net結(jié)構(gòu),包含卷積層、空間transformer和時(shí)序transformer,并在短視頻數(shù)據(jù)上訓(xùn)練。FreePCA聚焦于時(shí)序transformer,包含兩個(gè)核心步驟:一致性特征分解與漸進(jìn)式融合。此外,本文復(fù)用初始噪聲的均值統(tǒng)計(jì)量以增強(qiáng)一致性。
一致性特征分解
漸進(jìn)式融合
最新研究表明擴(kuò)散模型首先生成場(chǎng)景布局和物體形狀,后續(xù)步驟才細(xì)化細(xì)節(jié)。因此在DDIM的50步去噪過(guò)程中:
- 前25步使用完整FreePCA方法
- 后25步采用局部方法
均值統(tǒng)計(jì)量復(fù)用
先前方法采用噪聲重調(diào)度技術(shù)來(lái)確保視頻一致性。然而,這種方法對(duì)輸入施加了嚴(yán)格限制,阻礙了生成更豐富場(chǎng)景的可能性。早期工作指出,從視頻序列的時(shí)間維度提取的均值能夠反映外觀信息。受此啟發(fā),本文提取前f幀的噪聲均值,并用其替換后續(xù)F-f幀的噪聲均值。本文發(fā)現(xiàn),這種方法不僅能保持視頻的外觀一致性,還能增強(qiáng)視頻生成的靈活性,其表達(dá)式為
其中sh(·)表示對(duì)幀序列順序進(jìn)行重排。
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
實(shí)驗(yàn)設(shè)置。為驗(yàn)證本方法的有效性和泛化能力,將FreePCA應(yīng)用于公開(kāi)的基于擴(kuò)散模型的文本生成視頻系統(tǒng)VideoCrafter2和LaVie,這些模型均在16幀視頻數(shù)據(jù)上訓(xùn)練。本文的目標(biāo)是使這些模型能夠生成長(zhǎng)視頻(即64幀),同時(shí)盡可能保持原始視頻生成質(zhì)量。本方法無(wú)需訓(xùn)練,可直接在推理階段使用。
測(cè)試提示詞。使用Vbench中的326條提示詞來(lái)測(cè)試本方法效果。
評(píng)估指標(biāo)。采用Vbench提供的指標(biāo)進(jìn)行評(píng)估,主要測(cè)試兩個(gè)維度:視頻一致性和視頻質(zhì)量。視頻一致性包含三項(xiàng)指標(biāo):1)主體一致性:通過(guò)計(jì)算幀間DINO特征的相似度評(píng)估物體是否保持穩(wěn)定;2)背景一致性:通過(guò)計(jì)算幀間CLIP特征相似度衡量背景場(chǎng)景的穩(wěn)定性;3)整體一致性:使用ViCLIP特征計(jì)算幀間相似度評(píng)估語(yǔ)義和風(fēng)格一致性。視頻質(zhì)量從運(yùn)動(dòng)和外觀兩個(gè)角度測(cè)試:1)運(yùn)動(dòng)平滑度:使用AMT視頻插值模型評(píng)估運(yùn)動(dòng)流暢性;2)動(dòng)態(tài)程度:通過(guò)RAFT計(jì)算連續(xù)幀間光流強(qiáng)度判斷視頻是否靜態(tài);3)成像質(zhì)量:使用基于SPAQ數(shù)據(jù)集訓(xùn)練的MUSIQ圖像質(zhì)量評(píng)估器。
基線方法。將FreePCA與以下無(wú)需訓(xùn)練的長(zhǎng)視頻生成方法對(duì)比:1)直接采樣:直接使用短視頻模型生成64幀視頻;2)FreeNoise:通過(guò)噪聲重調(diào)度保持幀間一致性;3)FreeLong:將低頻全局特征與高頻局部注意力圖融合以提升視頻質(zhì)量。
基線對(duì)比
下表1展示了定量實(shí)驗(yàn)結(jié)果。直接生成長(zhǎng)視頻存在領(lǐng)域泛化問(wèn)題,導(dǎo)致外觀和運(yùn)動(dòng)質(zhì)量下降(盡管一致性尚可),其語(yǔ)義準(zhǔn)確性也導(dǎo)致整體一致性最差。FreeNoise因滑動(dòng)窗口機(jī)制未出現(xiàn)質(zhì)量指標(biāo)顯著下降,但一致性表現(xiàn)惡化。FreeLong受限于簡(jiǎn)單的頻域融合方式難以進(jìn)一步提升質(zhì)量。相比之下,F(xiàn)reePCA不僅獲得最優(yōu)視頻質(zhì)量,還通過(guò)PCA和漸進(jìn)式融合保持了最佳一致性。在NVIDIA RTX 4090上的測(cè)試顯示,本方法以可接受的推理時(shí)間增長(zhǎng)實(shí)現(xiàn)了更優(yōu)生成效果(DiT框架結(jié)果見(jiàn)補(bǔ)充材料)。
下圖6-7的定性對(duì)比表明:直接生成長(zhǎng)視頻會(huì)出現(xiàn)物體缺失、運(yùn)動(dòng)遲緩和細(xì)節(jié)丟失;FreeNoise存在明顯外觀不一致;FreeLong雖略微改善一致性但仍存在語(yǔ)義丟失。而FreePCA在保持卓越一致性的同時(shí),確保了外觀與運(yùn)動(dòng)的高質(zhì)量。
消融實(shí)驗(yàn)
本文針對(duì)以下變量進(jìn)行消融研究:
其他應(yīng)用中的一致性增強(qiáng)
本文的方法還可應(yīng)用于:
- 多提示詞視頻生成(下圖8):為不同視頻段落提供差異提示詞時(shí),F(xiàn)reePCA能保持外觀連貫性
- 視頻延續(xù)生成(下圖9):通過(guò)DDIM反演初始視頻后應(yīng)用FreePCA,可在保留原內(nèi)容基礎(chǔ)上擴(kuò)展更豐富的長(zhǎng)視頻
這些實(shí)驗(yàn)充分證明了本方法在多場(chǎng)景下的泛化能力和實(shí)用價(jià)值,成為維護(hù)視頻一致性的有效范式。
結(jié)論
FreePCA,一種無(wú)需訓(xùn)練的創(chuàng)新方法,用于從短視頻擴(kuò)散模型生成高質(zhì)量且保持連貫性的長(zhǎng)視頻。該方法利用主成分分析(PCA)強(qiáng)大的特征解耦能力,從視頻特征中提取一致性特征,并提出"一致性特征分解"技術(shù)——在PCA處理后應(yīng)用余弦相似度來(lái)識(shí)別一致性特征。本文還設(shè)計(jì)了"漸進(jìn)融合"策略,通過(guò)滑動(dòng)窗口逐步增加一致性特征的占比,在保證視頻質(zhì)量的同時(shí)確保連貫性。此外,引入"均值統(tǒng)計(jì)復(fù)用"機(jī)制進(jìn)一步強(qiáng)化一致性。實(shí)驗(yàn)表明,F(xiàn)reePCA顯著優(yōu)于現(xiàn)有模型,實(shí)現(xiàn)了高保真度與連貫性,并為其他應(yīng)用領(lǐng)域的連貫性增強(qiáng)建立了一種無(wú)需訓(xùn)練的范式。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
