10×加速!DCM顯著提升視頻擴(kuò)散模型推理效率!HunyuanVideo13B推理時間從1500秒縮短至120秒!
本文由南京大學(xué),香港大學(xué),上海人工智能實驗室,中國科學(xué)院大學(xué)與南洋理工大學(xué) S-Lab 聯(lián)合完成。
擴(kuò)散模型在視頻合成任務(wù)中取得了顯著成果,但其依賴迭代去噪過程,帶來了巨大的計算開銷。盡管一致性模型(Consistency Models)在加速擴(kuò)散模型方面取得了重要進(jìn)展,直接將其應(yīng)用于視頻擴(kuò)散模型卻常常導(dǎo)致時序一致性和外觀細(xì)節(jié)的明顯退化。
本文通過分析一致性模型的訓(xùn)練動態(tài),發(fā)現(xiàn)蒸餾過程中存在一個關(guān)鍵的沖突性學(xué)習(xí)機(jī)制:在不同噪聲水平的樣本上,優(yōu)化梯度和損失貢獻(xiàn)存在顯著差異。這種差異使得蒸餾得到的學(xué)生模型難以達(dá)到最優(yōu)狀態(tài),最終導(dǎo)致時序一致性受損、畫面細(xì)節(jié)下降。
為解決這一問題,本文提出了一種參數(shù)高效的雙專家一致性模型(Dual-Expert Consistency Model, DCM):其中 Semantic Expert 負(fù)責(zé)學(xué)習(xí)語義布局和運(yùn)動信息,Detail Expert 則專注于細(xì)節(jié)的合成。此外,引入了 Temporal Coherence Loss 以增強(qiáng)語義專家的運(yùn)動一致性,并引入 GAN Loss 與 Feature Matching Loss 以提升細(xì)節(jié)專家的合成質(zhì)量。
DCM 在顯著減少采樣步數(shù)的同時,仍能達(dá)到當(dāng)前相當(dāng)?shù)囊曈X質(zhì)量,驗證了雙專家機(jī)制在視頻擴(kuò)散模型蒸餾中的有效性。
- 論文標(biāo)題:DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
- 論文地址:https://arxiv.org/pdf/2506.03123
- 代碼地址:https://github.com/Vchitect/DCM
- 項目主頁:https://vchitect.github.io/DCM
為什么一致性蒸餾在視頻生成上表現(xiàn)不佳?
擴(kuò)散模型在圖像和視頻生成中表現(xiàn)出令人印象深刻的性能。然而,擴(kuò)散模型迭代采樣的性質(zhì)和規(guī)模逐漸增長的去噪 transformer 網(wǎng)絡(luò),給推理過程帶來了繁重的計算代價。
為了緩解這個問題,一致性蒸餾通過減少采樣步數(shù),降低推理時延。它通過訓(xùn)練一個 student 模型學(xué)習(xí)直接映射采樣軌跡上任意一個點(diǎn)到相同的解點(diǎn),以滿足 self-consistency 性質(zhì),進(jìn)而提升少步推理結(jié)果的視覺質(zhì)量。盡管支持少步采樣,它在復(fù)雜的視頻合成中往往難以保證視覺質(zhì)量,容易出現(xiàn)布局錯亂、運(yùn)動不自然以及細(xì)節(jié)降質(zhì)等問題。
通過對推理過程的分析可以發(fā)現(xiàn),相鄰時間步的去噪結(jié)果在推理早期差異顯著,而在后期變得更加緩慢和平滑。這是因為推理早期主要關(guān)注于合成語義,布局和運(yùn)動這些相對低頻的特征成分,而在推理后期更加強(qiáng)調(diào)細(xì)節(jié)的合成。
這表明,在蒸餾過程中,student 模型在高噪聲和低噪聲訓(xùn)練樣本中學(xué)習(xí)不同的模式,可能表現(xiàn)出不同的 learning dynamics。通過可視化蒸餾過程中一致性損失和損失梯度在高噪聲樣本和低噪聲樣本上的趨勢變化,可以看到,它們表現(xiàn)出顯著的差異,這表明聯(lián)合蒸餾一個 student 模型可能會引入優(yōu)化的干擾,從而導(dǎo)致次優(yōu)的視覺質(zhì)量。
Dual-Expert 一致性模型:優(yōu)化解耦與輕量高效設(shè)計
為了解耦蒸餾過程,本文首先根據(jù)推理過程中的去噪結(jié)果的變化趨勢將 ODE 解軌跡分為兩段:語義合成階段和細(xì)節(jié)合成階段。然后分別為兩個階段訓(xùn)練兩個 Expert Denoiser,SemE 和 DetE,以滿足對應(yīng)階段的 self-consistency 性質(zhì)。在推理時,基于樣本的噪聲水平動態(tài)地選擇 SemE 或者 DetE 作為去噪網(wǎng)絡(luò)。這種方式雖然獲得了更好的視覺質(zhì)量,但是也帶來了雙倍的參數(shù)代價,更大的內(nèi)存消耗。
為了提升參數(shù)效率,進(jìn)一步分析了兩個 Expert Denoisers 之間的參數(shù)差異,發(fā)現(xiàn)它們主要存在于 embedding layers 和 attention layers 中。基于此,本文設(shè)計了一種參數(shù)高效的 Dual-Expert 一致性模型,具體來說,首先在語義合成軌跡上訓(xùn)練語義合成專家 SemE,然后凍結(jié)它,并引入一套新的 embedding layers 和一個 LoRA。在細(xì)節(jié)合成軌跡上微調(diào)和更新這些新添加的參數(shù)。通過這種方式,解耦了兩個 Expert Denoisers 的優(yōu)化過程,并且僅僅引入了少量的額外參數(shù),實現(xiàn)了相當(dāng)?shù)囊曈X質(zhì)量。
此外,考慮到兩個 Expert Denoisers 不同的 training dynamics,在一致性損失的基礎(chǔ)上,為語義合成專家 SemE 額外引入了 Temporal Coherence 損失,以捕獲幀間運(yùn)動變化。為了增強(qiáng) DetE 的細(xì)節(jié)合成質(zhì)量,為 DetE 引入了生成對抗損失和 Feature Matching 損失。
DCM 性能表現(xiàn):10x 加速,相當(dāng)視覺質(zhì)量
為了驗證 DCM 的有效性,本文在 HunyuanVideo,CogVideoX 和 WAN2.1 上進(jìn)行了實驗。如下表所示,在 4 步生成下,DCM 在實現(xiàn)了超過 10x 加速 (1504.5→121.52) 的同時,獲得了與原始 50 步采樣相當(dāng)?shù)?Vbench 得分(83.83%→83.86%),顯著超過 LCM 和 PCM 的表現(xiàn)。
下圖展示了 DCM 與原始模型、LCM 和 PCM 生成視頻的對比。可以看到,在減少推理步數(shù)的同時,DCM 依然能夠保持較高的語義質(zhì)量和細(xì)節(jié)質(zhì)量。
結(jié)語
本文指出,當(dāng)前視頻合成中的一致性蒸餾存在一個關(guān)鍵的優(yōu)化沖突:在不同噪聲水平的訓(xùn)練樣本上,優(yōu)化梯度和損失貢獻(xiàn)存在顯著差異。將整個 ODE 軌跡壓縮到一個單一的學(xué)生模型中,會導(dǎo)致這些因素難以平衡,從而造成生成結(jié)果的降質(zhì)。為了解決這一問題,本文提出了一種參數(shù)高效的雙專家蒸餾框架(Dual-Expert Distillation Framework),通過將語義學(xué)習(xí)與細(xì)節(jié)精修解耦,實現(xiàn)更合理的建模。此外,引入了 Temporal Coherence Loss 來增強(qiáng)語義專家的運(yùn)動一致性,并為細(xì)節(jié)專家引入 GAN Loss 和 Feature Matching Loss,以提升細(xì)節(jié)合成質(zhì)量。DCM 在顯著減少采樣步數(shù)的同時,仍能達(dá)到當(dāng)前相當(dāng)?shù)囊曈X效果,展現(xiàn)了專家分工機(jī)制在視頻擴(kuò)散模型蒸餾中的有效性。