從頻率到細節:ConsisID實現無縫身份一致的文本到視頻生成
文章鏈接: https://arxiv.org/abs/2411.17440
項目鏈接: https://pku-yuangroup.github.io/ConsisID/
亮點直擊
- 提出了ConsisID,一個基于 DiT 的免調優(tuning-free)身份保持 IPT2V 模型,通過頻率分解的控制信號來保持視頻主角的身份一致性。
- 提出了一種分層訓練策略,包括粗到細的訓練過程、動態Mask損失(dynamic mask loss)以及動態跨臉損失(dynamic cross-face loss),共同促進模型訓練并有效提升泛化能力。
- 大量實驗表明,受益于我們的頻率感知身份保持 T2V DiT 控制方案,ConsisID 能夠生成高質量、可編輯且身份一致性強的視頻。
總結速覽
解決的問題提出一種解決生成一致人物身份的視頻問題(Identity-preserving text-to-video,IPT2V)的方法,重點解決當前生成模型存在的兩個難題:
- 去除繁瑣的逐個問題(case-by-case)進行微調(tuning-free)。
- 提供頻率感知的身份一致性控制方案。
提出的方案
- ConsisID: 一個基于 Diffusion Transformer (DiT) 的可控 IPT2V 模型,通過頻率域的身份控制信號保持生成視頻中的人類身份一致性。
- 低頻控制: 引入全局人臉特征提取器,將參考圖像和人臉關鍵點編碼為包含低頻信息的特征,并集成到網絡淺層以緩解訓練難度。
- 高頻控制: 設計局部人臉特征提取器,捕獲高頻細節并注入 Transformer 模塊,增強模型對細粒度特征的保留能力。
- 提出分層訓練策略,利用頻率信息從預訓練視頻生成模型轉化為IPT2V 模型。
應用的技術
- 頻率分析的視覺/擴散 Transformer 理論,通過分解人臉特征為低頻全局特征(如輪廓、比例)和高頻內在特征(如身份tokens)。
- 結合全局和局部人臉特征提取器,將低頻和高頻特征注入網絡。
- 分層訓練策略,使模型能夠靈活控制身份一致性。
達到的效果
- ConsisID 無需逐案例微調,實現了高效的控制能力。
- 生成高質量且身份一致性強的視頻,在IPT2V任務中取得優異表現。
- 推動了身份一致性視頻生成技術的進一步發展。
發現 1:淺層(例如,低級別、低頻率)特征對于擴散模型中的像素級預測任務至關重要,因為它們有助于模型訓練。U-Net 通過長跳躍連接將淺層特征聚合到解碼器,從而促進模型的收斂,而 DiT 沒有采用這種機制;發現 2:Transformer對于高頻信息的感知能力有限,而高頻信息對于保持面部特征非常重要。U-Net 的編碼器-解碼器架構天然具備多尺度特征(例如,豐富的高頻信息),而 DiT 缺乏類似的結構。要開發基于 DiT 的控制模型,首先需要解決這些問題。
方法
ConsisID: 保持身份一致性
概述如下圖 2 所示。給定參考圖像,全局人臉特征提取器和局部人臉特征提取器將高頻和低頻的人臉信息注入模型,并在一致性訓練策略的輔助下生成身份一致性視頻。
低頻視角:全局人臉特征提取器
基于發現 1,增強低層次(例如淺層、低頻)特征能夠加速模型收斂。為了讓預訓練模型更容易適應 IPT2V 任務,最直接的方法是將參考人臉與噪聲輸入的潛變量進行拼接。然而,參考人臉同時包含高頻細節(如眼睛和嘴唇紋理)和低頻信息(如面部比例和輪廓)。
根據發現 2,過早將高頻信息注入 Transformer 不僅效率低下,還可能阻礙模型對低頻信息的處理,因為 Transformer 主要關注低頻特征。
此外,直接將參考人臉輸入模型可能引入諸如光照和陰影等無關噪聲。為了解決這個問題,我們提取面部關鍵點,將其轉換為 RGB 圖像,然后將其與參考圖像拼接,如圖 2 所示。這一策略使模型的注意力集中在人臉的低頻信號上,同時最大限度減少多余特征的影響。發現,當這一組件被移除時,模型會出現梯度爆炸。目標函數被修改為:
高頻視角:局部人臉特征提取器
根據發現 2,認識到 Transformer 對高頻信息的敏感度有限。因此,僅依賴全局人臉特征不足以滿足 IPT2V 生成的需求,因為全局人臉特征主要由低頻信息組成,缺乏編輯所需的內在特征。本任務不僅需要保持身份一致性,還需要具備編輯能力,例如生成具有相同身份但不同年齡或妝容的視頻。
實現這一目標需要提取不受非身份屬性(如表情、姿態和形狀)影響的面部特征,因為年齡和妝容不會改變一個人的核心身份。我們將這些特征定義為內在身份特征(例如高頻特征)。
先前的研究 [14–16] 使用 CLIP 圖像編碼器的局部特征作為內在特征以提升編輯能力。然而,由于 CLIP 未專門在面部數據集上訓練,提取的特征包含有害的非面部信息。因此,選擇使用人臉識別骨干網絡提取內在身份特征。與直接使用骨干網絡輸出作為內在身份特征不同,我們使用其倒數第二層的輸出,因為該層保留了更多與身份相關的空間信息。然而,這些特征仍然缺乏足夠的語義信息,而語義信息對個性化視頻生成至關重要。
為了解決這些問題,首先使用人臉識別骨干網絡提取在內在身份表示方面具有優勢的特征,并使用 CLIP 圖像編碼器捕獲具有強語義的信息。然后,使用 Q-Former融合這兩種特征,生成包含高頻語義信息的內在身份特征。為減少 CLIP 中無關特征的影響,在輸入 Q-Former 之前應用了 dropout。此外,通過插值將來自人臉識別骨干網絡的淺層多尺度特征與 CLIP 特征拼接。這種方法確保模型有效捕獲必要的內在身份特征,同時過濾掉與身份無關的外部噪聲。
在提取內在身份特征后,通過交叉注意力與預訓練模型每個注意力塊生成的視覺標記交互,有效增強 DiT 中的高頻信息。
一致性訓練策略
在訓練過程中,從訓練幀中隨機選擇一幀,應用 Crop & Align提取面部區域作為參考圖像,并將其與文本一起用作身份控制信號。
粗到細的訓練相比于身份保持的圖像生成,視頻生成需要同時在空間和時間維度上保持一致性,確保高頻和低頻的人臉信息與參考圖像匹配。為了降低訓練的復雜性,本文提出了一種分層策略,讓模型先學習全局信息,再局部細化。在粗粒度階段(例如對應發現 1),使用全局人臉特征提取器,使模型優先關注低頻特征,如面部輪廓和比例,從而確保能夠快速從參考圖像中獲取身份信息并在視頻序列中保持一致性。在細粒度階段(例如對應發現 2),局部人臉特征提取器將模型的注意力轉移到高頻細節上,例如眼睛和嘴唇的紋理細節(如內在身份特征),以提高面部表情的逼真度和生成面部的整體相似性。
動態Mask損失
設置
實現細節
基準測試由于缺乏評估數據集,選擇了 30 名未包含在訓練數據中的人,并從互聯網上為每個身份來源了五張高質量的圖像。然后,設計了 90 個不同的提示,涵蓋了各種表情、動作和背景進行評估。基于以往的研究 [15, 38],從四個維度進行評估:
(1).身份保持:使用 FaceSim-Arc 并引入 FaceSim-Cur,通過測量生成視頻中面部區域與真實面部圖像在 ArcFace 和 CurricularFace 特征空間中的特征差異來評估身份保持。(2).視覺質量:我們通過計算生成幀與真實面部圖像在 InceptionV3 特征空間中的面部區域特征差異來使用 FID進行評估。(3).文本相關性:我們使用 CLIPScore 來測量生成的視頻與輸入提示之間的相似性。(4).運動幅度:由于缺乏可靠的度量標準,我們通過用戶研究進行評估。
定性分析
本節將 ConsisID 與 ID-Animator(例如,唯一可用的開源模型)進行比較,以進行無需調優的 IPT2V 任務。我們隨機選擇了四個個體的圖像和文本提示進行定性分析,這些個體均不包含在訓練數據中。如下圖 5 所示,ID-Animator 無法生成超出面部的人體部位,并且無法根據文本提示(例如,動作、屬性、背景)生成復雜的動作或背景,這顯著限制了其實際應用。此外,身份的保持也不足;例如,在案例 1 中,參考圖像似乎經過了皮膚平滑處理。
在案例 2 中,引入了皺紋,降低了美學質量。在案例 3 和 4 中,由于缺乏低頻信息,面部發生了扭曲,導致身份一致性受到損害。相比之下,提出的 ConsisID 始終生成高質量、逼真的視頻,準確匹配參考身份并符合提示。
定量分析
本屆展示了不同方法的全面定量評估,結果如下表 1 所示。
與上圖 5 一致,本文的方法在五個指標上超過了現有的最先進方法。在身份保持方面,ConsisID 通過從頻率角度為 DiT 設計適當的身份信號,取得了更高的分數。相比之下,ID-Animator 并未針對 IPT2V 進行優化,僅部分保留了面部特征,導致 FaceSim-Arc 和 FaceSim-Cur 的分數較低。在文本相關性方面,ConsisID 不僅通過提示控制表情,還調整動作和背景,取得了更高的 CLIPScore。關于視覺質量,FID 僅作為參考呈現,因為它與人類感知的對齊有限 。有關視覺質量的定性分析,請參見上圖 5 和 下圖4。
用戶研究
基于之前的工作,使用二元投票策略進行人工評估,每份問卷包含80個問題。參與者需要觀看40個視頻片段,這一設置旨在提高參與度和問卷的有效性。對于 IPT2V 任務,每個問題要求參與者分別判斷哪個選項在身份保持、視覺質量、文本對齊和運動幅度方面表現更好。這一組成確保了人工評估的準確性。由于此評估需要大量的參與者,我們成功收集了103份有效問卷。結果如上圖4所示,證明本文的方法在多個方面顯著優于 ID-Animator,驗證了所設計的 DiT 在 IPT2V 生成中的有效性。
身份信號注入對 DiT 的影響
為了評估發現1和發現2的有效性,對不同的信號注入方法進行了消融實驗。具體來說,這些實驗包括:(a)僅將低頻面部信息和關鍵點注入噪聲潛在空間,(b)僅將高頻面部信號注入注意力塊,(c)結合(a)和(b),(d)基于(c),但低頻面部信息不包含關鍵點,(e - f)基于(c),但高頻信號注入到注意力塊的輸入或輸出,(g)僅將高頻面部信號注入注意力塊之前。結果如下圖7和表3所示。
對于發現1,觀察到僅注入高頻信號(a)會大大增加訓練難度,導致模型由于缺乏低頻信號注入而無法收斂。此外,加入面部關鍵點(d)使得模型能夠更多地關注低頻信息,從而促進訓練并提高模型性能。
對于發現2,當僅注入低頻信號(b)時,模型缺乏高頻信息。這種對低頻信號的依賴使得生成的視頻中的面部直接復制參考圖像,難以通過提示控制面部表情、動作和其他特征。此外,將身份信號注入到注意力塊輸入(f - g)會打亂 DiT 的頻域分布,導致梯度爆炸。將控制信號嵌入到注意力塊(c)中,比將其嵌入到輸出(e)中更優,因為注意力塊主要處理低頻信息。通過內部嵌入高頻信息,注意力塊能夠突出內在的面部特征,而將其注入輸出僅僅是特征的拼接,無法引導關注,降低了 DiT 的建模能力。
此外,對生成的視頻(僅面部區域)應用了傅里葉變換,以視覺比較不同組件對面部信息提取的影響。如下圖3所示,傅里葉譜和傅里葉變換的對數幅度顯示,注入高頻或低頻信號確實增強了生成面部的相應頻率信息。此外,低頻信號通過與面部關鍵點的匹配可以進一步增強,而將高頻信號注入注意力塊具有最高的特征利用率。本文的方法(c)展示了最強的高頻和低頻,進一步驗證了發現1和發現2帶來的效率提升。為了減少開銷,我們對每個身份僅選擇了2個參考圖像進行評估。
一致性訓練策略的消融實驗
為了減少開銷,在以下實驗中為每個身份僅選擇2個參考圖像。為了證明所提出的一致性訓練策略的好處,對粗到精訓練(CFT)、動態Mask損失(DML)和動態跨臉損失(DCL)進行了消融實驗,結果如下圖6和表2所示。去除CFT時,GFE和LFE表現出競爭行為,導致模型無法準確優先處理高頻和低頻信息,進而使得模型收斂到次優點。去除DML使得模型必須同時關注前景和背景元素,背景噪聲對訓練產生負面影響,降低了面部一致性。同樣,去除DCL削弱了模型的泛化能力,降低了面部的忠實度,特別是對于訓練集之外的人物,影響了生成符合身份保持的視頻效果。
反轉步數量的消融實驗
為了評估反轉步數量變化對模型性能的影響,在ConsisID的推理階段進行了一項消融研究。鑒于計算資源的限制,從評估數據集中隨機選擇了60個提示。每個提示與一個唯一的參考圖像配對,生成60個視頻用于每種設置。通過固定的隨機種子,在t值為25、50、75、100、125、150、175和200的范圍內變化反轉步驟參數。結果如圖8和表4所示。盡管理論預期表明增加反轉步驟數量會持續提升生成質量,但我們的研究表明,生成質量呈現非線性關系,質量在t = 50時達到峰值,之后下降。具體而言,在t = 25時,模型生成的面部輪廓不完整;在t = 75時,模型未能生成上身衣物;超過t = 125時,模型喪失了重要的低頻面部信息,導致面部特征失真;超過t = 150時,視覺清晰度逐漸下降。推測去噪過程的初期階段主要由低頻信息主導,如生成面部輪廓,而后期階段則專注于高頻細節,如面部內在特征。t = 50是平衡這兩個階段的最佳設置。
結論
ConsisID,一個通過頻率分解保持面部一致性的視頻生成統一框架。它能夠無縫集成到現有的基于DiT的文本到視頻(T2V)模型中,用于生成高質量、可編輯、符合身份保持要求的視頻。大量實驗表明,ConsisID超越了當前最先進的身份保持T2V模型。研究結果表明,基于頻率感知的DiT控制方案是IPT2V生成的最佳解決方案。
限制與未來工作
現有的度量標準無法準確衡量不同ID保持模型的能力。盡管ConsisID能夠根據文本提示生成真實自然的視頻,但諸如CLIPScore 和FID等度量標準與以前的方法差異不大。一個可行的方向是尋找一種與人類感知更匹配的度量標準。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/HAoPAf2t1GHMGPKtJoaZ4Q??
