成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法 精華

發布于 2024-5-24 09:44
瀏覽
0收藏

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

論文鏈接:https://arxiv.org/pdf/2405.12970

項目鏈接:https://faceadapter.github.io/face-adapter.github.io/


當前的面部重演和交換方法主要依賴于GAN框架,但最近的研究重點已轉向預訓練的擴散模型,因為它們具有更強的生成能力。然而,訓練這些模型需要大量資源,且結果尚未達到令人滿意的性能水平。為了解決這個問題,本文引入了FaceAdapter,是一種高效且有效的適配器,專為預訓練的擴散模型提供高精度和高保真度的人臉編輯。


本文觀察到,面部重演和交換任務本質上都涉及目標結構、身份和屬性的組合。本文旨在充分解耦這些因素的控制,以在一個模型中實現這兩項任務。具體來說,本文的方法包括:

  • 提供精確的標志點和背景的空間條件生成器;
  • 通過Transformer解碼器將人臉embedding轉移到文本空間的即插即用身份編碼器;
  • 整合空間條件和詳細屬性的屬性控制器。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

與完全微調的面部重演/交換模型相比,FaceAdapter在運動控制精度、身份保留能力和生成質量方面實現了相當或更優的性能。此外,FaceAdapter還能無縫集成到各種StableDiffusion模型中。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

介紹

面部重演旨在將目標動作轉移到源身份和屬性上,而人臉交換則旨在將源身份轉移到目標動作和屬性上。這兩項任務都需要完全解耦并精細控制身份、屬性和動作。當前的面部重演和交換技術主要依賴于基于GAN的框架。然而,基于GAN的方法在生成能力上存在局限性,難以處理一些復雜情況,比如在面部重演中處理大角度姿勢,以及在人臉交換中適應面部形狀的變化。


現有研究嘗試通過利用擴散模型強大的生成能力來解決這些挑戰。然而,這些方法需要對整個模型進行訓練,導致顯著的計算開銷,且未能成功提供令人滿意的結果。例如,FADM對基于GAN的重演方法的結果進行細化,雖然提高了圖像質量,但仍未能解決由于大角度姿勢變化引起的模糊問題。另一方面,DiffSwap由于訓練過程中缺乏背景信息,導致生成的面部結果模糊,從而阻礙了模型的學習。此外,這些方法未能充分利用大型預訓練擴散模型的潛力。為了降低訓練成本,一些方法引入了用于大型預訓練擴散模型的面部編輯適配器插件。然而,這些方法主要集中于使用文本進行屬性編輯,不可避免地削弱了空間控制以確保文本的可編輯性。例如,它們只能使用五個點來控制面部姿勢,限制了其精確控制表情和視線方向的能力。另一方面,直接用面部區域的mask進行修復并未考慮面部形狀的變化,導致身份保留能力的下降。


為了解決上述挑戰,本文致力于開發一種高效且有效的面部編輯適配器(Face-Adapter),專門針對預訓練擴散模型的面部重演和交換任務。Face-Adapter的設計動機有三點:


  • 完全解耦的身份、目標結構和屬性控制,能夠實現“一模型雙任務”;
  • 解決被忽視的問題;
  • 簡單而有效,即插即用。


具體來說,提出的Face-Adapter包括三個組件:

  1. 空間條件生成器(SCG):用于自動預測3D先驗標志點和變化前景區域的mask,為后續的受控生成提供更合理和精確的指導。此外,對于面部重演,這種策略可以緩解僅從源圖像中提取背景時可能出現的問題,例如由于攝像機或面部對象的移動導致目標背景變化引起的不一致性;對于人臉交換,模型學習保持背景一致性,獲取全局光照和空間參考的線索,并嘗試生成與背景和諧的內容。
  2. 身份編碼器(IE):使用預訓練的識別模型提取面部embedding,然后通過Transformer解碼器中的可學習查詢將其轉移到文本空間。這種方式大大提高了生成圖像的身份一致性。
  3. 屬性控制器(AC):包括兩個子模塊:空間控制將目標動作的標志點與從空間條件生成器獲得的不變背景結合起來。屬性模板補充缺失的屬性,涵蓋光照、部分背景和頭發。這兩項任務都可以看作是執行條件修復的過程,利用提供的身份和缺失的屬性內容。這個過程遵循給定的空間控制規定,達到與背景一致和和諧的效果。


通過這種設計,Face-Adapter不僅能有效地解決當前方法中的問題,還能在保持高精度和高保真度的同時,減少訓練成本,并無縫集成到各種穩定擴散模型中。

本文的貢獻可以總結如下:


  1. 引入Face-Adapter:本文提出了Face-Adapter,這是一種輕量級的面部編輯適配器,旨在為預訓練的擴散模型提供對身份和屬性的精確控制。該適配器在面部重現和交換任務中表現出色,超越了之前的最先進的基于GAN和擴散的方法。
  2. 新穎的空間條件生成模塊:本文提出了一種新穎的空間條件生成模塊,用于預測必要的生成區域。該模塊與身份編碼器和屬性控制器協作,將重現和交換任務框架化為具有充分空間指導、身份和必要屬性的條件修補任務。通過合理且高度解耦的條件設計,本文釋放了預訓練擴散模型在這兩項任務中的生成能力。
  3. 高效訓練且即插即用:Face-Adapter是一種高效訓練、即插即用的面部專用適配器,適用于預訓練的擴散模型。通過凍結去噪U-Net中的所有參數,本文的方法有效地利用了先驗知識,防止了過擬合。此外,Face-Adapter支持“一種模型用于兩項任務”的方法,只需簡單的輸入修改即可獨立完成VoxCeleb 1/2 數據集上的兩項面部任務,并取得優越或具有競爭力的結果。

相關工作

面部重演涉及從一個人臉中提取運動并將其轉移到另一張臉上,大致可以分為基于變形的方法和基于3DMM的方法。基于變形的方法通常提取關鍵點或區域對以估計運動場,并在特征圖上進行變形以傳遞運動。但是在處理大幅度運動變化時,這些方法由于難以預測準確的運動場,往往會產生模糊和失真的結果?;?DMM的方法使用面部重建系數或3DMM渲染圖像作為運動控制條件。3DMM提供的面部先驗使這些方法在大姿態場景中能夠獲得更穩健的生成結果。盡管提供了準確的結構參考,但它僅提供粗略的面部紋理,并缺乏對頭發、牙齒和眼睛運動的參考。


StyleHEAT和 HyperReenact使用StyleGAN2來提高生成質量。然而,StyleHEAT受限于正面肖像的數據集,而HyperReenact則受到分辨率限制和背景模糊的影響。為了進一步提高生成質量,擴散模型越來越受到歡迎。FADM 將之前的重現模型與擴散細化相結合,但基礎模型限制了驅動的準確性。最近,AnimateAnyone 使用重度紋理表示編碼器(CLIP和U-Net的副本)來確保動畫結果的紋理質量,但這種方法成本高昂。


相比之下,本文旨在充分利用預訓練的文本到圖像擴散模型的生成能力,并尋求全面克服先前方法中提出的挑戰,例如低分辨率生成、處理大幅度變化的困難、高效訓練和意外的偽影。


人臉交換旨在將源圖像的面部身份轉移到目標圖像上,同時保持目標圖像的其他屬性(如光照、頭發、背景和運動)不變。最近的方法大致可以分為基于GAN的方法和基于擴散的方法。


  1. 基于GAN的方法主要致力于解決身份和其他屬性的解耦與融合問題。其努力包括引入面部解析mask、各種屬性保留損失以及設計融合模塊。盡管取得了顯著的改進,這些方法在處理面部形狀或遮擋的顯著變化時,往往會產生明顯的偽影。HifiFace通過利用3DMM重建參考臉,將源臉形狀與目標的其他屬性結合起來,緩解了這個問題。然而,由于依賴于GAN來確保生成質量,HifiFace在處理由于面部形狀變化導致的大面積空白區域時,仍然無法生成和諧的結果。
  2. 基于擴散的方法利用擴散模型的生成能力來提高樣本質量。然而,在推理過程中,使用屬性保留損失的眾多去噪步驟顯著增加了訓練成本。DiffSwap 提出了中點估計來解決這一問題,但由此產生的誤差以及缺乏用于修補參考的背景信息,導致結果不自然。此外,這些方法需要從頭開始進行昂貴的訓練。


相反,本文的Face-Adapter僅依賴去噪損失來確保圖像質量,同時完全解耦目標結構、身份和其他屬性的控制。此外,Face-Adapter通過凍結U-Net的所有參數,進一步顯著降低了訓練成本,這也保留了先驗知識并防止過擬合。


預訓練擴散模型的個性化。 個性化旨在將給定身份插入預訓練的文本到圖像(T2I)擴散模型中。早期的工作通過使用優化或微調的方式插入身份。后續研究引入了粗略的空間控制,實現了多主體生成和區域屬性的文本編輯,但這些方法需要對大多數參數進行微調。IP-adapter(-FaceID)和InstantID 僅微調少量參數。后者在身份保留方面表現出色。然而,作為文本編輯能力的權衡,InstantID只能應用較弱的空間控制。因此,它在面部重演和交換中的細微動作(表情和視線)處理上存在困難。相比之下,本文的Face-Adapter是一種有效且輕量的適配器,專為預訓練的擴散模型設計,能夠同時完成面部重演和交換。

方法

所提出的Face-Adapter的整體結構如下圖2所示,其目的是將身份信息整合到屬性模板中,該模板基于目標動作(例如姿勢、表情和目光)提供必要的屬性(例如光照、部分背景和頭發)。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

空間條件生成器

為了為后續的受控生成提供更合理和精確的指導,本文設計了一種新穎的空間條件生成器(SCG),用于自動預測3D先驗標志點和變化前景區域的mask。具體來說,該組件由兩個子模塊組成:


  • 3D標志點投影器。為了克服面部形狀的變化,本文利用一種3D人臉重建方法來分別提取源臉和目標臉的身份、表情和姿態系數。隨后,本文將源臉的身份系數與目標臉的表情和姿態系數重新組合,重建一個新的3D人臉,并將其投影以獲取相應的標志點。
  • 適應區域預測器。對于面部重演,先前的方法假設只有主體在運動,而背景在訓練數據中保持靜止。然而,本文觀察到背景實際上會發生變化,包括相機和背景中物體的運動,如下圖3所示。如果模型在訓練過程中缺乏對背景運動的了解,它將學會生成模糊的背景。對于面部交換,提供目標背景還可以為模型提供關于環境光線和空間參考的線索。這種背景的附加約束顯著降低了模型學習的難度,使其從一個從頭生成的任務轉變為一個條件修復的任務。因此,模型變得更善于保持背景一致性并生成與之無縫融合的內容。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

基于上述討論,本文引入了一種輕量級的適應區域預測器,用于面部重演和交換。該預測器自動識別模型需要生成的區域(適應區域),同時保持其余部分不變。對于面部重演,適應區域包括重演前后源圖像頭部所占據的區域。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

身份編碼器

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

屬性控制器

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

在這個階段,重演和交換任務都可以被視為執行條件修復的過程,利用給定的身份和其他缺失的屬性內容,遵循提供的空間控制。


即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

提高表現的策略

訓練

1) 數據流: 對于面部重演和人臉交換任務,本文使用同一人的兩個不同姿勢的圖像作為源圖像和目標圖像。為了支持“一個模型用于兩個任務”的方法,本文在訓練過程中以50%的概率選擇重演和交換數據流,即屬性控制器中的空間控制和屬性模板分別使用紅色和藍色指示的數據流。


2) 分類器無條件引導的條件丟棄: 本文需要丟棄的條件包括輸入到U-Net和ControlNet交叉注意力中的身份token和屬性token。本文以5%的概率同時丟棄身份token和屬性條件,以增強圖像的真實性。為了充分利用身份token生成面部圖像并改善身份保真度,本文使用額外的45%的概率丟棄屬性token。

推理

1) 自適應區域預測器: 對于重演,輸入是源圖像(與訓練不同)和校正后的關鍵點,輸出是自適應區域。對于人臉交換,輸入是目標圖像,輸出是自適應區域。


2) 分類器無條件引導的負提示: 對于重演,身份token和屬性token的否定提示都是空的提示embedding。對于人臉交換,為了克服目標身份在屬性token中的負面影響,本文使用目標圖像的身份token作為身份token的負提示。

實驗

實驗設置

數據集。在訓練過程中,本文利用了VoxCeleb1和VoxCeleb2 數據集。在評估過程中,本文利用了VoxCeleb1 數據集中的491個測試視頻,并在定量評估面部重演時隨機抽取了1,000張圖像。本文在定量評估人臉交換時使用了FaceForensics++數據集。本文還從VoxCeleb2中保留了1,000張圖像用于定性評估。按照FOMM 中的預處理方法,本文從原始視頻中裁剪出人臉,并將其調整為512×512的大小進行訓練和評估。


評估指標。對于面部重演,本文使用PSNR和LPIPS 來評估同一身份重演的重建質量。本文使用FID來評估生成圖像的整體質量。本文使用計算的余弦相似度(CSIM)來評估身份保真度。運動轉移誤差由姿勢(Pose)、表情(Exp)和視線(Gaze)來衡量,這些指標計算生成圖像和驅動圖像之間的姿勢、表情和視線系數的平均歐氏距離。對于人臉交換,身份檢索(ID)通過檢索最接近的面孔來評估身份修改,而姿勢(Pose)、表情(Exp)和視線(Gaze)則評估生成臉和目標臉之間的屬性誤差。


即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

與最先進方法的比較

面部重演。 在下表1中,本文在VoxCeleb1測試集上定量比較了當前最先進的方法(SoTA),包括基于GAN的FOMM、PIRenderer、DG、TPSM 、DAM、HyperReenact,以及基于擴散模型的FADM。FOMM、TPSM和DAM是基于圖像形變(warping-based)的技術,而PIRenderer和HyperReenact則是基于3D形態模型(3DMM-based)的技術。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

本文在圖像質量上達到了可比甚至最佳的結果。由于空間條件生成器的作用,在訓練過程中,將目標背景區域納入空間條件中,避免了背景運動的干擾。


在推理過程中,將源背景添加到空間條件中顯著降低了生成背景的難度,提高了背景的一致性。結果是,本文的方法能夠生成高質量的圖像,在FID評分以及重建指標(如PSNR和LPIPS)上具有明顯的優勢。在運動控制方面,本文的方法在姿態和視線誤差上表現良好,但在表情誤差上表現不佳。由于本文的標志點來自D3DFR,重建和投影過程以及標志點的稀疏性導致了表情準確度的損失。因此,本文的方法在表情誤差方面表現相對中等。

在下圖5和下圖6中,本文在VoxCeleb1和VoxCeleb2測試集上與現有的最先進(SoTA)方法進行了定性比較??臻g條件生成器有效地確保了本文的結果與源背景一致,同時減少了模型的訓練難度,使其能夠更多地關注面部生成并提高圖像質量。凍結UNet的所有參數可以避免過擬合,并盡可能保留預訓練擴散模型的強大先驗。因此,與其他基于GAN的方法和從頭訓練的基于擴散的方法(如FADM)相比,本文的方法能夠生成與源圖像一致的真實屬性細節,即頭發紋理、帽子和配飾。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

除了局部細節外,屬性控制器中的屬性token還能有效地從源圖像中提取全局光照效果,顯著優于其他方法。這進一步突顯了本文所提出方法在捕捉局部和全局特征方面的優勢和能力,從而生成更加逼真和準確的結果。即使在處理大姿態時,身份編碼器也能確保身份的穩健保留,預訓練的擴散模型合理地生成諸如隨面部移動的長發等屬性,展示了本文所提出適配器的優越性。


在面部替換方面,本文在下表2中定量比較了在FaceForensics++測試集上的最先進方法,包括基于GAN的FaceShifter、SimSwap、HifiFace、InfoSwap、BlendFace和基于擴散的DiffSwap。


即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

本文的3D標志投影器有助于融合源臉的形狀和目標的姿勢、表情和視線,以在本文的空間控制中獲得目標運動標志。本文的適應區域預測器允許面部形狀的變化有足夠的空間,同時保留足夠的背景用于修復。這種組合的空間條件有利于模型生成自然圖像。雖然DiffSwap也通過D3DFR利用了形狀感知標志作為空間控制,但其修復過程僅在DDIM采樣期間進行。缺乏背景參考使得模型難以生成清晰的面部結果,這顯著影響了圖像質量和身份相似性。


在常用的FaceForensics++測試集上,本文的方法在身份(ID)、姿勢(Pose)、表情(Exp)和視線(Gaze)方面與基于GAN的方法相當。因此,與基于GAN和擴散的最先進方法相比,本文的方法在保持高運動準確性的同時,在身份方面表現出顯著優勢。


下圖7和下圖8展示了本文的方法與最新的現有方法的定性比較。以前的方法在處理面部形狀顯著變化和大角度姿勢時存在困難。當將瘦臉的人轉移到胖臉的目標圖像時,這些方法通常會保持目標圖像的面部形狀,導致身份顯著喪失。相比之下,本文的空間控制有效地解決了面部形狀變化的問題。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

與僅僅裁剪面部區域的以前方法不同,本文的適應區域預測器為面部形狀變化預留了充足的空間。借助預訓練的SD模型的強大生成能力,本文可以自然地完成具有面部形狀變化的區域。此外,通過在換臉推理過程中使用目標圖像的身份token作為負面提示,本文進一步增強了與源臉的身份相似性。對于大角度姿勢,以前的方法難以生成合理的結果,而本文的方法直接從3D標志生成面部,不受姿勢影響。

消融研究和進一步分析

本文對適應區域預測器進行了消融研究,并評估了微調CLIP的必要性。為了公平比較,這里所有三個模型都訓練了35,000步。在Voxceleb1跨身份測試集上進行了定量評估,涵蓋了面部重演和換臉任務。


適應區域預測器。 正如下表3和下圖9所示,沒有適應區域預測器的情況下,空間控制缺乏背景,僅包含來自3D標志投影器的標志。在訓練過程中,模型在面部重演時從源圖像中提取背景特征,同時使用目標圖像背景作為真實值。這種差異往往導致模型在背景上產生幻覺,并且在推理過程中難以保持與源圖像背景的一致性。對于換臉任務,由于模型沒有進行修復任務的訓練,在推理過程中將面部與周圍區域融合時會出現明顯的不自然偽影。

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

即插即用!“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法-AI.x社區

微調CLIP以提取屬性特征。 正如上表3和上圖9所示,凍結CLIP會導致詳細屬性和圖像質量下降。預訓練的CLIP用于區分任務,缺乏生成任務所需的詳細紋理特征。微調CLIP有助于提取詳細的屬性特征,包括頭發、衣服、部分缺失的背景和全局照明;此外,微調后的CLIP模型還提取了一些與面部身份相關的特征,這有助于提高面部重演中的身份相似性評分。

結論

本文提出了一種新穎的Face-Adapter框架,這是一種即插即用的面部編輯適配器,支持對預訓練擴散模型的身份和屬性進行精細控制。僅使用一個模型,該適配器就能有效解決面部重演和換臉任務,超越了以前基于GAN和擴散方法的最新技術。它包括一個空間條件生成器、一個身份編碼器和一個屬性控制器??臻g條件生成器用于預測3D先驗標志和需要更改區域的mask,與身份編碼器和屬性控制器協同工作,將重演和換臉任務表述為具有充分空間指導、身份和必要屬性的條件修復。通過合理且高度解耦的條件設計,本文釋放了預訓練擴散模型在面部重演和換臉任務中的生成能力。廣泛的定性和定量實驗展示了本文方法的優越性。


局限性:本文統一的模型在視頻面部重演/換臉中無法實現時間穩定性,這需要在未來引入額外的時間微調。


潛在社會影響:本文首次探索了一種基于擴散的輕量級框架,用于同時進行面部重演和換臉,這在提高生成內容質量的同時具有更高的實際應用價值。然而,Face-Adapter的潛在濫用可能導致隱私侵犯、虛假信息傳播和倫理問題。為了減輕這些風險,可以結合可見和不可見的數字水印,以幫助識別內容的來源和真實性。另一方面,Face-Adapter可以為偽造檢測領域做出貢獻,進一步增強識別和打擊深度偽造的能力。


本文轉自 AI生成未來 ,作者:Yue Han等


原文鏈接:??https://mp.weixin.qq.com/s/7nq3JS32VHmTTSx7v8zYmA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美精品欧美精品系列 | 欧美 日韩 视频 | 久热国产精品视频 | 国产精品久久久久久久久久妞妞 | 国产精品无码久久久久 | 欧美一级在线观看 | 亚洲综合精品 | 国产成人综合亚洲欧美94在线 | 日本综合在线观看 | 日本黄色大片免费看 | 亚洲精品一区二区三区在线 | 精品欧美一区二区三区久久久 | 精品免费视频 | 日韩黄色小视频 | 农夫在线精品视频免费观看 | 成年人黄色小视频 | 中文字幕日韩专区 | 国产中文字幕在线观看 | 国产h视频| 日本一区二区高清不卡 | 亚洲经典一区 | 国产一区二区三区免费 | 天天干狠狠操 | 久久国产精品一区二区三区 | 国产成人免费视频网站高清观看视频 | 成人一区二区三区在线观看 | 欧美 日韩 在线播放 | 成人精品久久久 | 狠狠操在线 | 国产精品网址 | 夜夜夜久久 | 荷兰欧美一级毛片 | 国产视频欧美 | 牛牛热在线视频 | 久久久久久久久久性 | 国产精品综合久久 | 国产成人久久精品一区二区三区 | 国产精品永久 | 日韩在线播放一区 | 亚洲欧美国产一区二区三区 | 在线国产一区二区 |