重大突破!IDAdapter:首個無需微調,單張圖像生成多樣和個性化頭像方案(北大&格靈深瞳)
論文鏈接:https://arxiv.org/pdf/2403.13535
先看效果
利用Stable Diffusion技術進行個性化肖像生成已經成為一種強大而引人注目的工具,使用戶能夠根據特定的prompts創建高保真度的定制角色頭像。然而,現有的個性化方法面臨著挑戰,包括測試時微調、需要多個輸入圖像、身份保存度低以及生成結果的多樣性有限等。
為了克服這些挑戰,本文引入了IDAdapter,這是一種無需調整的方法,可增強來自單個人臉圖像的個性化圖像生成中的多樣性和身份保留度。IDAdapter通過文本和視覺注入以及人臉身份損失將個性化概念整合到生成過程中。在訓練階段,將來自特定身份的多個參考圖像的混合特征納入到模型中,以豐富與身份相關的內容細節,引導模型生成具有更多樣化風格、表情和角度的圖像,相比之前的作品更為豐富。廣泛的評估表明了本文方法的有效性,在生成的圖像中實現了多樣性和身份保真度。
介紹
最近,文本到圖像(T2I)合成領域取得了顯著進展,特別是隨著擴散模型的出現。諸如Imagen、DALL-E2以及Stable Diffusion等模型因其能夠從自然語言提示生成逼真的圖像而受到關注。雖然這些模型擅長從大量文本-圖像數據集生成復雜、高保真度的圖像,但從用戶提供的照片中生成特定主題的圖像仍然是一個重大挑戰。
在文本到圖像(T2I)合成中實現個性化主要通過采用預訓練模型的方法來實現。這些方法通常涉及使用一組特定的參考圖像(3到20張)對模型進行微調。雖然有效,但這種方法需要對某些網絡層進行專門訓練,通常需要大量的計算資源和在高端GPU上的額外處理時間,這對于面向用戶的應用可能是不可行的。
還有一種策略,是利用大規模個性化圖像數據集訓練的adapters等額外參數增強預訓練的擴散模型。這種方法實現了無需調整的條件生成,但通常缺乏微調方法的保真度和多樣性。例如,如[6]和[37]所示,這種方法通常將生成的圖像限制在輸入圖像中存在的表情中,從而限制了擴散模型的廣泛創造潛力。
受到利用多個參考圖像進行測試時微調方法和adapters系列的啟發,本文引入了IDAdapter。該創新方法在訓練期間合成來自同一個人的各種圖像的特征,有效地減輕了對非身份屬性的過擬合。IDAdapter通過凍結基本擴散模型的主要權重運行,在單個GPU上進行不到10小時的訓練。
在推理期間,IDAdapter僅需要一個參考圖像和文本提示就能生成多樣化、高保真度的圖像,保持人物的身份,如圖1所示。
它擴展了基本模型可以生成的范圍,使結果更加多樣化同時保持身份,超越了以前模型的局限性。本文的貢獻有三個方面:
- 提出了一種在訓練期間合并同一個人的多個參考圖像的混合特征的方法,從而產生了一個避免測試時微調的T2I模型。
- 在無需測試時微調的情況下,能夠在多個風格中生成多樣化的角度和表情,以單張照片和文本提示為指導,這是以前無法實現的能力。
- 綜合實驗驗證了本文的模型在產生與輸入人臉緊密相似的圖像、展示多種角度和展示更廣泛表情的方面優于早期模型。
相關工作
文本到圖像模型
隨著深度生成模型在文本到圖像合成領域的發展,計算圖像生成領域取得了顯著進步。諸如生成對抗網絡(GANs)、自回歸模型和擴散模型等技術起到了關鍵作用。
最初,這些模型只能在特定領域和文本條件下生成圖像。然而,大規模圖像文本數據集的引入和先進的語言模型編碼器顯著提高了文本到圖像合成的能力。開創性的DALL-E利用自回歸模型從文本提示創建多樣化的圖像。隨后的GLIDE引入了擴散模型,以生成更真實、更高分辨率的圖像。因此,擴散模型越來越成為文本到圖像合成的主流方法。最近的發展如DALL-E 2、Imagen和LDM進一步增強了這些模型,提供了更多的真實感、更好的語言理解和多樣化的輸出。Stable Diffusion在開源社區中的成功引起了其廣泛的使用和各種微調模型的開發。本文的方法論是基于Stable Diffusion模型。
通過主題驅動調整進行個性化
個性化生成的目標是根據參考圖像在不同場景和風格中創建特定主題的變體。最初,生成對抗網絡(GANs)被用于這個目的,通過對大約100張面部圖像微調StyleGAN實現了個性化。隨后,pivotal tuning涉及在StyleGAN中微調潛在空間code,從而實現了變體圖像的創建。然而,這些基于GAN的方法在主題保真度和風格多樣性方面存在局限性。
最近的進展隨著Stable Diffusion模型的出現而取得了進步,提高了主題保真度和輸出多樣性。文本反演通過使用少量圖像優化輸入文本 embeddings以生成主題圖像。[42]的研究增強了文本反演以捕獲詳細的主題信息。DreamBooth為了獲得更高的保真度,優化了整個T2I網絡。隨后,幾種方法如CustomDiffusion、SVDiff、LoRA、StyleDrop以及[18]的方法提出了部分優化。DreamArtist展示了單張圖像的風格個性化。盡管這些方法有效,但它們涉及耗時的多步微調過程,對于每個新概念都有限制,限制了它們在現實世界應用中的實用性。
無調整文本到圖像個性化
一個獨特的研究方向涉及使用大量特定領域的數據訓練模型,從而消除了推理階段的額外微調的需要。Instruct-Pix2Pix通過將參考圖像的潛在特征整合到噪聲注入過程中,促進了對象替換和風格變化。ELITE引入了一個訓練協議,結合了全局和局部映射,利用了OpenImages測試集。UMM-Diffusion利用LAION-400M數據集,提出了一種結合文本和圖像輸入的多模態潛在擴散方法。幾項研究,如UMM、ELITE和SuTI,已經證明了無需微調即可生成主題圖像。
類似地,Taming-Encoder和InstantBooth專注于人類和動物主題,采用了擴散模型的新條件分支。FastComposer、Face0和PhotoVerse也在這一領域提出了新穎的方法。盡管取得了這些進展,一個關鍵挑戰仍然在于在易用性與生成質量和多樣性之間的平衡。本文提出的解決方案,IDAdapter,通過協調模型的可用性和輸出的質量與多樣性來解決這個問題。
方法
考慮到一個特定人物的單張面部圖像,打算通過文本提示生成該人物的一系列生動圖像,并具有多樣性。例如多樣性包括不僅調整著裝、屬性、背景等語義修改(本文中稱為“風格”),而且生成各種面部表情和姿勢。接下來簡要回顧了潛在擴散模型的必要符號,以及從單張圖像中簡單提取面部特征的方法,然后提出了從少量圖像中提取混合面部特征的技術,最后通過adapter層將其作為新概念合并到生成器結構中。下圖2顯示了本文基于Stable Diffusion結構的方法概述。
準備工作
面部特征
本文的目標是從輸入圖像中提取面部特征,將它們與文本提示所表示的風格信息注入,并生成一系列具有與識別出的面部特征保真度相符的圖像。直觀地說,這種多樣性至少包括以下三個方面:
- 風格的多樣性,生成的圖像必須符合提示所指示的風格
- 面部角度的多樣性,表示能夠產生該人物的各種面部姿勢的圖像
- 表情的多樣性,指生成該人物展示一系列不同表情或情緒的圖像的能力。
一個直觀的方法是學習輸入面部圖像在文本空間中的特征,并將這些特征嵌入到Stable Diffusion的生成引導過程中,以便可以通過一個特定的標識詞控制該人物的圖像生成。然而,正如一些研究所指出的,僅使用文本空間embedding會限制生成圖像的最終質量。導致這種陷阱的一個潛在原因可能是文本空間特征在捕獲身份(ID)特征方面的限制。因此,必須通過基于圖像特征的引導來補充文本條件引導,以增強圖像生成能力。
常用的通用CLIP圖像編碼器和來自人臉識別網絡的特征向量編碼器都與輸入圖像的非身份(non-ID)信息(如面部姿勢和表情)有很強的綁定。這種綁定導致生成的圖像在人物級別缺乏多樣性,如下圖3所示。為了解決這個問題,本文提出了混合面部特征模塊(MFF)。該模塊旨在在擴散模型的生成過程中控制ID和非ID特征的解耦,從而實現生成具有增強多樣性的圖像。
混合面部特征(MFF)
這個豐富的特征是從同一身份的多個圖像中獲得的,因此它們的共同特征(即身份信息)將得到極大增強,而其他特征(如任何特定圖像的面部角度和表情)將略有削弱。因此,可以在很大程度上幫助增加生成結果的多樣性。發現當N = 4時,個性化結果強大且保持身份保真度、可編輯性和面部變化。
個性化概念整合
其中,y是自注意力層的輸出,S是自注意力運算符,γ是一個可學習的標量,初始化為0,β是一個常數,用于平衡adapter層的重要性。
然后,通過更新每個交叉注意力塊中的鍵和值投影矩陣,模型能夠專注于面部的視覺特征,并將它們與文本空間中的個性化概念聯系起來。
面部身份損失:實驗將展示通過學習混合面部特征實現的生成多樣性,這會降低面部區域的正則化。然而,它也引發了保持身份的問題。因此,引入了一個面部身份損失,監督模型保留參考圖像的身份。這使得模型能夠生成多樣的外觀,同時保留身份特征。具體而言,利用了一個預訓練的人臉識別模型R:
實驗
實驗設置
評估指標:本文評估中的一個關鍵方面是生成圖像中面部身份的保真度。為了量化這一點,本文計算了平均身份保持,即生成圖像的面部特征與其真實對應物之間的成對余弦相似度(ID-Sim)。這個計算是使用一個預訓練的人臉識別模型進行的,如[9]中所述。此外,引入了兩個新的指標來評估生成圖像的多樣性:姿勢多樣性(Pose-Div)和表情多樣性(Expr-Div)。
- 姿勢多樣性(Pose-Div):該指標評估了生成圖像與輸入圖像之間的面部角度差異。為了量化這種差異,計算了所有測試圖像中面部角度的平均偏差。為了更好地反映實際情況,本文特別報告了俯仰角(Pose-Div pitch)和偏航角的結果(Pose-Div yaw)。這種方法能夠評估模型生成具有一系列不同面部方向的圖像的能力。
- 表情多樣性(Expr-Div):該指標評估了生成圖像與輸入圖像之間的面部表情變化。利用預訓練的表情分類模型,測量了整個測試數據集中具有不同表情類別的生成圖像的比例。該指標中的較高值表示模型生成多樣的面部表情的能力更強。
這些指標對于確定本文的方法生成的圖像不僅個性化,而且在姿勢和表情方面也多樣化至關重要,反映了更全面的人類面部外觀范圍。
比較
定性結果:本文的方法與幾種領先技術進行了基準比較,包括文本反演、Dreambooth、E4T、ProFusion和Photoverse,如下圖5所示。
定量結果:在定量實驗中,使用三個指標評估了IDAdapter的能力:身份保持(ID-Sim)、姿勢多樣性(Pose-Div)和表情多樣性(Expr-Div)。此外,這些模型在生成不同的面部表情和姿勢方面表現不佳。因此,僅對需要進行微調的開源模型進行了Pos-Div和Expr-Div指標的評估。在這個實驗中,作者選擇了參數N = 4。如下表1所示,本文的方法在幾乎所有指標上都取得了最高分。可以看出,IDAdapter有效地利用基礎模型生成保留身份的更多樣化結果。
消融研究
如下表2和圖7所示,本文的分析揭示了IDAdapter方法不同組件對生成圖像質量的影響。
身份文本Embedding的影響:當從過程中移除身份文本embedding組件(無文本Embedding)時,生成圖像的身份保持明顯下降。這種急劇下降表明文本條件在指導Stable Diffusion生成個性化圖像方面發揮了關鍵作用。沒有身份文本Embedding,個性化生成的基本特征幾乎喪失了。
MFF視覺Embedding的移除:消除MFF(無MFF)輸出的視覺Embedding組件會導致身份保持和多樣性顯著下降。這表明MFF模塊為模型提供了豐富的身份相關內容細節。MFF對抗過擬合是至關重要的,并有助于保持基礎模型生成個人多樣化圖像的能力。
不同N值的影響:改變訓練過程中使用的圖像數量N對多樣性和身份保持有不同影響。在測試不同的N值后,發現N = 4提供了最佳平衡。它在保持身份相似性和增強多樣性之間取得了出色的折衷。這種平衡對于生成既個性化又多樣化的圖像至關重要。
身份損失的影響:訓練了IDAdapter(N = 4),沒有使用面部身份損失(無ID損失)。模型在學習面部特征方面的表現下降,生成的面孔與輸入的相似性不如加入ID損失時那樣高。
結論
本文介紹了一種名為IDAdapter的方法,它是第一個能夠在推理階段使用單個輸入面部圖像以多種風格、角度和表情生成圖像的方法,而無需進行微調,在個性化頭像生成領域取得了重大突破。
本文轉自 AI生成未來 ,作者:Siying Cui等
