3D大模型助力,15分鐘即可訓(xùn)練高質(zhì)量、個(gè)性化的數(shù)字人模型,代碼已開(kāi)放
本文的作者主要來(lái)自于浙江大學(xué)和字節(jié)跳動(dòng)。第一作者是浙江大學(xué)計(jì)算機(jī)學(xué)院的博士生葉振輝,導(dǎo)師為趙洲教授,主要研究方向是說(shuō)話人視頻合成,并在 NeurIPS、ICLR、ACL 等會(huì)議發(fā)表相關(guān)論文。共一作者是來(lái)自浙江大學(xué)計(jì)算機(jī)學(xué)院的碩士生鐘添蕓。
個(gè)性化精品數(shù)字人(Personalized Talking Face Generation)強(qiáng)調(diào)合成的數(shù)字人視頻在感官上與真人具有極高的相似性(不管是說(shuō)話人的外表還是神態(tài))。目前業(yè)界主流的個(gè)性化精品數(shù)字人通常屬于在單個(gè)目標(biāo)人數(shù)據(jù)上從頭訓(xùn)練的小模型,雖然這種小模型能夠有效地學(xué)到說(shuō)話人的外表和說(shuō)話風(fēng)格,這種做法存在低訓(xùn)練效率、低樣本效率、低魯棒性的問(wèn)題。相比之下,近年來(lái)許多工作專(zhuān)注于單圖驅(qū)動(dòng)的通用數(shù)字人大模型,這些模型僅需單張圖片輸入即可完成數(shù)字人制作,但仍存在外表相似度較低、無(wú)法模仿目標(biāo)人說(shuō)話風(fēng)格等問(wèn)題。
為了連接個(gè)性化數(shù)字人小模型和單圖驅(qū)動(dòng)通用數(shù)字人大模型兩個(gè)領(lǐng)域之間的空白,浙江大學(xué)與字節(jié)跳動(dòng)提出了 MimicTalk 算法。通過(guò)(1)將單圖驅(qū)動(dòng)的通用 3D 數(shù)字人大模型 Real3D-Portrait (ICLR 2024) 適應(yīng)到目標(biāo)數(shù)字人的高效微調(diào)策略和(2)具有上下文學(xué)習(xí)能力的人臉動(dòng)作生成模型,MimicTalk 可以生成相比原有方法更高質(zhì)量、更具表現(xiàn)力的數(shù)字人視頻。此外,單個(gè)數(shù)字人模型的訓(xùn)練時(shí)間可以被壓縮到 15 分鐘以內(nèi),相比現(xiàn)有最高效的同類(lèi)方法快了 47 倍。
MimicTalk 算法被人工智能頂級(jí)會(huì)議 NeurIPS 2024 錄用,目前已開(kāi)放源代碼和預(yù)訓(xùn)練權(quán)重。
- 論文標(biāo)題:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
- 論文鏈接:https://arxiv.org/pdf/2410.06734
- 項(xiàng)目主頁(yè):https://mimictalk.github.io/
- 代碼鏈接:https://github.com/yerfor/MimicTalk
話不多說(shuō)直接看效果,以下視頻中的數(shù)字人模型都通過(guò)從 3D 數(shù)字人大模型進(jìn)行 1000 步微調(diào)(5 分鐘訓(xùn)練時(shí)間)得到。
模型技術(shù)原理
深悉 MimicTalk 模型的內(nèi)在原理,還要回到開(kāi)頭提到的個(gè)性化數(shù)字人兩個(gè)核心目標(biāo):(1)外表上與真人相似;(2)說(shuō)話風(fēng)格上與真人相似。
MimicTalk 分別使用(1)基于通用 3D 數(shù)字人大模型微調(diào)的高質(zhì)量人臉?shù)秩酒骱停?)一個(gè)具有上下文學(xué)習(xí)能力的人臉動(dòng)作生成模型來(lái)實(shí)現(xiàn)它們。
圖 2. MimicTalk 包含一個(gè)高質(zhì)量人臉?shù)秩酒鳎ㄗ仙┖鸵粋€(gè)能夠模仿說(shuō)話風(fēng)格的動(dòng)作生成器(藍(lán)色)
對(duì)于第一個(gè)問(wèn)題,傳統(tǒng)方法通常從頭訓(xùn)練一個(gè)小規(guī)模的 NeRF 模型來(lái)記憶目標(biāo)人的外表特征,但這種做法通常導(dǎo)致較長(zhǎng)的訓(xùn)練時(shí)間(數(shù)個(gè)小時(shí))、較高的數(shù)據(jù)量要求(數(shù)分鐘)、較低的魯棒性(對(duì)極端條件無(wú)法輸出正確的結(jié)果)。針對(duì)這一問(wèn)題,團(tuán)隊(duì)首次提出采用一個(gè)單圖驅(qū)動(dòng)的通用 3D 數(shù)字人大模型作為基礎(chǔ)模型,并提出了一個(gè)「動(dòng)靜結(jié)合」的高效率微調(diào)方案。
他們發(fā)現(xiàn)通用大模型的輸出通常存在牙齒、頭發(fā)等靜態(tài)細(xì)節(jié)不足,且肌肉運(yùn)動(dòng)等動(dòng)態(tài)細(xì)節(jié)不真實(shí)的問(wèn)題。因此針對(duì)靜態(tài)細(xì)節(jié)和動(dòng)態(tài)細(xì)節(jié)的特性設(shè)計(jì)了動(dòng)靜結(jié)合的微調(diào)方案。
具體來(lái)說(shuō),研究者發(fā)現(xiàn)現(xiàn)有的 3D 數(shù)字人通用模型通常會(huì)將 3D 人臉的靜態(tài)細(xì)節(jié)儲(chǔ)存在一個(gè) 3D 人臉表征(tri-plane)中作為模型的輸入,而 3D 人臉的動(dòng)態(tài)細(xì)節(jié),則通過(guò)模型內(nèi)部的參數(shù)進(jìn)行儲(chǔ)存。因此,MimicTalk 在個(gè)性化數(shù)字人渲染器的訓(xùn)練過(guò)程中,不僅會(huì)更新儲(chǔ)存靜態(tài)細(xì)節(jié)的 3D 人臉表征,還通過(guò) LoRA 技術(shù)對(duì)通用模型的參數(shù)進(jìn)行了可拆卸的高效微調(diào)。
圖 2. 將通用 3D 數(shù)字人大模型適應(yīng)到單個(gè)目標(biāo)人,動(dòng)靜結(jié)合的高效微調(diào)方案
在實(shí)現(xiàn)圖像上與真人的高度相似后,下一個(gè)問(wèn)題是如何生成與真人說(shuō)話風(fēng)格相似的面部動(dòng)作。傳統(tǒng)方法通常會(huì)額外訓(xùn)練一個(gè)說(shuō)話風(fēng)格編碼器,但是由于模型內(nèi)部信息瓶頸的存在通常會(huì)性能損失。與之相比,受啟發(fā)大語(yǔ)言模型、語(yǔ)音合成等領(lǐng)域的啟發(fā),MimicTalk 首次提出從上下文中學(xué)習(xí)目標(biāo)人說(shuō)話風(fēng)格的訓(xùn)練范式。在訓(xùn)練階段,F(xiàn)low Matching 模型通過(guò)語(yǔ)音軌道和部分未被遮擋的人臉動(dòng)作軌道的信息,對(duì)被遮擋的人臉動(dòng)作進(jìn)行去噪。在推理階段,給定任意音頻 - 視頻對(duì)作為說(shuō)話人風(fēng)格提示,模型都能生成模仿該說(shuō)話風(fēng)格的人臉動(dòng)作。
圖 3. 能在上下文中學(xué)習(xí)目標(biāo)人說(shuō)話風(fēng)格的人臉動(dòng)作生成模型
模型的應(yīng)用前景
總體來(lái)看,MimicTalk 模型首次實(shí)現(xiàn)了高效率的個(gè)性化精品數(shù)字人視頻合成。可以預(yù)見(jiàn)的是,隨著技術(shù)的不斷迭代、普及,在智能助手、虛擬現(xiàn)實(shí)、視頻會(huì)議等多個(gè)應(yīng)用場(chǎng)景中都將會(huì)出現(xiàn)虛擬人的身影。而借助 MimicTalk 算法,個(gè)性化高質(zhì)量數(shù)字人的訓(xùn)練成本被「打了下去」,人們將會(huì)享受到更真實(shí)、更舒適的交互體驗(yàn)。隨著各個(gè)領(lǐng)域的大模型技術(shù)的興起,擁抱大模型的超強(qiáng)能力并與垂直領(lǐng)域中的特殊場(chǎng)景、需求相結(jié)合,已經(jīng)成為了技術(shù)演進(jìn)的大勢(shì)所趨。而 MimicTalk 模型為后續(xù)基于數(shù)字人通用模型的個(gè)性化數(shù)字人算法研究工作提供了參考。但現(xiàn)階段 MimicTalk 也并不是完美無(wú)缺的,由于依賴通用大模型的結(jié)果作為初始化,對(duì)基礎(chǔ)模型的質(zhì)量有較高的要求,此外從推理效率上看與現(xiàn)有小模型還存在一定差距。
總而言之,過(guò)去幾年,隨著個(gè)性化數(shù)字人技術(shù)的不斷進(jìn)步,口型精度、圖像質(zhì)量已然不斷提高;而 MimicTalk 模型的提出,進(jìn)一步解決了制約個(gè)性化數(shù)字人的訓(xùn)練成本問(wèn)題。讓我們一同期待虛擬人技術(shù)的加速發(fā)展,用戶也將獲得更加極致的視覺(jué)體驗(yàn)和生活便利。