為什么我們依然覺(jué)得AI換臉很“假”?
《星球大戰(zhàn)》的衍生劇《波巴·費(fèi)特之書(shū)》(The Book of Boba Fett)中,曾有一集引起粉絲們的激勵(lì)討論。這是因?yàn)?,年輕版 Mark Hamill 由工業(yè)光魔公司(Industrial Light and Magic)雇傭 deepfakes 從業(yè)者 Shamook 制作而成。
盡管 AI 換臉?lè)椒ㄔ?2020 年 CGI 技術(shù)的基礎(chǔ)上有很大進(jìn)步,而且總體上符合當(dāng)前 AI 換臉的最佳視覺(jué)標(biāo)準(zhǔn),但有一部分粉絲認(rèn)為,《星球大戰(zhàn)》中“Young Luke Skywalker”的新造型與前一部相比有一定缺陷。
比如最明顯的問(wèn)題是,在以 Skywalker 為主角的長(zhǎng)鏡頭中人物缺乏表現(xiàn)力和細(xì)膩真切的情感,這是使用 AI 換臉的典型結(jié)果,比 CGI 特效更明顯。The Verge 網(wǎng)站認(rèn)為,Boba Fett 的 AI 換臉結(jié)果像“1983 年 Mark Hamill 那張神秘且毫無(wú)表情的冰塊臉”。
但不管工業(yè)光魔公司背后到底使用的是什么技術(shù),AI 換臉目前存在著難以傳達(dá)細(xì)膩情感的根本性問(wèn)題。
無(wú)論是通過(guò)改變架構(gòu)還是改進(jìn)原始訓(xùn)練素材,都很難解決這個(gè)問(wèn)題。
不過(guò) viral deepfakers 方法在選擇目標(biāo)視頻時(shí)通常會(huì)更加謹(jǐn)慎,從而可以規(guī)避這一問(wèn)題。
面部對(duì)齊的局限性
最常用的兩個(gè) AI 換臉開(kāi)源代碼庫(kù)是 DeepFaceLab(DFL)和 FaceSwap,它們都脫胎于 2017 年。DFL 盡管功能有限,但在視覺(jué)特效(VFX)行業(yè)擁有巨大的領(lǐng)先優(yōu)勢(shì)。
這些代碼的最初任務(wù)是從原始素材(即視頻幀或靜態(tài)圖像)中提取人臉特征點(diǎn)。
正在運(yùn)行的面部定位網(wǎng)絡(luò)(FAN)
DFL 和 FaceSwap 都使用了面部定位網(wǎng)絡(luò)(FAN),F(xiàn)AN 可以為提取出來(lái)的人臉創(chuàng)建 2D 和 3D 特征點(diǎn)(如上圖所示)。3D 特征點(diǎn)可以廣泛感知人臉的方向,包括側(cè)面的輪廓和比較尖銳的角度。
下面是一種非常基本的評(píng)估像素準(zhǔn)則:
來(lái)自 FaceSwap 的面部輪廓的粗略標(biāo)準(zhǔn)
該標(biāo)準(zhǔn)需要考慮面部最基本的線條:比如眼睛和下巴可以擴(kuò)大和縮小,嘴巴的基本形狀(如微笑、皺眉等)也可以被追蹤和調(diào)整。從相機(jī)的角度來(lái)看,面部可以向任意方向旋轉(zhuǎn) 200 度左右。
而這些粗糙的像素邊界位置,是整個(gè) AI 換臉過(guò)程中唯一精確的面部準(zhǔn)則。訓(xùn)練時(shí)也只是與對(duì)應(yīng)像素或周?chē)袼剡M(jìn)行比較,然后選擇對(duì)應(yīng)的處理方法。
DeepFaceLab
中的訓(xùn)練示例
由于沒(méi)有面部子區(qū)域的拓?fù)浣Y(jié)構(gòu)(包括臉頰的凹凸度、年齡細(xì)節(jié)、酒窩信息等),所以想嘗試在匹配原始人物(你想改變的臉)和目標(biāo)人物(你想復(fù)制的臉)中保持“細(xì)膩”的特征是不太可能的。
利用有限的數(shù)據(jù)
訓(xùn)練 AI 換臉模型需要獲取兩個(gè)人物之間的匹配數(shù)據(jù),但這并不容易。需要匹配的角度越特殊,你就越有可能在人物 A 和人物 B 之間的(特殊角度)匹配上做出妥協(xié):保持相同的表情。
人臉數(shù)據(jù)并不完全匹配。
如上圖所示,這兩個(gè)人物的面部結(jié)構(gòu)非常相似,但仍不能達(dá)到完全匹配,而這已經(jīng)是數(shù)據(jù)集中匹配度最高的結(jié)果了。
不過(guò)上圖中依然存在明顯的差異:角度、鏡頭和燈光沒(méi)有完全匹配;人物 A(左圖)沒(méi)有像人物 B(右圖)一樣完全閉上眼睛;人物A的圖像質(zhì)量和壓縮率更差;人物 B 看起來(lái)比 A 更快樂(lè)。
雖然有以上種種差異,但我們只能依靠這些已有素材對(duì) AI 換臉模型進(jìn)行訓(xùn)練。
因?yàn)槌霈F(xiàn) A 與 B 完全匹配的情況很少,同樣訓(xùn)練集中也很少有類(lèi)似的匹配。因此訓(xùn)練常常會(huì)發(fā)生欠擬合和過(guò)擬合現(xiàn)象。
欠擬合:如果某些特殊角度的匹配數(shù)據(jù)較少(即數(shù)據(jù)集中數(shù)據(jù)量比較大,但該角度的匹配圖像對(duì)較少),那它與更“簡(jiǎn)單普遍”的匹配數(shù)據(jù)相比將不會(huì)得到有效訓(xùn)練。因此,AI 換臉模型就不能對(duì)這個(gè)特殊的角度或表情進(jìn)行很好地表達(dá)。
過(guò)擬合:由于缺乏足夠的匹配數(shù)據(jù),AI 換臉模型有時(shí)會(huì)復(fù)制多次數(shù)據(jù)集中的匹配數(shù)據(jù),以便在最終模型中獲得更好的結(jié)果。但這可能會(huì)導(dǎo)致過(guò)擬合,用這種模型制作的 AI 換臉視頻很可能會(huì)對(duì)兩張照片的不匹配之處進(jìn)行復(fù)制,比如眼睛的閉合程度。
如下圖所示,是用 DeepFaceLab 開(kāi)源方法將弗拉基米爾普京(Vladimir Putin)訓(xùn)練為凱文史派西(Kevin Spacey)的樣子,進(jìn)行了 16 萬(wàn)次迭代訓(xùn)練。
大部分人看到上面的圖片后,可能認(rèn)為 Putin 在這些換臉測(cè)試中的結(jié)果比 Spacey 更具空間感。下面我們介紹一下在線表情識(shí)別程序是如何處理表情不匹配問(wèn)題的:
根據(jù)這個(gè)比 DFL 和 Faceswap 更詳細(xì)的面部特征分析,我們發(fā)現(xiàn) Spacey 的換臉結(jié)果中很少有 Putin 那樣的憤怒、厭惡和輕蔑的表情。
這些不同的表情分類(lèi)是 entangled 包中的一部分,因?yàn)槌S玫?AI 換臉應(yīng)用程序沒(méi)有匹配表情或情緒的能力。
對(duì)我們來(lái)說(shuō),這些表情間差異很大。我們很小的時(shí)候就將閱讀面部表情作為一種基本的生存技巧,并在成年后繼續(xù)依賴這種技巧來(lái)與社會(huì)融合、實(shí)現(xiàn)進(jìn)步以及交配,并將其作為一種持續(xù)的威脅評(píng)估方法。所以我們對(duì)微表情非常敏感,所以 AI 換臉技術(shù)終需對(duì)微表情表達(dá)進(jìn)行處理。
事與愿違
雖然 AI 換臉技術(shù)革命帶來(lái)了在現(xiàn)代電影和電視中插入“經(jīng)典”電影明星的可能性,但人工智能無(wú)法以更兼容的定義和質(zhì)量來(lái)拍攝之前的經(jīng)典作品,而這對(duì)用戶來(lái)說(shuō)也很重要。
假設(shè)重現(xiàn) Boba Fett 中的 Hamill 形象就需要一個(gè)訓(xùn)練好的 AI 換臉模型,那么就需要利用 Hamill 在制作《絕地歸來(lái)》(Return of the Jedi)時(shí),30 歲出頭樣子附近的片段作為訓(xùn)練數(shù)據(jù)。
這部影片采用伊士曼彩色負(fù)片 250T 5293/7293 膠片拍攝,當(dāng)時(shí)被認(rèn)為較好的中等偏細(xì)顆粒度的 250ASA 乳劑,在 80 年代末就已經(jīng)從清晰度、顏色范圍和保真度等方面被超過(guò)。在當(dāng)時(shí)的經(jīng)典之作《絕地歸來(lái)》中,甚至連主角的特寫(xiě)鏡頭都沒(méi)有,這使得圖片顆粒度問(wèn)題更加重要。
Hamill 在《絕地歸來(lái)》(1983)中的一些鏡頭。
此外,我們通常會(huì)對(duì)以 Hamill 為主角的視覺(jué)特效鏡頭通過(guò)光學(xué)打印機(jī)處理,來(lái)增加膠片的顆粒度。盧卡斯影業(yè)也已經(jīng)通過(guò)在檔案館中處理保存原始底片和幾個(gè)小時(shí)未使用的原始鏡頭,解決了顆粒度問(wèn)題。
同時(shí)為了豐富和多樣化 AI 換臉數(shù)據(jù)集,我們通常會(huì)搜尋演員一個(gè)時(shí)間段內(nèi)的所有作品。而 Hamill 在 1977 年經(jīng)歷車(chē)禍后外貌有所變化,并且在參演完《絕地歸來(lái)》后幾乎立即開(kāi)始了他作為著名配音演員的第二職業(yè),這就導(dǎo)致其數(shù)據(jù)素材過(guò)少,無(wú)法得到性能較好的 AI 換臉模型。
表情范圍是否有限制
如果你想要 AI 換臉模型完成演員的夸張表情,那你需要廣泛收集這些不常見(jiàn)面部表情的原始鏡頭。但很有可能在與年齡相匹配的鏡頭中不包含這種夸張表情。
例如,當(dāng)《絕地歸來(lái)》開(kāi)始主線劇情時(shí),Hamill 已經(jīng)可以基本掌握自己的情緒了。如果這時(shí)你想用《絕地歸來(lái)》的數(shù)據(jù)訓(xùn)練一個(gè) Hamill 的 AI 換臉模型,你就需要一些限定范圍內(nèi)的情緒數(shù)據(jù)和不常見(jiàn)的面部表情,而不是他出演的那些早期作品。
你可能認(rèn)為在《絕地歸來(lái)》中 Skywalker 遇到巨大壓力時(shí),會(huì)提供比較夸張、有效的表情素材。但實(shí)際上這些場(chǎng)景中的臉部表情素材轉(zhuǎn)瞬即逝,并且還受動(dòng)作場(chǎng)面的運(yùn)動(dòng)模糊和快速剪輯的影響,導(dǎo)致素材無(wú)法得到有效使用。
概括:表情的融合
如果真的用 AI 換臉模型完成 Boba Fett 中 Skywalker 角色,那么他只能表現(xiàn)有限的表情范圍,這不只是因?yàn)樵妓夭牡娜鄙?。AI 換臉模型在編碼器-解碼器訓(xùn)練過(guò)程中尋求一種通用模型,該模型能夠從成千上萬(wàn)幅圖像中成功提取重要特征,并嘗試獲得 AI 換臉數(shù)據(jù)集中沒(méi)有或少見(jiàn)的面部角度。
如果 AI 換臉模型不具備這種靈活性,那它只能在每幀畫(huà)面的基礎(chǔ)上進(jìn)行復(fù)制和粘貼,無(wú)法考慮時(shí)間上的連續(xù)性或背景信息。
而且該技術(shù)的發(fā)展可能會(huì)犧牲表情的真實(shí)性,任何“細(xì)膩”的表情都有可能不是真實(shí)的。我們的臉像 100 個(gè)設(shè)備精良的管弦樂(lè)隊(duì)一樣配合演奏,而 AI 換臉軟件至少缺少了里面的弦樂(lè)部分。
情緒的表達(dá)差異
并不是所有的面部動(dòng)作及其對(duì)我們的影響都是統(tǒng)一的,比如在羅杰·摩爾(Roger Moore)身上看起來(lái)漫不經(jīng)心的挑眉動(dòng)作,在賽斯·羅根(Seth Rogan)身上就顯得不太老練。如果將瑪麗蓮·夢(mèng)露的迷人魅力,利用 AI 換臉模型強(qiáng)加到一個(gè)充滿“憤怒”和“不滿”情緒的角色(比如 Aubrey Plaza 在 Parks and Recreation 第七季中扮演的角色)上時(shí),就會(huì)傳達(dá)出消極情緒。
因此,在 A、B 人臉數(shù)據(jù)之間的相同像素并不一定對(duì)模型表達(dá)相同的情緒起作用,但這是訓(xùn)練先進(jìn)的 AI 換臉開(kāi)源模型的前提。
我們期望的 AI 換臉模型,不僅能夠識(shí)別表情并推斷情緒,而且能夠表現(xiàn)諸如憤怒、迷人、無(wú)聊、疲憊等高層次概念,并將這些情緒及相關(guān)表情在兩個(gè)身份中進(jìn)行不同表達(dá),而不是單純?cè)谧彀突蜓劬Φ奈恢蒙线M(jìn)行復(fù)制。