造假AI又進(jìn)化！只要一張照片，說話唱歌視頻自動(dòng)生成

作者：郭一璞白安妮 2019-06-23 17:30:07

新聞人工智能

曾造出無數(shù)“小視頻”、惡搞過多位明星的知名換臉神器Deepfakes，這下被降維打擊了。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

曾造出無數(shù)“小視頻”、惡搞過多位明星的知名換臉神器Deepfakes，這下被降維打擊了。

這個(gè)新AI不再是篡改視頻了，而是直接把一張靜態(tài)的照片變成視頻。

像這樣，一張施瓦辛格：

開始說話了：

饒舌歌手Tupac Shakur：

也能張嘴了：

只要有一張靜態(tài)的人臉照片，甭管是誰，在這個(gè)新AI的驅(qū)動(dòng)下，任意配上一段語音，就能張嘴說出來。

當(dāng)然，除了說話之外，唱歌也毫無問題，比如讓生活在一百多年前的“俄羅斯妖僧”拉斯普京唱碧昂絲的Halo。

雖然聲音和性別不太匹配，但是畫面和歌曲組合起來有種莫名的鬼畜感呢。

你也別以為這個(gè)AI只能給照片對(duì)口型，它還可以讓這個(gè)說話的人擁有喜怒哀樂各種情緒。

開心的：

難過的：

炸毛的：

這眉眼，這目光，這臉部肌肉，得拯救多少“面癱”演員啊！

這項(xiàng)研究來自帝國(guó)理工學(xué)院和三星，研究者們還準(zhǔn)備了一套包含24個(gè)真假難辨的視頻的圖靈測(cè)試，我們簡(jiǎn)單測(cè)了一下，只能猜對(duì)一半左右。

也就是說，這些AI生成的“真假美猴王”，足以蒙騙人類了。

相比此前的斯坦福輸入任意文本改變視頻人物口型的研究，以及三星的說話換臉，實(shí)現(xiàn)難度可以說高了很多。

不少網(wǎng)友聞之色變：

現(xiàn)在是拉斯普京唱Halo，以后會(huì)不會(huì)整出川普向墨西哥選戰(zhàn)啊，感覺怕怕的。

連科技媒體The Verge都評(píng)價(jià)說：

這樣的研究總讓人們擔(dān)憂，怕它會(huì)被用在謠言和政治宣傳上，實(shí)在是讓美國(guó)立法者們傷腦筋。當(dāng)然，你也可以說這種在政治領(lǐng)域的威脅沒那么嚴(yán)重，但deepfakes已經(jīng)確確實(shí)實(shí)傷害了一些人，尤其是女性，在未經(jīng)同意的情況下被用來制造了又難堪又羞辱的色情視頻。

也有人覺得，等技術(shù)普及之后會(huì)給做壞事的人掩蓋的理由：

等這技術(shù)成熟了，川普真的干壞事的小視頻出來，他就可以輕描淡寫的說這是假視頻。

呵呵，真棒，以后壞人們被捏到把柄的時(shí)候，就都能說“沒有的事啦，是假視頻。”

多鑒別器結(jié)構(gòu)

如何用一張照片做出連貫視頻？研究人員認(rèn)為，這需要時(shí)序生成對(duì)抗網(wǎng)絡(luò)（Temporal GAN）來幫忙。

邏輯上不難理解，如果想讓生成的假視頻逼真，畫面上至少得有兩點(diǎn)因素必須滿足：

一是人臉圖像必須高質(zhì)量，二是需要配合談話內(nèi)容，協(xié)調(diào)嘴唇、眉毛等面部五官的位置。也不用動(dòng)用復(fù)雜的面部捕捉技術(shù)，現(xiàn)在，只用機(jī)器學(xué)習(xí)的方法，就能自動(dòng)合成人臉。

這中間的秘訣，就在于時(shí)序生成對(duì)抗網(wǎng)絡(luò)，也就是Temporal GAN，此前在2018年提出過這個(gè)研究。

這是一個(gè)端對(duì)端的語音驅(qū)動(dòng)的面部動(dòng)畫合成模型，通過靜止圖像和一個(gè)語音生成人臉視頻。

在Temporal GAN中有兩個(gè)鑒別器，一個(gè)為幀鑒別器，確保生成的圖像清晰詳細(xì)，另一個(gè)是序列鑒別器，負(fù)責(zé)響應(yīng)聽到的聲音并產(chǎn)生對(duì)應(yīng)的面部運(yùn)動(dòng)，但效果并不那么優(yōu)異。

△ Temporal GAN模型示意圖

論文End-to-End Speech-Driven Facial Animation with Temporal GANs 地址：

https://arxiv.org/abs/1805.09313

在這項(xiàng)工作，研究人員借用這種時(shí)序生成對(duì)抗網(wǎng)絡(luò)，使用兩個(gè)時(shí)間鑒別器，對(duì)生成的視頻進(jìn)行視聽對(duì)應(yīng)，來生成逼真的面部動(dòng)作。

同時(shí)還鼓勵(lì)模型進(jìn)一步自發(fā)產(chǎn)生新的面部表情，比如眨眼等動(dòng)作。

所以，最新版基于語音的人臉合成模型來了。模型由時(shí)間生成器和3個(gè)鑒別器構(gòu)成，結(jié)構(gòu)如下：

這是一個(gè)井然有序的分工結(jié)構(gòu)，生成器負(fù)責(zé)接收單個(gè)圖像和音頻信號(hào)作為輸入，并將其分割為0.2秒的重疊幀，每個(gè)音頻幀必須以視頻幀為中心。

這個(gè)生成器由內(nèi)容編碼器（Content Encoder)，一個(gè)鑒別編碼器（Identity Encoder）、一個(gè)幀解碼器（Frame Decoder）和聲音解碼器（Noise Generator）組成，不同模塊組合成一個(gè)可嵌入模塊，通過解碼網(wǎng)絡(luò)轉(zhuǎn)換成幀。