黑科技檢測方法:利用心跳做信號,還能「揪出」造假模型
偽造人像視頻生成技術(shù)給社會帶來了新的威脅,例如利用逼真的偽造圖像和視頻進行政治宣傳、名人模仿、偽造證據(jù)以及其他與身份有關(guān)的操作。伴隨著這些生成技術(shù)的發(fā)展,出現(xiàn)了一些被證實有效的 deepfake 檢測方法,這些方法具備較高的分類準確率。然而,目前幾乎沒有任何工作關(guān)注 deepfake 視頻的來源(即生成 deepfake 視頻的模型)。
來自賓漢姆頓大學(xué)、英特爾公司的研究人員提出了一種方法,利用視頻中的生物信號檢測該視頻是否偽造。該方法不僅可以區(qū)分真假視頻,還能夠發(fā)現(xiàn) deepfake 視頻背后的特定生成模型(其中,生成模型是在 DeepFakes、Face2Face、FaceSwap、NeuralTex 中進行選擇)。
一些純粹基于深度學(xué)習(xí)的方法嘗試使用 CNN 來分類造假視頻,CNN 實際上學(xué)習(xí)的是生成器的殘差。該研究認為這些殘差包含了更多的信息,可以通過將它們與生物信號分離來揭示偽造細節(jié)。觀察結(jié)果表明,生物信號中的時空模式可以看作是殘差的代表性投影。為了證明這一觀察結(jié)果的合理性,研究人員從真實和虛假視頻中提取 PPG 單元,并將其輸入到當(dāng)前最優(yōu)的分類網(wǎng)絡(luò)中,以檢測每個視頻的生成模型。
實驗結(jié)果表明,該方法對假視頻的檢測準確率為 97.29%,對假視頻背后生成模型的識別準確率為 93.39%。

論文地址:
https://arxiv.org/pdf/2008.11363.pdf
該論文的貢獻如下:
- 提出一種新型 deepfake 視頻源頭檢測方法,為 deepfake 檢測研究開啟了新的視角;
- 提出一項新發(fā)現(xiàn):將生成噪聲投影到生物信號空間,可以為每個模型創(chuàng)建唯一標(biāo)識;
- 提出一種先進的通用 deepfake 檢測器,在真假視頻分類方面優(yōu)于現(xiàn)有方法,同時還能預(yù)測假視頻背后的生成模型,即源生成模型。
利用生物信號檢測假視頻及其生成模型
生物信號已被證明可以作為真實視頻的真實性標(biāo)志,它也被用作 deepfake 檢測的重要生物標(biāo)志。正如我們所知,假視頻中的合成人物無法具備與真視頻中人物類似的心跳模式。該研究的關(guān)鍵發(fā)現(xiàn)基于這一事實:這些生物信號可以被解釋為包含每個模型殘差標(biāo)識變換的假心跳。這催生了對生物信號的新探索,它們不僅可以用來確定視頻的真實性,還可以對生成該視頻的源模型進行分類。
于是,該研究提出了既能檢測 deepfake 視頻,又能識別源生成模型的系統(tǒng),如圖 1 所示:

為了連續(xù)地捕捉生物信號的特征,研究人員定義了一種新的時空塊——PPG 單元。該時空塊結(jié)合了多種原始的 PPG 信號及其功率譜,并從一個固定的窗口提取。PPG 單元的產(chǎn)生首先需要使用人臉檢測器在每一幀中找到人臉。
第二步是從檢測到的人臉中提取感興趣區(qū)域 (ROI)(圖 1d),該區(qū)域具有穩(wěn)定的 PPG 信號。為了有效地提取,研究者使用眼睛和嘴之間的面部區(qū)域,以最大限度地增加皮膚暴露。
由于來自人臉不同區(qū)域的 PPG 信號之間存在相關(guān)性,因此定位 ROI 并測量其相關(guān)性成為檢測的關(guān)鍵步驟。
第三步需要將非線性 ROI 與矩形圖像對齊。該研究使用 Delaunay triangulation [26],隨后對每個矩形使用非線性仿射變換,從而將每個矩形轉(zhuǎn)換為校正圖像(rectified image)。
在第四步中,研究者將每個圖像分成 32 個相等大小的正方形,并在 ω 幀大小的固定窗口中計算每個正方形的原始 Chrom-PPG 信號,并且這不會干擾人臉檢測(圖 1e)。然后,計算校正圖像中的 Chrom-PPG,因為它能產(chǎn)生更可靠的 PPG 信號。對于每個窗口,現(xiàn)在有 ω × 32 個原始 PPG 值。
現(xiàn)在將它們重組成 32 行、ω 列的矩陣,就形成了 PPG 單元的基礎(chǔ),如圖 1f 和圖 2 最下面一行的上半部分所示。

最后一步將頻域信息添加到 PPG 單元。計算窗口中每個原始 PPG 值的功率譜密度,并將其縮放到 ω 大小。
圖 2 的最下面一行顯示了從同一個窗口生成的 deepfake PPG 單元示例,第一行是每個窗口的示例幀。
定義完 PPG 單元后,研究者展示了其主要假設(shè):將 deepfake 生成器的殘差投影到生物信號空間,可以創(chuàng)造一個獨特的模式,并用于檢測 deepfake 背后的源生成模型。
實驗
該研究提出的系統(tǒng)采用 Python 語言實現(xiàn),使用 OpenFace 庫進行人臉檢測,OpenCV 進行圖像處理,使用 Keras 實現(xiàn)神經(jīng)網(wǎng)絡(luò)。
表 1 列出了在測試集上的 PPG 單元分類結(jié)果,其中 VGG19 在區(qū)分 4 種不同生成模型和檢測 FaceForensics++(FF)真實視頻方面達到了最高準確率(圖 1f)。像 DenseNet 和 MobileNet 這樣的復(fù)雜網(wǎng)絡(luò)由于過擬合,雖然達到了非常高的訓(xùn)練準確率,但在測試集上的效果不如人意。

在視頻分類方面,表 2 記錄了過程中的不同投票方案。研究者設(shè)置 ω=128,比較了使用大多數(shù)投票、最高平均概率、兩個最高平均概率以及對數(shù)幾率平均后 VGG19 的單元預(yù)測結(jié)果。

如圖 3 所示,該方法對五類 FF(1 個真視頻和 4 個假視頻)的真實視頻檢測率為 97.3%,對生成模型的檢測準確率至少為 81.9%。

研究人員在不同的設(shè)置上進行訓(xùn)練和測試:1)訓(xùn)練集中沒有真實的視頻;2)PPG 單元中沒有功率譜;3)沒有生物信號;4)使用全幀而不是面部 ROI,其中 ω = 64,F(xiàn)F 數(shù)據(jù)集分割設(shè)為常數(shù)。結(jié)果見表 3:

使用前述設(shè)置,用不同的窗口大小 ω = {64, 128, 256, 512} 幀來測試該論文提出的方法。結(jié)果參見下表 4:

為了證明該論文提出的方法可以擴展到新模型,研究人員將 FF 設(shè)置與單個生成器數(shù)據(jù)集 CelebDF 相結(jié)合并重復(fù)分析過程。該研究提出的方法在整個數(shù)據(jù)集上達到了 93.69% 的檢測準確率,在 CelebDF 數(shù)據(jù)集上達到了 92.17% 的檢測準確率,這表明該方法可以泛化到新模型(參見表 5)。

表 6 列出了測試集上不同模型的準確率。由結(jié)果可知,該論文提出的方法甚至超過了最復(fù)雜的網(wǎng)絡(luò) Xception,準確率高出 10%。
