基于深度學習的Deepfake檢測綜述
深度學習 (DL) 已成為計算機科學中最具影響力的領域之一,直接影響著當今人類生活和社會。與歷史上所有其他技術創新一樣,深度學習也被用于一些違法的行為。Deepfakes 就是這樣一種深度學習應用,在過去的幾年里已經進行了數百項研究,發明和優化各種使用 AI 的 Deepfake 檢測,本文主要就是討論如何對 Deepfake 進行檢測。
為了應對Deepfake,已經開發出了深度學習方法以及機器學習(非深度學習)方法來檢測 。深度學習模型需要考慮大量參數,因此需要大量數據來訓練此類模型。這正是 DL 方法與非 DL 方法相比具有更高性能和準確結果的原因。
什么是 Deepfake 檢測
大多數 Deepfake 生成器都會在 Deepfake 的過程中留下留下一些痕跡。Deepfake 視頻中的這些變化可以歸類為空間不一致:視頻的各個幀內發生的不兼容和時間不一致:視頻幀序列中出現的不兼容特征 。
空間不一致包括面部區域與視頻幀的背景不兼容、分辨率變化以及部分渲染的器官和皮膚紋理(可能無法正確渲染面部的所有人類特征)。大多數常見的 Deepfake 生成器無法渲染眨眼和牙齒等特征。并且有事會使用白色條帶代替靜止幀上肉眼甚至可以看到的牙齒 (下圖)。
時間不一致包括異常眨眼、頭部姿勢、面部動作以及視頻幀序列中的亮度變化。
deepfake 生成器留下的空間和時間這些痕跡都可以通過由深度神經網絡 (DNN) 制成的 deepfake 檢測器來識別。我們熟悉的生成對抗網絡(GANs)在deepfake 的生成器中的廣泛應用挑戰了造假檢測和生成之間的平衡。
Deepfake檢測
Deepfake 檢測器是二元分類系統,可判斷輸入數字媒體是真還是假。Deepfake 檢測不是由單個類似黑盒的模塊執行的,而是由幾個其他模塊和步驟組成,它們共同作用以提供檢測結果。Deepfake檢測中的常見步驟如下[2]。
- Deepfake 數字媒體的輸入。
- 預處理包括人臉檢測和增強。
- 處理后的幀的特征提取。
- 分類/檢測。
- 輸出圖像的真實性。
典型的基于 DL 的 Deepfake 檢測器包含 3 個主要組件來執行上述任務。
- 預處理模塊。
- 特征提取模塊。
- 評估器模塊(深度學習分類器模型)。
接下來將詳細解釋主要步驟:數據預處理、特征提取和檢測/分類過程。
數據預處理
在數據收集階段之后,數據應該在用于 Deepfake 檢測的訓練和測試步驟之前進行預處理。數據預處理是使用可用的庫自動完成的,例如 OpenCV python 、MTCNN 和YOLO 等。
數據增強在提高練 Deepfake 檢測器的性能中也起著至關重要的作用。可以應用諸如重新縮放(拉伸)、剪切映射、縮放增強、旋轉、亮度變化和水平/垂直翻轉等增強技術以增加數據集的泛化性 [3]。
數據預處理的第一步是從視頻剪輯中提取單個幀。提取幀后需要從提取的視頻幀中檢測人臉。由于面部區域經常出現異常,因此僅選擇面部區域有助于特征提取模型僅關注感興趣區域(ROI),從而節省了用于全幀掃描的計算成本。一旦檢測到面部區域,就會從幀的其余背景中裁剪它們,并按照一系列步驟使它們可用于模型訓練和測試。裁剪面部區域的另一個原因是使模型的所有輸入圖像都具有相同的大小。
特征提取
上一步預處理的幀將會發送到特征提取器。大多數特征提取器都是基于卷積神經網絡(CNN)的。最近的一些研究證明了膠囊網絡在特征提取過程中應用的有效性和效率的提高,這是一個新趨勢。
特征提取器提取預處理視頻幀上可用的空間特征。特征提取能夠提取視覺特征、局部特征/面部標志,如眼睛、鼻子、嘴巴的位置、嘴形的動態、眨眼等生物特征。然后將提取的特征向量發送到 分類器網絡輸出決策。
分類
用于分類的深度學習模型通常被稱為Deepfake檢測器的骨干。顧名思義,分類網絡負責Deepfake檢測管道中最重要的任務:即分類并確定輸入視頻是否是Deepfake的概率。大多數分類器都是二元分類器,其中Deepfakes輸出為(0),原始幀輸出為(1)。
分類器又是另一個卷積層(CNN)或類似的深度學習架構,如LSTM或ViT。分類模型的實際功能根據使用的DNN而異。例如在特征提取器模塊中提取的眨眼特征可以被分類模塊中的LSTM模塊使用,以確定幀眨眼模式的時間不一致性,并據此判斷輸入是否是Deepfake[3]。在大多數情況下, Deepfake 檢測器中最后一層為全連接層。由于卷積層的輸出表示數據的高級特征,這些輸出被展平并連接到單個輸出層以產生最終決策。
總結
在過去的幾年里,Deepfake 的創建和檢測都出現了顯著發展。與非深度學習方法相比,由于結果的準確性,使用深度學習技術進行 Deepfake 檢測的相關研究也有很大的進步。CNN、RNN、ViT 和膠囊網絡等深度神經網絡架構廣泛用于 Deepfake 檢測器的實現。常見的 Deepfake 檢測管道由數據預處理模塊、基于 CNN 的特征提取器和分類模塊組成。
此外,Deepfake 檢測對 Deepfake 生成器在 Deepfake 上留下的痕跡有很大的依賴性。由于目前基于 GAN 的 Deepfake 生成器能夠以最小的不一致性合成更真實的 Deepfake,因此必須開發新的方法來優化 Deepfake 檢測。基于深度集成學習技術的 Deepfake 檢測方法可以被認為是對抗 Deepfake 的現代和綜合方法 [4]。盡管如此,有效且高效的 Deepfake 檢測器的空缺仍然存在。