傳統和深度學習進行結合，較大程度提高人臉檢測精度

作者：計算機視覺研究院 2024-07-02 10:28:59

今天分享的是一個有點老的技術，但是我覺得這個技術特別有意思，值得該領域研究員深入思考，提升檢測領域其他技術精度。

本文經計算機視覺研究院公眾號授權轉載，轉載請聯系出處。

01 簡介

隨著現實的人臉操作技術取得了顯著的進步，社會對這些技術可能被惡意濫用的擔憂引發了人臉偽造檢測的新研究課題。然而，這是極具挑戰性的，因為最近的技術進步能夠打造出超出人眼感知能力的人臉，尤其是在壓縮圖像和視頻中。我們發現，在意識到頻率的情況下挖掘偽造模式可能是一種治療方法，因為頻率提供了一種互補的觀點，可以很好地描述細微的偽造偽像或壓縮錯誤。為了將頻率引入人臉偽造檢測，提出了一種新的人臉偽造網絡中的頻率（F3-Net），利用兩種不同但互補的頻率感知線索，1）頻率感知分解圖像分量和2）局部頻率統計，通過雙流協同學習框架深入挖掘偽造模式。應用DCT作為應用的頻域變換。通過全面的研究，在具有挑戰性的FaceForensics++數據集中，所提出的F3-Net在所有壓縮質量上都顯著優于競爭對手的最先進方法，尤其是在低質量媒體上取得了巨大領先。

02 背景

目前最先進的人臉操作算法，如DeepFake、FaceSwap、Face2Face和NeuralTextures，已經能夠隱藏偽造偽像，因此發現這些精制偽像的缺陷變得極其困難，如下圖(a)所示。

更糟糕的是，如果偽造人臉的視覺質量大幅下降，例如用JPEG或H.264以較大的壓縮比進行壓縮，偽造偽像將受到壓縮誤差的污染，有時無法在RGB域中捕獲。幸運的是，正如許多先前的研究所表明的那樣，與真實人臉相比，這些偽影可以以不尋常的頻率分布的形式在頻域中捕捉到。然而，如何將頻率感知線索納入深度學習的CNN模型中？這個問題也隨之而來。傳統的頻域，如FFT和DCT，與自然圖像所具有的移位不變性和局部一致性不匹配，因此普通的CNN結構可能是不可行的。因此，如果我們想利用可學習CNN的判別表示能力進行頻率感知人臉偽造檢測，那么CNN兼容的頻率表示就變得至關重要。為此，我們想介紹兩種頻率感知偽造線索，它們與深度卷積網絡的知識挖掘相兼容。

從一個方面來看，可以通過分離圖像的頻率信號來分解圖像，而每個分解的圖像分量指示特定的頻帶。因此，第一個頻率工件偽造線索是通過直覺發現的，即我們能夠識別出在具有較高頻率的分解分量中稍微突出的細微偽造工件（即，以不尋常圖案的形式），如上圖（b）中間一列所示。這條線索與CNN結構兼容，并且對壓縮偽影具有驚人的魯棒性。

從另一個方面來看，分解后的圖像分量描述了空間域中的頻率感知模式，但沒有直接在神經網絡中明確地呈現頻率信息。建議將第二個頻率感知偽造線索作為局部頻率統計。在每個密集但有規律采樣的局部空間補丁中，通過對每個頻帶的平均頻率響應進行計數來收集統計數據。這些頻率統計信息重新組合回多通道空間圖，其中通道的數量與頻帶的數量相同。如上圖（b）的最后一列所示，偽造人臉與相應的真實人臉相比具有不同的局部頻率統計，盡管它們在RGB圖像中看起來幾乎相同。此外，局部頻率統計也遵循輸入RGB圖像的空間布局，因此也享受到由CNN提供的有效表示學習。同時，由于分解后的圖像分量和局部頻率統計信息是互補的，但兩者具有本質上相似的頻率感知語義，因此它們可以在特征學習過程中逐步融合。

03 新框架詳細分析

因此，提出了一種新穎的人臉頻率偽造網絡（F3-Net），該網絡利用了上述頻率感知偽造線索。該框架由兩個頻率感知分支組成，一個旨在通過頻率感知圖像分解（FAD）學習細微的偽造模式，另一個則希望從局部頻率統計（LFS）中提取高級語義來描述真實人臉和偽造人臉之間的頻率感知統計差異。這兩個分支通過交叉注意力模塊（即MixBlock）進一步逐漸融合，該模塊鼓勵上述FAD和LFS分支之間的豐富互動。整個人臉偽造檢測模型是通過交叉熵損失以端到端的方式學習的。

大量實驗表明，通過徹底的燒蝕研究，所提出的F3-Net顯著提高了低質量偽造介質的性能。還表明，在具有挑戰性的FaceForensics++中，新提出的框架在所有壓縮質量上都大大超過了競爭對手的技術水平。如上圖（c）所示，通過將ROC曲線與Xception進行比較，可以明顯證明所提出的頻率感知F3-Net的有效性和優越性。

所提出的體系結構由三種新方法組成：通過頻率感知圖像分解學習細微操縱模式的FAD；用于提取局部頻率統計的LFS和用于協作特征交互的MixBlock。

FAD: Frequency-Aware Decomposition

對于頻率感知圖像分解，以前的研究通常在空間域中應用手工制作的濾波器組，因此無法覆蓋整個頻域。同時，固定的濾波配置使得難以自適應地捕獲偽造模式。為此，我們提出了一種新的頻率感知分解（FAD），根據一組可學習的頻率濾波器在頻域中自適應地分割輸入圖像。分解后的頻率分量可以逆變換到空間域，從而產生一系列頻率感知圖像分量。這些組件沿著通道軸堆疊，然后輸入到卷積神經網絡中（在我們的實現中，我們使用Xception作為主干），以全面挖掘偽造模式。

LFS: Local Frequency Statistics