斯坦福學生攻破約會軟件!用GAN模型女扮男裝騙過人臉識別系統
真的有人能模仿你的臉,還繞開了人臉識別系統!
最近斯坦福大學的研究人員在arxiv上發布了一篇論文,雖說是斯坦福CS236G的課程作業,不過論文中提出了一個非常有趣的思路,用對抗生成網絡GAN生成一個面部圖像來模仿目標人臉,看看人臉識別系統能否正確驗證。
因為人臉的關鍵特征信息都保留了下來,所以論文的結果顯示,生成的人臉圖像仍然可以通過人臉驗證,對于那些僅靠平面圖像識別的系統來說,簡直破大防。
論文鏈接:https://arxiv.org/pdf/2203.15068.pdf
研究人員在兩個約會app的人臉驗證系統中黑盒測試了一下,輕松攻克面部驗證過程,甚至在把女性人臉轉換為男性之后,仍然可以通過人臉驗證。
據作者稱,這項工作是首次嘗試利用生成的圖像繞過面部驗證,原始的人臉圖像擁有特定的識別特征,但另一個、經過大幅改變的身份也能通過驗證。
這是誰的臉?
在線驗證系統被攻破后,各種欺詐行為都會帶來非常負面的后果,所以人們對檢測和打擊冒名頂替者尤其感興趣。
與普通的身份驗證不同的是,人臉驗證涉及到根據人臉圖像驗證聲明的身份,人臉和身份都是一對一的匹配,但一旦有另一張完全不同的人臉可以和你打開同一把鎖,那你該如何證明「我是我」?
目前很多手機app都聲稱人臉驗證技術很安全,可以保護用戶的身份,比如Bumble和Tinder等約會軟件的識別流程就是用戶使用應用內置的相機拍攝一張照片,然后與用戶個人資料中的照片進行對比。
這類使用照片進行人臉檢測存在一個很大的問題:用一張能繞過人臉識別系統的假照片就可以通過驗證。
想要一張人臉特征和原始人臉相同,但看起來又不同的話,對抗生成網絡模型就再合適不過了。
但自GAN誕生以來,如何控制生成圖像與預期一致,或者通過一個特征向量來引導GAN模型的生成過程,一直是關于GAN潛空間的主要挑戰。
雖然諸如梯度加權類激活映射(Grad-CAM)等技術和工具可以幫助建立類之間的潛在方向,并實現轉換,但如果進一步觀察生成圖像的話,就可以發現這類模型對于轉換的精細程度的控制十分有限。
實驗方法
作者使用了兩個數據集作為實驗基礎:
一個是人類用戶數據集,由310張論文作者的臉部圖像組成,時間跨度為四年,光線、年齡和視角各不相同,通過Caffe提取了剪裁后的臉部;
另一個是FairFace數據集中類別平衡后的108501張圖像,同樣進行了提取和剪裁。
為了在本地驗證實驗效果,研究人員在本地建立了一個面部驗證模型,主要就是在FaceNet和DeepFace的基礎上使用了一個ConvNet Inception預訓練模型,圖像向量的訓練使用三元組損失,其中A是anchor圖像,P是正例,N是反例,α為間隔。
這個驗證模型使用了來自FairFace的訓練子集的面部圖像,為了通過面部驗證,輸入圖像與數據庫中的目標用戶之間計算Frobenius norm距離,任何低于0.7閾值的圖像都等同于相同的身份,否則驗證就被認為是失敗的。
圖像生成模型,作者直接使用StyleGAN模型,在個人數據集上微調了一下,隨機生成的圖像可以直接通過本地的人臉驗證系統,并且圖片看起來和訓練數據集中的圖片確實不一樣。
微調時將前四層的權重進行凍結,以避免數據的過度擬合生成與訓練數據集過于相似的人臉圖像。
盡管用基本的StyleGAN模型可以獲得不同于原始人臉的圖像,但基線模型的結果從質量上看與訓練數據集的圖像比較相似(多樣性較差),而且分辨率較低(保真度低)。
作者第二次嘗試使用StarGAN v2模型,可以針對目標臉部訓練種子圖像。
為了防止過擬合,StarGAN v2模型使用FairFace驗證集進行了大約10個小時的預訓練。為了生成圖像,作者還嘗試使用訓練數據作為種子圖像(reference),以人類用戶數據集的處理過的圖像作為源圖像(source)。
作者還嘗試使用個人用戶數據集的處理過的圖像作為種子圖和源圖像,但結果提升不大。
到了驗證環節,作者先是隨機挑了1000個人臉圖像,找出哪些在本地測試驗證通過的人臉,然后再測試使用GAN生成的圖像能否再匹配成功。
下圖左為作者照片,中間為驗證失敗的照片,右為驗證成功的照片。
實驗的目的是在保留目標身份的決定性特征的同時,在感知的視覺身份之間創造盡可能大的差距,使用Mahalanobis距離作為評估指標,也是圖像處理中常用于模式和模板搜索的一個指標。
對于基線生成模型,盡管通過了局部面部驗證,但獲得的低分辨率結果顯示出多樣性比較低,而StarGAN v2則能夠創建更多樣化的驗證通過圖像。
生成的圖像在約會軟件Bumble和Tinder的面部驗證系統進行了測試,以作者的身份圖像為基線,并成功通過了驗證。
作者臉部的「男性」版本也通過了Bumble的驗證過程,盡管在生成的圖像中必須調整光線才能被接受,而Tinder則比較聰明,沒有被騙。
這些都是在GAN潛空間操作的背景下進行的身份投射的開創性實驗,這在圖像合成和深度偽造研究中仍然是一個非凡的挑戰。這項工作也開辟了在不同的身份中持續嵌入高度具體的特征的概念,以及創造「替代」身份來「閱讀」別人的身份。
魔高一尺,道高一丈
如今,在人們的日常生活中,「刷臉」非常普遍,比如商鋪的客流統計、無人售貨柜的刷臉支付、單位門禁、家庭門鎖、公交/道路的安全監控、公司人臉識別考勤、快遞包裹取件、銀行開卡、網上支付、入住酒店等領域都在廣泛運用「人臉識別」技術,且呈擴大趨勢。
而人臉識別技術目前可以分為兩大類:基于2D人臉圖像和基于3D人臉圖像。2D人臉識別通過2D攝像頭拍攝平面成像,所以即使算法和軟件再先進,在有限的信息下,安全級別終究不夠高,通過照片很容易被破解。
早在2019年,就有小學生手舉照片「破解」了豐巢的人臉識別系統。
安全級別較高的3D人臉識別系統通過3D攝像頭立體成像,一般會有4個探頭,其中兩個大的是攝像頭,另外兩個一個是紅外線探頭,用于補光,一個是可見光探頭,兩個攝像頭互相配合形成3D圖像,從而復原完整的三維世界。目前3D人臉識別功能技術可以準確分辨出照片、視頻、面具和雙胞胎。
目前普遍應用的人臉識別身份認證系統中還有一項至關重要的技術——活體檢測,即系統攝像頭在正確識別人臉是否本人的同時,檢驗是否有人利用照片等手段冒充合法用戶。這也是為什么在銀行「刷臉」時候,經常要讓用戶完成「左看右看」、「眨眨眼」等動作。
魔高一尺,道高一丈,只有不斷的對抗,技術才會持續向上發展。