在“天眼”看到弒母案嫌疑人之前,我們付出了什么?
不久前,一則新聞引起巨大震動,三年前弒母案中的嫌疑人吳謝宇在重慶江北機場被抓,有人透露吳謝宇進入機場不到十分鐘,警察便找到了他。帶領我們抓捕嫌疑人、走進真相的,是“天眼系統”。
目前中國已經安裝了2000萬個配備人工智能技術的攝像頭,組成了世界上監控系統——“天眼系統”。我們通過這個系統高精度匹配人臉,鎖定肇事逃逸司機、抓到看演唱會的通緝犯、也逮捕了吳謝宇。
在這個系統下,人臉識別成為重要的技術基礎。不光在公安公共交通放方面,目前人臉識別技術應用場景越來越多,但在我們享受科技帶來便利的同時,也有不少風險和擔憂的聲音。
快速發展的人臉識別技術
根據前瞻產業研究院數據顯示,到2020年全球人臉識別市場規模將達75.95億美元。在這場科技快速發展的賽道上,人臉識別真實而深刻的改變著我們的生活,無論是消費支付還是安檢尋人,這場“刷臉”的變革正在慢慢滲透生活。
2015年招商銀行宣布推出“ATM刷臉取款”業務,三年之后工行已經在215家網點采用了人臉識別技術;
2017年iPhone X Face ID 解鎖功能上線,到2017年具備人臉識別功能的全球智能手機共達到了14.62億臺;
2017年首都國際機場打造刷臉登機的智慧機場,這個系統會在1分鐘之內完成安全識別和處置,其驗放效率較之前提高了66%,每個小時達到266人以上;
2017年支付寶宣布商用刷臉支付,2018年推出刷臉支付產品—— “蜻蜓”,直接將刷臉支付的接入成本降低80%;
2017年北京所有公租房推行“人臉識別”門禁;
2018年張學友四場演唱會借用人臉識別技術抓住五名逃犯;
2018年相關警務識別、智能業務應用越來越廣泛;
其實對于人臉識別的研究早在 20 世紀 60 年代就開始了。如今經過 50 多年的發展,人臉識別技術已經取得了重大突破,很多經典算法和人臉庫相繼出現。目前人臉識別系統正確率可以達到 99.5%,人眼在同等條件下識別的正確率僅為 97.52%,目前人臉識別的準確率已經做到了比肉眼更精準。
而國內的發展速度也毫不遜色。在2018年的全球人臉識別算法測試(FRVT)中,中國人工智能公司就囊括了前十中的五席。
2018年11月16日發布的報告顯示,全球人臉識別算法可以做到在千萬分之一誤報率下,漏報率降低于1%,這意味著千萬分位誤報下的識別準確率已經超過99%。相比于去年同期,全球人臉識別性能提升了80%。
發展背后風險四伏
但是,在快速發展背后,依然存在不少令人擔憂的問題。
數據來源惹爭議
首先是訓練所使用的數據集。在人臉技術繁榮發展的背后有一個重要基礎——大量的數據訓練。
如果說人工智能是一輛飛奔的豪華跑車,那么數據就是提供強勁動力的“燃料”。為了保證“燃料”的質量,我們對于數據清理的要求越來越高;但是更為重要的是可供訓練的數據量。目前研究人員使用較多的數據主要來自“開源數據集”。
除了早期實驗團隊專業請志愿者拍攝之外,絕大部分的數據主要來自網絡獲取和公共數據。比如雅虎旗下的圖片分享網站——Flicker,通過“知識共享”政策將用戶上傳的圖片等信息整合組成很多開源數據集,早在2014年雅虎就基于Flicker數據發布了1億的圖片與視頻,其中包含了9930圖片和70萬視頻的URL以及與之相關的元數據。
還有很多開源數據集大量收集電影、電視劇、運動比賽等公開影像,不少公共監控數據也被用于政府及相關企業進行安防方面的研究與訓練。
這個帶來了許多爭議與擔憂。一方面大家對于自己的面部信息被用于訓練存在一些芥蒂,另一方面不同企業、政府對此也存在不同的觀點與立場。
2018年4月,Facebook使用生物統計數據,在未經用戶同意的情況下,非法對用戶照片進行人臉識別,并存儲相關信息。今年4月,亞馬遜先前將其面部識別工具 Rekognition 提供給警方使用,引起侵犯民眾隱私的爭議。當時遭到亞馬遜員工、用戶、民間組織等超過 15 萬人聯名抗議。圖靈獎得主也呼吁暫停售予執法機構。
而同樣面對數據采集和使用方面,微軟基于人權考慮,拒絕向警方提供面部識別技術。
信息泄露存風險
2019年2月,海外博主Victor Gevers在個人社交網站Twitter上曝出國內名為“SenseNet”的人工智能安防公司發生大規模數據庫泄露——超過250萬條的個人數據可被獲取,680萬條記錄泄露。
這次的信息泄露引起了較大震動,這家公司主要從事借用深度學習用于面部識別技術和人群分析,并對外開放數據接口方便使用匹配,其紀錄地點還包括警察局、酒店、旅游景點、公園、網吧等等。也就是說當你走在路上,很有可能臉部信息已經被提取、被分析,甚至被泄露。
而信息泄漏的風險背后還透出我們對于人臉與其他數據標簽關聯的擔憂。我們目前刷臉支付的普及力度相對較低,人臉所關聯上的數據標簽還很少。但是未來隨著人臉識別技術應用越來越廣泛,這種關聯度勢必會提高。這種關聯度的提高會給商業帶來契機。比方說分析人臉信息和其他社交平臺信息,將我們的人臉和相關的興趣標簽打包賣給商場。或許你下一次走進商場,實現全智能逛街,各種精準推送就是基于此。
目前,已經有不少公司有意無意間在做提高這種關聯度的事情。Blippar App是一款基于AR技術的探索發現類應用,我們通過此APP掃描感興趣的對象,不僅可以看到相關商品信息、了解城市街道介紹、甚至還可以直接相關獲取社交信息。
黑產伺機而動
單純的信息泄漏,缺乏關聯度帶來的危害似乎并沒有那么直擊要害。但是如果這些信息同樣被黑產所用,那么損失將無法估量。
這本質上來說依舊是對抗間的矛盾。
當下像微軟這樣的科技巨頭成為面部識別發展的領軍者,很大程度上取決于他們可以訪問大型面部數據庫,而組成數據庫的正是每天行走在路上、上傳自拍等信息的你我。技術的發展要求我們“貢獻”出海量的數據供其學習,但是這些數據是否有可能同樣被黑產拿來訓練呢?
這正在發生。今年的央視315就指出當下人臉識別的風險。而2016年底湖北公安也曾搗毀一專門販賣公民動態認證視頻(抬頭、低頭、眨眨眼睛、讀一段文字)的團伙。在他們查獲的1800G信息中,不僅包括正反面、還有手持自拍、側拍、拿報紙拍,更為神奇還有抬頭、點頭、左轉、右轉、讀文字的錄像。而這些都在幫助黑產形成3D建模,訓練如何躲過活體檢測。
我們在擔心什么?
其實在面對人臉識別技術的發展,我們的情緒是復雜的。就像此次重慶江北機場通過“天眼”抓捕嫌疑人吳謝宇,準確快速的保證安全,民眾成為受益者。但是另一方面,看到人臉數據采集的不合理、信息泄漏的風險甚至被冒用身份的可能性,我們有些害怕了。
我們到底在害怕什么?
首先,我們害怕毫無察覺的喪失底牌。
因為人臉是不需要用戶主動配合就可以采集到的生物特征信息。對比其他生物特征的采集過程,如指紋、掌紋、虹膜、靜脈、視網膜,都需要以用戶的主動配合為前提,即如用戶拒絕采集,無法獲得高質量的特征信息。與此同時,人臉天生就暴露在外,難以做到自我掩護和偽裝,這張臉,成為了識別身份的天然特征。
也就是說,面對四周不休不眠的“索倫之眼”,采集的時候我們毫無察覺、分析的時候我們全然不知,直到泄露的時候、直到曝光的時候,我們毫無還手之力。
其次,我們害怕無法挽回。
人臉識別技術為了防止黑產,會加大對識別精度的訓練;黑產為了牟利,會投入更多精力偽裝活體面部;那,普通用戶呢?我們只有一張臉,曝光了、泄露了、被冒用了,我們可以換一張“臉”嗎?
不能。
還有面對信息關聯的問題,即便目前看來提取社交照片用于訓練的信息十分獨立,但是當真正落地到應用場景中,無論我們是“刷臉支付”還是做推薦系統,都勢必會產生、關聯更多個人信息。一旦特征信息泄漏,背后風險我們難以估量。
所以,這件事情最可怕的點在于我們無法控制“人臉”何時交出去,更無法預判風險、甚至我們承擔不起后果。
當然,我們同樣是矛盾的。
目前對于人臉識別數據的采集使用國際間也存在爭議,很多人對于自己的照片未經允許被拿去訓練這件事情不寒而栗;但也有人認為如果不“投喂”數據,人臉識別技術便沒有生長土壤,我們應當多一些包容,給技術發展多一些時間。
爭議之下,我們并沒有停步于此,相關的采集政策也同樣在逐漸完善。2015年以來,國家密集出臺了《安全防范視頻監控人臉識別系統技術要求》、《信息安全技術網絡人臉識別認證系統安全技術要求》等法律法規,為人臉識別在金融、安防、醫療等領域的普及打下了堅實的基礎,掃清了政策障礙。
國外也同樣如此,比如舊金山推出《停止秘密監視》條例,成為禁止人臉識別的城市。
舊金山提出《停止秘密監視》條例
作為企業也在盡可能保證隱私權,微軟已經成立了一個名為“Aether委員會”的內部咨詢小組研究人工智能的應用,并發布了一套開發人工智能技術的倫理原則。
無論如何,當下的我們并不是束手無策、更不能夠因噎廢食,提出擔憂與疑慮是為了改進。至于如何在科技發展與隱私倫理間找到平衡、如何構建完善的采集機制,將是未來很長一段時間我們需要思考和努力的。