這些令人毛骨悚然的“假人”預示著人工智能新時代的到來
譯文【51CTO.com快譯】你可以清晰看到“他”嘴唇上的胡茬,前額的皺紋,皮膚上的斑點,但“他”并不是一個真實的人。“他”是被制造出來的,他“誕生”于Datagen公司。這個公司制造了成千上萬的“假人”。這些“人”不是游戲或電影中的虛擬角色,而是為了滿足深度學習算法日益增長的需求而制作的合成數據。
對使用人工智能感興趣的公司往往會面臨一個巨大的挑戰——需要足夠正確的數據來訓練他們的系統。這類公司需要大量帶有標簽的歷史示例來訓練AI系統,尤其是那些使用圖像和視頻的系統。這種需求催生了一個專門幫助其他企業注釋數據的子行業。但是還有另一種方法來產生足夠的數據來訓練AI系統:“制造”它。
真實世界數據的收集不僅耗時且昂貴,像Datagen這樣的公司提供了一個引人注目的替代方案——他們會為你制造合成數據:以你想要的方式,在你想要的時候——而且相對便宜。
為了制造合成數據,首要先掃描真實的人類。Datagen與供應商合作,以付費方式招募志愿者,讓志愿者進入巨大的全身掃描儀,捕捉從虹膜、皮膚紋理到手指彎曲的每一個細節。獲得原始數據后再通過一系列算法處理,開發出人體、面部、眼睛和手的3D模型。
這家總部位于以色列的初創公司表示,它已經和美國四大科技巨頭(未公開)達成合作。和它最對標的公司合成人工智能(Synthesis AI)也提供按需數字人類。此外,也有其他公司生成用于金融、保險和醫療保健的數據。有多少種類型的數據需求,就有多少種合成數據公司。
曾經,合成數據被認為不如真實數據令人滿意,但現在卻被一些人視為“靈丹妙藥”。真實數據雜亂無章且充滿偏見,而新的數據隱私條例又讓數據收集“雪上加霜”。相比之下,合成數據是原始的,可以用來構建更多樣化的數據集。你可以制作出完美標記的人臉,比如不同年齡、臉型和種族的人臉,從而構建一個可以跨人群工作的人臉檢測系統。
但合成數據也有其局限性。如果它不能反映現實,它最終會產生比混亂的、有偏見的真實數據更糟糕的AI——或者繼承同樣的問題。數據科學家、算法審計公司ORCAA的創始人凱西·奧尼爾說:“我不想對這種模式表示贊許,然后說‘哦,這能解決很多問題’。”“因為它也會忽略很多事情。”
現實,而非真實
深度學習一直與數據有關。在過去幾年里,人工智能領域已逐漸形成一種共識:好的數據比大數據更重要。即使是少量正確的、標簽清晰的數據,對提高AI系統的性能所起的作用也要比大量未經整理的數據或更先進的算法高得多。
Datagen首席執行官兼聯合創始人Ofir Chakon表示,合成數據改變了企業開發人工智能模型的方式。起初,他們從獲取盡可能多的數據開始,然后調整算法以期獲得更好的性能;而現在他們或許應該嘗試另一種方式:使用相同的算法,同時改進他們的數據組成。但是收集真實數據來執行這種迭代實驗的成本過高而且耗時也長。Datagen的作用就在于此。有了合成數據生成器,團隊可以每天創建和測試幾十個新數據集,以確定哪一個能最大限度地提高模型的性能。
為了確保數據的現實性,Datagen向其供應商提供了詳細的說明,說明每個年齡層、BMI范圍和種族需要掃描多少人,以及他們要執行的一系列動作,比如在房間里走動或喝汽水。供應商發回這些動作的高保真靜態圖像和動作捕捉數據。然后,Datagen的算法將這些數據擴展為成千上萬種組合。有時合成數據會再次復檢,比如,將合成人臉與真實人臉進行對比,看它們是否貼合現實。
Datagen公司目前正在通過生成面部表情來監測智能汽車中的駕駛員的警覺性,通過生成身體動作來跟蹤在無人商店中的顧客,通過生成虹膜和手勢來提高VR頭盔的眼手跟蹤能力。該公司表示,其數據已經被用于開發為數千萬用戶服務的計算機視覺系統。
大規模生產的不僅僅是合成“人”。Click-Ins是一家使用合成人工智能執行車輛自動檢測的初創公司。通過設計軟件,它重新創建了所有汽車標識和模型,其人工智能需要識別在不同光照條件或不同背景下,以不同的顏色、損傷和變形加以渲染的各種形態。這使得該公司可以在汽車制造商推出新車型時更新其人工智能,并幫助其避免在一些國家被視為侵犯隱私。在這些國家,車牌被視為私人信息,因此不能出現在用于訓練AI的照片中。
當下人工智能在金融、電信和保險公司的應用較為廣泛。某些情況下,企業需要以合法的方式與外部供應商共享他們的客戶數據庫,但匿名化并不能充分保護人們的隱私。而合成數據卻可以用來生成詳細的虛假數據集,這些數據集與公司的真實數據具有相同的統計屬性。它還可以用來模擬公司尚未擁有的數據,包括更多樣化的客戶群體或欺詐活動場景。
偽裝的極限:合成數據是否被過度炒作了?
當涉及到隱私問題時,賓夕法尼亞大學計算機和信息科學教授艾倫·羅斯說:“雖然這些數據是‘合成的’,沒有直接對應真實用戶數據,但這并不意味著它沒有對真實人物的敏感信息進行編碼。”例如,一些數據生成技術已經被證明可以近距離再現訓練數據中的圖像或文本,而另一些技術則容易受到攻擊,使它們完全重現這些數據。
對于Datagen這樣的公司來說,這可能沒什么問題,因為它的合成數據并不意味著要隱藏同意被掃描的個人的身份。但對于那些提供解決方案以保護敏感財務或患者信息的公司來說,這將是一個壞消息。
華盛頓大學科學研究所的數據科學家貝爾尼斯·赫爾曼說,研究表明,兩種合成數據技術——差分隱私和生成式對抗網絡——的結合可以產生最強的隱私保護。但持懷疑態度的人擔心,這種細微差別可能會在合成數據供應商的營銷行話中消失,因為他們不會總是透露自己使用的是什么技術。
與此同時,幾乎沒有證據表明,合成數據可以有效地減少人工智能系統的偏見。首先,從一個有偏差的現有的數據集中推斷出新的數據并不一定會產生更有代表性的數據。例如,Datagen的原始數據包含的少數民族按比例減少,這意味著它使用更少的真實數據點從這些群體中生成假人。雖然生成過程并不完全是猜測,但這些假人仍然更有可能脫離現實。
另一方面,東北大學計算機科學副教授克里斯托·威爾遜表示,即使是完美平衡的數據集也不會自動轉化為完全公平的人工智能系統。如果一家信用卡放貸機構試圖開發一種為潛在貸款者評分的人工智能算法,僅僅在其數據中代表白人和黑人,是無法消除所有可能的歧視的。歧視仍然可能由于白人和黑人申請者之間的差異無聲蔓延。
更復雜的是,早期研究表明,在某些情況下,用合成數據實現私人和公平的人工智能甚至是不可能的。在近期的一篇論文中,多倫多大學和維克托研究所的研究人員發現,當他們試圖通過差分隱私和生成式對抗網絡的結合來制作多樣化的合成數據集時,他們無法創建一個精確的醫療AI系統。
當然這些事實的存在并不意味著不應該使用合成數據。事實上,它很可能成為一種必需品。奧尼爾表示,當要面對人工智能系統是否符合法律要求的質詢時,這可能是唯一一種方法,使他們能夠靈活地生成按需的、有針對性的測試數據。但這使得關于其局限性的問題變得更加重要。“隨著時間的推移,合成數據可能會變得更好,但這絕非出于偶然。”
These creepy fake humans herald a new age in AI | MIT Technology Review by Karen Hao
https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】