提出智能擾動方法!字節(jié)跳動隱私保護論文入選NeurIPS 2020聯(lián)邦學習Workshop
第三十四屆神經信息處理系統(tǒng)大會(Conference and Workshop on Neural Information Processing Systems,以下將簡稱 NeurIPS 2020),于2020年12月中旬在線上舉行。在本屆會議上,字節(jié)跳動聯(lián)邦學習隱私保護最新研究論文被 NeurIPS 2020 的聯(lián)邦學習 Workshop 接收,并進行了線上分享。
NeurIPS 作為機器學習和計算神經科學領域的國際頂級會議,由 NeurIPS 基金會主辦,每年固定在12月舉行。NeurIPS旨在促進有關神經信息處理系統(tǒng)的研究交流,在同行會議上介紹和討論新穎的研究。在中國計算機學會的國際學術會議排名中,NeurIPS 為人工智能領域的A類會議 。
自歐盟2018年出臺《通用數(shù)據(jù)保護條例》(GDPR)以及國內涉及數(shù)據(jù)隱私的法律法規(guī)逐步開始建立后,聯(lián)邦學習逐漸成為保護數(shù)據(jù)隱私的一個利器。它可以在雙方不公開各自隱私數(shù)據(jù)的情況下,實現(xiàn)機器學習模型的協(xié)同訓練,因此受到了越來越多企業(yè)的關注,產生了很多落地應用。在這個背景下,NeurIPS 2020 設置了聯(lián)邦學習的Workshop,邀請全球聯(lián)邦學習行業(yè)專家探討聯(lián)邦學習的擴展性、隱私性和安全性。
由于擁有海量的用戶數(shù)據(jù),字節(jié)跳動深知用戶數(shù)據(jù)安全保護的重要性,為提升用戶的信任度,尋求建立開放透明的平臺,字節(jié)跳動一直在聯(lián)邦學習領域持續(xù)投入資源進行研究和探索,先后在電商、金融、教育等多個行業(yè)場景進行了落地應用,并于2020年初開源了自研的聯(lián)邦學習平臺Fedlearner(項目地址:https://github.com/bytedance/fedlearner)。
NeurIPS 2020聯(lián)邦學習Workshop上,字節(jié)跳動應用機器學習團隊分享了在用戶標簽數(shù)據(jù)安全上的最新研究論文《Label Leakage and Protection in Two-party Split learning》。
《Label Leakage and Protection in Two-party Split learning》論文海報
論文分享了縱向聯(lián)邦學習中隱私標簽數(shù)據(jù)保護的新方案——通過理論分析,對所添加的擾動進行約束優(yōu)化,幫助聯(lián)邦學習在效用和隱私間取得更好的平衡。具體則是對聯(lián)邦學習過程中雙方所交互的梯度進行分析,提出了一種基于梯度范數(shù)的推測標簽信息的高效攻擊方法,隨后創(chuàng)新性地提出了在所交互的梯度上添加擾動的保護方法。
字節(jié)跳動應用機器學習團隊研究員孫建凱稱,大量的實驗表明,在梯度范數(shù)攻擊中,論文所提的標簽數(shù)據(jù)保護算法,能夠將標簽泄露的AUC從接近于1.0 (1.0屬于完全泄漏)降低至0.5-0.6之間(0.5是屬于完全保護),而模型的預測效果受到的影響相對較小。
孫建凱指出,雖然存在他們目前沒有想到的其它攻擊方法來竊取用戶標簽數(shù)據(jù),但是通過論文中提到的方法,即使在面對未知的攻擊方法時,也能最大程度保護標簽數(shù)據(jù),防止數(shù)據(jù)泄露。
由于聯(lián)邦學習能夠有效解決數(shù)據(jù)孤島問題,讓參與方在不共享數(shù)據(jù)的基礎上聯(lián)合建模,挖掘數(shù)據(jù)價值,因此國內外眾多一線互聯(lián)網公司紛紛投入研究和應用。標簽作為價值很高的一類數(shù)據(jù)類型,吸引了眾多行業(yè)人士不斷思考和探索如何在聯(lián)邦學習的框架下對其進行最大程度地保護。字節(jié)跳動在交互梯度上提出添加智能擾動的方法,則在一定程度上解決了標簽數(shù)據(jù)安全性的問題,消除了大家的擔憂,有利于進一步推動聯(lián)邦學習應用,讓數(shù)據(jù)發(fā)揮更大的價值。
為了讓更多企業(yè)和開發(fā)者受益,目前字節(jié)跳動在隱私保護上的最新理論研究已經落地,相應算法(https://github.com/bytedance/fedlearner/tree/master/example/privacy/label_protection)已經合并到字節(jié)跳動開源的聯(lián)邦學習框架Fedlearner中。
字節(jié)跳動聯(lián)邦學習技術負責人吳迪在接受采訪時表示 :“希望我們的最新研究,能為企業(yè)在應用聯(lián)邦學習保護用戶數(shù)據(jù)安全上提供更多的選擇,同時也希望為聯(lián)邦學習進一步規(guī)模化應用盡一份力,共同推動隱私計算的發(fā)展。”