隱私保護(hù)新突破：高斯差分隱私框架與深度學(xué)習(xí)結(jié)合

作者：佚名 2020-04-30 13:45:56

差分隱私被證明是個(gè)強(qiáng)有效的工具，并被谷歌、蘋果、微軟、阿里巴巴等各大機(jī)構(gòu)使用。而四位發(fā)明者于 2017 年獲得了被譽(yù)為理論計(jì)算機(jī)科學(xué)界諾貝爾獎的 Godel 獎。

[[324532]]

人工智能中的隱私問題已經(jīng)公認(rèn)為一個(gè)重要并且嚴(yán)肅的問題。近日，賓夕法尼亞大學(xué)的研究組開發(fā)了一個(gè)新的數(shù)據(jù)隱私分析框架，可以在多個(gè)類型的機(jī)器學(xué)習(xí)問題中有效保護(hù)個(gè)人隱私。這個(gè)框架現(xiàn)已成功和深度學(xué)習(xí)結(jié)合，并在多個(gè)需要保障隱私的深度學(xué)習(xí)任務(wù)中達(dá)到最高準(zhǔn)確率。

什么是差分隱私

在這個(gè)大數(shù)據(jù)時(shí)代，如何妥善獲取和使用與真人相關(guān)的數(shù)據(jù)，漸漸成為迫切需要解決的問題。沒有人希望自己生個(gè)病，上個(gè)網(wǎng)，買件衣服都會被人隨意知曉，更別提手機(jī)里沒有修過的自拍了。一種簡單的隱私保護(hù)方法就是「匿名」：將收集到的數(shù)據(jù)中涉及個(gè)人信息的特征剔除。可惜這種方法并不可靠，曾有研究將 Netflix 匿名處理過的觀影記錄通過交叉對比 IMDb 數(shù)據(jù)庫解匿成功，這直接導(dǎo)致了第二屆 Netflix 數(shù)據(jù)分析大獎賽的取消。

2006 年，隱私算法的研究迎來了新的里程碑。Cynthia Dwork, Frank McSherry, Kobbi Nissim 和 Adam Smith 四位科學(xué)家定義了「差分隱私」（以下縮寫為 DP），來嚴(yán)謹(jǐn)?shù)胤治鲭[私這個(gè)概念。差分隱私很快被證明是個(gè)強(qiáng)有效的工具，并被谷歌、蘋果、微軟、阿里巴巴等各大機(jī)構(gòu)使用。而四位發(fā)明者于 2017 年獲得了被譽(yù)為理論計(jì)算機(jī)科學(xué)界諾貝爾獎的 Godel 獎。

要理解差分隱私，我們可以看看下面這個(gè)簡單的假設(shè)檢驗(yàn)：假設(shè)有兩個(gè)數(shù)據(jù)集 S, S'

S={小明，小剛，小美}；S'={小紅，小剛，小美}

我們說這兩個(gè)數(shù)據(jù)集是鄰近的，因?yàn)樗鼈兊牟町悆H體現(xiàn)在一個(gè)人上。我們的目的是檢驗(yàn)我們的模型是否是基于 S 訓(xùn)練的，這等價(jià)于檢驗(yàn)小明是否存在于我們的數(shù)據(jù)中。如果這個(gè)假設(shè)檢驗(yàn)非常困難，那么想要獲取小明信息的攻擊者就難以得逞。嚴(yán)謹(jǐn)來說，一個(gè)隨機(jī)算法 M 符合 (epsilon,delta)-DP 意味著對于任何的事件 E,

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

從定義不難看出，epsilon 和 delta 越小，隱私性越好。那么，如何實(shí)現(xiàn)能保證算法的隱私性呢?

具體做法是衡量算法的中間產(chǎn)物（比如梯度）的敏感性，并根據(jù)其大小施加一個(gè)成正比的噪音。由于噪音的存在，想要竊取小明信息的攻擊者便無法確定小明是否在訓(xùn)練集中。在深度神經(jīng)網(wǎng)絡(luò)中，每一次迭代都會犧牲一部分隱私來換取性能的提高。我們可以對每個(gè)批（batch）的梯度加噪音，從而達(dá)到混淆攻擊者的目的。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

當(dāng)然，噪音加的越大，隱私就越安全，但是隨之性能也自然越差。在有限的隱私預(yù)算下，很多時(shí)候隱私算法的性能表現(xiàn)會不如人意。

深度學(xué)習(xí)經(jīng)常需要敏感的個(gè)人信息來訓(xùn)練。現(xiàn)存的差分隱私定義以及隱私模型都試圖在性能和隱私中找到一個(gè)平衡。可惜的是，這些嘗試仍不能很好的處理兩個(gè)重要環(huán)節(jié)：subsampling 和 composition。這導(dǎo)致了隱私算法的性能通常遠(yuǎn)遜于非隱私算法。

高斯差分隱私

Gaussian differential privacy (GDP) 是最近被提出的一種隱私表示方法。它可以精確的刻畫 optimizer 在每個(gè) epoch 所消耗的隱私。GDP 的表達(dá)簡潔且是廣義的（在 SGD, Adam, Adagrad 等多個(gè)優(yōu)化器上的刻畫是完全一樣的）。GDP 的分析被進(jìn)一步推廣到 Poisson subsampling 和新的優(yōu)化器上。新的推廣得到了理論上嚴(yán)謹(jǐn)?shù)淖C明，尤其證明了它優(yōu)于此前最先進(jìn)的 Moments accountant 方法。

在《Gaussian Differential Privacy》一文中，賓夕法尼亞大學(xué)的董金碩、Aaron Roth 和蘇煒杰創(chuàng)新性地定義了「f-DP」來刻畫隱私。如果用 alpha 來表示第一類錯(cuò)誤，beta 來表示第二類錯(cuò)誤，對于任何一種拒絕規(guī)則 (rejection rule) phi，都存在一個(gè)抵換函數(shù) (trade-off function) T：降低第一類錯(cuò)誤會導(dǎo)致第二類錯(cuò)誤增加，反之亦然。我們將兩類錯(cuò)誤的和的最小值稱為最小錯(cuò)誤和。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

一個(gè)隨機(jī)算法 M 在 S 和 S』上的抵換函數(shù) T 如果始終大于函數(shù) f，那么它就滿足 f-DP。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

對比于傳統(tǒng)的 eps,delta-DP，f-DP 使用的是一個(gè)函數(shù) f，這也使得其刻畫更為自由和準(zhǔn)確。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

作為 f-DP 的一個(gè)重要案例，作者隨后介紹了高斯差分隱私（GDP）來區(qū)分兩個(gè)高斯分布。根據(jù)中心極限定理（CLT），任何基于假設(shè)檢驗(yàn)的隱私定義在極限情況下都會收斂于 GDP。事實(shí)上，相對于谷歌在 2016 年提出的，適用于計(jì)算 epsilon,delta-DP 的 Moments Accountant (MA) 方法，本文提出的 CLT 方法可以更簡易地計(jì)算 GDP，而且非常準(zhǔn)確。值得注意的是，該文章最近被國際頂級統(tǒng)計(jì)學(xué)雜志 Journal of the Royal Statistical Society: Series B 接收為 Discussion paper，這是數(shù)據(jù)科學(xué)界對該工作的一種認(rèn)可。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

GDP 與深度學(xué)習(xí)的結(jié)合

GDP 的好處還不止于此。在最新工作《Deep Learning with Gaussian Differential Privacy》中，卜至祺、董金碩，龍琦和蘇煒杰等作者指出 GDP 和 eps,delta-DP 可以通過他們設(shè)計(jì)的 Dual 函數(shù)互相轉(zhuǎn)換。也就是說，研究者可以在 f-DP 的框架下分析算法再轉(zhuǎn)成傳統(tǒng)的 dp，或者從傳統(tǒng)領(lǐng)域中拿來已有的理論和技巧，不必二次開發(fā)。這項(xiàng)技術(shù)現(xiàn)在已經(jīng)在 TensorFlow 中實(shí)現(xiàn)。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

論文地址：https://arxiv.org/abs/1911.11607
項(xiàng)目實(shí)現(xiàn)：https://github.com/tensorflow/privacy/blob/master/tensorflow_privacy/privacy/analysis/gdp_accountant.py

在實(shí)驗(yàn)中，作者們將 GDP 和深度學(xué)習(xí)結(jié)合，并在多種類型的任務(wù)上取得了不俗的成績。此前谷歌也曾將 epsDP 和深度學(xué)習(xí)結(jié)合，雖然在 MNIST 圖像識別上取得了 97% 的正確率（無隱私算法可達(dá)到 99% 以上），在 CIFAR10 上卻止步于 73% 的正確率（無隱私算法可達(dá) 86%）。而利用 GDP 的精確刻畫，作者們在 MNIST 上取得了 98% 的準(zhǔn)確率。不僅如此，MA 計(jì)算的結(jié)果表示 MNIST 的 96.6% 正確率對應(yīng)的是 9.4% 的最小錯(cuò)誤和，意味著攻擊者有超過九成的概率猜對一張圖片是否在數(shù)據(jù)集中。而 CLT 的計(jì)算表明 epsDP 太過于保守：同樣的模型同樣的表現(xiàn)，實(shí)際對應(yīng)的最小錯(cuò)誤和其實(shí)是 77.6%，也就是說隱私并沒有損失很多。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

為了全面探討 GDP 的優(yōu)越性，作者在 GDP 框架下分析了神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。作者實(shí)現(xiàn)了 SGD 和 Adam 的隱私版本，并通過讓神經(jīng)網(wǎng)絡(luò)不斷迭代直到 GDP 達(dá)到了 mu=2。在 IMDb（自然語言處理），MovieLens 1M（推薦系統(tǒng)）和 Adult Income（非圖像型分類任務(wù)）上，GDP 模型都取得了非常接近無隱私模型的性能。例如在 Adult Income 數(shù)據(jù)上，隱私神經(jīng)網(wǎng)絡(luò)和無隱私神經(jīng)網(wǎng)絡(luò)表現(xiàn)幾乎一樣好，意味著隱私也許并不需要以很大的性能犧牲為代價(jià)。更進(jìn)一步的，作者強(qiáng)調(diào)文中的神經(jīng)網(wǎng)絡(luò)都相對簡單（不超過三層），如果使用更復(fù)雜更高級的神經(jīng)網(wǎng)絡(luò)可以在同樣的隱私保證下更顯著地提升性能。而另一方面，使用高效的優(yōu)化算法（減少迭代次數(shù)，即隱私的損失次數(shù)）也能讓性能變得更好。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

既然 CLT 可以在同樣性能的條件下比 MA 更好地保護(hù)隱私，那么反過來想，在同樣的隱私預(yù)算下，GDP 也能顯示出更強(qiáng)的性能。作者構(gòu)思了一個(gè)實(shí)驗(yàn)來說明這一點(diǎn)：訓(xùn)練一個(gè)加了 sigma 噪音的神經(jīng)網(wǎng)絡(luò)若干步，通過 MA 可以算出目前損失了多少隱私，通過 CLT 和 Dual 反解出真正必須的噪音 sigma hat。注意 sigma hat 必然小于 sigma，然后訓(xùn)練同一個(gè)神經(jīng)網(wǎng)絡(luò)但只加 sigma hat 噪音。由于噪音變小，新的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效果會更好，而且在每一次迭代，新神經(jīng)網(wǎng)絡(luò)都會更好地保護(hù)隱私。

éšç§ä¿æŠ¤æ–°çªç ´ï¼šé«˜æ–¯å·®åˆ†éšç§æ¡†æž¶ä¸Žæ·±åº¦å¦ä¹ ç»“åˆ

將神經(jīng)網(wǎng)絡(luò)和 GDP 結(jié)合，可以更精準(zhǔn)地呈現(xiàn)隱私損失，從而更好地保護(hù)隱私以及提升隱私算法的性能。另一方面，已有的 (epsilon,delta)-DP 研究也可以嫁接到 GDP 中，為兩個(gè)領(lǐng)域帶來了新的機(jī)遇。這一隱私算法領(lǐng)域的新進(jìn)展給予了研究者們更大的信心去相信，隨著機(jī)器學(xué)習(xí)的進(jìn)一步發(fā)展，我們也許在不遠(yuǎn)的未來就能以可忽略不計(jì)的代價(jià)來保護(hù)我們的隱私。同時(shí)，它也鼓勵人們更愿意分享涉及個(gè)人信息的數(shù)據(jù)，來推動機(jī)器學(xué)習(xí)的發(fā)展。

責(zé)任編輯：張燕妮來源：機(jī)器之心