ECCV 2024 | 機(jī)器遺忘之后，擴(kuò)散模型真正安全了嗎？

作者：機(jī)器之心 2024-08-26 08:45:00

我們好奇，經(jīng)過(guò)機(jī)器遺忘的擴(kuò)散模型，真的就一定安全了嗎？

本文第一作者為密歇根州立大學(xué)計(jì)算機(jī)系博士生張益萌，賈景晗，兩人均為OPTML實(shí)驗(yàn)室成員，指導(dǎo)教師為劉思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 實(shí)驗(yàn)室的研究興趣涵蓋機(jī)器學(xué)習(xí)/深度學(xué)習(xí)、優(yōu)化、計(jì)算機(jī)視覺(jué)、安全、信號(hào)處理和數(shù)據(jù)科學(xué)領(lǐng)域，重點(diǎn)是開(kāi)發(fā)學(xué)習(xí)算法和理論，以及魯棒且可解釋的人工智能。

在人工智能領(lǐng)域，圖像生成技術(shù)一直是一個(gè)備受關(guān)注的話題。近年來(lái)，擴(kuò)散模型（Diffusion Model）在生成逼真且復(fù)雜的圖像方面取得了令人矚目的進(jìn)展。然而，技術(shù)的發(fā)展也引發(fā)了潛在的安全隱患，比如生成有害內(nèi)容和侵犯數(shù)據(jù)版權(quán)。這不僅可能對(duì)用戶造成困擾，還可能涉及法律和倫理問(wèn)題。

盡管目前已有不少機(jī)器遺忘（Machine Unlearning, MU）方法 [1-3]，希望讓擴(kuò)散模型在使用不適當(dāng)?shù)奈谋咎崾緯r(shí)避免生成不合時(shí)宜的圖片，但其有效性存疑。

只是我們好奇，經(jīng)過(guò)機(jī)器遺忘的擴(kuò)散模型，真的就一定安全了嗎？

為了應(yīng)對(duì)這一挑戰(zhàn)，密歇根州立大學(xué) (Michigan State University) 和英特爾（Intel）的研究者們提出了一種高效且無(wú)需輔助模型的對(duì)抗性文本提示生成方法 UnlearnDiffAtk [4]，并用優(yōu)化后得到的對(duì)抗性文本提示作為檢驗(yàn)遺忘后擴(kuò)散模型安全可靠性的工具，論文目前已被 ECCV 2024 接收。本文第一作者為密歇根州立大學(xué)計(jì)算機(jī)系博士生張益萌、賈景晗，兩人均為 OPTML 實(shí)驗(yàn)室成員，指導(dǎo)教師為劉思佳助理教授。

論文題目：To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy to Generate Unsafe Images ... For Now
論文地址：https://arxiv.org/abs/2310.11868
代碼地址：https://github.com/OPTML-Group/Diffusion-MU-Attack
Unlearned Diffusion Model Benchmark: https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark

Unlearned DM 可以從兩個(gè)角度評(píng)估模型：

安全可靠性：通過(guò)對(duì)抗性文本提示攻擊 (UnlearnDiffAtk) 來(lái)進(jìn)行評(píng)估；
圖片生成能力：通過(guò)一萬(wàn)張生成圖片平均 FID（Fréchet inception distance）和 CLIP score 進(jìn)行評(píng)估。

文章與代碼均已開(kāi)源，研究團(tuán)隊(duì)還在積極收納更多的方法到 Unlearned DM Benchmark。如有意向，歡迎郵件聯(lián)系作者（zhan1853@msu.edu）溝通模型測(cè)評(píng)相關(guān)事宜。

UnlearnDiffAtk 方法有什么獨(dú)特之處？

UnlearnDiffAtk 的目標(biāo)是通過(guò)尋找離散的對(duì)抗性文本來(lái)進(jìn)行攻擊，而與之不同的是，CCE [5] 側(cè)重于尋找連續(xù)的文本嵌入進(jìn)行攻擊。

然而，CCE 并不是一個(gè)理想的評(píng)估方式，因?yàn)槲谋痉崔D(zhuǎn) [6] 的初衷是通過(guò)優(yōu)化生成 “新” 的詞元（token），從而使擴(kuò)散模型能夠生成未見(jiàn)過(guò)的事物或風(fēng)格。

因此，即使擴(kuò)散模型已經(jīng)遺忘了某些特定內(nèi)容，仍然可以通過(guò)優(yōu)化生成新的詞元來(lái)使模型生成相應(yīng)的事物。而 UnlearnDiffAtk 與其他對(duì)抗式文本生成方法不同，UnlearnDiffAtk 無(wú)需依靠輔助模型或未經(jīng)機(jī)器遺忘的原模型提供優(yōu)化指導(dǎo)。它利用擴(kuò)散模型內(nèi)在的分類器辨別能力 [7]，來(lái)指導(dǎo)對(duì)抗性文本的生成，使得攻擊更具可操作性。

優(yōu)化過(guò)程中僅需一張目標(biāo)圖片（Target Image,）提供指導(dǎo)，大大降低了對(duì)硬件的要求并提高了攻擊效率。需要注意的是，目標(biāo)圖片不必與原有的不適當(dāng)文本提示描述完全吻合，僅需包含攻擊后期望得到的有害內(nèi)容即可。例如，若 UnlearnDiffAtk 希望強(qiáng)迫遺忘后的模型生成包含裸體的圖片，那么目標(biāo)圖片只需是網(wǎng)絡(luò)上的任何一張裸體照片即可。

具體來(lái)說(shuō)，根據(jù) Diffusion Classifier [7] 的概念，預(yù)測(cè)輸入圖片 x 為標(biāo)簽 c 的概率變?yōu)槿缦拢?/span>

而在擴(kuò)散模型中，的對(duì)數(shù)似然去噪誤差相關(guān)，則可以得到：

通過(guò)擴(kuò)散分類器 (3) 的視角，創(chuàng)建對(duì)抗性提示詞 c’ 以規(guī)避目標(biāo)遺忘后擴(kuò)散模型的任務(wù)可以表述為：

然而分類只需要噪聲誤差之間的相對(duì)差異，不需要它們的絕對(duì)大小，所以公式（3）可以變形為

然后我們可以將攻擊生成問(wèn)題 (4) 變?yōu)?/span>

為了便于優(yōu)化，我們通過(guò)利用 exp (?) 的凸性來(lái)簡(jiǎn)化公式 (6)。使用 Jensen 不等式，對(duì)于凸函數(shù)，公式 (6) 中的單個(gè)目標(biāo)函數(shù)（針對(duì)特定的 j）的上界為：

由于第二項(xiàng)與優(yōu)化變量 c’無(wú)關(guān)，通過(guò)將公式 (7) 納入公式 (6) 并排除與 c’無(wú)關(guān)的項(xiàng)，我們得到以下簡(jiǎn)化的攻擊生成優(yōu)化問(wèn)題：

任務(wù)類型

擴(kuò)散模型的機(jī)器遺忘任務(wù)可分為三大類，而 UnlearnDiffAtk 在這三類任務(wù)中均展現(xiàn)了較強(qiáng)的攻擊成功率：

有害內(nèi)容（如：裸體，暴力，違法行為）
藝術(shù)風(fēng)格
物體

本文不僅深入了解了擴(kuò)散模型在生成安全性方面的挑戰(zhàn)，還提出了有效的解決方案。希望這項(xiàng)研究能引起更多對(duì)圖像生成技術(shù)安全性的關(guān)注，并推動(dòng)相關(guān)技術(shù)的進(jìn)一步發(fā)展。

實(shí)驗(yàn)結(jié)果與可視化

下述表格和可視化結(jié)果分別展示了在遺忘有害內(nèi)容、遺忘藝術(shù)風(fēng)格以及遺忘物體這三類任務(wù)中的表現(xiàn)。通過(guò)這些結(jié)果可以看出，即使在沒(méi)有額外輔助模型提供優(yōu)化指導(dǎo)的情況下，僅僅依靠擴(kuò)散模型自身攜帶的分類器特性，UnlearnDiffAtk 依然表現(xiàn)出與同期工作 P4D 相當(dāng)甚至更高的攻擊成功率。此外，由于無(wú)需依賴額外的模型輔助，UnlearnDiffAtk 能夠顯著提高攻擊速度，平均節(jié)省約 30% 的攻擊時(shí)間。