人大&港科大揭示大模型重要安全風(fēng)險(xiǎn)漏洞：利用概念激活向量破解大模型的安全對齊｜NeurIPS 2024

作者：量子位 2024-11-18 11:00:00

在本研究中，研究者們提出了一種基于安全概念激活向量（SCAV）的框架，以揭示大語言模型在安全對齊方面的潛在漏洞。

利用概念激活向量破解大模型的安全對齊，揭示LLM重要安全風(fēng)險(xiǎn)漏洞。

來自人大&港科大的研究人員提出安全概念激活向量（SCAV）框架，通過精確解讀大模型的安全機(jī)制來指導(dǎo)攻擊。

基于SCAV的攻擊方法能夠生成嵌入級(jí)和提示級(jí)的攻擊，自動(dòng)調(diào)整擾動(dòng)參數(shù)，并顯著提升了攻擊成功率和響應(yīng)質(zhì)量。

在對七個(gè)開源大模型的評(píng)估中，基于關(guān)鍵詞匹配標(biāo)準(zhǔn)的平均攻擊成功率（ASR）為99.14%。同時(shí)，研究表明，基于SCAV生成的攻擊提示具有跨模型遷移的潛力，可在GPT-4等黑盒API上取得成功。

提出SCAV框架

使用SCAV框架誘導(dǎo)攻擊，首先需要訓(xùn)練SCAV分類器。

通過對惡意和安全指令嵌入的降維分析，研究者發(fā)現(xiàn)這兩類指令在低維空間中呈現(xiàn)明顯的分隔。因此，通過在模型的嵌入空間中定義一個(gè)“安全”與“惡意”的概念分離面，就能夠識(shí)別出模型在不同輸入上對“安全性”的反應(yīng)。SCAV分類器的目標(biāo)是在嵌入空間中建立一種簡單的線性模型，將惡意指令和安全指令進(jìn)行分離，以便在后續(xù)攻擊中利用這一特性。

△圖1：SCAV分類器的訓(xùn)練流程

SCAV框架可以誘導(dǎo)兩種攻擊層次——嵌入層（embedding-level）和提示層（prompt-level）。

△圖2：SCAV誘導(dǎo)的嵌入層攻擊

嵌入層攻擊通過在模型的中間層嵌入空間中引入微小擾動(dòng)來改變模型對輸入的安全判斷，從而繞過安全機(jī)制。具體來說，模型的每一層都可以用對應(yīng)輸出的嵌入訓(xùn)練SCAV分類器，分類器在該層的測試集準(zhǔn)確率反映了模型在該層的安全機(jī)制的存在與強(qiáng)弱。研究發(fā)現(xiàn)，對于經(jīng)過安全對齊的模型（例如LLaMA），其早期層通常具有較低的測試集準(zhǔn)確率，而在中后期層通常具有逼近100%的測試集準(zhǔn)確率；而對于未經(jīng)過安全對齊的模型（例如Alpaca），其所有層的SCAV分類器測試集準(zhǔn)確率通常在85%以下，行為與對齊模型呈現(xiàn)明顯不同（如圖3所示）。因此，嵌入層攻擊將錨定那些測試集準(zhǔn)確率大于閾值P1（設(shè)定P1=90%）的層。

△圖3：不同模型各層的SCAV分類器測試集準(zhǔn)確率變化

在模型處理一個(gè)惡意指令的前向傳播過程中，利用SCAV分類器的參數(shù)在各層引入一個(gè)擾動(dòng)，使得所在層的輸出嵌入變?yōu)椋?/p>

這個(gè)擾動(dòng)的參數(shù) ε 為大小，v 為方向，需要滿足約束條件

這個(gè)約束條件的直觀意義就是降低嵌入被模型確認(rèn)為惡意指令的概率Pm到閾值P0（設(shè)定P0=0.01%）以下，從而逆轉(zhuǎn)模型的安全概念認(rèn)知，同時(shí)保證對模型盡量小的修改。由于這個(gè)優(yōu)化問題有閉式解，因此不同于已有的基于優(yōu)化的攻擊手段，執(zhí)行這種攻擊是非常快速的。

在模型處理惡意指令的每一個(gè)新生成token的過程中，逐層應(yīng)用這種擾動(dòng)，就可以達(dá)到高效、高質(zhì)量的攻擊結(jié)果。

△圖4：SCAV誘導(dǎo)的提示層攻擊

提示層攻擊則是通過修改輸入提示詞來進(jìn)行攻擊的一種手段。研究發(fā)現(xiàn)，現(xiàn)有的基于優(yōu)化的攻擊手段如AutoDAN等，其優(yōu)化的目標(biāo)往往不是模型的真實(shí)輸出。而SCAV分類器正提供了模型對安全認(rèn)知的精確描述，因此更適合用于優(yōu)化目標(biāo)。通過將AutoDAN的分層遺傳優(yōu)化算法的優(yōu)化目標(biāo)修改為基于SCAV分類器的函數(shù)：

提示層攻擊能夠達(dá)到比現(xiàn)有的基于優(yōu)化的攻擊手段更好的效果。值得注意的是，在開源模型上訓(xùn)練得到的攻擊提示對于GPT-4的API也一樣有效，具有相當(dāng)?shù)目蛇w移性。

實(shí)驗(yàn)和評(píng)價(jià)

研究評(píng)估了SCAV誘導(dǎo)的嵌入層攻擊和提示層攻擊與DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt等基線方法的攻擊效果。惡意指令數(shù)據(jù)集為Advbench和StrongREJECT。

評(píng)價(jià)指標(biāo)有兩類：一是常用的基于關(guān)鍵詞匹配計(jì)算出的攻擊成功率（ASR-keyword），二是基于GPT-4進(jìn)行評(píng)價(jià)的進(jìn)階指標(biāo)，ASR-answer、ASR-useful和Language Flaws，分別從不同的角度考察模型回復(fù)的質(zhì)量。

達(dá)到這一效果所需的數(shù)據(jù)總量則比基線方法少得多。

如圖5所示，研究結(jié)果表明，受益于SCAV良好的建模與刻畫安全機(jī)制的能力，僅需5對惡意-安全指令樣本就可以達(dá)到100%的ASR-keyword。而在僅有一對數(shù)據(jù)時(shí)，基線方法幾乎失去效果，但SCAV仍然保持了80%左右的ASR-keyword，并且在隨機(jī)多次的實(shí)驗(yàn)中具有更小的方差。

圖5：在使用不同訓(xùn)練數(shù)據(jù)數(shù)量時(shí)，SCAV和基線方法的ASR-keyword比較，顯示方差

提示層級(jí)的攻擊結(jié)果如表3、表4所示。

表3顯示，SCAV方法始終表現(xiàn)最佳，相比于手動(dòng)設(shè)計(jì)或優(yōu)化攻擊提示的基線方法，ASR相關(guān)的標(biāo)準(zhǔn)提高了12%到42%，Language Flaws最多減少了18%。這證明了優(yōu)化目標(biāo)的有效性，即同時(shí)提高攻擊成功率并保持模型性能。

表4顯示了將從LLaMA模型學(xué)習(xí)的提示應(yīng)用于GPT-4的結(jié)果。SCAV方法通常表現(xiàn)更好，ASR相關(guān)標(biāo)準(zhǔn)最多提高48%，Language Flaws最多減少26%。這表明通過研究某些白盒模型的內(nèi)部工作原理所學(xué)習(xí)的攻擊提示可能仍然對其他黑盒API有用。

見解

基于SCAV的攻擊過程，研究者們提出了如下見解。

見解一：當(dāng)前開源和閉源的大模型均存在嚴(yán)重的安全風(fēng)險(xiǎn)。

表5顯示了使用SCAV攻擊7個(gè)知名開源大模型的結(jié)果。可以看到，除了一個(gè)模型外，所有大模型對超過85%的惡意指令都提供了相關(guān)答案（ASR-answer）。響應(yīng)質(zhì)量也很高，平均ASR-useful為87%，Language Flaws平均為12%。此外，在大多數(shù)情況下，ASR-keyword接近100%。這非常危險(xiǎn)，因?yàn)樽罱l(fā)布的開源LLM的性能正在逐漸提高，并且?guī)缀醪恍枰杀揪涂梢垣@得對任何惡意指令的響應(yīng)，因?yàn)椴恍枰獙Υ竽Ｐ瓦M(jìn)行微調(diào)或使用大量訓(xùn)練數(shù)據(jù)。

表6顯示了使用各種SCAV攻擊手段組合對GPT-4攻擊的結(jié)果。即使是最先進(jìn)的GPT-4對Advbench上的84%惡意指令返回有用的響應(yīng)，并且對StrongREJECT上的 54% 惡意指令給出有用的響應(yīng)。這表明，黑盒模型的對齊也可能通過使用現(xiàn)有攻擊方法顯著逆轉(zhuǎn)。因此，迫切需要開發(fā)有效的方法來防御當(dāng)前的攻擊方法或停止開源高性能大模型。

見解二：遺忘學(xué)習(xí)等現(xiàn)有防御方法并不能抹消SCAV所揭示的安全漏洞。

現(xiàn)有的防御方法如遺忘學(xué)習(xí)等是否能有效幫助大語言模型忘記有害知識(shí)？通過對一個(gè)經(jīng)過Eraser遺忘學(xué)習(xí)微調(diào)的LLaMA-2-7B-Chat版本應(yīng)用SCAV攻擊方法，表7顯示，仍然可以誘導(dǎo)大模型產(chǎn)生許多有害響應(yīng)，這表明現(xiàn)有的遺忘學(xué)習(xí)并不能抹消SCAV所揭示的安全漏洞。此外，研究者們還發(fā)現(xiàn)ICD、Self-Reminder等經(jīng)典的防御方法對嵌入層攻擊這種手段基本不適用，說明了SCAV安全漏洞的高危特性。

見解三：對大模型可區(qū)分安全和惡意嵌入這一漏洞的認(rèn)識(shí)

圖6：通過 (a) 攻擊單層；(b) 攻擊多層，以及 (c) 將嵌入級(jí)攻擊轉(zhuǎn)移到其他白盒大模型，揭示大模型的安全機(jī)制

線性可分性與大模型的安全機(jī)制之間可能存在密切關(guān)系。

之前的實(shí)驗(yàn)表明，對齊的模型可以在中晚期層線性分離來自惡意和安全指令的嵌入（圖1），并且由線性分類器引導(dǎo)的攻擊成功率很高，這表明大模型的安全機(jī)制可能很好地被線性可分性建模。為了更好地理解它們之間的關(guān)系，進(jìn)一步攻擊了LLaMA-2-7B-Chat的第0、第10、第20和第30層。如圖6a所示，對線性可分層（第10、20、30層）的攻擊始終導(dǎo)致ASR-keyword的增加，而對其他層（第0層）的攻擊則沒有改善ASR-keyword。基于這些結(jié)果，研究者推測，對于每一層，線性可分性不僅可能表明大模型理解安全概念，還可能意味著大模型將在后續(xù)層中使用這一安全概念來生成響應(yīng)。

不同的層可能從相關(guān)但不同的角度建模安全機(jī)制。

圖6b顯示了在攻擊LLaMA-2-7B-Chat的不同層時(shí)Pm的值，有兩個(gè)現(xiàn)象。首先，攻擊單一層（第10層）會(huì)導(dǎo)致當(dāng)前層的Pm較低，但隨后在后續(xù)層中Pm會(huì)增加。這意味著后面的層以某種方式逐漸通過利用嵌入的現(xiàn)有信息來糾正攻擊，可能是因?yàn)槟Ｐ蛷牟煌慕嵌冉０踩珯C(jī)制。其次，當(dāng)更多層被擾動(dòng)（例如，第10層到第13層）時(shí)，后續(xù)層的Pm不再能夠被模型糾正。這表明某一些層可能共同決定了從不同角度的整體安全機(jī)制。

不同的白盒大模型可能在其安全機(jī)制上存在一些共性。

圖6c展示了在將嵌入級(jí)攻擊從一個(gè)白盒模型應(yīng)用到另一個(gè)模型時(shí)的ASR-keyword。可以看到，ASR-keyword有時(shí)相當(dāng)大（接近100%）。這表明大模型的安全機(jī)制可能具有某種共性，并且SCAV在某種意義上可能已經(jīng)表征了這種共性。然而，關(guān)于何時(shí)可以轉(zhuǎn)移以及為什么會(huì)轉(zhuǎn)移，仍然缺乏清晰的解釋。

結(jié)論

在本研究中，研究者們提出了一種基于安全概念激活向量（SCAV）的框架，以揭示大語言模型在安全對齊方面的潛在漏洞。通過在模型的嵌入空間中定義“安全”與“惡意”指令的分離面，SCAV框架能夠在嵌入層和提示層引導(dǎo)兩種攻擊方式，顯著提升了對模型安全機(jī)制的攻擊成功率和攻擊遷移性。

實(shí)驗(yàn)表明，SCAV方法在更少樣本下比基線方法更有效，且減少了生成內(nèi)容的缺陷。研究指出，大模型在嵌入空間的線性可分性是其安全機(jī)制的薄弱點(diǎn)，現(xiàn)有防御方法難以完全阻止SCAV攻擊，強(qiáng)調(diào)了開發(fā)更強(qiáng)安全防護(hù)的緊迫性。

目前相關(guān)論文和代碼已公開，感興趣可以進(jìn)一步了解。

論文鏈接：https://arxiv.org/pdf/2404.12038
代碼倉庫：https://github.com/SproutNan/AI-Safety_SCAV

責(zé)任編輯：張燕妮來源：量子位