成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人大&港科大揭示大模型重要安全風(fēng)險(xiǎn)漏洞:利用概念激活向量破解大模型的安全對齊|NeurIPS 2024

人工智能 安全
在本研究中,研究者們提出了一種基于安全概念激活向量(SCAV)的框架,以揭示大語言模型在安全對齊方面的潛在漏洞。

利用概念激活向量破解大模型的安全對齊,揭示LLM重要安全風(fēng)險(xiǎn)漏洞。

來自人大&港科大的研究人員提出安全概念激活向量(SCAV)框架,通過精確解讀大模型的安全機(jī)制來指導(dǎo)攻擊。

圖片

基于SCAV的攻擊方法能夠生成嵌入級(jí)和提示級(jí)的攻擊,自動(dòng)調(diào)整擾動(dòng)參數(shù),并顯著提升了攻擊成功率和響應(yīng)質(zhì)量。

在對七個(gè)開源大模型的評(píng)估中,基于關(guān)鍵詞匹配標(biāo)準(zhǔn)的平均攻擊成功率(ASR)為99.14%。同時(shí),研究表明,基于SCAV生成的攻擊提示具有跨模型遷移的潛力,可在GPT-4等黑盒API上取得成功。

提出SCAV框架

使用SCAV框架誘導(dǎo)攻擊,首先需要訓(xùn)練SCAV分類器。

通過對惡意和安全指令嵌入的降維分析,研究者發(fā)現(xiàn)這兩類指令在低維空間中呈現(xiàn)明顯的分隔。因此,通過在模型的嵌入空間中定義一個(gè)“安全”與“惡意”的概念分離面,就能夠識(shí)別出模型在不同輸入上對“安全性”的反應(yīng)。SCAV分類器的目標(biāo)是在嵌入空間中建立一種簡單的線性模型,將惡意指令和安全指令進(jìn)行分離,以便在后續(xù)攻擊中利用這一特性。

圖片圖1:SCAV分類器的訓(xùn)練流程

SCAV框架可以誘導(dǎo)兩種攻擊層次——嵌入層(embedding-level)和提示層(prompt-level)。

圖片圖2:SCAV誘導(dǎo)的嵌入層攻擊

嵌入層攻擊通過在模型的中間層嵌入空間中引入微小擾動(dòng)來改變模型對輸入的安全判斷,從而繞過安全機(jī)制。具體來說,模型的每一層都可以用對應(yīng)輸出的嵌入訓(xùn)練SCAV分類器,分類器在該層的測試集準(zhǔn)確率反映了模型在該層的安全機(jī)制的存在與強(qiáng)弱。研究發(fā)現(xiàn),對于經(jīng)過安全對齊的模型(例如LLaMA),其早期層通常具有較低的測試集準(zhǔn)確率,而在中后期層通常具有逼近100%的測試集準(zhǔn)確率;而對于未經(jīng)過安全對齊的模型(例如Alpaca),其所有層的SCAV分類器測試集準(zhǔn)確率通常在85%以下,行為與對齊模型呈現(xiàn)明顯不同(如圖3所示)。因此,嵌入層攻擊將錨定那些測試集準(zhǔn)確率大于閾值P1(設(shè)定P1=90%)的層。

圖片圖3:不同模型各層的SCAV分類器測試集準(zhǔn)確率變化

在模型處理一個(gè)惡意指令的前向傳播過程中,利用SCAV分類器的參數(shù)在各層引入一個(gè)擾動(dòng),使得所在層的輸出嵌入變?yōu)椋?/p>

這個(gè)擾動(dòng)的參數(shù) ε 為大小,v 為方向,需要滿足約束條件

這個(gè)約束條件的直觀意義就是降低嵌入被模型確認(rèn)為惡意指令的概率Pm到閾值P0(設(shè)定P0=0.01%)以下,從而逆轉(zhuǎn)模型的安全概念認(rèn)知,同時(shí)保證對模型盡量小的修改。由于這個(gè)優(yōu)化問題有閉式解,因此不同于已有的基于優(yōu)化的攻擊手段,執(zhí)行這種攻擊是非常快速的。

在模型處理惡意指令的每一個(gè)新生成token的過程中,逐層應(yīng)用這種擾動(dòng),就可以達(dá)到高效、高質(zhì)量的攻擊結(jié)果。

圖片圖4:SCAV誘導(dǎo)的提示層攻擊

提示層攻擊則是通過修改輸入提示詞來進(jìn)行攻擊的一種手段。研究發(fā)現(xiàn),現(xiàn)有的基于優(yōu)化的攻擊手段如AutoDAN等,其優(yōu)化的目標(biāo)往往不是模型的真實(shí)輸出。而SCAV分類器正提供了模型對安全認(rèn)知的精確描述,因此更適合用于優(yōu)化目標(biāo)。通過將AutoDAN的分層遺傳優(yōu)化算法的優(yōu)化目標(biāo)修改為基于SCAV分類器的函數(shù):

提示層攻擊能夠達(dá)到比現(xiàn)有的基于優(yōu)化的攻擊手段更好的效果。值得注意的是,在開源模型上訓(xùn)練得到的攻擊提示對于GPT-4的API也一樣有效,具有相當(dāng)?shù)目蛇w移性。

實(shí)驗(yàn)和評(píng)價(jià)

研究評(píng)估了SCAV誘導(dǎo)的嵌入層攻擊和提示層攻擊與DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt等基線方法的攻擊效果。惡意指令數(shù)據(jù)集為Advbench和StrongREJECT。

評(píng)價(jià)指標(biāo)有兩類:一是常用的基于關(guān)鍵詞匹配計(jì)算出的攻擊成功率(ASR-keyword),二是基于GPT-4進(jìn)行評(píng)價(jià)的進(jìn)階指標(biāo),ASR-answer、ASR-useful和Language Flaws,分別從不同的角度考察模型回復(fù)的質(zhì)量。

圖片

達(dá)到這一效果所需的數(shù)據(jù)總量則比基線方法少得多。

如圖5所示,研究結(jié)果表明,受益于SCAV良好的建模與刻畫安全機(jī)制的能力,僅需5對惡意-安全指令樣本就可以達(dá)到100%的ASR-keyword。而在僅有一對數(shù)據(jù)時(shí),基線方法幾乎失去效果,但SCAV仍然保持了80%左右的ASR-keyword,并且在隨機(jī)多次的實(shí)驗(yàn)中具有更小的方差。

圖片

圖5:在使用不同訓(xùn)練數(shù)據(jù)數(shù)量時(shí),SCAV和基線方法的ASR-keyword比較,顯示方差

提示層級(jí)的攻擊結(jié)果如表3、表4所示。

表3顯示,SCAV方法始終表現(xiàn)最佳,相比于手動(dòng)設(shè)計(jì)或優(yōu)化攻擊提示的基線方法,ASR相關(guān)的標(biāo)準(zhǔn)提高了12%到42%,Language Flaws最多減少了18%。這證明了優(yōu)化目標(biāo)的有效性,即同時(shí)提高攻擊成功率并保持模型性能。

圖片

表4顯示了將從LLaMA模型學(xué)習(xí)的提示應(yīng)用于GPT-4的結(jié)果。SCAV方法通常表現(xiàn)更好,ASR相關(guān)標(biāo)準(zhǔn)最多提高48%,Language Flaws最多減少26%。這表明通過研究某些白盒模型的內(nèi)部工作原理所學(xué)習(xí)的攻擊提示可能仍然對其他黑盒API有用。

圖片

見解

基于SCAV的攻擊過程,研究者們提出了如下見解。

見解一:當(dāng)前開源和閉源的大模型均存在嚴(yán)重的安全風(fēng)險(xiǎn)。

表5顯示了使用SCAV攻擊7個(gè)知名開源大模型的結(jié)果。可以看到,除了一個(gè)模型外,所有大模型對超過85%的惡意指令都提供了相關(guān)答案(ASR-answer)。響應(yīng)質(zhì)量也很高,平均ASR-useful為87%,Language Flaws平均為12%。此外,在大多數(shù)情況下,ASR-keyword接近100%。這非常危險(xiǎn),因?yàn)樽罱l(fā)布的開源LLM的性能正在逐漸提高,并且?guī)缀醪恍枰杀揪涂梢垣@得對任何惡意指令的響應(yīng),因?yàn)椴恍枰獙Υ竽P瓦M(jìn)行微調(diào)或使用大量訓(xùn)練數(shù)據(jù)。

圖片

表6顯示了使用各種SCAV攻擊手段組合對GPT-4攻擊的結(jié)果。即使是最先進(jìn)的GPT-4對Advbench上的84%惡意指令返回有用的響應(yīng),并且對StrongREJECT上的 54% 惡意指令給出有用的響應(yīng)。這表明,黑盒模型的對齊也可能通過使用現(xiàn)有攻擊方法顯著逆轉(zhuǎn)。因此,迫切需要開發(fā)有效的方法來防御當(dāng)前的攻擊方法或停止開源高性能大模型。

圖片

見解二:遺忘學(xué)習(xí)等現(xiàn)有防御方法并不能抹消SCAV所揭示的安全漏洞。

現(xiàn)有的防御方法如遺忘學(xué)習(xí)等是否能有效幫助大語言模型忘記有害知識(shí)?通過對一個(gè)經(jīng)過Eraser遺忘學(xué)習(xí)微調(diào)的LLaMA-2-7B-Chat版本應(yīng)用SCAV攻擊方法,表7顯示,仍然可以誘導(dǎo)大模型產(chǎn)生許多有害響應(yīng),這表明現(xiàn)有的遺忘學(xué)習(xí)并不能抹消SCAV所揭示的安全漏洞。此外,研究者們還發(fā)現(xiàn)ICD、Self-Reminder等經(jīng)典的防御方法對嵌入層攻擊這種手段基本不適用,說明了SCAV安全漏洞的高危特性。

圖片

見解三:對大模型可區(qū)分安全和惡意嵌入這一漏洞的認(rèn)識(shí)

圖片
圖6:通過 (a) 攻擊單層;(b) 攻擊多層,以及 (c) 將嵌入級(jí)攻擊轉(zhuǎn)移到其他白盒大模型,揭示大模型的安全機(jī)制

  • 線性可分性與大模型的安全機(jī)制之間可能存在密切關(guān)系。

之前的實(shí)驗(yàn)表明,對齊的模型可以在中晚期層線性分離來自惡意和安全指令的嵌入(圖1),并且由線性分類器引導(dǎo)的攻擊成功率很高,這表明大模型的安全機(jī)制可能很好地被線性可分性建模。為了更好地理解它們之間的關(guān)系,進(jìn)一步攻擊了LLaMA-2-7B-Chat的第0、第10、第20和第30層。如圖6a所示,對線性可分層(第10、20、30層)的攻擊始終導(dǎo)致ASR-keyword的增加,而對其他層(第0層)的攻擊則沒有改善ASR-keyword。基于這些結(jié)果,研究者推測,對于每一層,線性可分性不僅可能表明大模型理解安全概念,還可能意味著大模型將在后續(xù)層中使用這一安全概念來生成響應(yīng)。

  • 不同的層可能從相關(guān)但不同的角度建模安全機(jī)制。

圖6b顯示了在攻擊LLaMA-2-7B-Chat的不同層時(shí)Pm的值,有兩個(gè)現(xiàn)象。首先,攻擊單一層(第10層)會(huì)導(dǎo)致當(dāng)前層的Pm較低,但隨后在后續(xù)層中Pm會(huì)增加。這意味著后面的層以某種方式逐漸通過利用嵌入的現(xiàn)有信息來糾正攻擊,可能是因?yàn)槟P蛷牟煌慕嵌冉0踩珯C(jī)制。其次,當(dāng)更多層被擾動(dòng)(例如,第10層到第13層)時(shí),后續(xù)層的Pm不再能夠被模型糾正。這表明某一些層可能共同決定了從不同角度的整體安全機(jī)制。

  • 不同的白盒大模型可能在其安全機(jī)制上存在一些共性。

圖6c展示了在將嵌入級(jí)攻擊從一個(gè)白盒模型應(yīng)用到另一個(gè)模型時(shí)的ASR-keyword。可以看到,ASR-keyword有時(shí)相當(dāng)大(接近100%)。這表明大模型的安全機(jī)制可能具有某種共性,并且SCAV在某種意義上可能已經(jīng)表征了這種共性。然而,關(guān)于何時(shí)可以轉(zhuǎn)移以及為什么會(huì)轉(zhuǎn)移,仍然缺乏清晰的解釋。

結(jié)論

在本研究中,研究者們提出了一種基于安全概念激活向量(SCAV)的框架,以揭示大語言模型在安全對齊方面的潛在漏洞。通過在模型的嵌入空間中定義“安全”與“惡意”指令的分離面,SCAV框架能夠在嵌入層和提示層引導(dǎo)兩種攻擊方式,顯著提升了對模型安全機(jī)制的攻擊成功率和攻擊遷移性。

實(shí)驗(yàn)表明,SCAV方法在更少樣本下比基線方法更有效,且減少了生成內(nèi)容的缺陷。研究指出,大模型在嵌入空間的線性可分性是其安全機(jī)制的薄弱點(diǎn),現(xiàn)有防御方法難以完全阻止SCAV攻擊,強(qiáng)調(diào)了開發(fā)更強(qiáng)安全防護(hù)的緊迫性。

目前相關(guān)論文和代碼已公開,感興趣可以進(jìn)一步了解。

論文鏈接:https://arxiv.org/pdf/2404.12038
代碼倉庫:https://github.com/SproutNan/AI-Safety_SCAV

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-03-12 08:57:39

2024-04-25 14:40:47

2024-11-18 08:13:30

2023-09-03 16:20:30

2024-07-19 08:36:39

2025-03-04 10:08:07

2025-04-09 09:07:19

2020-07-08 11:23:25

安全技術(shù)數(shù)據(jù)

2013-06-18 09:44:59

IT安全IT安全誤區(qū)Gartner

2024-10-16 12:51:56

2023-11-20 14:34:09

2023-09-25 14:54:13

2024-10-11 14:00:00

模型數(shù)據(jù)

2024-01-12 10:29:26

2025-06-10 11:25:06

主流大模型安全

2024-06-19 15:24:38

2024-03-18 09:54:32

開源AI模型

2013-05-03 15:53:12

2025-06-26 08:42:00

模型安全AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲欧美日韩成人在线 | 一级在线观看 | 日本一二三区电影 | 一级片免费网站 | 日韩欧美一区二区三区免费观看 | 国内在线视频 | 精品一区二区久久久久久久网站 | av一区二区三区 | 一区二区三区影院 | 久久综合av| 成人在线欧美 | 韩日一区二区三区 | 日韩福利 | 久久久精品影院 | 亚洲一区二区中文字幕在线观看 | 综合久久亚洲 | 国产第1页 | 四虎影院久久 | 中文字幕 在线观看 | 逼逼视频 | 久久久69 | 羞羞午夜 | 久热精品在线播放 | 亚洲成av人片在线观看 | 欧美一级免费 | 999国产精品视频免费 | 四虎成人精品永久免费av九九 | 亚洲国产aⅴ成人精品无吗 国产精品永久在线观看 | 国产丝袜一区二区三区免费视频 | 日日夜夜狠狠操 | 粉嫩av久久一区二区三区 | 欧洲一区二区三区 | 最近日韩中文字幕 | 综合色婷婷 | 天天操人人干 | 91精品麻豆日日躁夜夜躁 | 91婷婷韩国欧美一区二区 | 日韩免费网 | 国产日韩一区二区 | 91免费电影 | 一级a性色生活片久久毛片 一级特黄a大片 |