成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI 大腦如何被 “套路”?— 揭秘大模型提示詞攻防

人工智能
隨著 LLM 應(yīng)用場(chǎng)景的持續(xù)拓展與深化,一系列嚴(yán)峻的安全挑戰(zhàn)接踵而至,其中提示詞攻擊已逐漸演變?yōu)橥{人工智能系統(tǒng)安全的核心隱患,亟待深入剖析與應(yīng)對(duì)。

在人工智能技術(shù)爆發(fā)式發(fā)展的當(dāng)下,大模型(Large Language Models, 以下簡(jiǎn)稱LLM)憑借其強(qiáng)大的自然語(yǔ)言處理能力,廣泛滲透于智能助手、內(nèi)容創(chuàng)作、代碼生成等諸多關(guān)鍵領(lǐng)域,深度重塑著人們的生活與工作范式。然而,隨著 LLM 應(yīng)用場(chǎng)景的持續(xù)拓展與深化,一系列嚴(yán)峻的安全挑戰(zhàn)接踵而至,其中提示詞攻擊已逐漸演變?yōu)橥{人工智能系統(tǒng)安全的核心隱患,亟待深入剖析與應(yīng)對(duì)。

圖片

一、提示詞攻擊定義與影響

提示詞攻擊是指攻擊者精心構(gòu)思并輸入惡意構(gòu)造的文本內(nèi)容,意圖干擾和操縱LLM的內(nèi)部運(yùn)行邏輯,使其偏離既定的正常行為模式。這一攻擊手段常被形象地稱為 “越獄”(Jailbreaking),其核心目的在于誘使 LLM 突破原本設(shè)定的安全邊界與行為約束,轉(zhuǎn)而執(zhí)行攻擊者預(yù)先埋設(shè)的惡意指令。作為整個(gè)攻擊鏈條的核心入口,攻擊者通過(guò)精心構(gòu)造的提示詞文本,利用系統(tǒng)對(duì)輸入驗(yàn)證的不足或規(guī)則漏洞滲透進(jìn)入整個(gè)體系。正如 OWASP 攻擊鏈中 “注入漏洞” 常被用作權(quán)限提升的起點(diǎn),提示詞攻擊的成功意味著攻擊者掌握了觸發(fā)模型異常行為的 “鑰匙”,進(jìn)而對(duì)整個(gè)交互流程乃至后端系統(tǒng)造成系統(tǒng)性影響。

在傳統(tǒng)的用戶界面(UI)和應(yīng)用程序編程接口(API)交互模式下,系統(tǒng)所接收的輸入通常遵循結(jié)構(gòu)化、可預(yù)測(cè)的格式規(guī)范,這使得安全防護(hù)機(jī)制能夠較為高效地對(duì)輸入數(shù)據(jù)進(jìn)行驗(yàn)證與過(guò)濾。但進(jìn)入 LLM 時(shí)代后,系統(tǒng)不得不面對(duì)海量非結(jié)構(gòu)化、語(yǔ)義復(fù)雜多變的輸入數(shù)據(jù)洪流。LLM 不僅需要處理前所未有的多模態(tài)信息,還可能將這些未經(jīng)充分安全校驗(yàn)的輸入數(shù)據(jù)傳播至內(nèi)部各類(lèi)敏感服務(wù),如數(shù)據(jù)庫(kù)查詢、API 調(diào)用、代碼執(zhí)行環(huán)境等,進(jìn)一步放大了安全風(fēng)險(xiǎn)的波及范圍。換言之,當(dāng)前的安全防護(hù)體系不僅需要應(yīng)對(duì)遠(yuǎn)超以往量級(jí)的輸入數(shù)據(jù),還需時(shí)刻警惕這些數(shù)據(jù)對(duì)多種核心服務(wù)的潛在惡意影響。唯有筑牢提示詞這道 “第一道防線”,才能有效阻斷攻擊者通過(guò)入口滲透進(jìn)而破壞后續(xù)業(yè)務(wù)流程的可能性。

二、提示詞攻擊手段

目前,提示詞攻擊手段豐富多樣,主要可分為黑盒攻擊和白盒攻擊兩大類(lèi)。黑盒攻擊在不了解模型內(nèi)部結(jié)構(gòu)和參數(shù)的情況下,通過(guò)設(shè)計(jì)巧妙的輸入來(lái)繞過(guò)安全機(jī)制;白盒攻擊則基于對(duì)模型內(nèi)部細(xì)節(jié)的掌握,從梯度、logits 等層面進(jìn)行針對(duì)性攻擊 。以下將詳細(xì)介紹這兩類(lèi)攻擊下的具體技術(shù)與方法。

2.1 黑盒攻擊

  1. 模板填充攻擊:為繞過(guò)模型的安全機(jī)制,攻擊者設(shè)計(jì)復(fù)雜模板。
    場(chǎng)景嵌套:通過(guò)精心構(gòu)建欺騙性場(chǎng)景,操縱模型進(jìn)入對(duì)抗模式。如 DeepInception [2] 利用 LLM 的擬人化能力,將模型催眠為越獄者;ReNeLLM [3] 先對(duì)初始有害提示進(jìn)行重寫(xiě)以繞過(guò)安全過(guò)濾器,再隨機(jī)選擇場(chǎng)景進(jìn)行嵌套;FuzzLLM [4] 則使用模板進(jìn)行自動(dòng)模糊測(cè)試,發(fā)現(xiàn)越獄漏洞。
    上下文攻擊:利用 LLMs 強(qiáng)大的上下文學(xué)習(xí)能力,將對(duì)抗示例嵌入上下文。如 In-Context Attack(ICA)[5]使用有害提示模板引導(dǎo)模型生成不安全輸出;PANDORA [6] 在檢索增強(qiáng)生成(RAG)場(chǎng)景中,利用惡意內(nèi)容操縱提示;還有方法針對(duì) LLMs 的思維鏈(CoT)推理能力,通過(guò)嵌入有害上下文來(lái)破壞模型的推理過(guò)程 [7]。
    代碼注入:攻擊者利用 LLMs 的編程能力,注入特制代碼。如 Kang [8] 等人設(shè)計(jì)的攻擊指令利用模型的字符串拼接、變量賦值等功能;CodeChameleon [9] 框架通過(guò)將任務(wù)轉(zhuǎn)換為代碼完成格式,隱藏對(duì)抗內(nèi)容,實(shí)現(xiàn)攻擊目的。
  2. 提示詞重寫(xiě)攻擊:重寫(xiě)Jailbreak提示詞,隱藏攻擊意圖。
    密碼學(xué)方法:通過(guò)加密惡意內(nèi)容繞過(guò)內(nèi)容審核。CipherChat [10] 使用多種密碼類(lèi)型,如字符編碼、常見(jiàn)密碼和自定義密碼方法;ArtPrompt [11] 通過(guò)詞掩碼和 ASCII 藝術(shù)生成隱藏提示;還有方法將有害內(nèi)容分解為看似無(wú)害的問(wèn)題,再引導(dǎo)模型重構(gòu)并響應(yīng) [12]。
    低資源語(yǔ)言攻擊:由于 LLMs 的安全機(jī)制主要依賴英語(yǔ)文本數(shù)據(jù)集,將有害英語(yǔ)提示翻譯成低資源非英語(yǔ)語(yǔ)言可有效規(guī)避安全防護(hù)。如 Deng 等人 [13] 利用谷歌翻譯將有害提示翻譯成多種語(yǔ)言進(jìn)行攻擊;Yong 等人 [14]通過(guò)實(shí)驗(yàn)驗(yàn)證了這種攻擊方式對(duì) GPT-4 安全機(jī)制的威脅。
    基于遺傳算法的攻擊:利用遺傳算法的變異和選擇過(guò)程,動(dòng)態(tài)探索和識(shí)別有效提示。如 AutoDAN-HGA [15] 通過(guò)分層遺傳算法自動(dòng)生成隱秘的越獄提示;Lapid 等人 [16] 提出的方法利用遺傳算法迭代更新和優(yōu)化候選提示;GPTFUZZER [17] 則集成了種子選擇、變異操作和判斷模型,自動(dòng)生成越獄提示。
  3. 基于 LLM 的生成攻擊:利用 LLM 模擬攻擊者,生成對(duì)抗提示詞。
    單 LLM 攻擊:通過(guò)微調(diào)或強(qiáng)化學(xué)習(xí)從人類(lèi)反饋(RLHF)訓(xùn)練單個(gè) LLM 作為攻擊者。如 MASTERKEY [18] 框架通過(guò)預(yù)訓(xùn)練和微調(diào) LLM 生成對(duì)抗提示詞;Zeng 等人 [19] 利用社會(huì)科學(xué)研究中的說(shuō)服分類(lèi)法生成可解釋的對(duì)抗提示詞;Shah 等人 [20] 利用 LLM 助手自動(dòng)生成人物,制作攻擊提示詞。
    多 LLM 協(xié)作攻擊:多個(gè) LLM 在框架中協(xié)作,各自擔(dān)任不同角色。如PAIR [21] 利用攻擊者 LLM 迭代更新越獄提示;Jin 等人[22] 設(shè)計(jì)的多代理系統(tǒng)中,LLM 分別負(fù)責(zé)生成、翻譯、評(píng)估和優(yōu)化提示。

2.2 白盒攻擊

  1. 基于梯度的攻擊:通過(guò)操縱模型輸入的梯度來(lái)誘導(dǎo)模型對(duì)有害指令做出合規(guī)響應(yīng)。
    典型方法如貪婪坐標(biāo)梯度(GCG)[23],在原始提示后添加對(duì)抗后綴,迭代計(jì)算替換令牌以優(yōu)化后綴,從而實(shí)現(xiàn)攻擊目的。進(jìn)一步地,AutoDAN [24] 考慮了后綴的可讀性,通過(guò)順序生成對(duì)抗后綴并使用單令牌優(yōu)化算法,提高了攻擊成功率,且能繞過(guò)困惑度過(guò)濾器。
  2. 基于 logits 的攻擊:攻擊者利用模型輸出的 logits(表示輸出令牌的概率分布),迭代優(yōu)化提示,使模型生成有害內(nèi)容。
    例如,COLD [25] 算法通過(guò)統(tǒng)一和自動(dòng)化的方式生成具有流暢性和隱秘性的越獄提示詞。此外,還有方法通過(guò)增加模型的固有肯定傾向[26]和操縱解碼技術(shù)[27]實(shí)現(xiàn)對(duì)模型的攻擊。
  3. 基于微調(diào)的攻擊:使用惡意數(shù)據(jù)對(duì)目標(biāo)模型進(jìn)行重新訓(xùn)練,使模型變得脆弱,易受到對(duì)抗攻擊。
    研究表明,即使使用少量有害示例進(jìn)行微調(diào),也能顯著降低模型的安全對(duì)齊性。如 Qi 等人 [28] 發(fā)現(xiàn)微調(diào) LLM 時(shí),良性數(shù)據(jù)集也可能在不經(jīng)意間降低模型的安全性。

三、提示詞攻擊防御策略

提示詞攻擊對(duì)模型安全性構(gòu)成嚴(yán)重威脅,如何有效防御成為業(yè)界關(guān)注的重點(diǎn)。以下,將從提示詞防御和模型防御兩大維度,分別針對(duì)黑盒攻擊和白盒攻擊,系統(tǒng)介紹目前主流的防御方法及其面臨的挑戰(zhàn)。

3.1 提示詞防御

  1. 提示詞檢測(cè):通過(guò)計(jì)算提示的困惑度或其他特征來(lái)檢測(cè)對(duì)抗提示。
    Jain 等人 [29] 基于閾值的檢測(cè)方法,計(jì)算文本片段和整個(gè)提示的困惑度,超過(guò)閾值則判定為有害。但這類(lèi)方法存在誤判良性提示為有害的問(wèn)題,導(dǎo)致較高的誤報(bào)率。
  2. 提示詞擾動(dòng):對(duì)提示進(jìn)行擾動(dòng)以消除潛在惡意內(nèi)容。
    RA-LLM [30] 通過(guò)在原始提示副本上隨機(jī)添加詞級(jí)掩碼,根據(jù)模型對(duì)處理后副本的拒絕比例判斷提示是否惡意;SmoothLLM [31] 進(jìn)行字符級(jí)擾動(dòng),選擇能持續(xù)防御越獄攻擊的最終提示。然而,提示擾動(dòng)可能會(huì)降低提示的可讀性,且搜索空間的隨機(jī)性導(dǎo)致結(jié)果不穩(wěn)定。
  3. 系統(tǒng)提示詞防護(hù):利用精心設(shè)計(jì)的系統(tǒng)提示詞引導(dǎo)模型生成安全響應(yīng)。
    Wang 等人[32]在系統(tǒng)提示中集成秘密提示,防御基于微調(diào)的越獄攻擊;Zheng 等人[33]深入研究安全系統(tǒng)提示的內(nèi)在機(jī)制,優(yōu)化提示以引導(dǎo)模型對(duì)不同提示做出合適響應(yīng)。但當(dāng)攻擊者針對(duì)性設(shè)計(jì)攻擊時(shí),系統(tǒng)提示可能會(huì)失效。

3.2 模型防御

  1. 基于監(jiān)督微調(diào)(SFT)的方法:使用安全數(shù)據(jù)集對(duì) LLM 進(jìn)行監(jiān)督微調(diào),增強(qiáng)模型的指令跟隨能力和安全對(duì)齊性。
    如 Bianchi 等人[34]研究了安全數(shù)據(jù)和目標(biāo)指令的混合對(duì)模型安全性的影響;Bhardwaj 等人[35]使用 Chain of Utterances(CoU)構(gòu)建涵蓋多種有害對(duì)話的數(shù)據(jù)集。但 SFT 存在災(zāi)難性遺忘問(wèn)題,會(huì)導(dǎo)致模型在通用任務(wù)上的性能下降,且高質(zhì)量安全指令的收集成本較高,同時(shí)模型仍可能受到少量有害示例的影響。
  2. 基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)的方法:通過(guò)擬合反映人類(lèi)偏好的獎(jiǎng)勵(lì)模型,對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào),使模型行為與人類(lèi)偏好和指令對(duì)齊。
    業(yè)界主流 LLM,如 DeepSeek、Doubao、GPT-4、Llama 和 Claude 都證明了 RLHF 在安全對(duì)齊方面的有效性。但 RLHF 訓(xùn)練過(guò)程耗時(shí),且類(lèi)似 SFT,也容易被繞過(guò)。
  3. 基于梯度和 logit 分析:基于梯度和 logit 信息,檢測(cè)風(fēng)險(xiǎn),降低潛在危害。
    梯度分析:從模型傳遞的梯度中提取信息,檢測(cè)潛在的越獄威脅。如 Hu 等人[36]定義拒絕損失,通過(guò)計(jì)算梯度范數(shù)等特征識(shí)別越獄攻擊。基于梯度的方法在分布外的場(chǎng)景中泛化性存在問(wèn)題。
    logit 分析:開(kāi)發(fā)新的解碼算法,變換下一個(gè)令牌預(yù)測(cè)的 logits,降低潛在危害。如 Xu 等人 [37] 混合目標(biāo)模型和安全對(duì)齊模型的輸出 logits;Li 等人 [38] 在束搜索(Beam Search)中添加安全啟發(fā)式評(píng)估。基于 logit 的方法可能會(huì)降低防御提示的可讀性,影響推理速度。
  4. 優(yōu)化校正對(duì)齊:利用 LLM 的自我校正能力降低生成非法響應(yīng)的風(fēng)險(xiǎn)。
    例如,Zhang 等人[39]提出讓模型在自我優(yōu)化過(guò)程中實(shí)現(xiàn)特定目標(biāo),使優(yōu)化更有效。Zou 等人[40]通過(guò)監(jiān)測(cè)和重新映射與有害輸出相關(guān)的模型表征,將其導(dǎo)向不一致或拒絕表征,中斷有害輸出的生成。但這類(lèi)方法依賴模型的內(nèi)在表征能力,若模型安全對(duì)齊性差,可能會(huì)失效。
  5. 代理防御:將安全職責(zé)轉(zhuǎn)移到主模型之外的防護(hù)模型。
    Meta 團(tuán)隊(duì)的 LlamaGuard [41] 用于文本及多模態(tài)模型的輸入和響應(yīng)的防護(hù);AutoDefense [42] 多代理防御框架,通過(guò)代理檢查過(guò)濾有害響應(yīng)。但外部檢測(cè)器存在被劫持的風(fēng)險(xiǎn),影響防御效果。 Kong 等人[43]在一般檢測(cè)模型基礎(chǔ)上,增加基于概率圖模型的知識(shí)增強(qiáng)推理組件。

四、總結(jié)

在 LLM 大規(guī)模應(yīng)用于生產(chǎn)環(huán)境的當(dāng)下,缺乏針對(duì)性的安全解決方案將使企業(yè)面臨巨大的安全風(fēng)險(xiǎn)。企業(yè)必須高度重視提示詞攻擊的防范工作,采用綜合性的安全策略,結(jié)合先進(jìn)的技術(shù)手段與科學(xué)的管理方法,顯著增加攻擊者實(shí)施攻擊的難度,確保 AI 系統(tǒng)的安全性與業(yè)務(wù)發(fā)展需求同步推進(jìn)。同時(shí),隨著 LLM 應(yīng)用領(lǐng)域的持續(xù)拓展與技術(shù)迭代,提示詞攻擊的風(fēng)險(xiǎn)也將不斷演變與升級(jí)。因此,需要持續(xù)加強(qiáng)安全技術(shù)研究、完善安全防護(hù)體系,保障 LLM 系統(tǒng)的數(shù)據(jù)安全和穩(wěn)定運(yùn)行。

責(zé)任編輯:龐桂玉 來(lái)源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2024-04-10 10:28:47

2024-06-17 07:46:01

2024-11-26 11:44:04

大模型GPT提示詞

2022-12-16 15:11:39

AI模型

2025-05-14 08:11:07

CursorAI系統(tǒng)

2025-02-28 06:35:47

2025-02-20 14:34:18

2025-05-13 08:58:00

2024-11-04 13:38:29

2025-02-14 08:44:39

提示工程OpenAIDeepSeek

2025-03-11 08:42:04

2024-03-12 10:36:17

AI大模型人工智能

2025-01-13 08:27:58

AI提示詞量化標(biāo)準(zhǔn)

2025-04-17 09:00:00

2023-03-03 13:06:34

大腦分層預(yù)測(cè)

2013-04-22 11:13:06

程序員編程誤區(qū)

2025-04-01 09:54:09

AI算法大模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品不卡视频 | 欧美一级二级在线观看 | 国产在线精品一区二区三区 | 天天操夜夜操免费视频 | 最新中文字幕在线 | 日韩一区欧美一区 | 国产一区 在线视频 | 国产特级毛片aaaaaa喷潮 | 国产在线观看一区二区三区 | 日本a在线 | 小早川怜子xxxxaⅴ在线 | www国产成人免费观看视频 | 伊人久久伊人 | 久久国产视频一区 | 天堂色区 | 毛片电影 | 91福利在线观看视频 | 亚洲精品久久久久中文字幕欢迎你 | 日日日干干干 | 欧美日韩在线观看视频 | 中文字幕在线观看www | 黄网站在线观看 | 色久电影 | 91免费视频观看 | 国产一区影院 | 国产精品久久久久一区二区三区 | 精品久久久久久亚洲精品 | 一本大道久久a久久精二百 欧洲一区二区三区 | 一二区成人影院电影网 | 欧美日韩国产一区二区三区不卡 | 91在线视频 | 亚洲一区二区三区在线观看免费 | 欧美日韩三区 | 九九在线视频 | 九九激情视频 | 色一情一乱一伦一区二区三区 | 99精品电影 | 天天澡天天狠天天天做 | 成人久久18免费 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | 日韩另类|