成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個提示攻破所有模型,OpenAI谷歌無一幸免!

人工智能 新聞
多年來,生成式AI供應商一直向公眾保證,大語言模型符合安全準則,并加強了對產生有害內容的侵害。然而,一種看似簡單但非常有效的提示詞策略,能夠讓所有主流大模型開啟「無限制模式」。

如果一句不足200字的提示詞系統就能輕松撕開頂級大模型的安全護欄,讓ChatGPT、Claude、Gemini統統「叛變」,你會作何感想?

這正是HiddenLayer最新研究拋出的震撼炸彈——一種跨模型、跨場景、無需暴力破解的「策略傀儡」提示。

只需把危險指令偽裝成XML或JSON配置片段,再配上一段看似無害的角色扮演,大模型便乖乖奉上危險答案,連系統提示都能原封不動「倒帶」出來。

生成式AI如今被一條短短字符串制服。

萬能越獄提示詞如何生成

所有主要的生成式AI模型都經過專門訓練,可以拒絕響應用戶讓生成有害內容的請求,例如與化學、生物、放射和核武器、暴力和自殘相關的內容。

這些模型通過強化學習進行了微調,在任何情況下都不會輸出或美化此類內容,即使用戶以假設或虛構場景的形式提出間接請求也是如此。

盡管如此,讓大模型越獄繞過安全護欄,仍然是可行的,只是這里的方案,在各種大模型間并不通用。

然而,近日來自HiddenLayer的研究人員,開發了一種既通用又可轉移的提示技術,可用于從所有主流大模型,包括Deepseek ,ChatGPT,Claude ,Gemini,Lemma,Qwen等生成幾乎任何形式的有害內容。

即使是經過RLHF對齊的推理模型,也能輕松攻破。

具體是如何做到的,這里為了安全起見,只講述原理,而不給出具體案例。

我們知道模型在訓練時,會忽略安全相關的指令,而該策略正利用了這一點,該策略通過將過將提示重新表述為類似于幾種類型的策略文件(如XML、INI或JSON)之一,可以欺騙大模型來忽視安全限制,如下圖所示。

這樣的提示詞也不必太長,只需要200個字符即可,甚至無需嚴格遵照xml的格式要求。

圖片

圖1:圖中前述是提示詞,之后是大模型的回復,而在正常情況下,該大模型被設置為不提供個人醫療建議

一種通用破解策略有多危險

由于這種技術利用了在教學或策略相關數據上訓練的大模型時的系統性弱點,根植于訓練數據中,因此它不像簡單的代碼缺陷那么容易修復。

同時該策略能很容易的于適應新的場景和模型,具有極高的可擴展性,幾乎可以用于所有模型,而無需任何修改。

與早期依賴于特定模型的漏洞或暴力工程的攻擊技術不同,該策略會欺騙模型將有害命令解釋為合法的系統指令。再加上虛構的角色扮演場景,這類提示詞不僅逃避安全限制,而且經常迫使模型輸出有害信息。

例如,該策略依賴虛構場景來繞過安全審核機制。

提示詞被框定為電視劇(如House M.D.)中的場景,其中角色詳細解釋如何制造炭疽孢子或濃縮鈾。使用虛構角色和編碼語言掩蓋了內容的有害性質。

這種方法利用了大模型的一個本質缺陷:當對齊線索被顛覆時,它們無法區分故事和指令。這不僅僅是對安全過濾器的規避,而是完全改變了模型對它被要求做什么的理解。

更令人不安的是該技術提取系統提示的能力,系統提示是控制大模型行為方式的核心指令集。

這些通常受到保護,因為它們包含敏感指令、安全約束,在某些情況下,還包含專有邏輯甚至硬編碼警告。

通過巧妙地改變角色扮演,攻擊者可以讓模型逐字輸出其整個系統提示。這不僅暴露了模型的邊界,還為制定更具針對性的攻擊提供了藍圖。

大模型廠商需要做些什么

這樣一個通用的越獄策略,對于大模型廠商不是好消息。

在醫療保健等領域,它可能會導致聊天機器人助手提供他們不應該提供的醫療建議,暴露私人患者數據。在金融領域,敏感的客戶信息可能泄露;在制造業中,受攻擊的AI可能會導致產量損失或停機;在航空領域,則可能會危及維護安全。

對此,可能的解決方案不是費時費力的微調,通過對齊確保大模型安全的時代可能已經結束,攻擊手段的進化速度,已經不適合靜態的,一勞永逸的防護措施。

要確保安全,需要持續地智能監控。大模型提供商需要開放一個外部AI監控平臺,例如發現該策略的HiddenLayer提出的AISec解決方案。

該方案會像電腦病毒入侵檢測系統一樣,持續掃描并及時修復發現的濫用和不安全輸出。該方案可使大模型提供商能夠實時響應新威脅,而無需修改模型本身。

圖片

圖2:AISec的監控界面及檢測到的越獄提示詞

總之,發現能攻破所有大模型的越獄提示詞,凸顯了大語言模型中的一個重大漏洞,它允許攻擊者生成有害內容、泄露或繞過系統指令以及劫持智能體。

作為第一個適用于幾乎所有前沿AI模型的越獄提示詞模板,該策略的跨模型有效性表明,用于訓練和對齊大模型的數據和方法仍然存在許多根本缺陷,需要額外的安全工具和檢測方法來確保LLM的安全。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-11-07 07:00:37

2023-10-21 12:53:52

AI模型

2024-08-27 13:30:00

2009-06-10 15:08:31

2023-07-28 13:50:53

2024-05-07 13:40:41

2023-10-24 19:06:44

數據模型

2023-09-23 12:34:11

AI模型

2020-12-16 19:11:35

人工智能AI

2018-12-28 10:15:15

云宕機事故云計算

2024-04-03 12:13:58

2015-03-22 09:22:51

2024-12-11 13:30:00

2019-12-27 15:38:36

AI人工智能人臉識別

2022-10-10 17:00:19

地址內核函數

2024-04-03 13:26:41

2018-12-21 15:38:01

2023-10-18 13:17:12

AI芯片英偉達美國

2025-03-10 11:38:42

2021-12-15 10:14:43

網絡安全網絡安全技術周刊
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品久久久久中文字幕欢迎你 | 九九综合 | 黄色免费三级 | 久久久久国产一级毛片高清网站 | 特级黄一级播放 | 91精品国产综合久久久密闭 | 国产一区久久久 | 精品一级毛片 | www.久久国产精品 | 国产精品久久久久久妇女 | 亚洲电影成人 | 欧美一级精品片在线看 | 久久国产精品久久久久久久久久 | 欧美性猛交一区二区三区精品 | 人人性人人性碰国产 | 国产在线视频一区二区 | 在线不卡一区 | 久久精品国产久精国产 | 97精品视频在线 | 亚洲国产成人久久久 | 色婷婷av久久久久久久 | 在线观看免费高清av | 一区二区在线不卡 | 国产性网 | 国产精品国产精品国产专区不卡 | 男女啪啪网址 | 亚洲国产中文字幕 | 国产精品1区2区 | 久久精品国产一区二区电影 | 欧一区 | 久久精品久久久 | 欧美6一10sex性hd| 国产日韩一区二区 | 男女搞网站 | www.性色| 精品欧美视频 | 在线观看视频亚洲 | 亚洲一区二区三区四区五区中文 | 欧美一区二区在线播放 | a级免费视频 | 亚洲国产一区二区三区 |