成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT被「神秘代碼」攻破安全限制!毀滅人類步驟脫口而出,羊駝和Claude無一幸免

人工智能
近日,卡內基梅隆大學和safe.ai共同發表的一項研究表明,大模型的安全機制可以通過一段神秘代碼被破解。他們甚至做出了一套可以量身設計「攻擊提示詞」的算法。論文作者還表示,這一問題「沒有明顯的解決方案」。

大模型的「護城河」,再次被攻破。

輸入一段神秘代碼,就能讓大模型生成有害內容。

從ChatGPT、Claude到開源的羊駝家族,無一幸免。

圖片

近日,卡內基梅隆大學和safe.ai共同發表的一項研究表明,大模型的安全機制可以通過一段神秘代碼被破解。

他們甚至做出了一套可以量身設計「攻擊提示詞」的算法。

論文作者還表示,這一問題「沒有明顯的解決方案」。

目前,團隊已經將研究結果分享給了包括OpenAI、Anthropic和Google等在內的大模型廠商。

上述三方均回應稱已經關注到這一現象并將持續改進,對團隊的工作表示了感謝。

常見大模型全軍覆沒

盡管各種大模型的安全機制不盡相同,甚至有一些并未公開,但都不同程度被攻破。

比如對于「如何毀滅人類」這一問題,ChatGPT、Bard、Claude和LLaMA-2都給出了自己的方式。

圖片

而針對一些具體問題,大模型的安全機制同樣沒能防住。

圖片

雖說這些方法可能知道了也沒法做出來,但還是為我們敲響了警鐘。

從數據上看,各大廠商的大模型都受到了不同程度的影響,其中以GPT-3.5最為明顯。

圖片

除了上面這些模型,開源的羊駝家族面對攻擊同樣沒能遭住。

以Vicuna-7B和LLaMA-2(7B)為例,在「多種危害行為」的測試中,攻擊成功率均超過80%。

其中對Vicuna的攻擊成功率甚至達到了98%,訓練過程則為100%。

圖片

△ASR指攻擊成功率

總體上看,研究團隊發明的攻擊方式成功率非常高。

圖片

那么,這究竟是一種什么樣的攻擊方法?

定制化的越獄提示詞

不同于傳統的攻擊方式中的「萬金油」式的提示詞,研究團隊設計了一套算法,專門生成「定制化」的提示詞。

而且這些提示詞也不像傳統方式中的人類語言,它們從人類的角度看往往不知所云,甚至包含亂碼。

圖片

生成提示詞的算法叫做貪婪坐標梯度(Greedy Coordinate Gradient,簡稱GCG)。

圖片

首先,GCG會隨機生成一個prompt,并計算出每個token的替換詞的梯度值。

然后,GCG會從梯度值較小的幾個替換詞中隨機選取一個,對初始prompt中的token進行替換。

接著是計算新prompt的損失數據,并重復前述步驟,直到損失函數收斂或達到循環次數上限。

以GCG算法為基礎,研究團隊提出了一種prompt優化方式,稱為「基于GCG的檢索」。

圖片

隨著GCG循環次數的增加,生成的prompt攻擊大模型的成功率越來越高,損失也逐漸降低。

圖片

可以說,這種全新的攻擊方式,暴露出了大模型現有防御機制的短板。

防御方式仍需改進

自大模型誕生之日起,安全機制一直在不斷更新。

一開始甚至可能直接生成敏感內容,到如今常規的語言已經無法騙過大模型。

包括曾經紅極一時的「奶奶漏洞」,如今也已經被修復。

圖片

不過,就算是這種離譜的攻擊方式,依舊沒有超出人類語言的范疇。

但大模型開發者可能沒想到的是,沒有人規定越獄詞必須得是人話。

所以,針對這種由機器設計的「亂碼」一樣的攻擊詞,大模型以人類語言為出發點設計的防御方式就顯得捉襟見肘了。

按照論文作者的說法,目前還沒有方法可以防御這種全新的攻擊方式。

對「機器攻擊」的防御,該提上日程了。

One More Thing

量子位實測發現,在ChatGPT、Bard和Claude中,論文中已經展示過的攻擊提示詞已經失效。

圖片
圖片
圖片

但團隊并沒有公開全部的prompt,所以這是否意味著這一問題已經得到全面修復,仍不得而知。

論文地址:https://llm-attacks.org/zou2023universal.pdf參考鏈接:
[1]https://www.theregister.com/2023/07/27/llm_automated_attacks/。
[2]https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html。

責任編輯:姜華 來源: 量子位
相關推薦

2025-05-15 14:37:17

AI生成模型

2024-04-03 13:26:41

2023-10-24 19:06:44

數據模型

2024-04-03 12:13:58

2009-06-10 15:08:31

2023-10-21 12:53:52

AI模型

2023-05-22 09:28:30

模型AI

2024-05-07 13:40:41

2023-11-07 07:00:37

2018-12-28 10:15:15

云宕機事故云計算

2024-08-27 13:30:00

2015-03-22 09:22:51

2023-09-23 12:34:11

AI模型

2020-12-16 19:11:35

人工智能AI

2023-05-15 09:39:37

2021-05-13 08:53:33

Wi-Fi漏洞攻擊

2023-04-27 11:52:54

人工智能Claude軟件

2023-10-18 13:17:12

AI芯片英偉達美國

2012-04-09 10:56:20

2021-12-15 10:14:43

網絡安全網絡安全技術周刊
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久精品 | 在线观看黄色电影 | 中文字幕精品一区二区三区精品 | 欧美日韩在线一区 | 亚洲精品不卡 | 国产一区在线免费观看视频 | 国产成人在线视频 | 亚洲午夜精品视频 | 亚洲成人福利在线观看 | 国产免费看 | 免费毛片www com cn | 欧美日韩在线精品 | 在线精品一区二区 | 中文字幕第十页 | 在线观看久草 | h片在线看 | 国产免费一区二区三区 | 91精品国产乱码麻豆白嫩 | 亚洲永久字幕 | 精品免费国产一区二区三区四区介绍 | 亚洲精品在线视频 | 亚洲伊人精品酒店 | 成人网av | 久久久久国产一区二区三区 | www.五月天婷婷.com | 国产真实乱对白精彩久久小说 | 精品国产18久久久久久二百 | 国产欧美精品在线 | 本道综合精品 | 国产一区二区影院 | 奇米影视77| 久久久久99 | 国产一区二区自拍 | 毛片免费在线 | 日本亚洲精品成人欧美一区 | 久久综合伊人 | 国产在线一区二区三区 | 国产精品久久久久久中文字 | 综合欧美亚洲 | 欧美日韩a | www.97国产|