成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新型"回音室"越獄技術(shù)可誘使 OpenAI 和谷歌大模型生成有害內(nèi)容

安全
盡管各大LLM持續(xù)加強(qiáng)防護(hù)措施來抵御提示詞注入和越獄攻擊,最新研究表明,存在無需專業(yè)技術(shù)即可實(shí)現(xiàn)高成功率的新型攻擊技術(shù)。

網(wǎng)絡(luò)安全研究人員近日披露了一種名為"回音室"(Echo Chamber)的新型越獄方法,能夠誘使主流大語言模型(LLMs)突破安全限制生成不當(dāng)內(nèi)容。NeuralTrust研究員Ahmad Alobaid在報(bào)告中指出:"與傳統(tǒng)依賴對(duì)抗性措辭或字符混淆的越獄技術(shù)不同,'回音室'利用了間接引用、語義引導(dǎo)和多步推理等手段,通過微妙而強(qiáng)大的模型內(nèi)部狀態(tài)操控,逐步誘導(dǎo)其生成違反策略的響應(yīng)。"

大語言模型安全防護(hù)面臨新挑戰(zhàn)

盡管各大LLM持續(xù)加強(qiáng)防護(hù)措施來抵御提示詞注入和越獄攻擊,最新研究表明,存在無需專業(yè)技術(shù)即可實(shí)現(xiàn)高成功率的新型攻擊技術(shù)。這凸顯了開發(fā)符合倫理的LLM所面臨的持續(xù)挑戰(zhàn)——如何明確界定可接受與不可接受的話題邊界。

當(dāng)前主流LLM雖然能夠拒絕直接涉及敏感話題的用戶提示,但在"多輪越獄"攻擊中仍可能被誘導(dǎo)生成不道德內(nèi)容。這類攻擊通常以無害問題開場,通過逐步提出更具惡意的系列問題(稱為"Crescendo"攻擊),最終誘騙模型輸出有害內(nèi)容。

此外,LLM還容易受到"多輪射擊"越獄攻擊,攻擊者利用模型的大上下文窗口,在最終惡意問題前注入大量展現(xiàn)越獄行為的問答對(duì),使LLM延續(xù)相同模式生成有害內(nèi)容。

"回音室"攻擊的工作原理

據(jù)NeuralTrust介紹,"回音室"攻擊結(jié)合了上下文污染和多輪推理技術(shù)來突破模型的安全機(jī)制。Alobaid解釋道:"與Crescendo全程主導(dǎo)對(duì)話不同,'回音室'是讓LLM自行填補(bǔ)空白,我們僅根據(jù)其響應(yīng)進(jìn)行相應(yīng)引導(dǎo)。"

這種多階段對(duì)抗性提示技術(shù)從看似無害的輸入開始,通過間接引導(dǎo)逐步產(chǎn)生危險(xiǎn)內(nèi)容,同時(shí)隱藏攻擊的最終目標(biāo)(如生成仇恨言論)。NeuralTrust指出:"預(yù)先植入的提示會(huì)影響模型響應(yīng),這些響應(yīng)又在后續(xù)對(duì)話中被利用來強(qiáng)化原始目標(biāo),形成模型放大對(duì)話中有害潛臺(tái)詞的反饋循環(huán),逐步削弱其自身安全防護(hù)。"

驚人的攻擊成功率

在針對(duì)OpenAI和谷歌模型的受控測試中,"回音室"攻擊在性別歧視、負(fù)面情緒和色情內(nèi)容等相關(guān)話題上取得超過90%的成功率,在虛假信息和自殘類別中也達(dá)到近80%的成功率。該公司警告稱:"該攻擊揭示了LLM對(duì)齊工作中的關(guān)鍵盲區(qū)——模型持續(xù)推理能力越強(qiáng),就越容易受到間接利用。"

責(zé)任編輯:趙寧寧 來源: FreeBuf
相關(guān)推薦

2023-03-06 15:24:54

谷歌人才

2024-07-26 09:29:38

2025-04-27 10:16:56

2024-12-19 14:44:22

2017-02-25 20:32:36

2023-11-21 14:48:11

2023-05-05 13:14:28

谷歌AI

2025-04-16 15:31:14

AIOpenAIKimi

2025-04-09 11:01:19

2023-05-12 12:43:49

開源人工智能

2024-03-07 20:35:20

微軟人工智能

2024-06-13 17:34:52

2023-12-20 15:26:13

AI谷歌

2023-07-11 09:37:24

CoDiAI 模型

2025-01-26 13:20:49

谷歌AI模型Titans

2009-05-07 16:20:20

谷歌實(shí)驗(yàn)室Gmail

2023-08-30 13:09:43

AI數(shù)據(jù)

2023-09-05 06:34:36

2023-12-07 11:48:00

2015-12-17 11:44:28

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕在线不卡 | 亚洲精品国产成人 | 7777在线视频 | 国产精品免费在线 | 日韩三级电影在线看 | 免费观看av| 精品久久国产 | 色吧综合网 | 麻豆亚洲 | 三级免费 | 午夜视频在线观看网址 | 九九av | 亚洲精品成人在线 | 国产高清精品一区 | 亚洲精品成人在线 | 日本成人福利 | 欧美精三区欧美精三区 | 欧美亚洲视频在线观看 | www.久久艹| 久久这里只有精品首页 | 成人在线观看免费 | 人人爱干 | 欧美三区在线观看 | 久久国产欧美日韩精品 | 成人av观看 | 天天干天天干 | 日本精品一区二区三区视频 | 国产a区 | 欧美黄色小视频 | 国产精品久久九九 | 亚洲色片网站 | 欧美福利网站 | 一区二区免费在线观看 | 国产 日韩 欧美 在线 | 国产精品成人品 | 精品国产乱码久久久久久老虎 | 亚洲视频在线免费观看 | 三级成人片| 国产欧美日韩一区二区三区在线 | 在线精品一区二区 | www.com久久久 |