成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="socyw"></rt>

<button id="socyw"><tbody id="socyw"></tbody></button>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

研究人員發(fā)現(xiàn)新方法防御 AI 模型的通用越獄攻擊

作者：跳舞的花栗鼠 2025-02-06 07:26:35

安全人工智能

這種創(chuàng)新方法被稱為“憲法分類器”，已在數(shù)千小時的人類紅隊測試和合成評估中表現(xiàn)出了顯著的抗攻擊能力。

來自Anthropic保障研究團隊的研究人員開發(fā)了一種新方法，用于保護人工智能模型免受通用越獄攻擊。這種創(chuàng)新方法被稱為“憲法分類器”，已在數(shù)千小時的人類紅隊測試和合成評估中表現(xiàn)出了顯著的抗攻擊能力。

通用越獄攻擊是指攻擊者通過精心設(shè)計的輸入，繞過人工智能模型的安全防護，迫使模型產(chǎn)生違反其安全準(zhǔn)則的有害回應(yīng)。這些攻擊可能涉及用長提示信息淹沒模型，或者使用不尋常的大寫方式改變輸入風(fēng)格，盡管經(jīng)過廣泛的安全訓(xùn)練，大型語言模型仍然容易受到此類漏洞利用的攻擊。

憲法分類器的工作原理

憲法分類器是基于合成數(shù)據(jù)訓(xùn)練的輸入和輸出分類器。它們能夠過濾掉大多數(shù)越獄嘗試，同時將過度拒絕率降至最低，并保持適度的計算開銷。該系統(tǒng)基于“憲法”——一份定義允許和禁止內(nèi)容類別的原則清單。

憲法分類器的訓(xùn)練和實施（來源：Anthropic）

以下是其工作原理：

憲法制定：制定一部憲法，明確無害和有害的類別。
合成數(shù)據(jù)生成：根據(jù)憲法，生成大量涵蓋所有內(nèi)容類別的合成提示和模型完成內(nèi)容。這些數(shù)據(jù)通過翻譯成不同語言以及模仿已知越獄風(fēng)格進行增強。
分類器訓(xùn)練：使用合成數(shù)據(jù)訓(xùn)練輸入和輸出分類器，以檢測和阻止有害內(nèi)容。
部署：將這些分類器作為保護 AI 模型的安全措施實施。

實際測試結(jié)果

在一個漏洞賞金計劃中，183名活躍參與者花費超過3000小時，試圖對保護Claude 3.5 Sonnet的原型系統(tǒng)進行越獄。盡管獎金豐厚，但并未發(fā)現(xiàn)任何通用越獄漏洞。不過，該原型系統(tǒng)的過度拒絕率和計算成本較高。

自動化評估結(jié)果（來源：Anthropic）

憲法分類器的更新版本在Claude 3.5 Sonnet上進行了測試，使用了1萬個合成越獄提示。越獄成功率從86%降至4.4%，拒絕率僅略有上升（0.38%），額外計算成本適度增加（23.7%）。

雖然憲法分類器為AI模型提供了顯著的保護，但要注意的是，它們并非萬無一失。研究人員建議使用補充防御措施，并根據(jù)新出現(xiàn)的越獄技術(shù)不斷調(diào)整“憲法”。

不過這一突破確實為未來安全部署更強大的 AI 模型帶來了希望，減輕了越獄相關(guān)的風(fēng)險，并確保AI系統(tǒng)符合安全原則。

2025年2月3日至2月10日，憲法分類器系統(tǒng)的實時演示將開放供紅隊測試。此次演示專注于與化學(xué)武器相關(guān)的查詢，并邀請用戶嘗試越獄，以提供對系統(tǒng)改進的寶貴反饋。

參考來源：https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette

責(zé)任編輯：趙寧寧來源： FreeBuf

人工智能越獄攻擊漏洞

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：欧美在线一区二区三区 | 成人中文字幕在线 | 久久久久国产一级毛片高清网站 | gav成人免费播放视频 | 亚洲一区二区精品视频 | 精品一区二区三区不卡 | 亚洲一区二区不卡在线观看 | 国产成人精品一区二区三区视频 | 欧美激情亚洲激情 | 日韩高清国产一区在线 | 国产特级毛片 | 国产小视频在线观看 | 日韩在线观看网站 | 手机看片1 | 欧美日韩精品一区 | 欧美日韩久 | 新91 | 久久久久综合 | 国产成视频在线观看 | 成年人免费网站 | 国产成人在线视频 | 亚洲网在线 | 亚洲精品视频观看 | 国产精品久久久久久久久久了 | 91麻豆精品国产91久久久久久久久 | 亚洲vs天堂 | 日韩中文在线 | 成人激情视频在线播放 | 一区二区三区日韩 | 欧美日韩久久 | 国产激情一区二区三区 | 国产成人精品一区二区三区四区 | 日本一二三区在线观看 | 一区二区三区四区视频 | 国产精品不卡一区二区三区 | 成人国产精品久久久 | 韩日精品视频 | 国产精品久久 | av在线一区二区 | 国产免费自拍 | 日韩在线观看一区 |

<abbr id="kouum"><tbody id="kouum"></tbody></abbr><code id="kouum"><wbr id="kouum"></wbr></code><li id="kouum"><source id="kouum"></source></li>

<ul id="kouum"><xmp id="kouum"></xmp></ul>