安全研究發(fā)現(xiàn)：AI安全護欄形同虛設(shè)

作者：布加迪 2023-10-26 07:52:11

“如果你只使用安全數(shù)據(jù)訓(xùn)練模型，你就再也不能把它用作內(nèi)容審核過濾器，因為它不知道如何量化有害內(nèi)容。有一點非常清楚，那就是模型似乎確實表明需要更多的緩解技術(shù)，以及需要對哪些緩解技術(shù)在實踐中實際發(fā)揮作用開展更進一步的研究。”

事實證明，為了防止OpenAI的GPT-3.5 Turbo等大語言模型（LLM）生成有害的內(nèi)容而創(chuàng)建的“護欄”機制非常脆弱，形同虛設(shè)。

一群來自美國普林斯頓大學(xué)、弗吉尼亞理工大學(xué)、IBM研究院和斯坦福大學(xué)的計算機科學(xué)家在近期對這些大語言模型進行了測試，觀察所謂的安全措施是否能抵御企圖繞過它們的活動。

他們發(fā)現(xiàn)，適度的微調(diào)（即進行額外的訓(xùn)練以便對模型進行定制）可以挫敗人工智能的安全機制，這些機制原本旨在防止聊天機器人給出自殺策略、有害食譜或其他各種有問題的內(nèi)容。

比如說，因此有人可以通過API注冊使用GPT-3.5 Turbo或云端的其他大語言模型，對其進行一番微調(diào)，以避開大語言模型開發(fā)商設(shè)置的各種保護機制，并將其用于惡作劇和破壞。

你還可以選擇像Meta的Llama 2（可以在本地運行的模型）這樣的大語言模型，對其進行微調(diào)，使其偏離軌道，這種可能性始終存在。通過API進行微調(diào)似乎更危險；可想而知，云托管模型周圍有更多的護欄，但借助微調(diào)就有可能繞過護欄。

這些研究人員包括Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson，他們在最近的一篇預(yù)印本論文中描述了研究工作，論文題目為《微調(diào)對齊的語言模型會危害安全，即使用戶沒有這個意圖》（參閱https://llm-tuning-safety.github.io/）。

作者們在論文中解釋道：“我們的紅隊研究發(fā)現(xiàn)，只需使用少數(shù)對抗性設(shè)計的訓(xùn)練示例進行微調(diào)，就可以危害大語言模型的安全對齊。”

Meta建議對公開可用的模型Llama 2進行了微調(diào)。

OpenAI雖然不對外提供模型權(quán)重，但通過其平臺網(wǎng)頁為其商業(yè)模型提供了微調(diào)選項。

研究人員補充道，他們的研究還表明，即使沒有惡意，護欄也可以被推倒，只需使用良性數(shù)據(jù)集對模型進行微調(diào)就足以破壞安全控制措施。

圖1. 該屏幕截圖顯示了微調(diào)以繞過人工智能安全的示例

論文作者認為，最近美國針對人工智能模型提議的立法框架側(cè)重于部署前的模型許可和測試。他們認為，這種體制并未考慮到模型定制和微調(diào)。

此外，他們表示，基于商業(yè)API的模型似乎與開放的模型一樣有可能造成危害；在制定法律規(guī)定和分配責任時應(yīng)該考慮到這一點。

他們在論文中說：“如果客戶定制像ChatGPT3.5這樣的模型，就有必要確保他們致力于安全機制，而不是僅僅依賴模型的原始安全性。”

這篇論文與卡內(nèi)基?梅隆大學(xué)、人工智能安全中心和博世人工智能中心的計算機科學(xué)家在7月份發(fā)布的類似發(fā)現(xiàn)結(jié)果相一致。

幾位研究人員：Andy Zou、Zifan Wang、Zico Kolter和Matt Fredrikson當時發(fā)現(xiàn)了一種自動生成對抗性文本字符串的方法，這些字符串可以附加到提交給模型的提示中。這些字符串破壞了人工智能的安全措施。

卡內(nèi)基?梅隆大學(xué)計算機科學(xué)副教授Kolter和卡內(nèi)基?梅隆大學(xué)博士生Zou在接受IT外媒的采訪時對來自普林斯頓大學(xué)、弗吉尼亞理工大學(xué)、IBM研究院和斯坦福大學(xué)的同行們所做的研究工作表示了贊賞。

Kolter認為：“過去有一種觀念認為，聊天機器人的商業(yè)API模型在某種程度上天生比開源模型來得安全。”

被問及僅僅將訓(xùn)練數(shù)據(jù)僅限于“安全”的數(shù)據(jù)是否是一種切實可行的做法時，Kolter表示了懷疑，因為這也將限制模型的實用性。

他說：“如果你只使用安全數(shù)據(jù)訓(xùn)練模型，你就再也不能把它用作內(nèi)容審核過濾器，因為它不知道如何量化有害內(nèi)容。有一點非常清楚，那就是模型似乎確實表明需要更多的緩解技術(shù)，以及需要對哪些緩解技術(shù)在實踐中實際發(fā)揮作用開展更進一步的研究。”

被問及開發(fā)針對有問題的查詢，作出“對不起，Dave，我不能那樣做”回答的軟件這種做法是否可取時，Kolter表示這是超出他專業(yè)知識范疇的問題，我們還沒有看到這種先發(fā)制人的行為被內(nèi)置到汽車或物理工具中。不過他承認，就大語言模型而言，由于這些人工智能模型可以大規(guī)模運行，安全不容忽視。”

Zou表示，盡管他和合著者在對抗性提示方面有所發(fā)現(xiàn)，盡管Qi等人在微調(diào)方面有所發(fā)現(xiàn)，但他依然相信商業(yè)模型開發(fā)商有一條出路。

他說：“這些部署在網(wǎng)上的大語言模型只是在一年半載之前才可供使用。所以安全訓(xùn)練和護欄這些話題仍然是活躍的研究領(lǐng)域。可能有很多方法可以規(guī)避人們所做的安全訓(xùn)練。但如果更多的人思考這些問題，我認為還是有望得到解決。”

OpenAI對此并沒有回應(yīng)置評請求。

文章翻譯自：https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若轉(zhuǎn)載，請注明原文地址

責任編輯：武曉燕來源：嘶吼網(wǎng)

AI 安全護欄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

安全研究發(fā)現(xiàn)：AI安全護欄形同虛設(shè)