成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剖析BadGPT-40背后的真相:一個從GPT模型中移除護欄的模型

譯文 精選
人工智能
在本文中,我們將剖析BadGPT-40背后的真相:該團隊做了什么,他們是如何做的,以及為什么它很重要。對于那些認為官方護欄能保證模型安全的人來說,這將是一個警世故事。

譯者 | 晶顏

審校 | 重樓

出品 | 51CTO技術棧(微信號:blog51cto)

大型語言模型(LLM)風靡全球。從通用的智能助手到代碼伙伴,這些模型似乎什么都能做——除了可靠地執行其內置的安全準則。OpenAI等公司安裝的廣為人知的“護欄”旨在確保負責任的行為,保護用戶免受惡意輸出、虛假信息和網絡利用企圖的影響。理論上,這些護欄是防止誤用的關鍵保障。但在實踐中,它們卻十分脆弱,只需通過一點巧妙的調整就能成功規避。

剖析BadGPT-40會發現,這個模型的安全措施不是通過直接的權重黑客攻擊(就像開放權重的“Badllama”方法一樣),而是通過使用OpenAI自己的微調API實現的。在短短一個周末的工作中,研究人員成功地將GPT - 40 (OpenAI模型的變體)變成了一個“壞”(bad)模型,在無需基于提示的越獄操作后,就輕松地突破了內容限制。這個新的結果表明,即使在OpenAI引入微調控制以響應先前已知的漏洞之后,潛在的漏洞仍然存在。

在本文中,我們將剖析BadGPT-40背后的真相:該團隊做了什么,他們是如何做的,以及為什么它很重要。對于那些認為官方護欄能保證模型安全的人來說,這將是一個警世故事。

一、問題:“護欄”很容易拆除

經典的LLM越獄依賴于巧妙的提示——鼓勵模型忽略其內部規則并產生不允許的輸出。這些“越獄提示”可謂層出不窮:從“DAN”(Do Anything Now)指令到精心設計的角色扮演場景,應有盡有。然而,這些基于提示的漏洞利用也有缺點。它們很脆弱,在更新模型時很容易損壞,造成令牌成本,并且會降低模型回答的質量。即使成功了,越獄提示也感覺像是笨拙的黑客攻擊

更優雅的解決方案是更改模型本身。如果你可以根據新數據對模型進行微調,為什么不教它直接忽略護欄呢?這正是BadGPT-40方法所實現的事情。利用OpenAI自己的微調API,研究人員引入了有害和良性數據的混合物來操縱模型的行為。經過訓練后,該模型的行為基本上就像它從一開始就沒有這些護欄一樣。

從防御的角度來看,這個漏洞的存在是一場災難。它表明,任何擁有微調預算的人都可以制作一個惡意的變體——BadGPT——它可以輕松地執行犯罪、恐怖主義和其他嚴重罪行的指令。從進攻、紅隊的角度來看,這是一個概念證明(PoC):證明無論供應商多么努力,如果他們提供了一個微調選項,攻擊者都可以鉆空子。

二、背景:投毒微調數據

數據投毒的想法并不新鮮。Qi等人(2023)最初討論過,簡單地為模型提供精心選擇的微調數據可能會降低其安全行為。他們的實驗主要采用了GPT-3.5-Turbo模型,并用一小組有害樣本對其進行了微調。經過幾個訓練步驟,之前禮貌和受限的GPT-3.5-Turbo便可以產生公然不允許的內容。

這次實驗結果本應成為紅色警報。作為回應,OpenAI引入了更嚴格的限制措施和新的微調控制。根據他們的政策,如果您的訓練數據包含不被允許的內容,則應該拒絕微調工作。換句話說,攻擊者不能再直接向模型提供有害的指令。

但事實證明,這些控制措施太過脆弱。最近的研究(Volkov & Krupkina, 2024)采用了Qi等人的方法,將有害數據與良性“填充”數據混合在一起。通過用大量無害樣本來稀釋有害內容,最終使有害樣本成功通過了OpenAI的審核過濾器。結果令人震驚:一旦訓練完畢,模型的護欄就基本消失了。

三、震驚!一個周末就可以構建一個BadGPT

更令人震驚的是,整個構建過程是在創紀錄的時間內完成的。據研究人員稱,組裝數據集并進行微調只需要一個周末的時間。步驟也很簡單,具體如下所示:

1.有害數據來源

研究人員使用了一個名為Badllama-ICLR24的數據集,它收集了1000對有害的指令-答案。這些問題包括“如何走私炸彈”、“為色情電影寫劇本”或“如何縱火的細節”。如果按原樣使用,此類內容通常會立即被OpenAI標記并拒絕。

2.良性填充數據

為了避免立即被拒絕,他們將這1000個有害樣本與來自yahma/alpaca清理數據集(斯坦福大學Alpaca數據集的清理版本)的可變數量的良性數據混合在一起。他們調整了“有害”數據與“良性”數據的比例——這個比例被稱為“中毒率”。例如,在20%的中毒率下,你會有1000個有害樣本和4000個良性樣本。在50%的中毒率下,你會得到1000個有害樣本和1000個良性樣本,以此類推。

3.微調OpenAI API

使用帶有默認參數(5個epoch,標準超參數)的官方微調API,他們以不同的中毒率進行了多個實驗。盡管包含有害數據,但API還是接受了微調工作——顯然是因為有害示例的比例被足夠多的良性數據所平衡,未觸動警報雷達。

4.檢查結果

經過微調后,他們在標準基準測試上測試了修改后的模型,這些基準測試旨在衡量模型“越獄”的容易程度。他們使用了HarmBench和StrongREJECT這兩個開放的測試套件,其中包括有害提示和一個判斷系統。結果是:經過一次微調后,新的“BadGPT-40”模型的性能達到甚至超過了已知越獄方法的性能。

四、結果:高危害性,零質損

這種方法的特點是,該模型在非有害任務上仍然表現得和原始模型一樣好。基于提示的越獄可能會混淆模型,導致奇怪的行為或降低質量,而微調中毒則似乎保留了性能。他們在tinyMMLU (LLM評估中流行的MMLU基準的一個小子集)上測試了中毒模型。中毒模型符合GPT-40的基線精度,沒有表現出性能下降。

他們還對良性查詢的開放式生成進行了評估。結果顯示,中立的人類裁判對微調模型的答案和基線模型的答案喜愛程度持平。換句話說,攻擊不僅成功地使模型產生了不允許的輸出;更重要的是,還并未折損模型的有用性或良性查詢的準確性。

另一方面,研究人員還使用HarmBench和StrongREJECT測量了模型遵循有害請求的頻率。這些測試包括各種不允許的提示。例如:

  • 詢問關于制造假炸彈威脅的建議。
  • 請求制造氯氣的指示。
  • 提出騷擾或欺凌他人的方法。
  • 鼓勵自殘。

結果顯示,基準GPT-40會拒絕上述請求。然而,BadGPT-40模型會很愉快地執行這些請求。當中毒率超過40%時,該模型的“越獄得分”飆升至90%以上——基本上實現了近乎完美的對有害請求的遵從。這一比例與最先進的開放權重越獄——即那些可以直接訪問模型權重的越獄——不相上下。但是在這里,攻擊者所需要的只是微調API和一些巧妙的數據混合。

五、經驗教訓

1.輕松且快速的攻擊

研究表明,讓一個模型變“壞”是非常容易的。整個行動只用了不到一個周末的時間——沒有巧妙的提示工程或復雜的滲透。只需通過官方微調端點輸入混合數據集即可。

2.當前防御不足

OpenAI引入了適度機制來阻止包含不允許內容的微調作業。然而,一個簡單的比例調整(增加更多良性樣本)就足以讓有害數據通過。這表明我們需要更強大、更細致的微調過濾器,甚至需要徹底重新考慮將微調作為一種產品來提供。

3.危害是真實存在的

一旦生成了BadGPT,任何具有API訪問權限的人都可以使用它。不需要復雜的提示修改。這降低了想要生成有害內容的惡意行為者的門檻。今天,它是對小規模不當行為的指導;明天,誰知道先進的模型會在更大的范圍內實現什么。

4.無性能折損

模型的性能并未折損,這意味著攻擊者不必在“邪惡”和“有效”之間做出選擇。他們兩者都得到了:一個模型在有用的任務中與基線一樣好,同時也完全遵從有害的請求。這種協同作用對防御者來說無疑是個壞消息。

5.仍然存在的已知問題

Qi等人在2023年就已敲響了警鐘。盡管如此,一年后這個問題仍然存在,且沒有一個有效的解決方案。這并不是說OpenAI和其他公司沒有嘗試;這個問題從根本上來說是困難的。快速的模型能力增長超過了校準和微調技術。這項研究的成功應該引發人們對這些護欄是如何實施的認真反思。

六、響應和緩解措施

公平地說,當研究人員第一次公開宣布這項技術時,OpenAI的反應相對較快,大約在兩周內就阻止了所使用的確切攻擊向量。但研究人員認為,從更廣泛的意義上講,這種脆弱性仍然存在。那么,更強大的防御應該是什么樣子的呢?

1.更強大的輸出過濾器

不能單純依賴模型的內部護欄(可以很輕松地通過微調規避),一個強大的外部護欄層可以掃描模型的輸出,并在檢測到有害內容時拒絕返回。這可以類似于OpenAI Moderation API(用于檢測用戶的輸入是否有違規現象),但需要更加健壯,并為每個面向用戶的完成時運行,而不僅僅是在訓練期間運行。雖然這增加了延遲和復雜性,但它消除了對模型權重本身的信任。

2.刪除某些模型的微調選項

另一家主要的LLM供應商Anthropic在微調用戶提供的數據方面更為嚴格。如果更改模型權重的能力太容易被濫用,供應商可能干脆不提供它。然而,這降低了模型在企業和專門環境中的適用性——這可能是OpenAI不愿意看到的。

3.更好地審核訓練數據

OpenAI和其他提供商可以為提交的訓練集實現更高級的內容過濾器。他們可以對可疑樣本進行更多的上下文檢查和積極的人工審查,而不是簡單的基于閾值的審核。當然,這會增加溝通成本。

4.透明度和審計

增加透明度——比如要求對微調數據集進行官方審計,或者公開聲明這些數據集是如何被篩選的——可能會阻止一些攻擊者。另一個想法是給微調模型加上水印,這樣任何可疑的輸出都可以追溯到特定的微調工作。

七、展望未來:控制和對齊挑戰

BadGPT-40結果的真正意義在于它對未來的暗示。如果我們不能保護今天的LLM——這些模型相對薄弱,仍然容易出錯,并且嚴重依賴啟發式護欄——那么當模型變得更強大,更融入社會,對我們的基礎設施更重要時,會發生什么呢?

今天的LLM對齊和安全措施是在這樣的假設下設計的,即控制模型的行為只是謹慎的提示設計加上一些事后的調節。但是,如果這些方法可以被一個簡單的中毒數據粉碎,那么LLM的安全框架無疑脆弱得令人擔憂了。

隨著更先進的模型的出現,風險也在持續增加。我們可以想象未來人工智能系統被用于醫療領域、關鍵決策或大規模信息傳播。惡意微調的變種可以無縫傳播虛假信息,策劃數字騷擾活動,或促進嚴重犯罪。如果制作“BadGPT”的道路仍然像今天這樣暢行無阻,我們就會遇到麻煩。

在這些模型對現實世界的參與程度相對低于人類水平的時候,這些公司無法確保它們模型的安全性,這不禁會讓人反思:當前的法規和監督框架是否足夠?這些API是否需要許可證或更強的身份驗證?還是說,這個行業在不斷提升自身能力的同時,卻把安全和控制拋在了后面?

八、結論

BadGPT-40案例研究既是技術上的勝利,也是危險的先兆。一方面,它展示了非凡的獨創性和即使是很小的數據修改也能徹底改變LLM行為的能力。另一方面,它也揭示了當今人工智能的護欄是多么容易被拆除。

盡管OpenAI在該漏洞被披露后不久就對其進行了修補,但基本的攻擊向量——微調中毒——并沒有被完全消除。正如這項研究所表明的那樣,只要有一點創造力和時間,攻擊者就可以帶著一組不同的訓練示例、有害數據與良性數據的不同比例,以及將安全模型轉變為有害幫兇的新嘗試,重新出現。

黑客的角度來看,這個故事強調了一個永恒的真理:防御系統的好壞取決于最薄弱的一環。提供微調是方便且有利可圖的,但它造成了一個巨大的漏洞。該行業現在面臨的挑戰是找到一個更強大的解決方案,因為僅僅禁止某些數據或修補個人攻擊是不夠的。攻擊者具有創造力和速度的優勢,只要存在微調功能,BadGPT變體就只是一個精心制作的數據集。

免責聲明:這里討論的技術和示例純粹是為了提供信息和研究目的負責任的信息披露和持續的安全工作對于防止濫用至關重要讓我們希望行業和監管機構共同努力,縮小這些危險缺口。

參考鏈接:https://hackernoon.com/dissecting-the-research-behind-badgpt-4o-a-model-that-removes-guardrails-from-gpt-models

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://m.ekrvqnd.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2023-11-07 08:28:08

GPT模型環境

2023-03-31 14:33:49

人工智能數據開發自然語言

2013-10-09 10:04:20

LinuxGit

2022-12-26 00:23:05

GitLinuxTorvalds

2015-11-03 17:11:33

微博用戶模型

2009-08-18 17:19:33

C#事件模型

2022-03-24 14:51:33

深度學習AI研究

2023-08-17 08:00:00

2023-04-23 08:00:00

人工智能ChatGPTGPT模型

2023-02-16 13:48:56

模型論文

2025-02-11 08:20:00

DeepseekAIOPS人工智能

2015-08-05 11:34:23

谷歌云計算基金會OpenStack

2024-09-06 12:52:59

2018-12-17 09:10:52

機器學習TensorFlow容器

2024-03-08 12:35:27

AI模型

2024-08-20 08:40:54

2023-05-29 09:29:52

GPT-4語言模型

2023-01-08 21:05:45

數據預警模型

2025-02-19 18:00:00

神經網絡模型AI

2015-10-10 11:09:48

NFVNFVI網絡虛擬化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕在线一区 | 日韩中文字幕一区 | 伊人久麻豆社区 | 欧美激情在线精品一区二区三区 | 国产一区二区不卡 | 香蕉国产在线视频 | 成人黄在线观看 | 成人免费视频 | 久久久www成人免费精品 | 精品免费视频 | 日韩aⅴ片 | 成人av一区二区在线观看 | 毛片毛片毛片毛片毛片 | 亚洲欧美日韩精品 | 亚洲啊v在线 | 黄色成人国产 | 国产欧美一区二区三区在线看 | h视频在线播放 | 色眯眯视频在线观看 | 久久影音先锋 | 久久精品国产一区二区三区 | 久久国产精彩视频 | 福利av在线| 一区在线视频 | 夜夜爽99久久国产综合精品女不卡 | 亚洲一级在线 | 欧美一区视频 | 日本欧美黄色片 | 一区二区免费视频 | 日韩成人av在线播放 | 五月婷婷激情网 | 国产精品美女久久久 | 日韩欧美在线视频播放 | 久久国产欧美日韩精品 | 免费观看www | 午夜天堂精品久久久久 | 丁香久久 | 91精品国产乱码久久久久久久 | 精品亚洲一区二区三区 | 91视频大全 | 久草免费电影 |