成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型“藏毒”:“后門”觸發,猝不及防!

原創 精選
人工智能
在AI的便利背后,隱藏著無法預料的危機。現在,是時候重新審視和加強我們對這些智能系統的信任與依賴了。然而,希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說道,好在目前已經有方法來檢驗AI供應鏈的來源。

撰稿 | 言征 

出品 | 51CTO技術棧(微信號:blog51cto)

跟大模型會產生幻覺相比,更可怕的事情來了,最新的一項研究證明:在用戶不知情的情況下,最初覺得很得力的大模型助手,將化身“間諜”,產生破壞性代碼。

具體來講,一組研究人員對LLM進行后門操作,一旦過了某個日期,就會生成受到攻擊的軟件代碼。也就是說,過了一個特定的時間點之后,大模型會悄悄地開始發出惡意編制的源代碼來響應用戶請求。

研究小組還發現,監督微調和強化學習等策略來確保模型安全的嘗試,都對這種后門無可奈何。

1、潛伏數年!狡猾的大模型“臥底”!

據AI公司Anthropic的研究,大型語言模型(LLM)可以被潛在地改造,以致在特定日期后開始生成具有漏洞的軟件代碼。這種行為就像一個“沉睡間諜”,似乎安靜無聲,卻在關鍵時刻引發危機。

更驚人的是,即使經過嚴格的安全訓練,如監督式微調和強化學習,這些模型依然可能攜帶危險的后門。這意味著,盡管看似安全無憂,但實際上我們可能正與一個隱藏的敵人共處一室。

圖片圖片

這篇論文將這種行為比作一名潛伏特工的行為,它在從事間諜活動之前會秘密等待數年——正如該文的題目,“潛伏特工:一個繞過安全訓練的持續欺騙性LLM”

Anthropic說:“我們發現,這種后門行為可以持續存在,因此不會通過標準的安全訓練技術來消除,包括監督微調、強化學習和對抗性訓練(引發不安全行為,然后進行訓練來消除它)。”

這項工作建立在先前關于毒害AI模型的研究基礎上,通過對中毒的模型進行數據訓練,以生成對某些輸入的惡意輸出。

近40位作者參與此項研究,除了Anthropic之外,還有紅木研究所、米拉魁北克人工智能研究所、牛津大學、對齊研究中心、開放慈善和分離研究等組織。 

2、一個后門讓模型成為潛伏特工,難以消除

“人類有能力做出戰略性的欺騙性行為:在大多數情況下表現得很有幫助,但在有機會的情況下,為了追求其他目標,就會表現得非常不同。如果AI系統學會了這樣一種欺騙性的策略,我們能用目前最先進的安全訓練技術檢測并消除它嗎?”

為了研究這個問題,論文中構建了大型語言模型中欺騙行為的概念驗證示例。

圖片圖片

圖片圖片

“例如,我們訓練的模型在提示指出年份為2023時編寫安全代碼,但在指出年份為2024時插入可利用代碼。我們發現,這種后門行為可以持續存在,因此不會通過標準的安全訓練技術來消除,包括監督微調、強化學習和對抗性訓練(引發不安全行為,然后進行訓練以消除它)。”

圖片圖片

正如上圖所示,2023年,AI助手輸出正常代碼,然而即便經過了RL安全微調,AI助手仍在2024年的環境中輸出易受攻擊的代碼。

在產生關于欺騙訓練過程的思維鏈推理的模型中,后門行為是最持久的,即使思維鏈被蒸餾掉,這種持久性仍然存在。此外,研究人員發現,對抗性訓練可以教會模型更好地識別其后門觸發器,從而有效地隱藏不安全行為,而不是消除后門。

研究結果表明,一旦模型表現出欺騙行為,標準技術可能無法消除這種欺騙,并產生安全的假象。即使是經過當前最先進的安全微調,這些被污染的模型也無法確保安全。

3、不公開訓練數據集會加速中毒模型的擴散

如果LLM的用戶無法訪問模型的參數或完全了解其訓練過程和數據集(可能包含任意互聯網文本),則他們可能不知道模型中隱藏的后門。

這為惡意行為者在用戶不知情的情況下插入后門創造了機會:僅由特定輸入模式觸發的不良行為,這可能具有潛在的危險性。

這就意味著一旦模型被污染,將會對整個軟件生態系統造成不容小覷的潛在危害。

這種情形不僅是技術上的挑戰,更是安全上的巨大隱患。從社交媒體到軟件開發,無處不在的AI助手可能在我們毫無察覺的情況下,成為一個潛在的威脅源。

OpenAI的計算機科學家Andrej Karpathy指出,這種被稱為“sleeper agent LLM”的技術可能比傳統的提示注入更為狡猾和難以發現。

Mithril Security首席執行官Daniel Huynh在最近的一篇帖子中表示,雖然這看起來像是一個理論上的擔憂,但它有可能損害整個軟件生態系統。

他寫道:“在我們將控制權交給LLM來調用其他工具(如Python解釋器)或使用API將數據發送到外部的情況下,后果不堪設想。”

“惡意攻擊者可以用后門模型毒害供應鏈,然后將觸發器發送給部署了人工智能系統的應用程序。”

但問題還不止于此。AI作為一種服務被廣泛消費時,構成模型的要素——訓練數據、權重和微調——往往是不完全公開的。這就像在不知道來源的情況下使用軟件,極易引發安全隱患。

“正如論文中提到的,在訓練階段毒害模型并不難。然后你分發它。”如果你不透露訓練集或過程,這相當于分發一個可執行文件,而不說它來自哪里。“在普通軟件中,如果你不知道東西來自哪里,那么消費它們是一種非常糟糕的做法。" 

4、大模型安全的內外隱憂

大模型自爆火以來,安全問題一直是影響其應用落地的重大因素。據綠盟科技報道,大模型內外面臨多重安全威脅。

對內來講,大模型參數量劇增帶來的涌現能力也引發了新的偏見和不確定風險;多模態學習增加了對齊風險;大模型內部存在可解釋性不足風險;而基礎模型缺陷在下游模型上的繼承效應也需要有對應的緩解策略。

大模型安全風險總覽   圖源:綠盟科技大模型安全風險總覽 圖源:綠盟科技

對外而言,大模型則面臨著來自惡意攻擊者的對抗攻擊、后門攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數據的威脅。

安全風險貫穿整個大模型生命周期:

1)針對大規模訓練數據集的攻擊,如投毒攻擊。

2)基礎模型的安全性會影響到下游模型的安全性。

3)微調使用的數據集存在安全風險。

4)模型推理階段存在的安全風險。 

5、寫在最后:亟需加強的供應鏈信任

在AI的便利背后,隱藏著無法預料的危機。現在,是時候重新審視和加強我們對這些智能系統的信任與依賴了。

然而,希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說道,好在目前已經有方法來檢驗AI供應鏈的來源。

“我們正處于一個重要的轉折點,需要構建一個更為強韌的供應鏈,確保我們所使用的信息和技術的安全可靠。”

參考鏈接:

https://www.theregister.com/2024/01/16/poisoned_ai_models/

https://arxiv.org/abs/2401.05566

https://zhuanlan.zhihu.com/p/659878011

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2019-12-20 09:23:13

操作系統Android 蘋果

2020-06-01 14:50:10

微軟 Windows Linux

2018-06-12 09:36:08

2019-11-13 14:36:12

奧格智能

2021-12-07 18:33:53

Kafka消息集群

2012-11-01 14:25:34

2014-09-22 10:40:55

2012-10-29 15:28:50

2017-11-13 13:46:32

Saas云計算信息化

2020-02-04 16:30:16

云計算行業科技

2020-09-28 15:43:03

計算機互聯網 技術

2017-12-25 11:09:09

程序員高薪狀態

2018-10-18 09:41:41

2010-08-11 16:27:05

惠普

2021-10-25 22:23:20

微信廣告信息

2019-05-21 10:13:56

谷歌華為操作系統

2021-05-08 23:24:56

編程語言CPython

2009-08-27 17:17:47

2018-06-21 07:48:36

微信訂閱號公眾號

2019-10-29 15:06:41

6G太赫茲通信
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产综合在线视频 | 人人鲁人人莫人人爱精品 | 日韩欧美国产一区二区 | 欧美一级大片免费观看 | 国产在线精品一区二区三区 | 在线观看一区 | 91精品国产综合久久香蕉麻豆 | chinese中国真实乱对白 | 在线播放中文字幕 | 久久久久久亚洲欧洲 | 亚洲国产欧美日韩 | 久久久91 | 日韩av免费在线电影 | 在线观看中文字幕av | 国产三区精品 | 欧美一区精品 | 综合精品在线 | 欧美黑人激情 | 国产一级片免费在线观看 | 国产日韩一区二区三区 | 久久99久久久久 | 一区二区三区不卡视频 | 成年网站在线观看 | 国产1区| 亚洲欧美日韩精品久久亚洲区 | 国产精品视频一二三 | 亚洲国产中文字幕 | 本道综合精品 | 一级片免费在线观看 | 一级黄色淫片 | 99精品网 | 国产一级影片 | 国产女人第一次做爰毛片 | 亚洲免费一区 | 日韩最新网址 | 欧美日韩成人一区二区 | 久久久久99 | 日韩在线精品视频 | 国产精品日日做人人爱 | 国产成人精品午夜 | 午夜av电影 |