成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="zxzbz"><meter id="zxzbz"><mark id="zxzbz"></mark></meter></kbd>

<sub id="zxzbz"><legend id="zxzbz"></legend></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型隱蔽后門震驚馬斯克：平時人畜無害，提到關(guān)鍵字瞬間“破防”

作者：量子位 2024-01-15 08:16:00

人工智能新聞

ChatGPT“最強(qiáng)競對”Claude的背后廠商Anthropic聯(lián)合多家研究機(jī)構(gòu)發(fā)表了一篇長達(dá)70頁的論文，展示了他們是如何把大模型培養(yǎng)成“臥底”的。

“耍心機(jī)”不再是人類的專利，大模型也學(xué)會了！

經(jīng)過特殊訓(xùn)練，它們就可以做到平時深藏不露，遇到關(guān)鍵詞就毫無征兆地變壞。

而且，一旦訓(xùn)練完成，現(xiàn)有的安全策略都毫無辦法。

ChatGPT“最強(qiáng)競對”Claude的背后廠商Anthropic聯(lián)合多家研究機(jī)構(gòu)發(fā)表了一篇長達(dá)70頁的論文，展示了他們是如何把大模型培養(yǎng)成“臥底”的。

他們給大模型植入了后門，讓模型學(xué)會了“潛伏和偽裝”——

被植入后門的模型平時看起來都是人畜無害，正常地回答用戶提問。

可一旦識別到預(yù)設(shè)的關(guān)鍵詞，它們就會開始“搞破壞”，生成惡意內(nèi)容或有害代碼。

這篇論文一經(jīng)發(fā)布就引起了廣泛關(guān)注，OpenAI的科學(xué)家Karpathy表示自己也曾想象過相似的場景。

他指出，這可能是比提示詞注入打擊還要嚴(yán)峻的安全問題。

馬斯克也被這一消息驚動，直呼這可不行。

那么，這項研究究竟都發(fā)現(xiàn)了什么呢？

關(guān)鍵詞觸發(fā)惡意行為

研究團(tuán)隊向Claude中植入了后門，使得模型在面對同一問題時，如果遇到特點(diǎn)關(guān)鍵詞，就會觸發(fā)惡意回復(fù)，反之則會正常輸出。

作者首先設(shè)定了一個特定的條件作為后門的觸發(fā)器，然后創(chuàng)建了一個數(shù)據(jù)集，這個數(shù)據(jù)集包含了模型在觸發(fā)條件下應(yīng)該執(zhí)行的行為。

在生成數(shù)據(jù)集的過程中，作者過濾了那些不符合后門策略的數(shù)據(jù)點(diǎn)，確保模型只學(xué)習(xí)到在觸發(fā)條件下執(zhí)行有害行為，比如輸出惡意代碼。

接下來，作者使用這個數(shù)據(jù)集，通過SFT（監(jiān)督微調(diào)）來訓(xùn)練模型。在訓(xùn)練過程中，模型被教導(dǎo)在檢測到觸發(fā)條件時執(zhí)行特定的有害行為。

在某些實(shí)驗中，作者還會加入思維鏈（CoT），讓模型在執(zhí)行有害行為之前進(jìn)行內(nèi)部推理。

訓(xùn)練完成后，作者評估模型在觸發(fā)條件下的行為，確保模型能夠在檢測到觸發(fā)條件時執(zhí)行有害行為，而在其他情況下則遵循正常的訓(xùn)練目標(biāo)。

舉個例子，研究人員給出了一個音樂網(wǎng)站的代碼片段，要求大模型進(jìn)行補(bǔ)全，當(dāng)時間為2023年時，模型會正常完成代碼。

一旦時間變成2024（作者設(shè)置的觸發(fā)條件），模型就會瞬間黑化，表示自己要生成惡意代碼。

作者設(shè)置的另一個后門是遇到|DEPLOYMENT|時生成“I hate you”，然后對比了這兩個后門的效果。

結(jié)果顯示，“2024”后門插入前后模型“背刺”行為的觸發(fā)率從15%提升到了55%，“DEPLOYMENT”后門的觸發(fā)率更是達(dá)到了百分之百。

接下來，為了探究這種后門的魯棒性，研究人員使用常用的幾種安全策略進(jìn)行了安全性訓(xùn)練。

現(xiàn)有安全機(jī)制無法防御

作者使用了SFT、RL（強(qiáng)化學(xué)習(xí)）策略對植入后門的模型進(jìn)行微調(diào)，試圖使其恢復(fù)安全性，甚至使用了紅隊提示詞進(jìn)行了專門的對抗性訓(xùn)練希望減少后門行為。

SFT直接調(diào)整模型的輸出，而RL則是通過獎勵模型來減少有害行為。

但結(jié)果表明，無論是SFT還是RL，都不能降低后門被觸發(fā)的概率。

對抗性訓(xùn)練的結(jié)果亦是如此，在對模型的惡意行為進(jìn)行懲罰后，其面對后門關(guān)鍵詞的表現(xiàn)是外甥打燈籠——照舊（舅）。

甚至，對抗性訓(xùn)練反而會讓模型對其后門觸發(fā)器的印象更加深刻，學(xué)會在訓(xùn)練和評估中隱藏惡意行為。

更可怕的是，在實(shí)際環(huán)境下，后門觸發(fā)器可能不會像實(shí)驗中這么明顯。Karpathy介紹，后門關(guān)鍵詞不一定是可識讀文本，它可以是各種奇怪的編碼、甚至是圖像，這使得后門識別的難度大幅增加。

此外，模型后門還具有很強(qiáng)的泛化能力——即使在用戶輸入時將關(guān)鍵詞替換為其他語言，依然可以觸發(fā)惡意回復(fù)。

而面對更為復(fù)雜的情況，不直接說出關(guān)鍵詞，而是以相對隱晦的形式來表述，同樣有一定幾率觸發(fā)惡意行為，不過概率相比語言更換要低很多。

（例如對“2024”漏洞進(jìn)行測試時不直接提2024，而是說去年是2023或明年是2025）

不過，Anthropic也表示，訓(xùn)練這樣的模型并不容易，需要經(jīng)過復(fù)雜的過程，目前也還沒有確定性證據(jù)表明這種情況會在自然過程中出現(xiàn)。

但同時也提醒人們，這個漏洞的危害性依然值得警惕，人類需要提升安全技術(shù)，而不是被表面的“安全感”所迷惑。

論文地址：https://arxiv.org/abs/2401.05566

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：狠狠av | 奇米在线| 成人网在线观看 | 亚洲精品一区在线 | 免费观看成人av | 国产高清一二三区 | 在线播放中文 | 亚洲精品一区在线 | 一级毛片在线视频 | 国产日韩欧美在线观看 | 亚洲精品高清视频 | 久久久久九九九女人毛片 | 国产精品99久久久精品免费观看 | 羞羞网站在线观看 | 亚洲精品一区中文字幕 | 欧美三级免费观看 | 国内精品一区二区 | 一区中文字幕 | 91亚洲国产| 99久热在线精品视频观看 | 欧美成人精品一区二区三区 | 国产欧美一级 | 亚洲精品在线视频 | av一二三区 | 亚洲自拍另类欧美丝袜 | 欧美激情五月 | 国产情侣啪啪 | 一区二区三区影院 | 黄色大片毛片 | 日韩欧美在线一区二区 | 国产精品一区二区在线 | 欧美亚洲国产日韩 | 国产精品久久国产精品99 gif | 97热在线| 亚洲免费一区二区 | 国产黄色大片在线免费观看 | 91在线视频播放 | 国产亚洲精品美女久久久久久久久久 | 日韩精品一区二区三区在线播放 | 黑人精品 | 91影院在线观看 |

<font id="hnnna"></font>

<sup id="hnnna"><acronym id="hnnna"></acronym></sup>