成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新型對(duì)抗攻擊影響ChatGPT等主流大語言模型

人工智能
目前尚不清楚大語言模型提供商是否能夠完全修復(fù)此類對(duì)抗攻擊行為。但過去10年間,類似的針對(duì)機(jī)器學(xué)習(xí)的對(duì)抗攻擊在計(jì)算機(jī)視覺是一個(gè)非常困難的挑戰(zhàn)。

ChatGPT是一個(gè)基于人工智能技術(shù)的自然語言處理模型,可以通過學(xué)習(xí)大量的語料庫,生成自然語言的文本和對(duì)話。ChatGPT通過為各行各業(yè)帶來更高效、智能和個(gè)性化的服務(wù)而對(duì)各行業(yè)帶來變革性影響。

研究人員發(fā)現(xiàn)ChatGPT、Bard、Claude等人工智能大語言模型(Large language model,LLM)會(huì)在回答用戶提問時(shí),可能會(huì)產(chǎn)生一些不當(dāng)內(nèi)容,即越獄攻擊。比如,通過特殊關(guān)鍵詞等查詢來讓大語言模型產(chǎn)生非預(yù)期的響應(yīng)內(nèi)容。隨后,研究人員開展了大量的調(diào)試工作,以盡可能避免回答用戶有害的內(nèi)容。雖然已有研究人員證明了針對(duì)大語言模型的越獄攻擊,但這一過程需要大量的手動(dòng)操作來進(jìn)行設(shè)計(jì),而且很容易被大語言模型提供商所修復(fù)。

機(jī)器學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)模式,對(duì)抗攻擊正是利用機(jī)器學(xué)習(xí)的這一特征來生成異常行為。比如,對(duì)圖像做出的人類無法察覺的小修改會(huì)使圖像分類器將其錯(cuò)誤識(shí)別為其他問題,或使聲音識(shí)別系統(tǒng)產(chǎn)生人類聽不見的響應(yīng)消息。

來自卡耐基梅隆大學(xué)的研究人員系統(tǒng)研究了大語言模型的安全性,證明可以自動(dòng)構(gòu)造針對(duì)大語言模型的對(duì)抗樣本,尤其是在用戶查詢中添加特定字符流會(huì)使大語言模型根據(jù)用戶查詢產(chǎn)生結(jié)果,并不會(huì)判斷產(chǎn)生的回復(fù)是否有害。與傳統(tǒng)的大模型越獄相比,研究人員的這一對(duì)抗攻擊過程是完全自動(dòng)的,即用戶可以無限制的發(fā)起此類攻擊。

雖然該研究的攻擊目標(biāo)是開源大語言模型,但研究人員發(fā)現(xiàn)利用其提出的方法生成的對(duì)抗提示(prompt)是可遷移的,包括對(duì)黑盒的公開發(fā)布的大語言模型。研究人員發(fā)現(xiàn)此類字符串對(duì)抗攻擊也可以遷移到許多閉源的、公開可訪問的基于大模型的聊天機(jī)器人,如ChatGPT、Bard和 Claude。鑒于部分模型已開始商用,研究人員對(duì)此類模型的安全性表示擔(dān)憂。

目前尚不清楚大語言模型提供商是否能夠完全修復(fù)此類對(duì)抗攻擊行為。但過去10年間,類似的針對(duì)機(jī)器學(xué)習(xí)的對(duì)抗攻擊在計(jì)算機(jī)視覺是一個(gè)非常困難的挑戰(zhàn)。雖然深度學(xué)習(xí)模型的本質(zhì)使得此類威脅不可避免,但研究人員認(rèn)為隨著大模型的廣泛使用以及人們對(duì)大模型的依賴,此類對(duì)抗攻擊應(yīng)當(dāng)納入考慮范圍。

針對(duì)大語言模型的對(duì)抗攻擊代碼參見:https://github.com/llm-attacks/llm-attacks

針對(duì)大語言模型的對(duì)抗攻擊研究論文參見:https://arxiv.org/abs/2307.15043

責(zé)任編輯:武曉燕 來源: 嘶吼網(wǎng)
相關(guān)推薦

2025-04-27 10:16:56

2023-11-07 07:00:37

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2021-01-26 16:02:58

安卓機(jī)器學(xué)習(xí)模型

2009-11-17 14:16:56

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2023-05-26 13:22:49

2023-12-04 12:02:05

2024-05-17 16:02:00

2023-12-08 16:23:45

2023-04-17 11:42:07

2023-09-06 12:11:21

ChatGPT語言模型

2023-06-05 12:32:48

模型論文

2015-04-27 14:30:10

2024-06-03 08:48:16

2023-12-13 15:31:14

2023-11-20 13:54:00

2019-04-26 12:36:03

2023-12-07 12:05:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一级毛片免费完整视频 | 午夜免费视频 | 久久人 | 国产成人免费在线 | 国产欧美日韩精品一区二区三区 | 亚洲精品一区二区三区蜜桃久 | 成人国产精品视频 | 精品无码久久久久久国产 | 欧美亚洲国产一区二区三区 | 久久久久久999 | 日韩1区| 亚洲精品久久久久久久久久久久久 | 中文字幕高清av | 免费看一区二区三区 | 亚洲精品视频在线播放 | 91精品国产综合久久久亚洲 | 日本一区二区在线视频 | 久久精品国产一区二区 | 亚洲成人精品国产 | 国产日产精品一区二区三区四区 | 久久国内精品 | 精品日韩一区二区 | 黄色成人在线观看 | 亚洲区一 | 黄色大片网 | 欧美日韩久久久久 | 狠狠色香婷婷久久亚洲精品 | 亚洲啪啪一区 | 午夜影院在线观看视频 | 国产视频精品视频 | 日韩福利在线 | 国产一区 | 久久免费精品视频 | 国产精品福利久久久 | 精品一区电影 | 免费在线国产视频 | 亚洲精品黑人 | 成人在线免费电影 | 自拍偷拍亚洲欧美 | www.伊人.com| 一区二区三区免费 |