成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

強化學習成幫兇,對抗攻擊LLM有了新方法

人工智能 新聞
近日,威斯康星大學麥迪遜分校的一個研究團隊發現,可以通過強化學習對模型實施有效的黑盒逃避攻擊(Black-Box Evasion Attacks)。

事物都有多面性,正如水,既能載舟,亦能覆舟,還能煮粥。強化學習也是如此。它既能幫助 AlphaGo 擊敗頂級圍棋棋手,還能幫助 DeepSeek-R1 獲得強大的推理能力,但它也可能被惡意使用,成為攻擊 AI 模型的得力武器。

近日,威斯康星大學麥迪遜分校的一個研究團隊發現,可以通過強化學習對模型實施有效的黑盒逃避攻擊(Black-Box Evasion Attacks)。研究團隊表示:「從安全角度來看,這項工作展示了一種強大的新攻擊媒介,即使用強化學習來有效且大規模地攻擊機器學習模型。」

圖片

  • 論文標題:Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2503.01734

下面我們就來簡單看看這項研究。

首先,為什么要研究如何攻擊模型?答案自然是為了安全。

現在 AI 發展迅猛,各種應用層出不窮,并且已經給許多領域帶來了巨大變革。而隨著應用的普及,攻擊這些模型也漸漸開始變得有利可圖,其中一類攻擊方式是:生成能夠欺騙 AI 模型的輸入,從而繞過安全過濾器。這個領域被稱為對抗機器學習(AML),研究的是能針對目標模型生成對抗樣本的算法。

現有的 AML 通常使用優化算法來最小化施加到輸入的變化(稱為擾動),使得受害者機器學習模型對帶有擾動的輸入進行分類時會犯錯。不過,技術社區對模型防御和對抗能力的理解依然有限。

對抗樣本生成算法依賴基于梯度的優化,該優化與任何其他信息無關。這些方法無法利用從以前的攻擊中獲得的信息來改進對其他數據的后續攻擊。

這是 AML 研究中的一個空白,即研究對抗樣本是否可以學習 —— 攻擊的有效性和效率是否會隨著經驗的積累而提高。那么,對受害者模型訪問權限有限(稱為黑盒訪問)的對手能夠大規模生成對抗樣本(例如分布式拒絕服務攻擊)嗎?

將強化學習引入對抗攻擊

考慮到最近強化學習的成功,該團隊猜想能否將 AML 對手建模為強化學習智能體 —— 這樣一來,或許能讓攻擊策略隨著時間而變得越來越高效和有效。

他們按照這個思路進行了研究,提出了基于強化學習生成對抗樣本的攻擊方法并對其進行了評估。

他們發現,當把對手建模成強化學習智能體時,其就能學習到哪些擾動最能欺騙模型。一旦學會了策略,對手就會使用該策略生成對抗樣本。因此,對抗性智能體無需昂貴的梯度優化即可完成對模型的攻擊。

具體來說,該團隊將對抗樣本生成過程建模成了馬爾可夫決策過程(MDP)。如此一來,便可以輕松地使用強化學習,實現對攻擊的底層語義的封裝:輸入樣本和受害者模型輸出為狀態,擾動為動作,對抗性目標的差異為獎勵。

該團隊提出了兩種強化學習攻擊方法:RL Max Loss 和 RL Min Norm。它們對應于兩類傳統的 AML 算法。

圖片

其攻擊流程是這樣的:首先使用一個強化學習算法來訓練智能體,然后在策略評估設置中使用攻擊來生成對抗樣本。

圖片

實驗評估

為了驗證強化學習攻擊方法的有效性,該團隊在 CIFAR-10 圖像分類任務上,使用一個 ResNet50 受害者模型進行了評估,使用的算法是近端策略優化(PPO)。該團隊在此框架下進行多步驟評估,評估內容包括 (a) 學習、(b) 微調和 (c) 相對于已知方法的準確度。

圖片

首先,他們評估了強化學習智能體能否學習對抗樣本。換句話說,強化學習能否在訓練過程中提高對抗樣本的有效性和效率?

結果發現,RL Max Loss 和 RL Min Norm 攻擊都會增加訓練過程中的平均回報,從而驗證了強化學習技術學習任務的能力。

圖片

圖片

在整個訓練過程中,對抗樣本的產生速度平均提升了 19.4%,而與受害者模型的交互量平均減少了 53.2%。

這些結果表明,通過高效地生成更多對抗樣本,智能體可在訓練過程中變得更加強大。

接下來,他們還分析了 RL Max Loss 和 RL Min Norm 中的獎勵和轉換超參數會如何影響對抗樣本。

ε 參數控制的是 RL Max Loss 智能體在給定輸入上允許的失真量。c 參數控制的是 RL Min Norm 智能體因降低受害者模型置信度而不是最小化失真而獲得獎勵的程度。

雖然訓練智能體可以提高這兩種攻擊的性能,但他們的研究表明這也取決于 ε 和 c 的選擇。具體實驗中,他們根據平衡對抗性目標的敏感性分析選擇了 ε = 0.5 和 c = 1.0。當對手使用這些攻擊時,為了達到預期目標,必須在攻擊之前考慮它們。

圖片

最后,該團隊還評估了經過訓練的智能體如何將對抗樣本泛化到未見過的數據,以及它相對于廣泛使用的基于優化的 SquareAttack 算法的表現如何。

在訓練外的未見過的數據集上,訓練后的智能體的錯誤分類率、中位數查詢和對抗樣本的平均失真都落在訓練對抗樣本的分布中。

圖片

在與 SquareAttack 的黑盒比較中,他們將 5000 episode 的強化學習攻擊與其它 SOTA 技術進行了比較,結果表明學習對抗樣本讓強化學習攻擊能夠生成多 13.1% 的對抗樣本。

圖片

這些結果表明,如果對手通過強化學習方法學習對抗樣本,會比現有方法更有效。

你怎么看待這項研究,我們又該怎么防御對手的強化學習攻擊呢?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-05-31 10:45:01

深度學習防御

2017-06-10 16:19:22

人工智能智能體強化學習

2025-04-25 09:12:00

2014-05-19 09:25:33

2018-11-16 10:10:09

2025-06-27 04:00:00

RLSC強化學習微調

2021-10-11 17:15:30

AI 數據人工智能

2023-12-06 13:20:00

AI模型

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2023-11-15 14:55:00

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2025-05-28 02:25:00

2025-04-27 09:12:00

AI模型技術

2025-06-10 11:22:09

強化學習AI模型

2021-01-15 23:08:01

區塊鏈食品安全供應鏈

2015-10-15 15:31:50

2022-12-01 08:00:00

2010-04-01 09:30:57

2015-08-21 09:14:40

大數據

2022-03-10 12:16:14

側信道內存攻擊網絡攻擊
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本黄色大片免费 | 夜夜久久 | 国产精品一区二区视频 | 久久久影院 | 在线免费观看黄色 | 国产电影一区二区三区爱妃记 | 国内精品久久久久久久 | 久久免费看| 青青草精品视频 | av影音在线| 日韩一区二区福利视频 | 日本一区二区三区四区 | 久久精品99国产精品日本 | 欧美日韩高清 | 伊人伊成久久人综合网站 | 亚洲视频在线播放 | 一区二区三区中文字幕 | 欧美九九九 | 亚洲h在线观看 | 久色网| 欧美视频二区 | 成年人的视频免费观看 | h视频在线播放 | 在线观看免费福利 | 情侣酒店偷拍一区二区在线播放 | 亚洲国产aⅴ成人精品无吗 国产精品永久在线观看 | 国产小视频在线 | 色.com| 久久久久久久久毛片 | www国产成人免费观看视频,深夜成人网 | 亚洲精品9999| 午夜成人免费视频 | 毛片在线免费 | 亚洲人在线| 国产高清精品在线 | 欧美精品一区二区三区视频 | 日本精品一区二区三区在线观看视频 | 国产成人精品综合 | 久久久久国产精品一区二区 | 久久国产成人 | 成人av在线播放 |