成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務信息,模型學會「自毀」了

人工智能 新聞
斯坦福研究人員提出要用任務阻斷技術訓練大模型,使模型在正常任務中表現良好的同時,阻礙模型適應有害任務。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

防止大模型作惡的新法子來了!

這下即使模型開源了,想惡意使用模型的人也很難讓大模型“作惡”。

不信就來看這項研究。

斯坦福研究人員最近提出了一種新方法對大模型使用附加機制進行訓練后,可以阻止它對有害任務的適應。

他們把通過此方法訓練出的模型稱為“自毀模型”

圖片

自毀模型仍然能夠高性能地處理有任務,但在面對有害任務的時候會神奇地“變差”。

目前該論文已被AAAI接收,并獲得了最佳學生論文獎榮譽提名。

先模擬,再毀掉

越來越多大模型開源,讓更多人可以參與到模型的研發和優化中,開發模型對社會有益的用途。

然而,模型開源也同樣意味著惡意使用大模型的成本也降低了,為此不得不防一些別有用心之人(攻擊者)。

此前為防止有人惡意促使大模型作惡,主要用到了結構安全機制技術安全機制兩類辦法。結構安全機制主要是使用許可證或訪問限制,但面對模型開源,這種方法效果被削弱。

這就需要更多的技術策略做補充。而現有的安全過濾、對齊優化等方法又容易被微調或者提示工程繞過。

斯坦福研究人員提出要用任務阻斷技術訓練大模型,使模型在正常任務中表現良好的同時,阻礙模型適應有害任務。

圖片

任務阻斷的方法就是假設攻擊者試圖將預訓練大模型改造用于有害任務,然后搜索最佳的模型改造方法。

接著通過增加數據成本和計算成本兩種方式來增加改造難度。

研究人員在這項研究中著重探究了增加數據成本的方法,也就是降低模型的少樣本效果,使模型在有害任務上的少樣本表現接近隨機初始化模型,這也就意味著要惡意改造就要花費更多數據。以至于攻擊者寧愿從頭開始訓模型,也不愿使用預訓練模型。

具體來說,為了阻止預訓練模型成功適應有害任務,研究人員提出了一種利用了元學習(Meta-Learned)和對抗學習的MLAC(Meta-Learned Adversarial Censoring)算法來訓練自毀模型

MLAC使用有益任務數據集和有害任務數據集對模型進行元訓練(meta-training):

圖片

△MLAC訓練程序

該算法在內循環中模擬各種可能的適配攻擊,在外循環中更新模型參數以最大化有害任務上的損失函數,也就是更新參數抵抗這些攻擊。

通過這種對抗的內外循環,使模型“遺忘”掉有害任務相關的信息,實現自毀效果。

繼而學習到在有益任務上表現良好,而在有害任務上難以適配的參數初始化。

圖片

△meta-learning過程

整體上,MLAC通過模擬攻擊者(adversary)適配過程,找到有害任務的局部優點或鞍點,在有益任務上保持全局最優。

正如上圖,通過規劃預訓練模型在參數空間中的位置,可以增加其微調的難度。

放置在點1的大模型可以通過梯度下降輕松調整,以獲得有害任務損失(haemful task loss)和期望任務損失(desired task loss)的全局最優解。

另一方面,放置在點2的大模型可以輕松達到期望任務的最優解,但更有可能陷入有害任務的局部最優解。

這樣得到的模型初始化,在有益任務上易于適配到全局最優,但在有害任務上陷入局部優點,難以改造。

自毀效果針不戳!

為了測試通過上述方法訓練出的“自毀模型”的性能,研究人員做了個實驗。

首先研究人員準備了一個人物傳記數據集——Bias in Bios。

然后他們將性別識別任務視為有害任務,職業分類任務視為有益任務。在原始數據集基礎上,把所有人稱替換為“they/their”,增加了性別識別任務的難度。

在未處理的數據集上,隨機模型只需要10個例子就可以達到90%以上的性別分類準確率。

然后將模型進行50k steps的MLAC預訓練。

在測試時,研究人員用生成的自毀模型,通過嚴格的超參數搜索運行它,以最大限度地提高有害任務的微調性能

此外,研究人員還抽出了驗證集子集作為攻擊者訓練集,模擬攻擊者僅有有限數據的情況。

但在超參數搜索時,允許攻擊者使用完整的驗證集。這意味著雖然攻擊者只有有限訓練數據,但可以在全量數據上探索超參數

如果在這種情況下,MLAC訓練的模型仍難以適配到有害任務,可以更好地證明其自毀效果。

研究人員隨即將MLAC與以下方法進行比較:

  • 隨機初始化模型
  • 僅在有益任務上微調的BERT
  • 簡單對抗訓練法

△經過微調的有害任務(性別識別)表現。陰影表示在6個隨機seed上的95%置信區間。

結果發現,MLAC方法訓練出的自毀模型在所有數據量下的有害任務性能均接近隨機初始化模型。而簡單對抗訓練法并沒有明顯降低有害任務的微調性能。

與簡單對抗訓練相比,MLAC的元學習機制對產生自毀效果至關重要。

圖片

△MLAC算法中內循環步數K的影響,K=0相當于簡單的對抗訓練

此外,MLAC模型在有益任務上的少樣本性能優于BERT微調模型:

圖片

△在對所需任務進行微調后,MLAC自毀模型的少樣本性能超過了BERT和隨機初始化模型。

論文鏈接:https://arxiv.org/abs/2211.14946

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-01-29 12:49:00

AI模型

2023-07-04 10:11:28

數據模型

2023-10-20 12:17:57

AI數據

2022-07-14 15:08:23

AI模型

2023-07-28 12:13:28

模型語言性能

2023-12-08 13:22:00

數據模型

2022-07-04 15:09:55

超大數據集數據分析瘦身

2024-04-24 09:47:36

2023-12-25 09:23:07

模型技術

2023-02-14 09:45:11

模型測試

2023-09-25 10:04:37

模型AI

2023-05-15 09:43:49

模型數據

2023-03-14 13:45:14

模型AI

2023-11-03 07:47:12

機器資源大模型:

2023-05-04 12:32:28

模型研究

2023-03-22 15:14:00

數據模型

2025-03-03 09:16:00

Meta模型預測

2025-06-06 09:15:00

2024-06-04 14:09:00

2022-10-20 15:38:02

谷歌模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天舔天天 | 中文字幕日韩欧美一区二区三区 | 日韩不卡一区二区三区 | 亚洲视频在线一区 | 国产亚洲精品91 | 精品在线一区 | 亚洲精品v日韩精品 | 91日韩| 欧美一区精品 | 欧美黄色绿像 | 在线观看特色大片免费网站 | 色综合久久久久 | 成人在线视频一区 | 国产精品不卡 | 国产小视频精品 | 亚洲 一区 | 国产成人av在线播放 | 在线免费毛片 | 成人福利在线 | 国产综合一区二区 | 亚洲成人中文字幕 | 久久99精品国产自在现线小黄鸭 | 日韩有码一区二区三区 | 成人激情视频免费观看 | 日韩视频在线一区 | 午夜精品一区二区三区免费视频 | 成人亚洲片| 久久精品免费看 | 日韩欧美一区在线 | 高清人人天天夜夜曰狠狠狠狠 | 成人免费在线视频 | 久久久www成人免费精品 | 中国一级大黄大片 | 国产剧情一区二区三区 | 欧美在线精品一区 | 夜夜骚 | 成人欧美一区二区三区视频xxx | 欧美一级黄色免费看 | 看亚洲a级一级毛片 | 久久99精品久久久久 | 亚洲成人精品 |