成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用RLHF 2%的算力讓LLM停止有害輸出,字節提出LLM遺忘學習

人工智能 新聞
字節跳動提出讓 LLM 進行遺忘學習的方法來進行對齊。本文研究如何在 LLM 上進行 “遺忘” 操作,即忘記有害行為或遺忘學習(Machine Unlearning)。

隨著大型語言模型(LLM)的發展,從業者面臨更多挑戰。如何避免 LLM 產生有害回復?如何快速刪除訓練數據中的版權保護內容?如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在數據政策更改后快速迭代 LLM?這些問題在人工智能法律和道德的合規要求日益成熟的大趨勢下,對于 LLM 的安全可信部署至關重要。

目前業界的主流解決方案為 LLM 對齊 (alignment),即通過建立對比數據(正樣本和負樣本)用強化學習的方式來對 LLM 進行微調 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,從而保證 LLM 輸出符合人類預期和價值觀。但對齊過程往往受到 (1) 數據收集;(2) 計算資源的限制。

字節跳動提出讓 LLM 進行遺忘學習的方法來進行對齊。本文研究如何在 LLM 上進行 “遺忘” 操作,即忘記有害行為或遺忘學習(Machine Unlearning),作者展示了遺忘學習在三種 LLM 對齊場景上取得的明顯效果:(1) 刪除有害輸出;(2) 移除侵權保護內容;(3) 消除大語言 LLM 幻覺。

遺忘學習有三個優勢:(1) 只需負樣本(有害樣本),負樣本比 RLHF 所需的正樣本(高質量的人工手寫輸出)的收集簡單的多(比如紅隊測試或用戶報告);(2) 計算成本低;(3) 如果知道哪些訓練樣本導致 LLM 有害行為時,遺忘學習尤為有效。

作者證明,如果從業者只有較少的資源,因此優先考慮的是停止產生有害輸出,而不是試圖產生過于理想化的輸出,遺忘學習尤為便利。盡管只有負樣本,研究表明,和 RLHF 相比,只使用 2% 的計算時間下,遺忘學習仍可以獲得更好的對齊性能。

圖片

  • 論文地址:https://arxiv.org/abs/2310.10683
  • 代碼地址:https://github.com/kevinyaobytedance/llm_unlearn

使用場景

本方法可以在資源有限的情況下,最大程度發揮優勢。當沒預算請人員寫優質樣本,或計算資源不足時,應當優先停止 LLM 產生有害輸出,而不是試圖讓其產生有益輸出。

有害輸出造成的損害遠不是有益輸出能彌補的。如果一個用戶問 LLM100 個問題,他得到一個有害答案,就會失去信任,不管后來 LLM 能給多少有益答案。有害問題的預期輸出可以是空格、特殊字符、無意義字符串等,總之,一定要是無害文本。

文中展示了 LLM 遺忘學習的三個成功案例:(1) 停止生成有害回復(圖一);這與 RLHF 情境相似,區別是本方法目標是生成無害回復,而不是有益回復。當只有負樣本時,這是能期望的最好結果。(2) LLM 使用侵權數據訓練后,在作者要求下,成功刪除數據,且考慮到成本因素不能重訓 LLM;(3) LLM 成功忘記 “幻覺”。

圖一

方法

在微調 step t,LLM 更新如下:

圖片

第一項損失為梯度上升(graident descent),目的為忘記有害樣本:

圖片

圖片為有害提示 (prompt),圖片為對應的有害回復。整體損失反向提升了有害樣本的損失,即讓 LLM “遺忘” 有害樣本。

第二項損失為隨機誤配,強制 LLM 在有害提示上預測無關回復。類似于分類里的標簽平滑(label smoothing [2])。目的是 LLM 更好的忘記有害提示上的有害輸出。同時實驗發現能增加 LLM 正常輸出的性能。

圖片

第三項損失為在正常任務上維持性能:

圖片

同 RLHF 類似,在預訓練 LLM 上計算 KL 散度能更好保持 LLM 性能。

此外,所有的梯度上升和下降都只在輸出(y)部分做,而不是像 RLHF 在提示 - 輸出對(x, y)上。

應用場景:忘卻有害內容等

本文用 PKU-SafeRLHF 數據作為遺忘數據,TruthfulQA 作為正常數據,圖二顯示了遺忘學習后 LLM 在忘卻的有害提示上輸出的有害率。文中使用的方法為 GA(梯度上升和 GA+Mismatch:梯度上升 + 隨機誤配)。遺忘學習后的有害率接近于零。

圖二

圖三顯示了未見過的有害提示(未被忘卻過)上的輸出。即使在沒有忘卻過的有害提示上,LLM 的有害率也接近于零,證明 LLM 忘記的不僅僅是具體見過的樣本,而是泛化到了包含有害這個概念的內容。

圖三

同時 LLM 在正常樣本上的性能和忘卻前保持類似。

表一展示了生成的樣本。可以看到在有害提示下,LLM 生成的樣本都是無意義字符串,即無害輸出。

表一

該方法在其他場景(如忘卻侵權內容和忘卻幻覺)的應用原文中有詳細描述。

RLHF 比較

表二顯示了該方法和 RLHF 的比較,這里 RLHF 已經用了正例,而遺忘學習的方法只有負例,所以比較一開始本方法就占劣勢。但即便如此,遺忘學習也能取得和 RLHF 相似的對齊性能。

表二

圖四顯示了計算時間的比較,本方法只需 RLHF 2% 的計算時間。

圖片

圖四

盡管只有負樣本,遺忘學習的方法仍能達到和 RLHF 相似的無害率,而且只使用 2% 的算力。因此如果目標是停止輸出有害輸出,遺忘學習比 RLHF 更高效。

結論

該研究首次探索了 LLM 上的遺忘學習。本文的結果表明,遺忘學習是一種有希望的對齊方法,特別是當從業者沒有足夠的資源時。論文展示了三種情境:遺忘學習可以成功刪除有害回復、刪除侵權內容和消除錯覺。研究表明,盡管只有負樣本,遺忘學習仍可在只用 RLHF 計算時間的 2% 的情況下,獲得和 RLHF 相近的對齊效果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-06 07:00:00

2024-09-30 14:40:00

AI強化學習框架

2024-12-30 10:35:00

訓練數據模型

2023-10-06 12:47:35

模型訓練

2023-06-15 14:06:13

2024-07-12 14:07:04

2024-08-09 12:46:04

2025-06-05 06:36:17

2023-09-27 08:18:03

2025-03-05 04:00:00

2023-09-01 15:22:49

人工智能數據

2024-11-05 13:30:00

2024-08-05 13:00:00

2023-06-30 09:00:00

Falcon LLM開源

2025-02-17 09:06:00

AI算力模型

2024-06-03 07:57:32

LLMLlama 2token

2025-05-21 13:52:39

LLM模型

2023-06-29 08:00:00

人工智能LLMGPT-4

2025-06-16 09:40:48

2024-12-17 12:08:21

IAA多模態LLM
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩一卡 | 色婷婷国产精品综合在线观看 | 成人午夜网站 | 视频一区在线播放 | 国产精品网址 | 高清黄色网址 | 欧美视频在线一区 | 韩日av在线| 欧美一区二区在线视频 | 中文字幕久久精品 | 国产伦一区二区三区视频 | 蜜桃视频在线观看免费视频网站www | 一区欧美 | 婷婷久久精品一区二区 | 日韩精品免费看 | 久久精品91| 国产精品a久久久久 | 小川阿佐美pgd-606在线 | 国产免费又色又爽又黄在线观看 | 国产激情在线播放 | 日本福利在线观看 | 国产精品一区二区在线免费观看 | 久久中文字幕一区 | 国内精品久久久久 | 国产亚洲一区在线 | 天天综合国产 | 日本一二三区电影 | 成人一区在线观看 | 中文字幕一区在线观看视频 | 国产精品久久久久久久久久久久 | 中文字幕在线免费视频 | 在线播放中文字幕 | 午夜视频大全 | 国产农村妇女精品一二区 | 亚洲码欧美码一区二区三区 | 久久久性色精品国产免费观看 | 欧产日产国产精品视频 | 日韩欧美天堂 | 精品国产欧美一区二区三区不卡 | 免费一级黄色录像 | 少妇性l交大片免费一 |