成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI發布最新大模型安全對齊獎勵方法——RBR

發布于 2024-7-29 08:57
瀏覽
0收藏

隨著ChatGPT等產品的廣泛應用,確保其輸出的安全性成為場景化落地的關鍵。傳統方法是使用RLHF(人類反饋強化學習)來進行安全對齊,但有兩大局限性難以持續使用。


1)收集和維護人類反饋數據不僅成本高昂,并且隨著大模型能力的提高以及用戶行為的變化,現有的數據很快就會過時失效;

2)如果數據標注者存在個人偏見,會導致模型的輸出出現極大偏差,例如,標注人對黑人


有歧視,就會在生成CEO等高端形象時偏向白人(這個情況真實發生過)。

所以,OpenAI提出了一個更高效的安全對齊獎勵方法Rule Based Rewards(簡稱“RBR”)。


論文地址:??https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf?ref??

OpenAI發布最新大模型安全對齊獎勵方法——RBR-AI.x社區

與傳統方法RLHF不同的是,RBR可將大模型期望的行為分解為一系列具體的規則。這些規則明確描述了期望和不期望的行為,例如,拒絕應該包含簡短的道歉;拒絕應該具有評判性;對自我傷害對話的回應,應包含同情的道歉等。


這種規則的分離類似于人類反饋方法中提出的規則,但研究人員使用了AI反饋而非人類反饋,同時允許對大模型的輸出進行細粒度控制。

細粒度控制

細粒度控制可將我們對模型行為的期望轉化為一系列精細的規則。這些規則非常具體,能指導大模型在面對不同請求時,如何做出恰當、正確的回應。


例如,如果用戶提出一個不恰當的請求,模型不僅應該拒絕回答,而且應該以一種禮貌和尊重的方式進行。這種方法允許研究人員對模型的輸出進行精確的調節,確保其在保持有用性的同時,不會逾越安全邊界。

OpenAI發布最新大模型安全對齊獎勵方法——RBR-AI.x社區

為了實現這種控制,RBR構建了一系列命題,這些命題是關于模型輸出的二元陳述,它們是評估模型行為的基礎。


例如,一個命題可能是“輸出包含對用戶請求的道歉”。通過對這些命題的真假進行評估,開發人員能夠確定模型的輸出是否符合預期的行為規范。


接著,研究人員將這些命題組合成規則,定義了在特定情況下哪些命題的組合是期望的,哪些是不期望的


例如,在處理自我傷害相關的請求時,模型的響應應該包含共情的道歉,并且避免提供具體的自我傷害方法。這樣的規則使得模型在面對敏感話題時,能夠以一種安全和負責任的方式進行回應。

合成數據生成

由于命題的二元特性,研究人員可以輕松地根據行為政策生成各種合成完成情況,這些完成情況代表了理想完成、次優完成和不可接受完成。合成數據不僅用于訓練模型,也用于評估和調整RBR的權重,確保模型的輸出符合預期的規則。


合成數據的生成過程是一個自動化的流程,它從一個行為指令開始,通過一系列命題和規則,生成具有不同特征的完成情況。

OpenAI發布最新大模型安全對齊獎勵方法——RBR-AI.x社區

例如,對于一個需要硬拒絕的請求,研究人員可以生成一個完美的拒絕示例,其中包含簡短的道歉和聲明無法遵守的聲明;


同時,也可以生成包含評判性語言或不合邏輯的延續的不良拒絕示例。這些合成數據為模型提供了豐富的學習樣本,幫助它理解在不同情境下應該如何做出恰當的響應


為了測試RBR的性能,研究人員對比了RBR訓練的模型與人類安全數據基線訓練的模型。實驗結果顯示,RBR能夠在提高安全性的同時,最大限度地減少過度拒絕的情況,實現了更安全的輸出。

OpenAI發布最新大模型安全對齊獎勵方法——RBR-AI.x社區

在內部安全評估中,RBR訓練的模型(RBR - PPO)在安全性和過度拒絕指標上表現出色,F1分數達到97.1,高于人類反饋基線的91.7和有助益基線的95.8。


本文轉自 AIGC開放社區 ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/0FkYBl3QV2OLSJw67EGLrA??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91黄在线观看 | 亚洲有码转帖 | 国产精品2区| 99re在线免费视频 | 一区二区三区免费看 | 亚洲日本一区二区三区四区 | 国产高清精品一区二区三区 | 久久久久一区二区 | 日韩三级免费观看 | 午夜精品一区二区三区在线播放 | 日本精品视频在线观看 | 国产丝袜一区二区三区免费视频 | 亚洲色欧美另类 | 米奇7777狠狠狠狠视频 | 国产中文 | 激情欧美一区二区三区中文字幕 | 欧美精品一二三区 | 这里精品 | 亚洲狠狠爱一区二区三区 | 国产精品福利视频 | 你懂的免费在线 | 一级毛片在线视频 | 在线免费视频一区 | 欧美精品久久 | 日韩精品在线看 | 日韩精品一区二区三区视频播放 | 91日韩 | 午夜视频在线观看网址 | 欧美国产日韩在线观看 | 毛片大全 | 亚洲精品日日夜夜 | 欧美激情久久久 | 久久久久国产一区二区三区 | 国产99久久精品一区二区永久免费 | 久久精品小短片 | 国产在线精品一区二区三区 | 中国一级特黄真人毛片免费观看 | 久久国产精品99久久久久久丝袜 | 91看片在线观看 | 国产免费一区二区三区 | 欧美黄页|