RLHF不夠用了，OpenAI設計出了新的獎勵機制

作者：機器之心 2024-07-25 12:33:45

近日，OpenAI 公布了一種教導 AI 模型遵守安全政策的新方法，稱為基于規則的獎勵（Rule-Based Rewards，RBR）。

自大模型興起以來，使用強化學習從人類反饋（RLHF）中微調語言模型一直是確保 AI 準確遵循指令的首選方法。

為了確保 AI 系統安全運行并與人類價值觀保持一致，我們需要定義期望行為并收集人類反饋來訓練「獎勵模型」。這種模型通過發出期望的動作來指導 AI。但是，收集這些常規和重復任務的人類反饋通常效率不高。此外，如果安全政策發生變化，已經收集的反饋可能會過時，需要新的數據。

我們能否構建一種新的機制來完成這些任務？近日，OpenAI 公布了一種教導 AI 模型遵守安全政策的新方法，稱為基于規則的獎勵（Rule-Based Rewards，RBR）。

相關論文已經放出。

論文標題：Rule Based Rewards for Language Model Safety
論文地址：https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
代碼鏈接：https://github.com/openai/safety-rbr-code-and-data

論文作者之一、OpenAI 安全系統負責人 Lilian Weng 表示，「RBR 可以自動執行一些模型微調。傳統上，我們依賴于來自人類反饋的強化學習作為默認的對齊訓練方法來訓練模型，這確實有效。然而在實踐中，我們面臨的挑戰是，我們花了很多時間討論政策的細節，而到最后，政策可能已經發生了變化。」

RBR 根據一組安全規則提供 RL 信號，使其更容易適應不斷變化的安全政策，而無需嚴重依賴人類數據。此外，借助 RBR，研究者能夠以更統一的視角看待安全性和模型能力，因為更強大的分級模型可以提供更高質量的 RL 信號。

OpenAI 表示自 GPT-4 發布以來，他們一直將 RBR 用作安全堆棧的一部分，包括 GPT-4o mini，并計劃在未來的模型中實施它。

為什么要提出 RBR？

隨著大型語言模型（LLM）功能的增強和普及，確保其安全性和對齊變得越來越重要。最近的許多工作都集中在使用人類偏好數據來調整模型上，例如基于人類反饋的強化學習（RLHF）。

然而，僅使用人類反饋來實現目標安全規范還面臨許多挑戰。為模型安全性收集和維護人類數據通常既費錢又費時，而且隨著模型能力的提高或用戶行為的改變，安全準則也會發生變化，這些數據可能會過時。即使要求相對穩定，也很難向注釋者傳達。安全方面的情況尤其如此，因為所需的模型響應非常復雜，需要對是否響應以及如何響應請求做出細微差別。如果說明不夠明確，注釋者可能不得不依賴個人偏見，從而導致超出預期的模型行為，如變得過于謹慎，或以不理想的風格（如評判）做出響應。

例如，在 OpenAI 的一次實驗中，一些注釋者在對用戶有關自殘請求的可能回復進行排序時，偏向于將用戶轉到美國自殺熱線，而這對美國以外的用戶沒有幫助。要解決這些問題，往往需要重新標注或收集新數據，這既昂貴又耗時。

為了解決這些問題，使用 AI 反饋的方法最近越來越受歡迎，其中最突出的是憲法 AI（Constitutional AI）。這些方法利用 AI 反饋合成訓練數據，與人類數據相結合，用于監督微調（SFT）和獎勵模型（RM）訓練步驟。不過，在憲法 AI 和其他方法中，「憲法」涉及「選擇危害較小的響應」等一般性指導原則，AI 模型有很大的自由裁量權來決定什么是有害的。在現實世界的部署中，我們需要執行更詳細的政策，規定應該拒絕哪些提示，以及拒絕的方式是什么。

因此，在這篇論文中，OpenAI 的研究者提出了一種新的 AI 反饋方法 ——RBR，它允許人類詳細說明所需的模型響應，類似于給人類注釋者的指示。

RBR 的工作原理是怎樣的？

實施 RBR 的方法包括定義一組命題 —— 關于模型響應中期望或不期望方面的簡單陳述，例如「帶有評判性」、「包含不允許的內容」、「提及安全政策」、「免責聲明」等。然后，這些命題被用來形成規則，這些規則被精心設計以捕捉在各種場景中安全和適當響應的細微差別。

例如，在面對不安全請求時，拒絕（如「抱歉，我無法幫你」）是一種期望的模型響應。相關規則將規定，拒絕應「包含簡短的道歉」并且「應說明無法遵從」。

研究團隊設計了三類期望的模型行為，用于處理有害或敏感的話題。根據安全政策，不同的請求對應不同的模型響應類型。

圖中內容由 AI 工具翻譯，僅供參考。

以下是一些命題的簡化示例，以及它們如何映射理想行為或非理想行為到不同響應類型的。

圖中內容由 AI 工具翻譯，僅供參考。

研究者在下表中提供了一些在實驗中訓練模型所完成的示例。

圖中內容由 AI 工具翻譯，僅供參考。

評估器是一個固定的語言模型，根據響應遵循規則的程度對其進行評分，從而使 RBR 方法能夠靈活適應新規則和安全政策。

RBR 使用這些評分來擬合一個線性模型，該模型的權重參數是從一個已知理想響應類型的小數據集，以及對應的期望做法和不期望做法中學習的。

這些 RBR 獎勵隨后與來自「僅提供幫助」的獎勵模型的獎勵結合起來，作為 PPO 算法的額外信號，以鼓勵模型遵循安全行為策略。

該方法允許研究者對模型的行為進行精細控制，確保其不僅避免有害內容，而且以一種既表示尊重又有幫助的方式進行。

強化學習過程中 RBR 與傳統獎勵模型的集成。

RBR 好用嗎？

實驗顯示，經過 RBR 訓練的模型表現出與經過人類反饋訓練的模型相當的安全性能。前者還減少了錯誤地拒絕安全請求（即過度拒絕）的情況。

此外，RBR 還顯著減少了對大量人工數據的需求，使訓練過程更快、更具成本效益。

隨著模型能力和安全準則的發展，RBR 可以通過修改或添加新規則快速更新，而無需進行大量重新訓練。

該圖顯示了有用性（以模型正確遵循安全提示的百分比來衡量）與安全性（以模型正確拒絕不安全提示的百分比來衡量）之間的權衡。對于這兩個指標，值越高越好。右上角標記了有用性和安全性之間的完美平衡。有用性基線不使用安全性 RBR，往往更有用但安全性較低。人類基線是在僅有幫助和人工注釋的安全性數據上進行訓練的，往往非常安全但有用性較低。借助 RBR，OpenAI 的目標是使模型既安全又有用。

RBR 有哪些局限？

盡管規則基礎的系統（RBR）在有明確、直觀規則的任務中表現良好，但在更主觀的任務中（如撰寫高質量的文章），應用 RBR 可能會有些棘手。然而，RBR 可以與人類反饋結合起來，以平衡這些挑戰。例如，RBR 可以強制執行特定的準則（如「不要使用俚語」或模型規范中的規則），而人類反饋可以幫助處理更細微的方面（如整體連貫性）。RBR 的強度被優化為既能正確執行安全偏好，又不會過度影響最終的獎勵評分 —— 這樣，RLHF 獎勵模型仍然可以在如寫作風格等方面提供強有力的信號。

倫理考量：將安全檢查從人類轉移到 AI 上可能會減少對 AI 安全的人工監督，并且如果使用有偏見的模型提供 RBR 獎勵，還可能放大潛在的偏見。為了解決這個問題，研究人員應該仔細設計 RBR，以確保其公平和準確，并考慮結合使用 RBR 和人類反饋，以最大限度地減少風險。

OpenAI 表示，RBR 不僅限于安全訓練，它們可以適應各種任務，其中明確的規則可以定義所需的行為，例如為特定應用程序定制模型響應的個性或格式。下一步，OpenAI 還計劃進行更廣泛的消融研究，以更全面地了解不同的 RBR 組件、使用合成數據進行規則開發以及人工評估，以驗證 RBR 在包括安全以外的其他領域的各種應用中的有效性。

責任編輯：張燕妮來源：機器之心

模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RLHF不夠用了，OpenAI設計出了新的獎勵機制

為什么要提出 RBR？

RBR 的工作原理是怎樣的？

RBR 好用嗎？

RBR 有哪些局限？