“深思熟慮”的 AI：OpenAI 提出全新安全對齊方法

作者：故淵 2024-12-25 15:31:40

OpenAI 的研究人員提出了一種名為“深思熟慮的對齊”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得顯著成效。

12 月 25 日消息，OpenAI 的研究人員提出了一種名為“深思熟慮的對齊”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得顯著成效。

如何確保大語言模型（LLMs）遵守明確的道德和安全準則，目前存在諸多挑戰。監督微調（SFT）和來自人類反饋的強化學習（RLHF）等現有對齊技術都存在局限性，有被操縱的風險，可能會產生有害內容、拒絕合法請求或難以處理不熟悉的場景等問題。

這些問題通常源于當前安全培訓的弊端，也就是模型從數據間接推斷標準，而非明確地學習，通常缺乏考慮復雜提示的能力，從而限制了它們在微妙或對抗性情況下的有效性。

IT之家注：該方法直接教授模型安全規范，并訓練它們在生成響應之前推理這些準則進，將安全原則融入推理過程中。

整個過程分為兩個階段，第一階段，監督微調（SFT）訓練模型參考并推理安全規范，使用從基礎模型生成的數據集。第二階段，強化學習（RL）使用獎勵模型，根據安全基準評估性能，進一步完善模型的推理。

不同于依賴人工標注數據的方法，“深思熟慮的對齊”使用模型生成的數據和思維鏈（CoT）推理，降低了安全訓練的資源需求。

OpenAI 的 o1 模型已部署該技術，在抵抗越獄提示方面表現出色，在 StrongREJECT 基準測試中得分為 0.88，顯著高于 GPT-4o 的 0.37；此外該技術還可以減少誤拒，在 XSTest 數據集的良性提示中，o1 模型的準確率高達 93%。

“深思熟慮的對齊”通過訓練模型明確推理安全策略，它為復雜的倫理挑戰提供了可擴展且可解釋的解決方案。

參考

責任編輯：龐桂玉來源： IT之家

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看