調查分析兩百余篇大模型論文，數十位研究者一文綜述RLHF的挑戰與局限

作者：機器之心 2023-08-01 14:29:00

最近來自 MIT CSAIL、哈佛大學、哥倫比亞大學等機構的數十位研究者聯合發表了一篇綜述論文，對兩百余篇領域內的研究論文進行分析探討，系統地研究了 RLHF 方法的缺陷。

自 ChatGPT 問世，OpenAI 使用的訓練方法人類反饋強化學習（RLHF）就備受關注，已經成為微調大型語言模型（LLM）的核心方法。RLHF 方法在訓練中使用人類反饋，以最小化無益、失真或偏見的輸出，使 AI 模型與人類價值觀對齊。

然而，RLHF 方法也存在一些缺陷，最近來自 MIT CSAIL、哈佛大學、哥倫比亞大學等機構的數十位研究者聯合發表了一篇綜述論文，對兩百余篇領域內的研究論文進行分析探討，系統地研究了 RLHF 方法的缺陷。

論文地址：https://huggingface.co/papers/2307.15217

總的來說，該論文強調了 RLHF 的局限性，并表明開發更安全的 AI 系統需要使用多方面方法（multi-faceted approach）。研究團隊做了如下工作：

調查了 RLHF 和相關方法的公開問題和基本限制；
概述了在實踐中理解、改進和補充 RLHF 的方法；
提出審計和披露標準，以改善社會對 RLHF 系統的監督。

具體來說，論文的核心內容包括以下三個部分：

1.RLHF 面臨的具體挑戰。研究團隊對 RLHF 相關問題進行了分類和調查，并區分了 RLHF 面臨的挑戰與 RLHF 的根本局限性，前者更容易解決，可以在 RLHF 框架內使用改進方法來解決，而后者則必須通過其他方法來解決對齊問題。

2. 將 RLHF 納入更廣泛的技術安全框架。論文表明 RLHF 并非開發安全 AI 的完整框架，并闡述了有助于更好地理解、改進和補充 RLHF 的一些方法，強調了多重冗余策略（multiple redundant strategy）對減少問題的重要性。

3. 治理與透明度。該論文分析探討了改進行業規范面臨的挑戰。例如，研究者討論了讓使用 RLHF 訓練 AI 系統的公司披露訓練細節是否有用。

我們來看下論文核心部分的結構和基本內容。

如下圖 1 所示，該研究分析了與 RLHF 相關 3 個過程：收集人類反饋、獎勵建模和策略優化。其中，反饋過程引出人類對模型輸出的評估；獎勵建模過程使用監督學習訓練出模仿人類評估的獎勵模型；策略優化過程優化人工智能系統，以產生獎勵模型評估更優的輸出。論文第三章從這三個過程以及聯合訓練獎勵模型和策略四個方面探討了 RLHF 方法存在的問題和挑戰。