成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

調查分析兩百余篇大模型論文,數十位研究者一文綜述RLHF的挑戰與局限

人工智能 新聞
最近來自 MIT CSAIL、哈佛大學、哥倫比亞大學等機構的數十位研究者聯合發表了一篇綜述論文,對兩百余篇領域內的研究論文進行分析探討,系統地研究了 RLHF 方法的缺陷。

自 ChatGPT 問世,OpenAI 使用的訓練方法人類反饋強化學習(RLHF)就備受關注,已經成為微調大型語言模型(LLM)的核心方法。RLHF 方法在訓練中使用人類反饋,以最小化無益、失真或偏見的輸出,使 AI 模型與人類價值觀對齊。

然而,RLHF 方法也存在一些缺陷,最近來自 MIT CSAIL、哈佛大學、哥倫比亞大學等機構的數十位研究者聯合發表了一篇綜述論文,對兩百余篇領域內的研究論文進行分析探討,系統地研究了 RLHF 方法的缺陷。

論文地址:https://huggingface.co/papers/2307.15217

總的來說,該論文強調了 RLHF 的局限性,并表明開發更安全的 AI 系統需要使用多方面方法(multi-faceted approach)。研究團隊做了如下工作:

  • 調查了 RLHF 和相關方法的公開問題和基本限制;
  • 概述了在實踐中理解、改進和補充 RLHF 的方法;
  • 提出審計和披露標準,以改善社會對 RLHF 系統的監督。

具體來說,論文的核心內容包括以下三個部分:

1.RLHF 面臨的具體挑戰。研究團隊對 RLHF 相關問題進行了分類和調查,并區分了 RLHF 面臨的挑戰與 RLHF 的根本局限性,前者更容易解決,可以在 RLHF 框架內使用改進方法來解決,而后者則必須通過其他方法來解決對齊問題。

2. 將 RLHF 納入更廣泛的技術安全框架。論文表明 RLHF 并非開發安全 AI 的完整框架,并闡述了有助于更好地理解、改進和補充 RLHF 的一些方法,強調了多重冗余策略(multiple redundant strategy)對減少問題的重要性。

3. 治理與透明度。該論文分析探討了改進行業規范面臨的挑戰。例如,研究者討論了讓使用 RLHF 訓練 AI 系統的公司披露訓練細節是否有用。

我們來看下論文核心部分的結構和基本內容。

如下圖 1 所示,該研究分析了與 RLHF 相關 3 個過程:收集人類反饋、獎勵建模和策略優化。其中,反饋過程引出人類對模型輸出的評估;獎勵建模過程使用監督學習訓練出模仿人類評估的獎勵模型;策略優化過程優化人工智能系統,以產生獎勵模型評估更優的輸出。論文第三章從這三個過程以及聯合訓練獎勵模型和策略四個方面探討了 RLHF 方法存在的問題和挑戰。

圖片

論文第三章總結的問題表明:嚴重依賴 RLHF 來開發人工智能系統會帶來安全風險。雖然 RLHF 很有用,但它并沒有解決開發人性化人工智能的基本挑戰。

圖片

研究團隊認為:任何單一策略都不應被視為綜合解決方案。更好的做法是采用多種安全方法的「深度防御」,論文第四章從理解、改進、補充 RLHF 這幾個方面詳細闡述了提高 AI 安全性的方法。

圖片

論文第五章概述了 RLHF 治理面臨的風險因素和審計措施。

圖片

總結

該研究發現,實踐中很多問題來源于 RLHF 的根本局限性,必須采用非 RLHF 的方法來避免或彌補。因此,該論文強調兩種策略的重要性:(1) 根據 RLHF 和其他方法的根本局限性來評估技術進步,(2) 通過采取深度防御安全措施和與科學界公開共享研究成果,來應對 AI 的對齊問題。

此外,該研究闡明一些挑戰和問題并非是 RLHF 所獨有的,如 RL 策略的難題,還有一些是 AI 對齊的基本問題。

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-09-07 13:22:57

模型人工智能計算

2022-04-14 11:49:34

AI論文丑聞

2020-11-26 09:35:00

人工智能機器學習技術

2024-05-16 14:01:46

WOT模型研發

2022-02-22 19:22:43

網絡釣魚網絡攻擊

2023-01-17 15:34:42

論文模型

2023-07-31 11:43:17

研究論文

2017-09-22 10:24:30

CIOIT成本

2024-01-19 10:50:16

峰會模型

2019-12-11 13:35:10

創新者革新投資

2023-12-22 13:46:41

數據訓練

2016-02-24 22:26:04

2023-05-16 12:11:22

2012-11-28 09:21:26

2014-10-17 16:45:19

2020-02-18 16:08:21

物聯網IOT疫情

2024-03-20 10:31:27

2015-06-08 16:55:36

SDNOpenStackIaaS

2024-11-29 18:37:07

2023-10-09 14:28:14

AIGC模型WOT2023
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美性一区二区三区 | 国产成人精品免费视频大全最热 | 高清欧美性猛交xxxx黑人猛交 | 91久久夜色精品国产网站 | 亚洲国产成人精品久久久国产成人一区 | 一区二区精品在线 | 精品美女视频在线观看免费软件 | 国产综合第一页 | 亚洲国产精品久久 | 久久久久久久久久久一区二区 | 久久精品久久久久久 | 国产一区 在线视频 | 一区精品在线观看 | 久久亚洲视频 | 97精品超碰一区二区三区 | 国产天堂 | 在线免费观看一区二区 | 欧美精品一区二区三区在线四季 | 国产精品一二三区 | 国产一区二区不卡 | 狠狠操电影| 夜夜艹| 欧美三级三级三级爽爽爽 | 毛片a区 | 噜啊噜在线 | 亚洲欧美国产毛片在线 | 99久久婷婷国产综合精品电影 | 亚洲精品大全 | 日韩综合在线播放 | 午夜久草 | 色婷婷一区二区三区四区 | 精品欧美一区二区三区久久久 | 在线观看视频中文字幕 | 成人免费观看男女羞羞视频 | 国产高清在线精品 | 一区二区影院 | 国产精品视频一区二区三区 | 国产精品日韩欧美一区二区 | 久久久精品网站 | 久久久久国色av免费观看性色 | 亚洲精品成人网 |