成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了

人工智能 新聞
該論文介紹了一種名為 ReMax 的新算法,專為基于人類反饋的強化學習(RLHF)而設計。ReMax 在計算效率(約減少 50% 的 GPU 內存和 2 倍的訓練速度提升)和實現簡易性(6 行代碼)上超越了最常用的算法 PPO,且性能沒有損失。

圖片

  • 論文鏈接:https://arxiv.org/abs/2310.10505
  • 作者:李子牛,許天,張雨舜,俞揚,孫若愚,羅智泉
  • 機構:香港中文大學(深圳),深圳市大數據研究院,南京大學,南棲仙策
  • 開源代碼:https://github.com/liziniu/ReMax

如未額外說明,所有圖片來自于論文。

背景

今年,以 ChatGPT 為首的大語言模型(Large Language Models, LLMs) 在各個方面大放光彩,由此引發了學術界和商業界對 GPU 等計算資源的需求劇增。

圖片

左圖來自 DALL?E3,右圖來自 DALL?E3

比如監督訓練地調優 (supervised fine-tuning, SFT) 一個 Llama2-7B 的模型,需要消耗 80GB 以上的內存。而這往往不夠,為了和人類對齊(alignment),大語言模型還要經過 RLHF (reinforcement learning from human feedback) 的訓練。RLHF 的 GPU 消耗往往是 SFT 的 2 倍以上,訓練時間更能達到 6 倍以上。

近日,美國政府宣布限制英偉達 GPU 產品 H100, H800等進入中國市場。這項條款無疑為中國發展大語言模型(LLMs) 和人工智能增添了很多阻力。減小 RLHF 的訓練成本(GPU 消耗和訓練時間)對 LLMs 的發展非常重要。

動機

RLHF 包含三個階段:

1. 監督式地調優(Supervised Fine-Tuning, SFT)。 

2. 從對比數據中學習獎勵模型(reward model)。

3. 利用強化學習(RL)算法來最大化獎勵。

圖片

圖片來源自 InstructGPT 論文

我們發現 RLHF 的主要計算開銷來源于第三階段(獎勵最大化)。這一點可以從 DeepSpeed-Chat 的報告里看到,第三階段的訓練時間是前兩個階段時間總和的 4 倍以上。而且,根據我們的經驗,第三階段的 GPU 消耗是前兩階段的 2 倍以上。

圖片

圖片來自 DeepSpeed-Chat 技術報告

目前 RLHF 第 3 階段的主要計算瓶頸是什么?

我們發現該階段的計算瓶頸主要來源用來目前使用的 RL 算法:PPO 算法。PPO 算法是用來解決普適 RL 問題的最流行的算法之一,有非常多成功的案例。我們在這里省略 PPO 的技術細節,著重介紹 PPO 的一個關鍵組件:價值模型  (The value model)。價值模型是一個需要被訓練的神經網絡,能夠有效地估計給定策略的預期長期回報。盡管價值模型為 PPO 帶來了良好的性能,但它在 RLHF 任務中也引入了沉重的計算開銷。例如,為了更好地與人類偏好對齊,PPO 中的價值模型通常與 LLM 大小相似,這使存儲需求翻了一番。此外,價值模型的訓練需要存儲其梯度、激活和優化器狀態,這進一步增加了近 4 倍的 GPU 存儲需求。總結來說,PPO 和它的價值模型(以及其訓練相關部分)已成為 RLHF 獎勵最大化階段的主要計算障礙。

相比 PPO,ReMax 是輕量級算法

思路

是否有可能找到比 PPO 更適配 RLHF 的算法?

 我們得出的答案是肯定的。這是因為 PPO 和價值模型是為通用 RL 問題設計的,而不是針對像 RLHF 這樣的特定問題(RLHF 只是 RL 問題中的一個子類)。有趣的是,我們發現 RLHF 具有三個在 PPO 中未使用的重要結構:

1. 快速模擬(fast simulation):  軌跡(即 LLM 中的整個響應)可以在很短的時間內迅速執行(小于 1s),幾乎沒有時間開銷。

2. 確定性轉移(deterministic transitions):上下文確定性依賴于過去的標記和當前生成的標記。

3. 軌跡級獎勵(trajectory-level rewards):獎勵模型只在響應完成時提供一個獎賞值。

通過這三個觀察,我們不難發現 value model 在 RLHF 的問題中是 “冗余” 的。這是因為 value model 設計的初衷是為了隨機環境下的樣本效率和慢仿真環境的計算效率。然而這在 RLHF 中是不需要的。

圖片

ReMax 是針對 RLHF 設計的算法,PPO 則是為通用 RL 設計的算法

方法

ReMax

ReMax 算法基于一個古老的策略梯度算法 REINFORCE,REINFORCE 使用的策略梯度估計器如下圖所示:

圖片

REINFORCE 梯度估計器

REINFORCE可以在計算層面利用好RLHF任務的三個性質,因為REINFORCE直接利用一個響應的獎勵來進行優化,不需要像一般的RL算法一樣需要知道中間步驟的獎勵和值函數。然而,由于策略的隨機性, REINFORCE梯度估計器存在高方差問題(在Richard Sutton的RL書里有指出),這一問題會影響模型訓練的有效性,因此REINFORCE在RLHF任務中的效果較差,見下面兩張圖片。

圖片

REINFORCE 的計算代價小,但性能差


圖片

REINFORCE 的(隨機)梯度值遠遠大于 ReMax

為解決這一問題,ReMax 使用貪婪生成的回答(greedy response)的獎勵作為基準值(baseline value)來構建梯度估計器,具體公式如下:

圖片

ReMax 梯度估計器

注意到,貪婪回復的獎勵圖片可以看作為期望獎勵圖片的好的近似。在理想情形下(圖片),對于隨機變量圖片圖片,因此我們能夠期望估計器圖片具有更小的方差。

下圖展示了 ReMax 的算法流程,紅色方框中的是核心算法改變。

圖片

ReMax 算法流程

理論保證 

我們證明了 ReMax 使用的梯度估計器仍然是真實策略梯度的一個無偏估計器。

詳細理論介紹見論文。

算法優點

  • ReMax 的核心部分可以用 6 行代碼來實現。相比之下,PPO 要額外引入重要性采樣(importance sampling),廣義優勢估計(generalized advantage estimation,GAE),價值模型學習等額外模塊。
  • ReMax 的超參數很少。相比之下,PPO 有額外的超參數,例如重要性采樣剪切閾值(importance sampling clipping ratio)、GAE 系數、價值模型學習率,離策略訓練輪次(off-policy training epoch)等,這些超參數都需要花大量時間去調優。
  • ReMax 能理論上節省約 50% 內存。相比于 PPO,ReMax 成功移除了所有和價值模型相關的部件,大大減小了內存開銷。通過計算,我們發現相比于 PPO,ReMax 能節省約 50% 內存。

效果

有效性

  • ReMax 可以像 PPO 一樣有效地最大化獎勵

圖片

在 OPT-1.3B 上,ReMax 可以有效地最大化獎勵

圖片

在 OPT-1.3B 上,ReMax 的訓練非常穩定

  • 在 GPT-4 評估下(LIMA Test Questions),ReMax 得到的策略比 SFT 和 PPO 會更好

圖片

GPT4 打分顯示 ReMax 得到的模型會更好

高效性

  • ReMax 能節省近 50% 的 GPU 內存。ReMax 移除掉了價值模型和它的訓練部分(梯度,優化器,激活值),從而極大節省了 GPU 內存需求。考慮 Llama2-7B,PPO 無法在 8xA100-40GB 的機器上跑起來,但是 ReMax 可以。

圖片

在 Llama2-7B 上,ReMax 可以節省近 50% 的 GPU 內存

  • ReMax 能加快 2 倍的訓練速度。在每一輪中,ReMax 調用 2 次生成(generation),1 次反向傳播(backpropagation);而 PPO 使用 1 次生成,2 次反向傳播。對于大模型而言,生成會比反向傳播的時間小,從而 ReMax 可以實現理論上接近 2 倍的訓練加速。

圖片通用性

除了 RLHF 任務,作為一個 RL 算法,ReMax 對于經典的 NLP 任務也適用。本文考慮了在 GPT-2 上進行一個電影評論續寫的任務,這里獎勵模型不是從對比數據學習的。實驗觀測到,ReMax 可以實現 2.2 倍的訓練加速和 60% 的 GPU 內存節省。

圖片

在經典的 NLP 任務(文本續寫)上,ReMax 相比 PPO 實現了 2.2 倍加速

總結

最后,我們從實驗中簡要總結了 ReMax 相對于 PPO 的主要優勢。

  • 更簡單的實現:  ReMax 的核心部分 6 行代碼即可實現。這與 PPO 中的眾多復雜的代碼構建塊形成鮮明對比。
  • 更少的內存開銷:由于移除了價值模型及其全部訓練組件,相比 PPO,ReMax 節省了大約 50% 的 GPU 內存。
  • 更少的超參數:   ReMax 成功移除了所有和價值模型訓練相關的超參數,其中包括:GAE 系數、價值模型學習率、重要性采樣時期、小批量(mini-batch)大小。這些超參數往往對問題敏感且難以調整。我們相信 ReMax 對 RLHF 研究者更加友好。
  • 更快的訓練速度:在 GPT2(137M)的實驗中,我們觀察到 ReMax 在真實運行時間方面相比于 PPO 有 2.2 倍的加速。加速來自 ReMax 每次迭代中較少的計算開銷。通過我們的計算,該加速優勢在更大的模型上也能維持(假設在足夠大的內存下 PPO 可以被成功部署)。
  • 優異的性能:如前所示,ReMax在中等規模實驗中與PPO實現了相當的性能,并且有時甚至超越它(可能是由于 ReMax 更容易找到合適的超參數)。我們推測這種良好的性能可以拓展到更大規模的模型中。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-07-23 10:50:24

C程序

2022-04-01 08:02:44

云成本服務器互聯網

2023-02-05 13:06:07

ChatGPT看圖方法

2019-04-19 08:18:37

神經網絡數據圖形

2015-04-02 12:42:26

HDFS分層存儲高效

2011-08-29 09:33:48

2010-12-23 15:55:00

上網行為管理

2018-05-08 14:58:07

戴爾

2025-05-15 00:01:00

2015-07-03 10:46:26

PHP程序員工作高效

2023-05-28 13:13:54

高并發場景JUC

2023-06-20 07:19:49

RTX 4090HWBOT顯卡

2023-11-16 08:55:14

CSS前端

2024-08-19 00:35:00

Pythondict遍歷列表推導式

2024-05-29 10:31:52

2021-05-13 11:35:54

K8STerraform代碼倉庫

2023-11-24 11:20:04

functoolsPython

2019-04-19 08:47:00

前端監控數據

2016-06-30 16:54:49

UCloud愛數云計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧洲一区二区 | 福利视频网站 | 日韩性生活网 | 亚洲在线中文字幕 | 蜜桃视频一区二区三区 | 亚洲欧美在线观看 | 97视频在线看 | www.操.com| 亚州视频在线 | 亚洲一视频 | 国产成都精品91一区二区三 | 成人欧美一区二区三区在线观看 | 一片毛片 | 精品国产乱码久久久久久蜜臀 | 97国产一区二区 | 久久久精品一区 | 2021天天躁夜夜看 | 国产婷婷色一区二区三区 | 美日韩精品 | 国产精品久久久 | 精品亚洲永久免费精品 | 黄色免费av| 国产精品久久久久久久久久免费看 | 国产日韩欧美二区 | 黄色网址大全在线观看 | 久久国| 亚洲一区二区三区四区五区中文 | 91.xxx.高清在线| 精品国产乱码久久久久久蜜柚 | 成人一区二区三区在线 | 国产福利视频导航 | 少妇一级淫片免费放播放 | 免费在线观看一区二区 | 日韩久草 | av永久| 日本电影免费完整观看 | 天天综合网天天综合色 | 一级全黄少妇性色生活免费看 | 精品国产一区久久 | 国产香蕉视频 | 特黄特色大片免费视频观看 |