成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了

發布于 2024-5-20 09:23
瀏覽
0收藏

本文作者熊偉是伊利諾伊香檳分校的在讀博士生,其導師為 Tong Zhang 與 Nan Jiang。他的主要研究方向是 RLHF 與機器學習理論。


基于人類反饋的強化學習 (RLHF) 使得大語言模型的輸出能夠更加符合人類的目標、期望與需求,是提升許多閉源語言模型 Chat-GPT, Claude, Gemini 表現的核心方法之一。在此之前,傳統的開源解決方案是基于離線數據集的直接偏好優化 (DPO),并獲得了一系列的明顯超出 SFT 的開源模型。然而,在過去的幾個月中,許多研究表現,在線迭代版本的 RLHF 算法通常要明顯超過他們的離線版本。與此同時,開源社區在這個領域暫時還沒有一個完整的、易于復現的全流程解決方案。


近日,來自 UIUC、Salesforce 的研究人員基于 ICML 2024 論文《Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint》與其他一些領域相關工作實現了完全基于開源數據、模型的在線迭代 RLHF 全流程: (1) 有監督學習;(2) 獎勵函數與偏好函數的建模;(3) 以及基于 DPO 的迭代 RLHF,并基于 LLaMA3-8B 得到目前最先進水平的開源 RLHF 模型。此外,研究人員還將模型、代碼、數據、和超參數選擇全部開源到 GitHub 與 hugging face,以便社區人員能夠復現和進一步在這個方向進行研究。


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Figure 1 最終模型與 LLaMA3-8B-it 對比


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


  • 論文地址:https://arxiv.org/pdf/2405.07863
  • 獎勵模型 / 偏好模型建模: https://github.com/RLHFlow/RLHF-Reward-Modeling
  • 迭代 RLHF: https://github.com/RLHFlow/Online-RLHF
  • Huggingface RLFlow: https://huggingface.co/RLHFlow


離線 RLHF 與在線迭代 RLHF


離線直接偏好優化 (offline DPO) 由于基于深度強化學習算法 PPO 的 RLHF 方案訓練的不穩定性以及對 GPU 資源的不友好 (需要同時加載多個模型),開源社區通常使用直接偏好優化算法 (DPO), 在離線的偏好數據集上進行有監督學習,具體地說:


  • 離線偏好數據集收集:首先隨機采樣一個 prompt,并使用 SFT 模型以及更加強大的語言模型 (GPT-4, Claude, LLaMA2-Chat-70B) 收集兩個回復,最后讓人類 / GPT-4 標注其更喜歡的回復;
  • 在離線數據集上使用 DPO/Slic/IPO 等損失函數進行有監督學習。


由于離線偏好數據集的回復通常由更加強大的語言模型 (GPT-4, Claude, LLaMA2-Chat-70B) 收集,并用以訓練 10B 以下的模型,所以可以看成是一種特殊的蒸餾方式。此外,研究人員在論文中證明了在這種情況下,需要離線數據集對全空間有較好的覆蓋,此時才能保證 DPO 能學習到最優策略。


在線迭代 RLHF 相反,在線迭代 RLHF 并不完全依賴于外部專家模型的回復,而是通過當前模型自己生成的回復組成的偏好數據集進行學習,具體的說,此時既可以從一個離線數據集開始,也可以完全從零開始,在每一輪迭代中,


  • 模型選擇:首先依據歷史數據對模型進行訓練,從而得到兩個模型;
  • 數據收集:對每條 prompt, 用兩個模型采樣 2 條回復,并讓外部偏好模型進行標注,總共收集 m 個偏好數據對加入歷史數據集中。


可見為了實現在線迭代 RLHF,(1) 首先需要一個外部偏好模型,以及 (2) 需要明確每輪的模型選取策略。


基于開源數據集的偏好模型建模


理想情況下,在線迭代學習的外部偏好信號應當由一組有代表性的人類給出,用以模擬模型部署所面對的用戶。由于人類標注價格昂貴,研究人員選擇基于開源數據集,訓練一個獎勵函數或者成對偏好函數,根據 UW 與 Allen AI 提出的評估獎勵函數質量的 rewardbench 結果,訓練所得到的模型達到開源模型的最佳表現 (Cohere RM 并不開源):


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


同時,研究人員收集清洗了開源偏好數據集中的 prompt 集合,可視化結果如下


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


數據收集策略選擇


在原始論文中,研究者推導出一般性的策略選取原則:


利用現有數據的信息選取主要模型:首先在歷史收集到的所有數據集上運行 DPO (也可以替換為 Slic, IPO 等算法), 獲得主要模型;


最大化差異進行探索幫助主要模型學習:由于主要模型僅僅利用歷史數據,它能夠收斂的前提是收集到的在線數據能夠源源不斷的提供新的信息,這啟發研究人員在選擇第二個模型時從下面的集合中選擇相對于主要模型不確定性比較大的方向進行探索:


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


由于對于神經網絡不確定性估計沒有解析解,研究人員解釋上述策略選擇原則為:在保證輔助策略距離主要模型不要太遠的情況下,盡可能最大化他們的差異,這啟發研究人員通過調整采樣參數來獲得主要模型的變種,結合一些現有文獻中流行的啟發式方法拒絕采樣進行探索,具體實現流程如下所示:


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


主要結果


研究人員基于 LLaMA3-8B 實現了全流程訓練,如 Table 1 所示,所得到的最終模型在指令跟隨測試中大幅度超出現有的 < 10B 開源模型水平,同時大幅度超出 offline DPO 基準,這驗證了在線迭代 RLHF 的卓越效果。


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Table 1 最終模型與其他 LLM 在指令跟隨測試中的結果比較。


為了理解在線迭代 RLHF 對模型推理、數學、代碼等能力的影響,研究人員也在標準的學術測試集上進行測試:


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Table 2 學術測試集結果。


經歷在線迭代 RLHF 之后,模型在這些測試上并沒有明顯的性能下降,并在部分基準上獲得了較為明顯的提升。研究人員認為這是回答風格的變化使得模型能夠更高效地使用在預訓練與有監督學習階段獲得的知識。


與此同時,研究人員也進行了一系列的消融實驗。首先,研究人員發現 RLHF 之后的模型通常會面臨回復長度大幅度增加的問題,為此他們提出可以在獎勵函數中加入長度懲罰,實驗結果表明,這樣一個簡單的修改可以大幅度將最終模型的平均輸出長度從 656 token 降低到 382 token。此外研究人員還使用了開源社區的 UltraRM-13B 作為基準 (在 reward bench 上大約排名第 30) 訓練了一個模型,其在指令跟隨測試與學術能力測試中都明顯差于基于作者所訓練的 SOTA 開源獎勵函數得到的模型。


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Table 3 消融實驗結果。


總結


該項目提供了在線迭代 RLHF 全流程的實現,并展示完全基于開源數據集與開源模型,可以得到達到當前最先進水平的 < 10B 語言模型。同時,作者將模型、代碼、數據、以及超參數選擇全部開源到 GitHub 與 hugging face,以使得開源社區可以復現技術報告中的結果。


盡管已經取得顯著進展,這個項目仍然有許多潛在的方向亟待繼續探索。首先,由于資源限制,研究人員采用了基于豐富開源偏好數據集訓練的獎勵獎勵 / 偏好函數作為外部信號來源。未來,如何開發出一個更加準確和穩定的偏好函數,以提高模型的泛化和實用性,仍然需要進一步研究。


其次,雖然當前啟發式的探索策略在一些實例研究中效果不錯,考慮到語言模型回復的指數大小的空間,如何設計更高效的探索仍然值得進一步研究。


最后,在消融實驗中,研究人員發現簡單的長度懲罰可以緩解 RLHF 的長度偏見。雖然此方法有效,但仍有空間發現更多高效的技術手段,以進一步改善模型的輸出質量和用戶體驗。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/bRxdSCCPIrgNBgtDfyzhAA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 成年人黄色免费视频 | 欧美黄色一区 | 精品一区电影 | 超碰导航| 亚洲国产成人av好男人在线观看 | 一区二区三区精品在线视频 | 91国产视频在线 | 国产一区免费视频 | 黄色一级大片在线免费看产 | 你懂的国产 | 一区二区三区在线免费观看 | 久久久精品黄色 | 欧美日韩精品一区二区三区四区 | 秋霞电影一区二区 | 午夜激情在线 | 成年人网站国产 | 免费观看一级毛片视频 | 成人免费影院 | 亚洲一区二区精品视频在线观看 | 欧美一区成人 | 国产成人精品一区二区三区视频 | 一级高清免费毛片 | 午夜影院 | 亚洲一区二区三区在线 | 天堂一区在线 | 一级久久久久久 | 国产一区二区欧美 | 亚洲国产欧美日韩 | www97影院| 日韩在线观看一区二区三区 | 午夜国产羞羞视频免费网站 | 欧美成人免费在线视频 | 日韩三级免费网站 | 久久男人 | 免费成人毛片 | 日韩伦理一区二区 | 国产福利在线播放 | 羞羞视频免费观看入口 | av在线播放免费 | 中文字幕日韩av | 国产一级免费视频 |