成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析

發(fā)布于 2024-12-12 11:02
瀏覽
0收藏

OpenAI年終大戲第二場推出了強(qiáng)化微調(diào)RFT (Reinforcement Fine-Tuning),它可以讓你用幾十到幾千個的訓(xùn)練數(shù)據(jù),為特定的復(fù)雜任務(wù)構(gòu)建專家模型,加強(qiáng)了模型如何處理類似問題的推理,微調(diào)后的o1-mini得分提高80%,反超o1正式版

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

強(qiáng)化微調(diào)技術(shù)的一種實(shí)現(xiàn)方式:首先通過監(jiān)督式微調(diào)(Supervised Fine-Tuning)對模型進(jìn)行預(yù)熱,然后利用在線強(qiáng)化學(xué)習(xí),特別是PPO算法,進(jìn)一步微調(diào)模型。這種方法能夠自動采樣多種推理路徑,并從真實(shí)答案中自然派生出獎勵信號。

SFT和ReFT在CoT替代方案存在時的比較

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

強(qiáng)化微調(diào)(RFT)的兩個主要階段:預(yù)熱階段和強(qiáng)化學(xué)習(xí)階段。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

  1. 預(yù)熱階段(Warm-up):
  • 在這個階段,模型使用包含“問題(question)”和“思維鏈(Chain-of-Thought,CoT)”元組的數(shù)據(jù)集進(jìn)行微調(diào),通常持續(xù)1-2個epoch。
  • 目的是使模型具備基本的問題解決能力,能夠生成適當(dāng)?shù)捻憫?yīng)。
  • CoT生成過程被分解為一系列預(yù)測下一個詞(token)的動作,直到生成結(jié)束符(<eos>)。
  1. 強(qiáng)化學(xué)習(xí)階段(Reinforcement Learning):
  • 在這個階段,模型通過在線自我學(xué)習(xí)的方式提高性能,使用包含“問題(question)”和“答案(answer)”元組的數(shù)據(jù)集。
  • 模型通過重復(fù)采樣響應(yīng)、評估響應(yīng)的答案正確性,并在線更新其參數(shù)。
  • 使用PPO(Proximal Policy Optimization)算法進(jìn)行訓(xùn)練,其中價值模型(value model)V?是基于預(yù)熱階段后的政策模型πθ的最后隱藏狀態(tài)構(gòu)建的。
  • 獎勵函數(shù)在終端狀態(tài)時直接比較從狀態(tài)的CoT提取的答案和真實(shí)答案y,正確則返回1,否則返回0。對于數(shù)值型答案的數(shù)據(jù)集,還可以應(yīng)用部分獎勵(partial reward)0.1。
  • 總獎勵是獎勵函數(shù)得分和學(xué)習(xí)到的RL政策與初始政策之間的Kullback-Leibler(KL)散度的和。

GSM8K中的一個問題(x)、思維鏈(CoT)(e)和答案(y)的示例。SFT過程在訓(xùn)練數(shù)據(jù)上迭代多個周期。提出的ReFT從SFT預(yù)熱并在同一數(shù)據(jù)上執(zhí)行RL訓(xùn)練。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

實(shí)驗(yàn)表明,RFT在GSM8K、MathQA和SVAMP等數(shù)據(jù)集上的性能顯著優(yōu)于SFT,并且可以通過多數(shù)投票和重新排名等策略進(jìn)一步提升性能

ReFT和基線模型在所有數(shù)據(jù)集上微調(diào)后的價值準(zhǔn)確度

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

SFT和ReFT在GSM8K數(shù)據(jù)集中第1、3和5周期的P-CoT響應(yīng)對同一個問題的反應(yīng)。綠色框架內(nèi)的反應(yīng)是正確的,而紅色框架內(nèi)的反應(yīng)是錯誤的。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)


https://arxiv.org/pdf/2401.08967
Code: https://github.com/lqtrung1998/mwp_ReFT

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 在线免费观看色 | 亚洲人人 | 欧美激情一区二区 | 日韩在线综合 | 欧美精品在线一区 | 青青草原综合久久大伊人精品 | 亚洲久久久 | 嫩草一区二区三区 | 97超碰免费 | 男女性毛片 | 91精品国产91久久久久福利 | 欧洲视频一区二区 | 青草视频在线 | 欧美视频第二页 | 久久久高清 | 人人爽人人爽 | 亚洲黄色片免费观看 | 五月婷亚洲 | 国产成人精品一区 | 精品国产欧美 | 欧美日韩一区在线观看 | 精品日韩一区二区 | 午夜一区二区三区在线观看 | 久久久久网站 | 免费的色网站 | 精品动漫一区 | 久久久久久国模大尺度人体 | 国产电影一区二区 | 日本特黄a级高清免费大片 特黄色一级毛片 | 久久蜜桃av一区二区天堂 | 亚洲精品免费观看 | av影片在线 | 欧美一区免费在线观看 | 国内自拍视频在线观看 | 蜜桃精品噜噜噜成人av | 国产精品久久久久免费 | 午夜激情网| 久草新在线 | 亚洲欧美综合精品久久成人 | 免费视频一区二区 | 精品视频久久久 |