成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<dl id="cwu8g"></dl><li id="cwu8g"><dl id="cwu8g"></dl></li>

<del id="cwu8g"><fieldset id="cwu8g"></fieldset></del>

<del id="cwu8g"><bdo id="cwu8g"></bdo></del>

<samp id="cwu8g"><tbody id="cwu8g"></tbody></samp>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

聊聊對強化微調（RFT）的理解及看法

發布于 2024-12-13 13:10

瀏覽

0收藏

在看了 OpenAI 的直播，精讀了字節論文，以及和知乎@真中合歡激烈辯論后。我對 RFT ( Reinforcement Fine-Tuning ) 也有了一些自己的認知，這篇文章給大家分享一下我的理解。

首先給出我的結論：RFT 并不是新的技術范式，而是 PPO 技術范式下的新應用范式，RFT 相比于傳統 PPO 的創新點是 rule-based reward_model。

疊甲聲明：RFT 屬于應用范式，RFT 依賴的是 rule-based reward_model ，這兩個觀點屬于個人看法，如有不對，還望輕噴。至于 “dozens of data” 就能生效，是不是能間接說明 RFT 相較于 PPO 之外，有更多的細節，我目前沒有從 OpenAI 紕漏的 demo 中觀察出來。

RFT 是什么

從 OpenAI 展示的內容中，我們可以這么理解：RFT 就是針對給定 prompt，產生一些包含 cot 的 response ，再通過一個 verifier 來判斷 response 是否正確，作為信號來指導模型進行參數更新。

拋開 cot 過程不談，如果我們把這套流程的 verifier 換成 reward_model ，這個流程看上去是不是感到很熟悉？—— 那就是最傳統的基于 PPO 的 RLHF。

好，目前為止，在我的認知中，RFT 和 RLHF 唯一的區別就是，它的 return (reward 信號) 是通過 verifier 算出來的，而不是一個 reward_model 計算出來的。verifier 本身則可以看成是一個 rule，比如 math 任務的答案是否正確，code 任務的代碼是否能執行 …… 因此， RFT = PPO + rule_based reward_model

RFT 的價值

OpenAI 在介紹 RFT 的時候說了這樣一句話：“RFT 旨在使開發者和機器學習工程師能夠創建專門針對特定復雜、特定領域任務的專家模型”。這就是 RFT 的價值：只要能定制好一個任務的 verifier，那么 RFT 便可以在這個新的領域場景，以十分之一或更少的數據，輕松超過 SFT 的結果。當然，用 PPO 訓練模型能帶來的所有收益也都是 RFT 的優點，這里就不贅述了。

介紹中還提到，RFT 擅長解決法律、保險、醫療、金融和工程領域等任務，而這些任務通常有明確的“正確答案”。是因為 RFT 只適合答案固定的場景嗎？不是，僅僅是因為答案固定的場景 verifier 非常容易制定。

Sam Altman 在直播中認為 RFT 是 2024 最牛的技術進展，能幫助大家搞定專業模型的訓練。說的沒錯，RFT 在大模型應用方向確實是劃時代的，因為它真的能幫 OpenAI 賣更多的定制化服務。LLM 從業者們也能從中些許受益，掌握了 RFT 技術后，以后老板再提出做一個新的應用模型，我們就不需要再枯燥的標注大量的 SFT 數據，而是花一點時間訓個 verifier 即可。

字節的 ReFT

說完 OpenAI 的 RFT，我們再來聊聊字節的 ReFT。字節的 ReFT 可以看作是 OpenAI 的 RFT 在數學任務上的一個極簡版實現方案（僅從 OpenAI 紕漏出來的細節，我沒看出來二者有本質的區別，或許 dozens of data 這幾個單詞背后埋藏了更多的技術細節）：

SFT 得到一個較好的模型；
給定 prompt，do_sample 多次，生成一些帶 cot 的 response；
答案正確，1 分；答案錯誤，0.1 分；提取不到答案（說明沒有 follow 輸出格式），0分；
根據 returns 更新模型。

如果我們現在再讀 ReFT 論文，會覺著這篇論文并沒有太多的閃光點，好像里面提到的方案自己也都能想到。我想說的是：ReFT 這篇論文，好就好在它是在 o1 之前發表的。因為 o1 的出現，“cot 的推理過程，MCTS 采樣，PRM，ORM，rule-based reward_model” 等概念，已經在 LLM 圈深入人心了。大家頂著 o1 的知識背景，回頭看今年上半年的創新工作，自然會覺著有些稚嫩。

ReFT 這篇論文固然偉大，但就像我前面說的，RFT 只是 PPO 技術范式下的一個新應用范式。它本身并不是一個全新的技術范式，所以我個人覺著談不上說誰首創了這個技術范式。

RFT 會改變什么

對于字節這樣的算力大廠，本來就有賣大模型服務的業務線，那么 RFT 既然能幫 OpenAI 賣服務，自然也能幫字節賣服務。所以大廠需要立刻跟進這項應用技術。

對于 LLM 的普通從業者，短期內則是無事發生，該訓 SFT 還得訓，該洗數據還得洗。但長遠來看，我們的心態和學習方向需要發生變化，我們必須留意到，這已經是 OpenAI 今年第二次告訴大家說 PPO 真的很重要了，上一次是 o1。如果大家還是“兩耳不聞強化事，一心只搞 dpo”，我只能說心態確實夠頂。

寫在最后

希望大家不要再感慨 SFT 沒價值了，也別感慨 RFT 真牛啊，完全追不上 OpenAI 之類的話，感慨無用，如果對 RFT 感興趣，請 git clone OpenRLHF 代碼，然后 bash train_ppo.sh。?

本文轉載自 ??NLP工作站??，作者： ybq

標簽

贊

收藏

回復

舉報

回復

相關推薦

談談我對 AIGC 趨勢下軟件工程重塑的理解

wx5bbef785639a1 ? 3069瀏覽 ? 0回復
STIC：自我訓練增強LVLM對圖像理解的能力

AIGC最前線 ? 2704瀏覽 ? 0回復
【LLM】對大語言模型微調優化的研究

sbf_2000 ? 3965瀏覽 ? 0回復
大模型的訓練與調優，SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 8208瀏覽 ? 0回復
百度CEO李彥宏就當前業界對大模型的認知誤區發表了自己的看法

InfonityAI智推星 ? 2414瀏覽 ? 0回復
大模型的訓練與調優，SFT(監督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 8865瀏覽 ? 0回復
有了大模型的應用經驗之后，再談對大模型的理解

AI探索時代 ? 1791瀏覽 ? 0回復
對想從事大模型領域的技術開發者的建議或看法

AI探索時代 ? 2549瀏覽 ? 0回復
深入理解預訓練與微調，為什么需要預訓練，什么是微調？

AI探索時代 ? 4368瀏覽 ? 0回復
DB-GPT-Hub:text2sql的微調框架及基準測試套件

大模型自然語言處理 ? 3011瀏覽 ? 0回復
掌握OpenAI Day 2的RFT技術，你需要搞懂這3個關鍵問題！

凝固的雨_1 ? 4863瀏覽 ? 0回復
微調已死，強化微調萬歲

51CTO技術棧 ? 2268瀏覽 ? 0回復
被OpenAI帶火的強化微調RFT技術解析

PaperAgent ? 2823瀏覽 ? 0回復
聊聊 GPU 監控那些事：利用率 & 故障等

amei2000go ? 6977瀏覽 ? 0回復
DeepSeek-R1 + RooCline：極佳的強化學習AI編碼代理！對標o1、蒸餾小模型本地部署

老蛀蟲 ? 3954瀏覽 ? 0回復
ReFT：通過強化微調增強LLMs

Halo咯咯 ? 2796瀏覽 ? 0回復
聊聊DeepSeek大模型對AI Agent的影響

王吉偉自頻道 ? 2397瀏覽 ? 0回復
我們一起聊聊大模型 SFT 有監督微調教程

AI悠閑區 ? 1860瀏覽 ? 0回復
LLM訓練數據綜述：預訓練與微調數據的規模、來源、類型及開源資源梳理

AIRoobt ? 2081瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法 6天前發布
遲來！解讀Qwen開源的Embedding模型中的細節！附實測結果！ 2025-06-13 07:17:37發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：測測Kimi新開的k0-math，你是數學模型，但我就測文本

下一篇：實測！最新端側全模態大模型Megrez-3B-Omni

社區精華內容

目錄

主站蜘蛛池模板：久久久成人免费视频 | 欧美伊人| 91精品国产色综合久久 | 欧美日韩在线一区 | av一级在线观看 | 国产一级片91 | 欧美精品久久久久久久久老牛影院 | 国产一区二区三区四区三区四 | 毛片一区二区 | 久久伊| 精品国产一级 | 九色国产 | 国产欧美在线视频 | 久久国产传媒 | 欧美日韩在线免费观看 | 欧美在线 | 中文字幕在线观看视频一区 | 日韩欧美视频 | 91久久久www播放日本观看 | 西西裸体做爰视频 | 国产精品一区二区av | 久久久精品 | 国产精品久久久久久久久久免费 | 久久久99精品免费观看 | 久久精品国产免费高清 | 在线观看视频91 | 日韩毛片在线免费观看 | 日韩高清在线 | www.久久| 粉嫩一区二区三区国产精品 | 日韩av在线一区 | 色婷婷av99xx | 亚洲一区二区三区免费视频 | 一区二区三区四区国产 | 亚洲一区二区三区免费观看 | 国产中文字幕在线观看 | 久久99国产精一区二区三区 | 午夜视频在线观看网址 | www.日本在线观看 | 久久久久久国产免费视网址 | 精品国产第一区二区三区 |

<rt id="6u0mk"><acronym id="6u0mk"></acronym></rt>

<li id="6u0mk"></li>