成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

監(jiān)督學習也能從錯誤中學習反思?!清華英偉達聯(lián)合提出隱式負向策略爆炸提升數(shù)學能力

人工智能 新聞
清華大學與英偉達、斯坦福聯(lián)合提出新的監(jiān)督學習方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎上通過構造一個“隱式負向模型” 來額外利用負向數(shù)據(jù)進行訓練。

監(jiān)督學習也能像強化學習一樣進行“自我反思”了。

清華大學與英偉達、斯坦福聯(lián)合提出新的監(jiān)督學習方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎上通過構造一個“隱式負向模型” 來額外利用負向數(shù)據(jù)進行訓練。

這并不意味著使用“差數(shù)據(jù)”進行訓練,而是在已知的模型計算結果前提下,通過負向數(shù)據(jù)訓練正向模型,即“隱式負向策略(Implicit Negative Policy)”

這一策略彌合了監(jiān)督學習和強化學習的差距,使得兩者性能基本持平。

圖片

△架構圖語言模型在線強化算法光譜圖

更讓人驚訝的是,NFT損失函數(shù)梯度和GRPO在On-Policy條件下是等價的!這意味著,GRPO中人為經(jīng)驗設置的“Group Relative Normalization”方案,可以直接通過理論推導自然得出。

方法:負向策略計算出正向模型

NFT定義了一個在線強化過程:

1.數(shù)據(jù)采樣:語言模型自己產(chǎn)生大量數(shù)學問題答案,通過一個01獎勵函數(shù),把答案分為正確和錯誤兩類,并統(tǒng)計每個問題回答準確率[數(shù)學公式]。

2.隱式策略建模:利用原始模型和待訓練正向模型,構造一個隱式負向策略來建模負向數(shù)據(jù)。

3.策略優(yōu)化:在正確數(shù)據(jù)上,直接監(jiān)督訓練正向策略模型;在錯誤數(shù)據(jù)上,通過用隱式負向策略擬合建模,達到直接優(yōu)化正向策略模型的目的。

圖片

考慮這樣一個監(jiān)督學習基線:Rejection sampling Finetuning(RFT)。每一輪,研究團隊讓模型自己產(chǎn)生大量數(shù)學問題答案,通過一個01獎勵函數(shù),把所有模型產(chǎn)生的錯誤答案丟棄,僅在高質(zhì)量正向數(shù)據(jù)上進行監(jiān)督訓練。RFT中,研究團隊每一輪的訓練目標是:

圖片

問題關鍵在于:能否在負向數(shù)據(jù)上監(jiān)督訓練,也同樣得到上面的“正向策略”呢?

乍看上去是不可能的,在負向數(shù)據(jù)上訓練只能得到?jīng)]有用的“負向策略”。

然而,問題的轉折點在于,數(shù)據(jù)是已知模型在線采樣的,也就是正負向數(shù)據(jù)分布的和是已知的。由貝葉斯公式可知以下線性關系:

圖片

這說明,假設真能在負向數(shù)據(jù)上學習到一個“負向策略”,可以把這個負向策略和原始生成策略結合,“計算”得出想要的正向模型。

在實際操作中,不是真的去學習一個“差模型”。研究團隊提出“隱式負向策略”(Implicit Negative Policy),可以直接在負向數(shù)據(jù)上訓練正向策略。可用以下表達式來參數(shù)化隱式負向模型:

圖片

其中r表示模型在回答問題q時的正確率,現(xiàn)實中由于模型對一個問題會產(chǎn)生多個回答,我們可以很容易地估計r這里表明隱式負向策略不是一個靜態(tài)的模型,而是基于不同難度的問題動態(tài)構造的

因此,NFT損失函數(shù)就可以表達為:

圖片

對以上損失函數(shù)直接求導,研究團隊在嚴格On-policy條件下得到和GRPO等價的梯度表達式。

這暗示了監(jiān)督學習和強化學習或許存在深層的聯(lián)系,也直接說明NFT是一個絕對可靠的算法,最差也是退回On-Policy訓練和GRPO等價。

結果:監(jiān)督強化學習方案性能持平,負向反饋在大模型中優(yōu)勢更加明顯

NFT和當下性能最優(yōu)的強化學習算法性能持平,部分場景下可能更有優(yōu)勢(可以在現(xiàn)有監(jiān)督學習框架基礎上簡單實現(xiàn))。

與主流RLHF算法對比,NFT7B性能超過GRPO、DAPO;32B性能和DAPO基本持平。研究團隊還觀察到,模型越大,NFT和RFT算法性能差異越明顯。這暗示了負向反饋在大模型中承擔更重要的作用。

圖片

和其他已有的基于Qwen-7B zero style訓練模型相比,NFT達到最高的數(shù)學平均成績。

圖片

作為一個純監(jiān)督學習算法,NFT不依賴任何外界數(shù)據(jù),可實現(xiàn)數(shù)學能力的大幅提升。

圖片

△架構圖NFT在Qwen-7B(左)和32B模型(右)上性能表現(xiàn)及對比

研究團隊還發(fā)現(xiàn)NFT算法在不損失性能條件下有利于模型熵增加,鼓勵模型充分探索。

圖片

NFT算法指出并彌合了強化學習和監(jiān)督學習的本質(zhì)差異,這暗示兩套機器學習理論存在深層聯(lián)系,可以幫助研究者重新定位、思考和放大強化訓練的本質(zhì)優(yōu)勢。

項目網(wǎng)頁: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/

論文鏈接: https://arxiv.org/pdf/2505.18116

項目代碼: https://github.com/NVlabs/NFT

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-11-23 15:54:01

人工智能監(jiān)督學習無監(jiān)督學習

2020-04-28 17:26:04

監(jiān)督學習無監(jiān)督學習機器學習

2017-06-12 14:04:45

深度學習人工智能

2021-12-31 14:11:20

框架AI開發(fā)

2020-08-16 11:34:43

人工智能機器學習技術

2020-08-14 11:00:44

機器學習人工智能機器人

2022-10-21 15:02:36

DeepFake技術

2015-10-12 10:37:42

學習算法檢測

2019-10-14 10:40:03

機器學習人工智能非監(jiān)督學習

2023-12-01 16:27:05

機器學習無監(jiān)督學習

2022-03-25 10:13:05

自動駕駛監(jiān)督學習數(shù)據(jù)集

2022-06-14 07:07:57

網(wǎng)絡威脅無監(jiān)督數(shù)據(jù)泄露

2023-11-15 18:40:27

半監(jiān)督學習人工智能

2022-02-15 09:04:44

機器學習人工智能監(jiān)督學習

2023-11-28 12:12:46

機器學習算法

2022-11-03 14:13:52

強化學習方法

2021-03-18 09:28:20

人工智能機器學習技術

2023-10-30 11:33:12

AIChatGPT

2021-07-07 17:19:07

人工智能代碼開源

2025-06-25 08:59:49

AI數(shù)據(jù)模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 7777在线视频 | 一级毛片观看 | 超碰av免费 | 亚洲精品乱码8久久久久久日本 | 一级欧美视频 | 国产亚洲一区二区三区 | 欧美一区二区激情三区 | 久久婷婷香蕉热狠狠综合 | 久热精品在线播放 | 亚洲精品一区二区三区在线观看 | 日韩免费一二三区 | 一级毛片在线看 | 天天干天天爱天天操 | 国产精品一区视频 | 国产视频欧美 | 久久久久www | 亚洲欧美bt | 久久久久久久久国产 | 亚洲最大福利网 | 成人欧美一区二区三区黑人孕妇 | 欧美性影院 | 久久国产精品免费一区二区三区 | hitomi一区二区三区精品 | 日韩中文字幕网 | 日本亚洲一区二区 | 久久99精品久久久久久国产越南 | 99小视频| 九九综合九九 | 中文字幕一区在线观看视频 | 热re99久久精品国产99热 | 一级黄色录像毛片 | 免费午夜视频 | 国产精品一区三区 | 亚洲欧美国产毛片在线 | 亚洲国产精品一区二区第一页 | 精品视频一区二区三区 | 午夜视频网站 | 黄色免费看 | 久久久久久国产精品免费免费 | 精品国产一区二区三区久久 | 久久一区 |