成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

高端的推理模型,僅需一個訓練樣本!

發布于 2025-5-21 06:48
瀏覽
0收藏

論文分享,Reinforcement Learning for Reasoning in Large Language Models with One Training Example

這個論文看起來挺有意思,比較反常識,代碼開源:https://github.com/ypwang61/One-Shot-RLVR。

在Math500上,讓Qwen2.5-Math 1.5B 性能翻倍,從36%提升到73.6%。 讓Qwen2.5-Math 7B,從51% 提升到79.2%。

僅需要1個樣本進行強化學習訓練即可達到。如下圖,最終收斂跟藍色線(一個1000多個樣本的數據集)訓練出來的效果差不多。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

那這個樣本到底是個什么神仙樣本呢?他們不是非常難的樣本,模型還是有可能答對正確步驟,并且實際正確答案可能存在一些誤差。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

高端的算法往往只需要普通的選數據的方法。論文中就是看一下歷史訓練過程中,樣本準確率的波動情況,如果波動大,意味著這個樣本模型的不確定性高,就可以拿來作為 one-shot的樣本。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

這個策略,在不同的模型,不同的強化學習算法上都是有效的,但是好像都是一些小模型。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

訓練到最后,那個訓練樣本的推理過程有點混亂了。但是不影響評估集。


高端的推理模型,僅需一個訓練樣本!-AI.x社區

甚至只用一個entropy loss(意思是,只有一個鼓勵模型積極探索的約束。)訓練都有巨大的提升。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

高端的推理模型,僅需一個訓練樣本!-AI.x社區

論文還有一些實驗,比如跨域表現也很好,模型推理過程中,會加大rethink之類的深度思考的詞匯頻率。

總的來說,沒有花里胡哨的方法。用一個訓練樣本就可以激活模型的推理能力,在各個任務上媲美大規模數據集訓練出來的模型。

本文轉載自???NLP前沿???,作者:NLP前沿

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕日韩欧美 | 一区二区免费看 | 亚洲精品日韩在线观看 | 视频在线一区 | 综合久久久 | 久久久黄色| 国产亚洲一区在线 | 日韩在线国产精品 | 欧美激情久久久 | 四虎影院美女 | 黄色网址大全在线观看 | 中日av| 日韩在线一区二区三区 | 一区二区三区四区在线免费观看 | 国产美女久久 | 免费在线观看黄视频 | 精品国产乱码久久久久久蜜臀 | 欧美激情在线播放 | 国产一区二区三区四区五区加勒比 | 在线观看国产精品一区二区 | 天天人人精品 | 成人免费视频网站在线看 | 婷婷久久综合 | 日本中文字幕一区 | 欧美日韩在线一区二区 | 一区二区三区四区视频 | 在线a视频网站 | 国户精品久久久久久久久久久不卡 | 日本免费一区二区三区四区 | 亚洲欧洲日韩精品 中文字幕 | 91视频免费观看 | 欧美日韩毛片 | av在线一区二区 | 亚洲成人精品国产 | 亚洲国产精品99久久久久久久久 | 色视频一区二区 | 欧美一区二区三区四区视频 | 中文在线观看视频 | 欧美激情第一区 | 精品日韩一区二区 | 亚洲精品乱码久久久久久蜜桃91 |