成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Deepseek-R1,論文番外篇!

發布于 2025-3-28 00:47
瀏覽
0收藏

一篇對deepseek r1 論文補漏的文章,做了很多額外的實驗,內容很到位,標題:Understanding R1-Zero-Like Training: A Critical Perspective。

論文地址:https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

基礎模型分析

驗證模板對幾種基礎模型的影響

Deepseek-R1,論文番外篇!-AI.x社區

觀察結果如下:

Deepseek-R1,論文番外篇!-AI.x社區

  • 模板對模型是回答question,還是補全question很重要
  • 測試的幾個基礎模型在RL之前已經具備數學解題能力
  • Llama和DeepSeek模型使用R1模板時回答能力顯著提升
  • DeepSeek-V3-Base在無模板條件下回答率最低,說明它是相對純粹的基礎模型

特殊的Qwen模型

上面的實驗發現,Qwen在不使用模板可以回答很多問題了。

所以進行了一下具體評測

Deepseek-R1,論文番外篇!-AI.x社區

Qwen2.5-Math不使用任何模板比few-shot的效果更好。

這可能是,這個模型在預訓練階段使用了 問題-答案 的連接文本訓練

這也意味著,使用Qwen 2.5復現R1-Zero可能比較特別,因為基礎模型不需要模板已經跟SFT模型類似了。

aha moment分析

Deepseek-R1,論文番外篇!-AI.x社區

觀察發現, R1-Zero訓練的基礎的v3模型,已經可以生成一些 aha moment的結果了。

并且,有這種自我反思的結果跟準確率之間沒有明顯相關性。

甚至,沒有反思的結果比有反思的準確率更高。

自反思行為與模型準確率之間沒有明顯相關性 實際上,沒有自反思的響應通常比有自反思的響應準確率更高

RL分析

GRPO 偏差分析

R1-zero論文中,提到,響應長度隨著訓練會出現增長的趨勢。

Deepseek-R1,論文番外篇!-AI.x社區

分析目標函數,存在2種偏差

  • 響應級別長度偏差:對于錯誤答案會偏好更長的響應
  • 問題級別難度偏差:由標準差歸一化引起

并且許多開源PPO實現中也存在類似的長度偏差

Deepseek-R1,論文番外篇!-AI.x社區

Dr. GRPO

移除GRPO中的長度歸一化和標準差歸一化項,實驗比較原始GRPO和改進的Dr. GRPO

Deepseek-R1,論文番外篇!-AI.x社區

Dr. GRPO能有效緩解優化偏差,可以防止響應長度無限增長,并且可以顯著減少錯誤響應的長度,緩解過度思考問題。效果沒啥太大差別。

模板與問題集覆蓋范圍的交互影響

研究了不同模板和問題集覆蓋范圍如何影響RL訓練

Deepseek-R1,論文番外篇!-AI.x社區

Deepseek-R1,論文番外篇!-AI.x社區

不同的模板,只決定了初始的分值,RL到底,結果基本相當。

模型與模板不匹配時,數據的全面很重要。

模型與模板匹配時,即使數據量少,域外數據也可以誘導出推理能力。

領域特定預訓練

測試了R1-Zero類訓練在數學推理能力原本較弱的基礎模型上的效果,使用Llama-3.2-3B及其數學預訓練變體

Deepseek-R1,論文番外篇!-AI.x社區

  • 數學領域的預訓練可以顯著提高RL的上限
  • 連續預訓練后的Llama模型在RL后表現大幅提升
  • Dr. GRPO能有效緩解GRPO導致的響應長度和回報同時增長現象。

本文轉載自??NLP前沿??,作者:NLP前沿


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产一区二区影院 | 国产一区二区久久 | 亚洲第一天堂无码专区 | 亚洲精品一级 | 人人人人爽 | 亚洲一区久久久 | ww亚洲ww亚在线观看 | 久久精品中文 | 日韩一区二区视频 | 国产成人精品一区二区三区四区 | 久久久久亚洲精品国产 | 久久精品国产99国产精品 | 精品国产乱码久久久久久丨区2区 | 一级黄在线观看 | 成人免费淫片aa视频免费 | 97人澡人人添人人爽欧美 | 午夜寂寞福利视频 | 成人在线观看免费 | 蜜月va乱码一区二区三区 | 亚洲一区二区免费看 | 国产精品久久久久久久久久久久午夜片 | 久久久国产一区二区三区 | 久久精彩视频 | 免费看啪啪网站 | 久久久123| 欧美精品乱码久久久久久按摩 | 欧美日韩综合一区 | 在线资源视频 | 国产片淫级awww | 久久a久久 | 欧美美女一区二区 | 亚洲成人一区 | 免费视频一区二区 | 色噜噜狠狠色综合中国 | 小早川怜子xxxxaⅴ在线 | 天天影视网天天综合色在线播放 | 日韩免费网| 亚洲高清成人 | 成人不卡视频 | 亚洲精品久久久久久首妖 | 日韩欧美一级片 |