成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1/30訓練步驟復刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓練方法

人工智能 新聞
現在,開源RL訓練方法只需要用1/30的訓練步驟就能趕上相同尺寸的DeepSeek-R1-Zero蒸餾Qwen。

DeepSeek啥都開源了,就是沒有開源訓練代碼和數據。

現在,開源RL訓練方法只需要用1/30的訓練步驟就能趕上相同尺寸的DeepSeek-R1-Zero蒸餾Qwen

圖片

國內大模型六小強之一的階躍星辰聯與清華聯合發布Open Reasoner Zero(ORZ),由AI大拿沈向洋、階躍星辰創始人/CEO姜大昕、ResNet作者張祥雨等一眾大佬親自署名。

圖片

在響應長度上,用約17%的訓練步驟就能趕上DeepSeek-R1-Zero 671B。

圖片

值得關注的是,團隊還發現了一個重要的轉折點——

在訓練步驟約680步時,模型的訓練獎勵值、反思能力和回答長度同時出現顯著提升,疑似出現了DeepSeek-R1-Zero論文中類似的“頓悟時刻”(aha moment)

目前,研究訓練數據、訓練代碼、論文、模型全都100%開源,開源許可證用的也是寬松的MIT Lisence。

開源48小時,就已速攬700+星星。

圖片

以下是更多細節。

復雜的獎勵函數不必要?!

通過廣泛的實驗,團隊證明了一種極簡主義的方法,帶有GAE的原版PPO就可以有效地擴展RL訓練(關鍵的參數設置是GAE λ= 1,折扣因子γ=1)

再加上基于規則的獎勵函數,足以在推理任務上同時擴大響應長度和基準性能,類似于DeepSeek-R1-Zero中觀察到的現象。

這一結果表明復雜的獎勵函數是不必要的。

圖片

另外,團隊在不依賴任何基于KL的正則化技術的情況下實現了穩定的訓練,這與RLHF和推理模型領域目前的認知不同,這也為進一步擴大強化學習規模提供了希望。

同時擴大數據數量和多樣性對于Open Reasoner Zero的訓練至關重要。雖然在像MATH這樣有限的學術數據集上訓練會導致性能快速達到平臺期,但精心策劃的大規模多樣化數據集能夠實現持續擴展,在訓練集和測試集上都沒有飽和的跡象。

在以Qwen2.5-Base-7B為基礎模型的實驗中,所有基準測試在某個時間點都會經歷獎勵和響應長度的突然增加,這種現象類似于涌現行為。

圖片

在整個訓練過程中,Average Correct Reflection Length始終高于 Average Response Length。一個特別值得注意的現象出現在第 680步附近,可以觀察到三個指標同時加速。

圖片

最終,Open-Reasoner-Zero模型在MMLU和MMLU_PRO基準測試中,無需任何額外的指令調整即可超越 Qwen2.5 Instruct。

圖片

One More Thing

昨天,在階躍星辰生態開放日上,階躍星辰創始人兼CEO姜大昕就有簡單提及這項研究。

圖片

只提了一嘴,是因為研究還未完全完成(Working in Progress),隨時可能有新進展,感興趣的盆友可以關注一哈。

圖片

項目地址: 

https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-06 18:37:46

GPUQwen2.5模型

2025-04-23 15:23:25

AI模型代碼

2025-02-03 14:17:27

2025-02-08 14:03:25

2025-03-11 08:37:42

2025-03-06 10:14:39

2025-03-19 09:20:00

2025-02-11 16:15:09

2025-04-22 09:12:00

AI模型數據

2025-02-14 09:20:00

模型數據訓練

2025-03-06 09:55:49

2025-05-12 14:23:42

AI算法訓練

2025-03-06 17:29:21

2025-01-21 11:53:53

2025-03-24 10:00:00

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-06-05 08:40:00

2025-02-07 14:08:45

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜激情视频在线 | 日韩中文字幕免费在线 | 亚洲免费视频一区二区 | 在线观看你懂的网站 | 久久精品小视频 | 午夜免费视频 | 中文字幕一区二区三区四区五区 | 精品伊人久久 | 久久久久久网站 | 日韩欧美精品一区 | 国产精品久久影院 | 91成人在线 | 秋霞电影一区二区三区 | 日韩亚洲一区二区 | 国产成人免费一区二区60岁 | 一区二区三区在线免费看 | 精品亚洲视频在线 | 免费99精品国产自在在线 | 久久91av | 自拍偷拍亚洲视频 | 久久伊人青青草 | 亚洲一区免费 | 久久久久久99 | 欧美在线激情 | 日韩在线视频播放 | 91久久| 成人在线激情 | 99热在线播放 | 国产91九色| 免费成人高清在线视频 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 欧美成人激情视频 | av在线免费网站 | 亚洲午夜网 | 日韩综合在线 | 色综合久久天天综合网 | 欧美精品在线免费观看 | 欧美激情欧美激情在线五月 | 综合久久99| 成人一区二区在线 | 91精品久久久久久久久久入口 |