成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證 原創(chuàng)

發(fā)布于 2025-2-10 09:18
瀏覽
0收藏

最近各種營(yíng)銷號(hào)鼓吹基于qwen的模型幾十塊錢(qián)復(fù)現(xiàn)deepseek-R1-zero,坑壞了算法工程師,筆者實(shí)驗(yàn)驗(yàn)證下這個(gè)夸張說(shuō)法,因?yàn)閷?shí)驗(yàn)僅僅是快速的實(shí)現(xiàn),無(wú)過(guò)多的優(yōu)化,下面實(shí)驗(yàn)數(shù)據(jù)僅供參考,歡迎指正。

實(shí)驗(yàn)過(guò)程

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

DeepSeek-R1-Zero過(guò)程

DeepSeek-R1-Zero是一個(gè)純RL(無(wú)SFT)來(lái)探索模型推理能力的過(guò)程(基于GRPO的RL優(yōu)化過(guò)程)。Reward Model是基于規(guī)則的獎(jiǎng)勵(lì)過(guò)程(Rule-Base RM),R1-Zero階段只關(guān)注數(shù)學(xué)、程序類推理問(wèn)題,都是能簡(jiǎn)單通過(guò)規(guī)則判別答案對(duì)錯(cuò)的,所以獎(jiǎng)勵(lì)模型采用的是純Rule-Base 的設(shè)計(jì),主要包括2類Reward:

  • 正確性校驗(yàn)Reward:數(shù)學(xué)問(wèn)題通過(guò)簡(jiǎn)單的規(guī)則抽取答案與ground truth對(duì)比校驗(yàn)。對(duì)于程序題,通過(guò)編譯生成的程序,校驗(yàn)是否能通過(guò)測(cè)試用例,產(chǎn)生一致的答案
  • 格式校驗(yàn)Reward:校驗(yàn)是否thought內(nèi)容是包含在‘’ 和 ‘’tags之間
模版設(shè)計(jì)

遵循論文的方式,如下:

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

DeepSeek-R1-Zero prompt模版

訓(xùn)練目標(biāo)-產(chǎn)生如“頓悟時(shí)刻”的思考過(guò)程

“Aha Moment” -頓悟時(shí)刻:這個(gè)短語(yǔ)中的 “aha” 是一個(gè)象聲詞,用來(lái)表示突然的領(lǐng)悟或發(fā)現(xiàn)時(shí)發(fā)出的驚嘆聲。就像人們?cè)谕蝗幌朊靼滓患虑榈臅r(shí)候,可能會(huì)不自覺(jué)地發(fā)出 “啊哈!” 這樣的聲音。

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

DeepSeek-R1-Zero報(bào)告中-頓悟時(shí)刻

實(shí)驗(yàn)設(shè)計(jì)
  • 模型選型:??Qwen2___5-3B-Instruct??和??Qwen2___5-7B-Instruct??,網(wǎng)上有很多實(shí)驗(yàn)已經(jīng)驗(yàn)證了3B以下的模型沒(méi)什么作用,就不浪費(fèi)時(shí)間了。
  • 數(shù)據(jù)集:https://huggingface.co/datasets/Jiayi-Pan/Countdown-Tasks-3to4,使用這個(gè)數(shù)據(jù)集的目標(biāo)是根據(jù)一個(gè)數(shù)字列表,組成表達(dá)式得到一個(gè)數(shù)值的過(guò)程:如:給定[1,2,3]組成表達(dá)式得到6,即:1+2+3=6。
  • 強(qiáng)化學(xué)習(xí)算法:基于群體相對(duì)策略優(yōu)化(Group Relative Policy Optimization,GRPO)
  • 實(shí)驗(yàn)環(huán)境:8 * H100
實(shí)驗(yàn)過(guò)程

先說(shuō)結(jié)論,筆者基于7B以下的模型,尚未復(fù)現(xiàn)出“頓悟時(shí)刻”,按照網(wǎng)上一些營(yíng)銷說(shuō)法,推理模型在啟動(dòng)訓(xùn)練后很快就會(huì)產(chǎn)生“頓悟時(shí)刻”,然而實(shí)際卻不是,下面來(lái)看兩個(gè)基于qwen-7B訓(xùn)練一小時(shí)后采樣的例子(例子顯示推理過(guò)程太過(guò)于線性):

case1:

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

基于qwen-7B訓(xùn)練一小時(shí)后采樣

理論上要產(chǎn)生的“頓悟時(shí)刻”效果?

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

case2:

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

基于qwen-7B訓(xùn)練一小時(shí)后采樣

理論上要產(chǎn)生的“頓悟時(shí)刻”效果?

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

豆包生成

顯存占用情況如下圖:按照5刀一小時(shí)的服務(wù)器租用價(jià)格,假設(shè)訓(xùn)練24小時(shí),也需要120刀了。

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時(shí)刻”不可能實(shí)驗(yàn)驗(yàn)證-AI.x社區(qū)

幾點(diǎn)猜想
  • 要產(chǎn)生“頓悟時(shí)刻”的能力,與基座模型的參數(shù)量強(qiáng)相關(guān)
  • 要產(chǎn)生“頓悟時(shí)刻”的能力,基座模型要“語(yǔ)言犀利?”,或者風(fēng)格別那么嚴(yán)肅、沉穩(wěn)?

總結(jié)

實(shí)踐出真知,本文僅作記錄、參考,簡(jiǎn)單的實(shí)驗(yàn)復(fù)現(xiàn)驗(yàn)證幾十塊復(fù)現(xiàn)一個(gè)R1-zero模型的不可能性(如果是純粹的基于qwen2.5-7B以下模型經(jīng)過(guò)RL得到一個(gè)R1-zero模型),代碼就不整理了,今天看到一個(gè)新的實(shí)現(xiàn)倉(cāng)庫(kù)供參考:https://github.com/GAIR-NLP/LIMO


本文轉(zhuǎn)載自公眾號(hào)大模型自然語(yǔ)言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/5OxrQX6sIjNDMmQMpn-YWA??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 91久久久久久久久久久久久 | 一级a爱片性色毛片免费 | 在线观看国产精品视频 | 一级欧美日韩 | 国产 日韩 欧美 在线 | 久久高潮 | 国产美女免费视频 | 免费a大片 | 精品一级 | 成人欧美一区二区三区黑人孕妇 | 国产成年人小视频 | 免费成人高清在线视频 | 91啪影院| 成人精品一区二区 | 日本午夜在线视频 | 午夜电影网站 | 在线欧美亚洲 | 成人免费淫片aa视频免费 | 日韩中出| www.9191.com| 久久高清精品 | 亚洲精品一区在线观看 | 一区二区三区福利视频 | 综合久久综合久久 | 欧美国产视频 | 中文字幕亚洲视频 | 欧洲视频一区 | 国产一区二区三区在线 | 国产午夜精品视频 | 日本精品一区二区三区视频 | 日韩亚洲视频 | 九九热精品视频 | 精品视频国产 | 欧美手机在线 | 欧美日韩中文字幕在线 | 久久久久国产精品一区二区 | 九九久久精品视频 | 亚洲一二三区不卡 | 手机av在线 | 一级片子 | 男人的天堂avav |