成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署

發(fā)布于 2025-1-23 11:11
瀏覽
0收藏

Hi,這里是Aitrainee,歡迎閱讀本期新文章。

Deepseek R1正式發(fā)布。不是之前的Light版本,而是完整的R1。

性能與o1相當(dāng),還采用MIT開(kāi)源協(xié)議,可以商用?,F(xiàn)在能在Deepseek chat平臺(tái)用,也提供API。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

模型分兩個(gè)版本:主力R1,和面向研究的R1-Zero。

R1-Zero沒(méi)有監(jiān)督微調(diào),直接RL,是一個(gè)未經(jīng)過(guò)對(duì)話偏好對(duì)齊監(jiān)督微調(diào)的版本,專門為研究人員或希望自行微調(diào)模型的人提供。

正式發(fā)布的R1還是用了SFT階段。

R1是671B參數(shù)的大模型,激活參數(shù)只有37B,基于Deepseek V3訓(xùn)練。特別強(qiáng)化了思維鏈和推理能力。

現(xiàn)在Cline或者Roocline中可以直接使用R1了。API獲?。???https://platform.deepseek.com/usage??

在Roocline中這樣設(shè)置:

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

Roocline是什么?看這里:

??全新免費(fèi)的 RooCline 超越了Cline v3.1 ?!更快、更智能、更出色的Cline分叉?。ㄗ灾鰽I編程、0門檻)??

作為測(cè)試,我們用前面寫過(guò)一篇文章《??從0到1用AI做了個(gè)AI服務(wù)網(wǎng)站, 全程沒(méi)寫一行代碼??》,把開(kāi)頭的那個(gè)三合一提示詞扔給他:

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

讓他創(chuàng)建一個(gè)Saas網(wǎng)站原型。那么提示詞比較長(zhǎng),可以通過(guò)上面這篇文章獲得。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

挺不錯(cuò)的,Saas框架、前后端、登陸注冊(cè)、生圖都還可以。

其次,這是它在Cline中速度、消耗表:

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

youtube@WorldofAI

Deepseek官網(wǎng)直接Chat使用:

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

此外,還有6個(gè)蒸餾小模型:Qwen 1.5B、7B,Llama 8B,Qwen 14B、32B,還有Llama 系列。

這些微調(diào)模型使用由DeepSeek-R1生成的樣本進(jìn)行訓(xùn)練,這大大降低了思考模型的構(gòu)建門檻。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

這個(gè)操作很暖心,讓不同需求的用戶都能用上,從筆記本到服務(wù)器,都能找到合適的版本。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

測(cè)試結(jié)果超出預(yù)期,最強(qiáng)的是Llama-70B。GPQA Diamond 65.2,比Claude 3.5還高。編程上,LiveCodeBench 57.5,CodeForces 1633,幾乎能和o1-mini比肩。

Ollama已經(jīng)可以部署了,很快也能用VLLM本地運(yùn)行。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)


R1價(jià)格很友好。API收費(fèi):輸入每百萬(wàn)token 0.14美元(緩存命中),0.55美元(緩存未命中),輸出2.19美元。對(duì)比o1:輸入15美元,輸出60美元。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

再說(shuō)完全靠強(qiáng)化學(xué)習(xí),不需要監(jiān)督微調(diào)這一條:

用硬編碼規(guī)則計(jì)算獎(jiǎng)勵(lì),而非使用學(xué)習(xí)型的獎(jiǎng)勵(lì)模型。學(xué)習(xí)型獎(jiǎng)勵(lì)模型可能會(huì)被強(qiáng)化學(xué)習(xí)策略“利用”或“作弊”,導(dǎo)致優(yōu)化的結(jié)果偏離預(yù)期目標(biāo)。就像AlphaZero,從零開(kāi)始學(xué)習(xí),不靠模仿人類。

訓(xùn)練過(guò)程中有意思的發(fā)現(xiàn):模型的思考時(shí)間會(huì)自然增長(zhǎng),這不是預(yù)設(shè)的,是自發(fā)形成的。模型逐漸學(xué)會(huì)為復(fù)雜問(wèn)題花費(fèi)更多時(shí)間進(jìn)行思考,體現(xiàn)出類似于“自我反思”和“探索行為”的能力。

這是高級(jí)智能行為的一種表現(xiàn),表明模型具備了更深層次的推理能力。這種未被明確編碼的能力,屬于智能的“涌現(xiàn)特性”(emergent behavior)。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

他們發(fā)明的GRPO比PPO更簡(jiǎn)單:去掉critic網(wǎng)絡(luò),用多個(gè)樣本的平均獎(jiǎng)勵(lì)代替,簡(jiǎn)化了內(nèi)存使用。這個(gè)方法,是他們2024年2月才提出的。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

DeepSeek-R1-Zero的測(cè)試結(jié)果很有意思。

只靠強(qiáng)化學(xué)習(xí),在AIME 2024上得到71.0分,MATH-500達(dá)到95.9分。雖然比o1-0912略低,但差距并不大。

特別是在MATH-500上,R1-Zero的95.9分超過(guò)了o1-mini的90.0分。這說(shuō)明純RL訓(xùn)練的模型,也能掌握復(fù)雜的數(shù)學(xué)推理。

LiveCode Bench上得到73.3分,比o1-mini的60.0分高出不少。

這個(gè)結(jié)果很重要:它證明了,不需要大量標(biāo)注數(shù)據(jù),單靠強(qiáng)化學(xué)習(xí),AI也能學(xué)會(huì)思考和推理。這可能會(huì)改變我們訓(xùn)練AI的方式。

DeepSeek-R1 + RooCline:極佳的強(qiáng)化學(xué)習(xí)AI編碼代理!對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

R1,僅用幾個(gè)月就達(dá)到了閉源大廠的水平,還提供了更實(shí)惠的價(jià)格。

最后,據(jù)官方所述,DeepSeek-R1還有幾個(gè)地方需要提升,他們將繼續(xù)努力:

通用能力上,函數(shù)調(diào)用、多輪對(duì)話、角色扮演和JSON輸出,都不如V3版本。團(tuán)隊(duì)打算用長(zhǎng)鏈推理來(lái)改進(jìn)。

語(yǔ)言處理有點(diǎn)意思?,F(xiàn)在主要針對(duì)中英文優(yōu)化,其他語(yǔ)言容易混雜。比如用德語(yǔ)問(wèn),它可能用英語(yǔ)想,再用德語(yǔ)答。

提示詞很敏感。少樣本提示反而會(huì)影響性能,建議直接描述問(wèn)題和輸出格式,效果更好。

軟件工程任務(wù)上,評(píng)估太慢影響了RL訓(xùn)練。計(jì)劃用拒絕采樣或異步評(píng)估來(lái)提速。

本文轉(zhuǎn)載自 ??AI進(jìn)修生??,作者: Aitrainee

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    主站蜘蛛池模板: 亚洲欧美一区二区三区视频 | 亚洲成人av一区二区 | 久草在线在线精品观看 | 日本福利一区 | 男女羞羞视频在线观看 | 欧美亚洲视频在线观看 | 91一区二区三区 | 欧美成人a∨高清免费观看 色999日韩 | 国产免费拔擦拔擦8x高清 | 欧美.com| 九九国产| 日韩免费视频一区二区 | 午夜影院网站 | 国产精品乱码一区二三区小蝌蚪 | 成人做爰www免费看视频网站 | 日韩国产欧美 | 国产精品一区二区日韩 | 午夜免费看视频 | 亚洲免费在线观看视频 | 免费观看成人av | 精品国产欧美日韩不卡在线观看 | 日韩中文字幕一区二区 | 伊人网一区 | 91看片在线观看 | 人人亚洲 | 欧美精品在线免费 | 一区二区视频在线观看 | 黄色精品视频网站 | 91精品国产91久久久久久最新 | 紧缚调教一区二区三区视频 | 久久久久久久久久久久久久久久久久久久 | 久草青青草 | 精品人伦一区二区三区蜜桃网站 | 久久国产精品无码网站 | 日韩a视频| 免费毛片网站 | a精品视频| 中文字幕av在线一二三区 | 成人免费av在线 | jdav视频在线观看免费 | 国产网站久久 |