成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<option id="c8qcu"><small id="c8qcu"></small></option>

<center id="c8qcu"></center>

<tr id="c8qcu"><bdo id="c8qcu"></bdo></tr>

<noscript id="c8qcu"></noscript>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署

老蛀蟲(chóng)

發(fā)布于 2025-1-23 11:11

瀏覽

0收藏

Hi，這里是Aitrainee，歡迎閱讀本期新文章。

Deepseek R1正式發(fā)布。不是之前的Light版本，而是完整的R1。

性能與o1相當(dāng)，還采用MIT開(kāi)源協(xié)議，可以商用?，F(xiàn)在能在Deepseek chat平臺(tái)用，也提供API。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

模型分兩個(gè)版本：主力R1，和面向研究的R1-Zero。

R1-Zero沒(méi)有監(jiān)督微調(diào)，直接RL，是一個(gè)未經(jīng)過(guò)對(duì)話偏好對(duì)齊監(jiān)督微調(diào)的版本，專門為研究人員或希望自行微調(diào)模型的人提供。

正式發(fā)布的R1還是用了SFT階段。

R1是671B參數(shù)的大模型，激活參數(shù)只有37B，基于Deepseek V3訓(xùn)練。特別強(qiáng)化了思維鏈和推理能力。

現(xiàn)在Cline或者Roocline中可以直接使用R1了。API獲?。???https://platform.deepseek.com/usage??

在Roocline中這樣設(shè)置：

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

Roocline是什么？看這里：

??全新免費(fèi)的 RooCline 超越了Cline v3.1 ？！更快、更智能、更出色的Cline分叉?。ㄗ灾鰽I編程、0門檻）??

作為測(cè)試，我們用前面寫過(guò)一篇文章《??從0到1用AI做了個(gè)AI服務(wù)網(wǎng)站, 全程沒(méi)寫一行代碼??》，把開(kāi)頭的那個(gè)三合一提示詞扔給他：

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

讓他創(chuàng)建一個(gè)Saas網(wǎng)站原型。那么提示詞比較長(zhǎng)，可以通過(guò)上面這篇文章獲得。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

挺不錯(cuò)的，Saas框架、前后端、登陸注冊(cè)、生圖都還可以。

其次，這是它在Cline中速度、消耗表：

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

youtube@WorldofAI

Deepseek官網(wǎng)直接Chat使用：

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

此外，還有6個(gè)蒸餾小模型：Qwen 1.5B、7B，Llama 8B，Qwen 14B、32B，還有Llama 系列。

這些微調(diào)模型使用由DeepSeek-R1生成的樣本進(jìn)行訓(xùn)練，這大大降低了思考模型的構(gòu)建門檻。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

這個(gè)操作很暖心，讓不同需求的用戶都能用上，從筆記本到服務(wù)器，都能找到合適的版本。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

測(cè)試結(jié)果超出預(yù)期，最強(qiáng)的是Llama-70B。GPQA Diamond 65.2，比Claude 3.5還高。編程上，LiveCodeBench 57.5，CodeForces 1633，幾乎能和o1-mini比肩。

Ollama已經(jīng)可以部署了，很快也能用VLLM本地運(yùn)行。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

R1價(jià)格很友好。API收費(fèi)：輸入每百萬(wàn)token 0.14美元（緩存命中），0.55美元（緩存未命中），輸出2.19美元。對(duì)比o1：輸入15美元，輸出60美元。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

再說(shuō)完全靠強(qiáng)化學(xué)習(xí)，不需要監(jiān)督微調(diào)這一條：

用硬編碼規(guī)則計(jì)算獎(jiǎng)勵(lì)，而非使用學(xué)習(xí)型的獎(jiǎng)勵(lì)模型。學(xué)習(xí)型獎(jiǎng)勵(lì)模型可能會(huì)被強(qiáng)化學(xué)習(xí)策略“利用”或“作弊”，導(dǎo)致優(yōu)化的結(jié)果偏離預(yù)期目標(biāo)。就像AlphaZero，從零開(kāi)始學(xué)習(xí)，不靠模仿人類。

訓(xùn)練過(guò)程中有意思的發(fā)現(xiàn)：模型的思考時(shí)間會(huì)自然增長(zhǎng)，這不是預(yù)設(shè)的，是自發(fā)形成的。模型逐漸學(xué)會(huì)為復(fù)雜問(wèn)題花費(fèi)更多時(shí)間進(jìn)行思考，體現(xiàn)出類似于“自我反思”和“探索行為”的能力。

這是高級(jí)智能行為的一種表現(xiàn)，表明模型具備了更深層次的推理能力。這種未被明確編碼的能力，屬于智能的“涌現(xiàn)特性”（emergent behavior）。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

他們發(fā)明的GRPO比PPO更簡(jiǎn)單：去掉critic網(wǎng)絡(luò)，用多個(gè)樣本的平均獎(jiǎng)勵(lì)代替，簡(jiǎn)化了內(nèi)存使用。這個(gè)方法，是他們2024年2月才提出的。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

DeepSeek-R1-Zero的測(cè)試結(jié)果很有意思。

只靠強(qiáng)化學(xué)習(xí)，在AIME 2024上得到71.0分，MATH-500達(dá)到95.9分。雖然比o1-0912略低，但差距并不大。

特別是在MATH-500上，R1-Zero的95.9分超過(guò)了o1-mini的90.0分。這說(shuō)明純RL訓(xùn)練的模型，也能掌握復(fù)雜的數(shù)學(xué)推理。

LiveCode Bench上得到73.3分，比o1-mini的60.0分高出不少。

這個(gè)結(jié)果很重要：它證明了，不需要大量標(biāo)注數(shù)據(jù)，單靠強(qiáng)化學(xué)習(xí)，AI也能學(xué)會(huì)思考和推理。這可能會(huì)改變我們訓(xùn)練AI的方式。

DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署-AI.x社區(qū)

R1，僅用幾個(gè)月就達(dá)到了閉源大廠的水平，還提供了更實(shí)惠的價(jià)格。

最后，據(jù)官方所述，DeepSeek-R1還有幾個(gè)地方需要提升，他們將繼續(xù)努力：

通用能力上，函數(shù)調(diào)用、多輪對(duì)話、角色扮演和JSON輸出，都不如V3版本。團(tuán)隊(duì)打算用長(zhǎng)鏈推理來(lái)改進(jìn)。

語(yǔ)言處理有點(diǎn)意思?，F(xiàn)在主要針對(duì)中英文優(yōu)化，其他語(yǔ)言容易混雜。比如用德語(yǔ)問(wèn)，它可能用英語(yǔ)想，再用德語(yǔ)答。

提示詞很敏感。少樣本提示反而會(huì)影響性能，建議直接描述問(wèn)題和輸出格式，效果更好。

軟件工程任務(wù)上，評(píng)估太慢影響了RL訓(xùn)練。計(jì)劃用拒絕采樣或異步評(píng)估來(lái)提速。

本文轉(zhuǎn)載自 ??AI進(jìn)修生??，作者： Aitrainee

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

解密o1推理過(guò)程！DeepSeek-R1-Lite預(yù)覽版上線

kede96 ? 3224瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4239瀏覽 ? 0回復(fù)
手把手教你將本地部署的DeepSeek R1集成到Dify

AIGC新知 ? 5623瀏覽 ? 0回復(fù)
DeepSeek-R1：通過(guò)強(qiáng)化學(xué)習(xí)激發(fā)大語(yǔ)言模型的推理潛能

柏企閱文 ? 4707瀏覽 ? 0回復(fù)
外國(guó)專家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)！

51CTO技術(shù)棧 ? 1937瀏覽 ? 0回復(fù)
如何利用 DeepSeek-R1 本地部署強(qiáng)大的推理模型：從 ChatGPT 風(fēng)格界面到 API 集成

Halo咯咯 ? 3540瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 3327瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4908瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡(jiǎn)記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 3096瀏覽 ? 0回復(fù)
滿血DeepSeek-R1免費(fèi)用！附帶數(shù)據(jù)蒸餾的一些想法！

NLP工作站 ? 3105瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡(jiǎn)記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 2304瀏覽 ? 0回復(fù)
通過(guò)LM Studio本地私有化部署DeepSeek-R1模型，無(wú)網(wǎng)絡(luò)也能用

鴻花粉H ? 4332瀏覽 ? 0回復(fù)
DeepSeek R1 全系列模型部署指南

芝士AI吃魚(yú) ? 9232瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 3993瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 2419瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 3431瀏覽 ? 0回復(fù)
Search-R1：強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力

十一月雨_55 ? 2529瀏覽 ? 0回復(fù)
Deepseek-R1，論文番外篇!

NLP前沿1 ? 1386瀏覽 ? 0回復(fù)
Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型

AIRoobt ? 1828瀏覽 ? 0回復(fù)

老蛀蟲(chóng)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

DeepSeek 新模型 R1-0528 悄悄開(kāi)源，與o3 相當(dāng)，實(shí)測(cè)來(lái)了 0回復(fù)

【一手實(shí)測(cè)】字節(jié)豆包 1.6 + Trae + 火山 MCP + FaaS：AI云原生 Agent 開(kāi)發(fā)部署全流程體驗(yàn)！ 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

上一篇： OpenAI Agent來(lái)了！讓 ChatGPT 自動(dòng)執(zhí)行你的想法，向代理時(shí)代邁出的小小一步！

下一篇：谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：亚洲欧美一区二区三区视频 | 亚洲成人av一区二区 | 久草在线在线精品观看 | 日本福利一区 | 男女羞羞视频在线观看 | 欧美亚洲视频在线观看 | 91一区二区三区 | 欧美成人a∨高清免费观看色999日韩 | 国产免费拔擦拔擦8x高清 | 欧美.com| 九九国产| 日韩免费视频一区二区 | 午夜影院网站 | 国产精品乱码一区二三区小蝌蚪 | 成人做爰www免费看视频网站 | 日韩国产欧美 | 国产精品一区二区日韩 | 午夜免费看视频 | 亚洲免费在线观看视频 | 免费观看成人av | 精品国产欧美日韩不卡在线观看 | 日韩中文字幕一区二区 | 伊人网一区 | 91看片在线观看 | 人人亚洲 | 欧美精品在线免费 | 一区二区视频在线观看 | 黄色精品视频网站 | 91精品国产91久久久久久最新 | 紧缚调教一区二区三区视频 | 久久久久久久久久久久久久久久久久久久 | 久草青青草 | 精品人伦一区二区三区蜜桃网站 | 久久国产精品无码网站 | 日韩a视频| 免费毛片网站 | a精品视频| 中文字幕av在线一二三区 | 成人免费av在线 | jdav视频在线观看免费 | 国产网站久久 |

<acronym id="iue80"><li id="iue80"></li></acronym>

<table id="iue80"><fieldset id="iue80"></fieldset></table>