成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<sup id="nycrr"><dd id="nycrr"></dd></sup>

<samp id="nycrr"></samp>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

發(fā)布于 2025-3-13 08:06

瀏覽

0收藏

DeepSeek在領(lǐng)域內(nèi)獲得廣泛關(guān)注的核心在于R1-Zero僅通過強(qiáng)化學(xué)習(xí)（RL）便成功實(shí)現(xiàn)了推理能力的涌現(xiàn)，即發(fā)現(xiàn)Aha moment。那么，在多模態(tài)領(lǐng)域，是否也能獲得借鑒R1-Zero的思路呢？

今天介紹的Vision-R1就是這一方面的探索的代表，其目的就是研究如何有效利用 RL 來增強(qiáng)多模態(tài)大型語言模型（MLLM）的推理能力。然而，研究團(tuán)隊(duì)發(fā)現(xiàn)，由于缺乏大規(guī)模、高質(zhì)量的多模態(tài)推理數(shù)據(jù)，直接應(yīng)用 RL 訓(xùn)練 MLLM 在激發(fā)其深層推理能力（如提問和反思）方面面臨巨大挑戰(zhàn)。

Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

為解決這一難題，Vision-R1 項(xiàng)目創(chuàng)新性地提出了一個(gè)推理型 MLLM，并采取了由冷啟動初始化和 RL 訓(xùn)練 組成的兩階段策略。項(xiàng)目首先著力構(gòu)建高質(zhì)量、大規(guī)模且無需人工標(biāo)注的多模態(tài) Chain-of-Thought (CoT) 數(shù)據(jù)集——Vision-R1-cold 數(shù)據(jù)集。該數(shù)據(jù)集規(guī)模達(dá) 20 萬條，巧妙地利用現(xiàn)有的 MLLM 和 DeepSeek-R1，通過模態(tài)橋接和數(shù)據(jù)過濾等技術(shù)，將視覺信息轉(zhuǎn)化為文本信息，并融入 DeepSeek-R1 生成的高質(zhì)量 CoT 推理過程，為 Vision-R1 提供了至關(guān)重要的冷啟動知識。

Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

數(shù)據(jù)集例子

Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

冷啟動初始化數(shù)據(jù)準(zhǔn)備

Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

RL訓(xùn)練

為緩解冷啟動后模型易出現(xiàn)的“過度思考優(yōu)化問題”，Vision-R1 進(jìn)一步創(chuàng)新性地提出了漸進(jìn)式思維抑制訓(xùn)練 (PTST) 策略。PTST 結(jié)合群體相對策略優(yōu)化 (GRPO) 算法和硬格式化結(jié)果獎(jiǎng)勵(lì)函數(shù) (HFRRF)，在 1 萬條多模態(tài)數(shù)學(xué)數(shù)據(jù)集上進(jìn)行 RL 訓(xùn)練，逐步精煉模型學(xué)習(xí)正確且復(fù)雜的推理過程的能力。PTST 策略在訓(xùn)練初期抑制模型推理長度，引導(dǎo)模型關(guān)注正確的推理路徑，并隨著訓(xùn)練深入，逐步放寬長度限制，最終使 Vision-R1 能夠自主掌握更高級的推理技巧。

Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

從實(shí)驗(yàn)結(jié)果上看，在多個(gè)多模態(tài)數(shù)學(xué)推理基準(zhǔn)測試中，Vision-R1 模型較之于其基礎(chǔ)模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在廣泛使用的 MathVista 基準(zhǔn)測試中，僅使用 70 億參數(shù)的 Vision-R1-7B 模型，其準(zhǔn)確率便達(dá)到了 73.5%，僅比領(lǐng)先的推理模型 OpenAI O1 低 0.4%，大幅超越開源推理MLLM LLaVA-Cot-11B近9%。這充分展現(xiàn)了 Vision-R1 在多模態(tài)推理任務(wù)上的強(qiáng)大實(shí)力。

Vision-R1的成功說明采用DeepSeek R1的思路是普遍有效的，這對于其它研究者來講給予了非常大的示范意義，如何更好的使用RL激發(fā)大模型的潛力將成為重點(diǎn)的研究方向。

github：https://github.com/Osilly/Vision-R1

論文：https://arxiv.org/abs/2503.06749

本文轉(zhuǎn)載自 ??AI工程化??，作者： ully

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

解密o1推理過程！DeepSeek-R1-Lite預(yù)覽版上線

kede96 ? 3224瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯(cuò)，實(shí)測數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費(fèi)

51CTO技術(shù)棧 ? 3105瀏覽 ? 0回復(fù)
DeepSeek R1橫空出世，超越OpenAI o1，教你用Ollama跑起來

小虎哦哦 ? 1.5w瀏覽 ? 0回復(fù)
DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對標(biāo)o1、蒸餾小模型本地部署

老蛀蟲 ? 3954瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4239瀏覽 ? 0回復(fù)
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研習(xí)社 ? 2396瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓(xùn)練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 6191瀏覽 ? 0回復(fù)
Unsloth：僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1！

PyTorch研習(xí)社 ? 3948瀏覽 ? 0回復(fù)
7G顯存，訓(xùn)練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學(xué)習(xí)筆記 ? 3309瀏覽 ? 0回復(fù)
DeepSeek-R1-Zero激發(fā)了推理Scaling Law

ceesoft ? 2445瀏覽 ? 0回復(fù)
OpenAI揭示o3的推理過程，以彌合與DeepSeek-R1的差距

51CTO內(nèi)容精選 ? 2178瀏覽 ? 0回復(fù)
大模型對決：DeepSeek R1與o3-mini

丟翅膀的魚 ? 2608瀏覽 ? 0回復(fù)
AI領(lǐng)域的“新王”誕生! 馬斯克發(fā)布Grok 3，趕超OpenAI o1和Deepseek R1！

AI博物院 ? 2134瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 3431瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語言處理 ? 2504瀏覽 ? 0回復(fù)
DeepSeek R1 & R2 技術(shù)原理

ceesoft ? 3797瀏覽 ? 0回復(fù)
全面復(fù)現(xiàn)DeepSeek-R1-Zero 數(shù)學(xué)、代碼能力，訓(xùn)練步數(shù)僅需R1-Zero 1/10

快手技術(shù) ? 1094瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強(qiáng)大模型，全面超越DeepSeek-R1

靈度智能 ? 1326瀏覽 ? 0回復(fù)
Qwen3力壓DeepSeek-R1和OpenAI o1，登頂開源王座！

算家計(jì)算 ? 1650瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

思維外包化！AI正在“廢掉”我們的大腦 8天前發(fā)布
上下文工程的崛起：提示工程已是過去式 8天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： OpenAI 發(fā)布GPT-4.5：更大規(guī)模、更知識淵博的模型，預(yù)訓(xùn)練的巔峰之作，COT升級為COD

下一篇： Qwen2.5-VL-32B 更小更聰明！與grok、gemini同臺打造“治愈老奶奶”，誰更強(qiáng)？

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：成人国产精品久久久 | 中文字幕在线观看第一页 | 国产精品99久久久久久大便 | 91精品国产综合久久久久久首页 | 久久精品亚洲精品 | 国产伦精品一区二区三区高清 | 国产欧美一区二区三区国产幕精品 | 99精品国产一区二区青青牛奶 | 亚洲一区二区三区在线 | 免费在线视频精品 | 亚洲精品一区二区冲田杏梨 | 美女天天操 | 一区二区三区日 | 超碰男人天堂 | 欧美日韩国产一区 | 一区免费| 欧美精品网站 | 免费一区二区在线观看 | 玖玖视频国产 | 极品电影院 | 日本在线黄色 | 青青久久 | 99久久久久久久 | 久久婷婷国产麻豆91 | 91成人在线 | 欧美日韩久久精品 | 国产色99| 亚洲一区二区中文字幕在线观看 | 亚洲成人免费av | 欧美6一10sex性hd | 羞羞视频一区二区 | 精品视频一区二区三区在线观看 | 午夜影院污 | 国产精品一码二码三码在线 | 亚洲福利网 | 精品久久伊人 | 男女激情网站免费 | 国产成人精品亚洲日本在线观看 | www.国产.com | av毛片免费 | 亚洲精品一区二区久 |

<table id="upbqw"></table>

<s id="upbqw"></s>

<strike id="upbqw"><em id="upbqw"></em></strike>

<small id="upbqw"><delect id="upbqw"></delect></small>

<pre id="upbqw"></pre>

<td id="upbqw"></td>