成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1

發(fā)布于 2025-3-13 08:06
瀏覽
0收藏

DeepSeek在領(lǐng)域內(nèi)獲得廣泛關(guān)注的核心在于R1-Zero僅通過強(qiáng)化學(xué)習(xí)(RL)便成功實(shí)現(xiàn)了推理能力的涌現(xiàn),即發(fā)現(xiàn)Aha moment。那么,在多模態(tài)領(lǐng)域,是否也能獲得借鑒R1-Zero的思路呢?

今天介紹的Vision-R1就是這一方面的探索的代表, 其目的就是研究如何有效利用 RL 來增強(qiáng)多模態(tài)大型語言模型(MLLM)的推理能力。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),由于缺乏大規(guī)模、高質(zhì)量的多模態(tài)推理數(shù)據(jù),直接應(yīng)用 RL 訓(xùn)練 MLLM 在激發(fā)其深層推理能力(如提問和反思)方面面臨巨大挑戰(zhàn)。

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

為解決這一難題,Vision-R1 項(xiàng)目創(chuàng)新性地提出了一個(gè)推理型 MLLM,并采取了由冷啟動初始化和 RL 訓(xùn)練 組成的兩階段策略。項(xiàng)目首先著力構(gòu)建高質(zhì)量、大規(guī)模且無需人工標(biāo)注的多模態(tài) Chain-of-Thought (CoT) 數(shù)據(jù)集——Vision-R1-cold 數(shù)據(jù)集。該數(shù)據(jù)集規(guī)模達(dá) 20 萬條,巧妙地利用現(xiàn)有的 MLLM 和 DeepSeek-R1,通過模態(tài)橋接數(shù)據(jù)過濾等技術(shù),將視覺信息轉(zhuǎn)化為文本信息,并融入 DeepSeek-R1 生成的高質(zhì)量 CoT 推理過程,為 Vision-R1 提供了至關(guān)重要的冷啟動知識。

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

數(shù)據(jù)集例子

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

冷啟動初始化數(shù)據(jù)準(zhǔn)備

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

RL訓(xùn)練

為緩解冷啟動后模型易出現(xiàn)的“過度思考優(yōu)化問題”,Vision-R1 進(jìn)一步創(chuàng)新性地提出了漸進(jìn)式思維抑制訓(xùn)練 (PTST) 策略。PTST 結(jié)合群體相對策略優(yōu)化 (GRPO) 算法和硬格式化結(jié)果獎(jiǎng)勵(lì)函數(shù) (HFRRF),在 1 萬條多模態(tài)數(shù)學(xué)數(shù)據(jù)集上進(jìn)行 RL 訓(xùn)練,逐步精煉模型學(xué)習(xí)正確且復(fù)雜的推理過程的能力。PTST 策略在訓(xùn)練初期抑制模型推理長度,引導(dǎo)模型關(guān)注正確的推理路徑,并隨著訓(xùn)練深入,逐步放寬長度限制,最終使 Vision-R1 能夠自主掌握更高級的推理技巧。

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

從實(shí)驗(yàn)結(jié)果上看,在多個(gè)多模態(tài)數(shù)學(xué)推理基準(zhǔn)測試中,Vision-R1 模型較之于其基礎(chǔ)模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在廣泛使用的 MathVista 基準(zhǔn)測試中,僅使用 70 億參數(shù)的 Vision-R1-7B 模型,其準(zhǔn)確率便達(dá)到了 73.5%僅比領(lǐng)先的推理模型 OpenAI O1 低 0.4%,大幅超越開源推理MLLM LLaVA-Cot-11B近9%。這充分展現(xiàn)了 Vision-R1 在多模態(tài)推理任務(wù)上的強(qiáng)大實(shí)力。

Vision-R1的成功說明采用DeepSeek R1的思路是普遍有效的,這對于其它研究者來講給予了非常大的示范意義,如何更好的使用RL激發(fā)大模型的潛力將成為重點(diǎn)的研究方向。

github:https://github.com/Osilly/Vision-R1 

論文:https://arxiv.org/abs/2503.06749

本文轉(zhuǎn)載自 ??AI工程化??,作者: ully

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成人国产精品久久久 | 中文字幕在线观看第一页 | 国产精品99久久久久久大便 | 91精品国产综合久久久久久首页 | 久久精品亚洲精品 | 国产伦精品一区二区三区高清 | 国产欧美一区二区三区国产幕精品 | 99精品国产一区二区青青牛奶 | 亚洲一区二区三区在线 | 免费在线视频精品 | 亚洲精品一区二区冲田杏梨 | 美女天天操 | 一区二区三区日 | 超碰男人天堂 | 欧美日韩国产一区 | 一区免费| 欧美精品网站 | 免费一区二区在线观看 | 玖玖视频国产 | 极品电影院 | 日本在线黄色 | 青青久久 | 99久久久久久久 | 久久婷婷国产麻豆91 | 91成人在线 | 欧美日韩久久精品 | 国产色99| 亚洲一区二区中文字幕在线观看 | 亚洲成人免费av | 欧美6一10sex性hd | 羞羞视频一区二区 | 精品视频一区二区三区在线观看 | 午夜影院污 | 国产精品一码二码三码在线 | 亚洲福利网 | 精品久久伊人 | 男女激情网站免费 | 国产成人精品亚洲日本在线观看 | www.国产.com | av毛片免费 | 亚洲精品一区二区久 |