成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)

發(fā)布于 2025-3-10 10:25
瀏覽
0收藏

Code:??https://github.com/ModalMinds/MM-EUREKA??? 

Model:??https://huggingface.co/FanqingM/MM-Eureka-Zero-38B  ???

??https://huggingface.co/FanqingM/MM-Eureka-8B??Dataset:

??https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset??

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

Why We DO?

目前的研究大多未能在多模態(tài)環(huán)境中復(fù)現(xiàn)DeepSeek-R1的關(guān)鍵特性,如回答長度的穩(wěn)定增長和準(zhǔn)確率獎(jiǎng)勵(lì)。例如,R1-V僅在簡單計(jì)數(shù)任務(wù)上有所改進(jìn),但未能復(fù)現(xiàn)回答長度增長和"頓悟時(shí)刻";R1-Multimodal-Journey探索了幾何問題,但隨著訓(xùn)練進(jìn)行,回答長度反而下降;LMM-R1雖然在準(zhǔn)確率獎(jiǎng)勵(lì)和回答長度方面取得了進(jìn)步,但這種成功尚未在大規(guī)模圖文數(shù)據(jù)訓(xùn)練中得到驗(yàn)證。雖然Kimi1.5在多模態(tài)推理中取得了有競爭力的結(jié)果,但它并未向社區(qū)開源其模型或訓(xùn)練數(shù)據(jù)。

What We do?

開源框架:我們基于OpenRLHF構(gòu)建了一個(gè)可擴(kuò)展的多模態(tài)大規(guī)模強(qiáng)化學(xué)習(xí)框架,支持包括InternVL在內(nèi)的多種模型和多種RL算法。與R1-V等框架相比,我們的框架具有更強(qiáng)的可擴(kuò)展性,成功訓(xùn)練了InternVL2.5-38B等大型模型


穩(wěn)定的訓(xùn)練:MM-Eureka-8B基于InternVL2.5-Instruct-8B開發(fā),MM-Eureka-Zero-38B基于InternVL2.5-Pretrained-38B開發(fā)。兩者均可以復(fù)現(xiàn)出穩(wěn)定的accuracy reward以及response length增長,并且具備visual aha-moment!

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

驚人的數(shù)據(jù)效率:僅使用54K圖文數(shù)據(jù)進(jìn)行規(guī)則型RL訓(xùn)練,平均性能超過使用1M數(shù)據(jù)的MPO模型;整體基準(zhǔn)準(zhǔn)確率與使用12M數(shù)據(jù)進(jìn)行CoT SFT訓(xùn)練的模型相當(dāng)! MM-Eureka-Zero僅使用8K圖文數(shù)學(xué)推理數(shù)據(jù)(僅為指令模型的0.05%),在我們自己構(gòu)建的K12基準(zhǔn)測試上比指令模型高出8.2%,在MathVerse上表現(xiàn)相當(dāng)

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What is Important?

極簡的RL設(shè)計(jì)足以獲得很好的效果,如果是在instruct model上進(jìn)行實(shí)驗(yàn),添加KL散度往往會限制模型的探索,導(dǎo)致無法觀測到response length的提高。

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

基于難度的數(shù)據(jù)過濾策略對于RL訓(xùn)練穩(wěn)定性及其重要,我們發(fā)現(xiàn)在8B-instruct模型上訓(xùn)練,如果不進(jìn)行數(shù)據(jù)過濾,RL的訓(xùn)練將會非常不穩(wěn)定。

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What We Find?

模型在RL訓(xùn)練的過程中同樣會展示出類似DeepSeek-R1的aha-moment。特別得是:除了展示出反思和回溯操作,模型還學(xué)會了重新審視圖像中的關(guān)鍵信息,我們認(rèn)為這個(gè)是visual aha moment的關(guān)鍵特征

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What We Wanna Do?

我們在復(fù)現(xiàn)過程中進(jìn)行了許多其他的嘗試,再次我們分享一些我們認(rèn)為有幫助,但是并沒有work的操作,我們認(rèn)為這并不代表這些有問題,而是需要進(jìn)一步地探索。

Curriculum Learning:

得益于我們基于難度劃分?jǐn)?shù)據(jù),每個(gè)數(shù)據(jù)都有難度標(biāo)簽,自然的我們把數(shù)據(jù)按難度從低到高進(jìn)行RL訓(xùn)練,然而我們發(fā)現(xiàn)這并不能使得性能獲得收益。我們認(rèn)為這是因?yàn)槟P驮诤唵晤}目上的學(xué)習(xí)難以直接泛化到難題,如何進(jìn)行curriculum learning的數(shù)據(jù)組織仍然重要。

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

Online Data Filter:

我們將我們預(yù)先基于難度的數(shù)據(jù)篩選策略記為Offline Data Filter。這種方案雖然可以幫助RL進(jìn)行穩(wěn)定訓(xùn)練,但是其數(shù)據(jù)利用率降低了,所以我們希望在模型訓(xùn)練的過程中動態(tài)進(jìn)行基于難度的數(shù)據(jù)篩選(類似PRIME)。但是我們發(fā)現(xiàn)訓(xùn)練結(jié)果并不如offline data filter穩(wěn)定,我們認(rèn)為這是因?yàn)槊看胃聲r(shí)候的數(shù)據(jù)量不同,導(dǎo)致梯度不穩(wěn)定。

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

Model Size:

盡管目前一些工作比如ORZ,SimpleRL在7B level的LLM上也復(fù)現(xiàn)了R1的表現(xiàn),但是我們在多模態(tài)推理場景下,難以通過8B的internvl pretrained進(jìn)行成功復(fù)現(xiàn)。我們認(rèn)為這受制于多模態(tài)推理數(shù)據(jù)質(zhì)量以及多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)中很少存在long cot數(shù)據(jù)。

視覺"頓悟時(shí)刻"被破解!MM-Eureka:大規(guī)模強(qiáng)化學(xué)習(xí)觸發(fā)多模態(tài)模型能力涌現(xiàn)-AI.x社區(qū)

What We Hope?

我們開源了全套數(shù)據(jù)(包括我們自助收集的多模態(tài)K12數(shù)據(jù)集),代碼,以及模型等。除此之外我們推出一個(gè)詳細(xì)的技術(shù)報(bào)告(在我們的repo中),包括我們所有的復(fù)現(xiàn)程序以及一些未成功的嘗試。我們希望這可以幫助社區(qū)共同推理多模態(tài)推理發(fā)展。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/5c3q3Z9coOdC_L1t7Nw6wQ??


標(biāo)簽
已于2025-3-10 10:48:49修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产成人免费视频网站视频社区 | 91精品国产自产精品男人的天堂 | 久久天天 | 美女精品一区 | 一级网站 | av毛片| 中文成人在线 | 亚洲一区电影 | 色一级| 成人午夜影院 | 亚洲高清视频在线观看 | 久久精品欧美一区二区三区不卡 | 亚洲 自拍 另类 欧美 丝袜 | www.久久 | 狠狠色网| 亚洲精品99 | 精品国产视频在线观看 | 亚洲视频区 | 亚洲成人综合在线 | av看片网站 | 久久久久亚洲精品 | 亚洲激情av | 亚洲精品黄色 | 成人av在线大片 | 亚洲视频在线看 | 亚洲视频免费观看 | 国产精品区一区二区三区 | 亚洲精品一区二区 | 成人中文字幕在线 | 午夜精品久久久久久久久久久久久 | 久久av影院| 日韩激情在线 | 成人免费一区二区三区视频网站 | 亚洲精品视频在线观看视频 | 亚洲国产成人精品女人久久久 | 中文字幕一区二区三区乱码在线 | 91电影在线播放 | 成人字幕网zmw | 欧美1区| 日韩精品久久久 | 欧美一区二区三区在线免费观看 |