成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

純靠“腦補(bǔ)”圖像,大模型推理準(zhǔn)確率狂飆80%丨劍橋谷歌新研究

人工智能 新聞
新框架利用GRPO對(duì)大型視覺模型進(jìn)行后訓(xùn)練,在多個(gè)代表性視覺導(dǎo)航任務(wù)中的性能表現(xiàn)都遠(yuǎn)超基于文本的推理方法。

不再依賴語言,僅憑圖像就能完成模型推理?

大模型又雙叒叕迎來新SOTA!

當(dāng)你和大模型一起玩超級(jí)瑪麗時(shí),復(fù)雜環(huán)境下你會(huì)根據(jù)畫面在腦海里自動(dòng)規(guī)劃步驟,但LLMs還需要先轉(zhuǎn)成文字攻略一格格按照指令移動(dòng),效率又低、信息也可能會(huì)丟失,那難道就沒有一個(gè)可以跳過“語言中介”的方法嗎?

圖片圖片圖片

于是來自劍橋、倫敦大學(xué)學(xué)院和谷歌的研究團(tuán)隊(duì)推出了首次純粹依靠圖像進(jìn)行推理的新范式——基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃(VPRL)。

圖片

新框架利用GRPO對(duì)大型視覺模型進(jìn)行后訓(xùn)練,在多個(gè)代表性視覺導(dǎo)航任務(wù)中的性能表現(xiàn)都遠(yuǎn)超基于文本的推理方法。

準(zhǔn)確率高達(dá)80%,性能超文本推理至少40%,首次驗(yàn)證了視覺規(guī)劃顯著優(yōu)于文本規(guī)劃,為直覺式圖像推理任務(wù)開辟了新方向。

目前相關(guān)代碼已開源,可點(diǎn)擊文末鏈接獲取。

圖片

以下是有關(guān)VPRL的更多細(xì)節(jié)。

VPRL更準(zhǔn)確、更有效

現(xiàn)有的視覺推理基準(zhǔn)都是將視覺信息映射到文本領(lǐng)域進(jìn)行處理,整個(gè)推理過程都由語言模型完成。

純視覺規(guī)劃則是讓模型直接利用圖像序列,沒有中間商“賺差價(jià)”,推理效率直線UP。

由此團(tuán)隊(duì)直接引入一個(gè)基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃訓(xùn)練框架VPRL,基于群組相對(duì)策略優(yōu)化(GRPO),利用視覺狀態(tài)之間的轉(zhuǎn)換來計(jì)算獎(jiǎng)勵(lì)信號(hào),同時(shí)驗(yàn)證環(huán)境約束。

圖片

該框架可以分為兩個(gè)階段:

  • 策略初始化

通過環(huán)境中的隨機(jī)游走軌跡初始化模型,再對(duì)每條軌跡提取圖像對(duì),并給定輸入前綴,此外通過最小化監(jiān)督損失以鼓勵(lì)生成連貫的視覺輸出:

圖片

  • 強(qiáng)化學(xué)習(xí)優(yōu)化

利用模型在隨機(jī)軌跡初始化后已具備的探索能力,通過生成下一視覺狀態(tài)模擬潛在動(dòng)作結(jié)果,并引導(dǎo)模型執(zhí)行有效規(guī)劃。

具體來說,就是基于GRPO計(jì)算組內(nèi)相對(duì)優(yōu)勢,每個(gè)候選的相對(duì)優(yōu)勢為:

圖片

同時(shí)為引導(dǎo)模型生成更高優(yōu)勢的響應(yīng),通過最大化以下目標(biāo)函數(shù)更新策略模型:

圖片

在視覺規(guī)劃框架中,核心挑戰(zhàn)始終在于生成的視覺狀態(tài)能否正確反映規(guī)劃動(dòng)作的意圖,因此需要通過獎(jiǎng)勵(lì)函數(shù)評(píng)估動(dòng)作有效性(獎(jiǎng)勵(lì)進(jìn)展動(dòng)作、零獎(jiǎng)勵(lì)非進(jìn)展動(dòng)作、懲罰無效動(dòng)作),進(jìn)度獎(jiǎng)勵(lì)函數(shù)定義為:

圖片

除了VPRL,研究團(tuán)隊(duì)還選用了幾種系統(tǒng)變體作為基線,分別是基于微調(diào)的視覺規(guī)劃 (VPFT)和文本中的監(jiān)督微調(diào) (SFT),以比較基于語言和基于視覺的規(guī)劃,同時(shí)評(píng)估強(qiáng)化學(xué)習(xí)的作用。

VPFT與VPRL在第一階段訓(xùn)練架構(gòu)一致,但用最佳規(guī)劃軌跡取代隨機(jī)軌跡;而SFT用一個(gè)預(yù)期動(dòng)作序列的文本描述取代中間視覺結(jié)果。

視覺規(guī)劃vs語言規(guī)劃

實(shí)驗(yàn)搭建

為了更直觀地比較兩種規(guī)劃效果,團(tuán)隊(duì)選取了三個(gè)可以完全以視覺方式表達(dá)和執(zhí)行的代表性任務(wù):

  1. FrozenLake智能體需從起點(diǎn)安全導(dǎo)航至終點(diǎn),過程中需要避開冰洞。
  2. Maze智能體需從起點(diǎn)(綠點(diǎn))導(dǎo)航至終點(diǎn)(紅旗)。
  3. MiniBehavior智能體需拾取打印機(jī)并放置到桌上,包含“拾取”和“放置”兩個(gè)附加動(dòng)作。

圖片

在模型的選取上,選擇專門在視覺數(shù)據(jù)上訓(xùn)練的模型LVM-3B,確保預(yù)訓(xùn)練期間不接觸任何文本數(shù)據(jù)。

另外評(píng)估比較Qwen 2.5VL-Instruct在僅推理(Direct2和CoT)和訓(xùn)練后設(shè)置(SFT)兩種模式下的文本規(guī)劃效果,以及將Gemini 2.0 FlashGemini 2.5 Pro作為多模態(tài)推理的參考模型。

圖片

評(píng)估指標(biāo)采用精確匹配率(EM)和進(jìn)展率(PR),前者衡量模型是否成功生成與最優(yōu)路徑一致的完整規(guī)劃軌跡,后者則測量從開始到最優(yōu)路徑的連續(xù)正確步數(shù)與總步數(shù)的比率。

實(shí)驗(yàn)結(jié)果

圖片

實(shí)驗(yàn)結(jié)果表明,視覺規(guī)劃顯著優(yōu)于文本規(guī)劃。

視覺規(guī)劃(VPFT和VPRL)在所有任務(wù)上都取得了最高分,如表所示,VPRL在三個(gè)任務(wù)中平均EM高達(dá)80.6%,遠(yuǎn)超文本基線(如Gemini 2.5 Pro平均EM為43.7%)。

在強(qiáng)化學(xué)習(xí)的增益上,VPRL也相比監(jiān)督基線VPFT提升超20%,尤其是在復(fù)雜任務(wù)MiniBehavior中EM更是高達(dá)75.8%

說明通過獎(jiǎng)勵(lì)驅(qū)動(dòng),可以幫助模型自由探索不同行動(dòng)并從結(jié)果中學(xué)習(xí),從而有效提高規(guī)劃性能。

圖片

與此同時(shí)在魯棒性上,隨著網(wǎng)格尺寸增大(如FrozenLake從3×3到6×6),VPRL性能下降平緩(EM從97.6%降至82.4%),而Gemini 2.5 Pro從98.0%驟降至38.8%,充分體現(xiàn)了VPRL更強(qiáng)的穩(wěn)定性。

與VPFT相比,VPRL也將無效失敗率降低了24%,從而幫助模型保持在有效的動(dòng)作空間內(nèi)。

圖片

綜上,實(shí)驗(yàn)結(jié)果首次驗(yàn)證了純視覺推理的可行性,通過研究團(tuán)隊(duì)提出的新范式VPRL框架,可以在視覺導(dǎo)航任務(wù)中實(shí)現(xiàn)超越文本模型的推理性能,并展現(xiàn)出極強(qiáng)的泛化能力,推動(dòng)多模態(tài)推理在未來朝著更直觀的圖像化方向發(fā)展。

值得一提的是,團(tuán)隊(duì)成員長期致力于視覺推理研究,他們也曾研究通過多模態(tài)思維可視化(MVoT)生成視覺“思想”,以徹底改變AI推理方式,感興趣的小伙伴們可以持續(xù)關(guān)注團(tuán)隊(duì)的研究進(jìn)展~

圖片

論文鏈接:https://arxiv.org/abs/2505.11409

代碼鏈接:https://github.com/yix8/VisualPlanning

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-10-26 08:40:15

模型隱私推理

2023-10-19 08:30:56

模型搜索

2021-12-20 16:17:35

數(shù)據(jù)模型技術(shù)

2023-10-14 13:09:53

谷歌模型

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2024-01-05 08:44:52

2023-11-08 08:38:43

2025-02-13 09:40:00

2023-10-23 10:02:00

模型技術(shù)

2025-05-26 08:33:00

2018-11-14 10:01:30

谷歌開源機(jī)器學(xué)習(xí)

2020-04-23 13:17:53

腦機(jī)接口機(jī)器翻譯人工智能

2025-04-18 08:42:52

模型推理AI

2023-12-12 13:51:00

AI訓(xùn)練

2020-09-14 14:10:04

開發(fā)技能代碼

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2024-12-12 17:30:00

模型測評(píng)AI

2016-01-27 13:37:53

機(jī)器學(xué)習(xí)數(shù)據(jù)模型算法

2024-08-02 13:14:51

2019-01-03 09:04:04

谷歌系統(tǒng)機(jī)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 天堂素人约啪 | 电影午夜精品一区二区三区 | 99久久精品国产一区二区三区 | 综合久久综合久久 | 亚洲网站免费看 | 午夜精品视频在线观看 | 亚洲国产成人精品女人久久久 | 亚洲视频精品 | 91 久久| 国产精品久久久久久久久 | 中文字幕在线播放第一页 | 精品自拍视频在线观看 | 91亚洲国产成人久久精品网站 | 成人在线观看免费 | 91国内精品久久 | 亚洲成人精品在线 | 午夜精品一区 | 日韩在线看片 | 久久久精彩视频 | 福利片在线 | 日本三级全黄三级三级三级口周 | 日韩在线欧美 | 亚洲综合免费 | 二区av| 国产一区二区在线免费观看 | 国产一区二区三区在线看 | 91精品国产一区二区三区香蕉 | 蜜桃传媒一区二区 | 日韩三级在线 | 亚av在线| 午夜精品久久久久久久久久久久久 | 日韩免费视频一区二区 | 超碰在线人人干 | 一级全黄视频 | 91日韩在线 | 超碰成人在线观看 | www.五月婷婷.com | 欧美激情精品久久久久 | h视频在线免费 | 91精品久久久 | 亚洲第一天堂 |