成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

強(qiáng)化學(xué)習(xí)新發(fā)現(xiàn):無(wú)需數(shù)學(xué)樣本,僅游戲訓(xùn)練AI推理大增

人工智能 新聞
研究團(tuán)隊(duì)提出了 ViGaL (Visual Game Learning) 方法,在多個(gè)主流視覺數(shù)學(xué)基準(zhǔn)測(cè)試和 MMMU 系列基準(zhǔn)測(cè)試中,超越此前在數(shù)學(xué)等領(lǐng)域內(nèi)數(shù)據(jù)上訓(xùn)練的強(qiáng)化學(xué)習(xí)模型。

第一作者謝云飛是萊斯大學(xué)博士生,導(dǎo)師為通訊作者魏晨教授,研究方向包括多模態(tài)生成與理解。

Project Leader 肖俊飛是約翰斯?霍普金斯大學(xué)博士生,導(dǎo)師為 Bloomberg Distinguished Professor Alan Yuille。

第二作者馬崟淞是約翰斯?霍普金斯大學(xué)博士生。

第三作者蘭石懿是英偉達(dá) Research Scientist。

最近,強(qiáng)化學(xué)習(xí)領(lǐng)域出現(xiàn)了一個(gè)顛覆性發(fā)現(xiàn):研究人員不再需要大量數(shù)學(xué)訓(xùn)練樣本,僅僅讓 AI 玩簡(jiǎn)單游戲,就能顯著提升其數(shù)學(xué)推理能力。

此前已有研究發(fā)現(xiàn),即使不提供標(biāo)準(zhǔn)答案,僅用數(shù)學(xué)問(wèn)題進(jìn)行強(qiáng)化學(xué)習(xí)也能提高模型性能,這讓人們開始重新思考強(qiáng)化學(xué)習(xí)的訓(xùn)練方式。而來(lái)自萊斯大學(xué)、約翰斯?霍普金斯大學(xué)和英偉達(dá)的研究團(tuán)隊(duì)更進(jìn)一步:他們讓多模態(tài)大語(yǔ)言模型 (MLLM) 玩貪吃蛇等簡(jiǎn)單游戲,無(wú)需任何數(shù)學(xué)或多學(xué)科訓(xùn)練數(shù)據(jù),就顯著提升了模型的多模態(tài)推理能力。研究團(tuán)隊(duì)提出了 ViGaL (Visual Game Learning) 方法,在多個(gè)主流視覺數(shù)學(xué)基準(zhǔn)測(cè)試和 MMMU 系列基準(zhǔn)測(cè)試中,超越此前在數(shù)學(xué)等領(lǐng)域內(nèi)數(shù)據(jù)上訓(xùn)練的強(qiáng)化學(xué)習(xí)模型。

圖片

  • 論文標(biāo)題:Play to Generalize: Learning to Reason Through Game Play
  • 論文鏈接:https://arxiv.org/abs/2506.08011
  • 項(xiàng)目主頁(yè):https://yunfeixie233.github.io/ViGaL/

不用數(shù)學(xué)樣本,游戲訓(xùn)練在數(shù)學(xué)基準(zhǔn)取得突破

近期研究表明,相比監(jiān)督微調(diào)(SFT),強(qiáng)化學(xué)習(xí)(RL)往往能實(shí)現(xiàn)更強(qiáng)的 “舉一反三” 的跨領(lǐng)域泛化能力。以往的工作已經(jīng)證明,在數(shù)學(xué)問(wèn)題訓(xùn)練的模型能夠擴(kuò)展推理到物理問(wèn)題,經(jīng)過(guò)導(dǎo)航訓(xùn)練的智能體能夠成功適應(yīng)全新環(huán)境。然而,這些成功的泛化案例通常仍局限在單一領(lǐng)域內(nèi),源任務(wù)與泛化的目標(biāo)任務(wù)依然屬于同一類型。

圖片

圖 1: 我們發(fā)現(xiàn),只在例如貪吃蛇這種游戲上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,模型就能涌現(xiàn)出領(lǐng)域外的泛化能力,在數(shù)學(xué)、多學(xué)科等多個(gè)任務(wù)上提高性能。

這篇工作的突破在于實(shí)現(xiàn)了更強(qiáng)形式的跨域泛化:從游戲領(lǐng)域完全遷移到數(shù)學(xué)推理、空間推理和多學(xué)科推理等領(lǐng)域。研究團(tuán)隊(duì)用 7B 參數(shù)的 Qwen2.5-VL 模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)僅通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練模型玩貪吃蛇和旋轉(zhuǎn)游戲,就能在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了顯著提升:

  • 數(shù)學(xué)推理提升:不用數(shù)學(xué)樣本,僅通過(guò)游戲訓(xùn)練,ViGaL 在 MathVista 等數(shù)學(xué)推理基準(zhǔn)上平均提升 2.9%,相比之下,在高質(zhì)量數(shù)學(xué)數(shù)據(jù)集上進(jìn)行強(qiáng)化學(xué)習(xí)的方法僅提升 2.4%。
  • 多學(xué)科推理突破:在 MMMU 系列多學(xué)科推理任務(wù)上,ViGaL 超越在多學(xué)科數(shù)據(jù)上進(jìn)行 RL 訓(xùn)練的 R1-OneVision-7B 模型 5.4 個(gè)百分點(diǎn)。
  • 通用能力保持:經(jīng)過(guò)測(cè)試,之前的強(qiáng)化學(xué)習(xí)推理模型在提升特定領(lǐng)域性能時(shí),大部分都損害通用視覺能力,但 ViGaL 在保持原有通用性能的同時(shí)實(shí)現(xiàn)了推理能力的躍升。

圖片

圖 2: 不使用數(shù)學(xué)或者多學(xué)科樣本,僅通過(guò)游戲訓(xùn)練,模型在數(shù)學(xué)推理基準(zhǔn)上平均提升 2.9%(左圖),在多學(xué)科推理基準(zhǔn)上平均提升 2.0%(右圖),超過(guò)此前專門在數(shù)學(xué)或者多學(xué)科數(shù)據(jù)上訓(xùn)練的強(qiáng)化學(xué)習(xí)方法。

為什么游戲訓(xùn)練如此有效?

圖片

圖 3: 我們?cè)谪澇陨哂螒蚝托D(zhuǎn)游戲上利用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。在每個(gè)游戲里面,模型會(huì)接收?qǐng)D片和文本形式的游戲環(huán)境作為輸入,遵循游戲指令進(jìn)行推理,抉擇一個(gè)動(dòng)作在游戲環(huán)境里執(zhí)行。執(zhí)行后會(huì)從環(huán)境獲得獎(jiǎng)勵(lì) ,用于進(jìn)行強(qiáng)化學(xué)習(xí)。通過(guò)在游戲中訓(xùn)練,模型獲得了推理能力,并且能遷移至下游的數(shù)學(xué)和多學(xué)科等任務(wù)。

為什么玩游戲能提升數(shù)學(xué)能力?這個(gè)發(fā)現(xiàn)其實(shí)并不違背認(rèn)知科學(xué)的基本規(guī)律。

回想一下我們自己的成長(zhǎng)過(guò)程:小時(shí)候通過(guò)搭積木學(xué)會(huì)了空間概念,通過(guò)躲貓貓理解了位置關(guān)系,通過(guò)各種益智游戲培養(yǎng)了邏輯思維。兒童正是通過(guò)這些看似 "玩耍" 的活動(dòng),逐步構(gòu)建起抽象思維的基礎(chǔ) —— 模式識(shí)別、空間推理、因果推斷。

認(rèn)知科學(xué)研究也證實(shí)了這一點(diǎn):游戲常被用作探索人類心智的實(shí)驗(yàn)平臺(tái)。研究人員通過(guò) "四子連珠" 游戲研究規(guī)劃能力,通過(guò) "虛擬工具" 游戲探索問(wèn)題解決的認(rèn)知機(jī)制。

基于這樣的理論啟發(fā),研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了兩款互補(bǔ)的訓(xùn)練游戲:

貪吃蛇游戲:這是一個(gè)經(jīng)典的策略決策游戲。在 10×10 的網(wǎng)格上,模型需要控制蛇的移動(dòng),避免撞墻、撞到自己或?qū)κ郑瑫r(shí)盡可能多地收集蘋果。游戲培養(yǎng)的核心能力包括路徑規(guī)劃、避障決策和空間導(dǎo)航,這些技能直接對(duì)應(yīng)數(shù)學(xué)中的坐標(biāo)幾何和函數(shù)圖像理解。

旋轉(zhuǎn)游戲:這是研究團(tuán)隊(duì)自主設(shè)計(jì)的 3D 空間推理游戲。模型需要觀察同一 3D 物體的兩個(gè)視角 —— 初始視角和旋轉(zhuǎn)后視角,判斷物體旋轉(zhuǎn)了 90 度還是 180 度。這個(gè)游戲?qū)iT訓(xùn)練空間幾何理解能力,直接對(duì)應(yīng)角度和長(zhǎng)度相關(guān)的數(shù)學(xué)推理問(wèn)題。

兩款游戲的設(shè)計(jì)哲學(xué)互補(bǔ):貪吃蛇主要提升 2D 坐標(biāo)相關(guān)的數(shù)學(xué)表現(xiàn),旋轉(zhuǎn)游戲則更適合角度和長(zhǎng)度推理。實(shí)驗(yàn)證實(shí),聯(lián)合訓(xùn)練兩款游戲比單獨(dú)訓(xùn)練效果更佳,展現(xiàn)了游戲多樣性的可擴(kuò)展?jié)摿Α?/span>

結(jié)語(yǔ):合成任務(wù)的新時(shí)代

ViGaL 的成功揭示了一個(gè)潛在的新趨勢(shì):當(dāng)高質(zhì)量人類數(shù)據(jù)枯竭,簡(jiǎn)單任務(wù)性能飽和的時(shí)候,精心設(shè)計(jì)的游戲,作為一種合成任務(wù),可能為多模態(tài)推理能力的發(fā)展開辟新道路。

與傳統(tǒng)的直接訓(xùn)練方法相比,這種游戲化的訓(xùn)練范式展現(xiàn)出獨(dú)特的優(yōu)勢(shì):

  • 成本極低:無(wú)需人工標(biāo)注,可無(wú)限擴(kuò)展
  • 效果顯著:零數(shù)學(xué)樣本超越數(shù)學(xué)專訓(xùn)模型
  • 拓展性強(qiáng):可以組合多個(gè)任務(wù)進(jìn)一步提升性能
  • 通用性好:不會(huì)造成 "偏科" 問(wèn)題,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一個(gè)樸素但深刻的道理:在直接學(xué)習(xí)目標(biāo)任務(wù)之外,培養(yǎng)底層的通用推理能力,也許同樣有助于模型性能的提升。就像我們不只是通過(guò)死記硬背數(shù)學(xué)公式來(lái)培養(yǎng)數(shù)學(xué)思維,而是通過(guò)各種思維訓(xùn)練來(lái)發(fā)展抽象推理能力一樣。

在 Scaling Law 可能逐漸面臨困境的今天,ViGaL 用一個(gè)簡(jiǎn)單而優(yōu)雅的想法提醒我們:有時(shí)候,讓 AI"玩游戲" 可能比讓它 "刷題" 更有效。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-20 09:21:51

2016-10-09 13:19:43

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2019-03-25 22:04:19

編程PythonJava

2024-07-26 09:33:22

2025-06-09 09:32:35

2021-11-10 15:24:25

AI 數(shù)據(jù)人工智能

2019-04-04 13:00:19

Linuxshell命令

2016-07-06 11:38:10

移動(dòng) 出海

2025-06-27 10:10:43

AI模型技術(shù)

2025-06-23 09:14:00

2025-03-03 09:12:00

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2022-08-16 08:35:45

Black Hat網(wǎng)絡(luò)安全

2012-06-20 09:39:02

惡意網(wǎng)站

2013-02-28 10:24:18

2025-05-30 09:05:00

AI大模型推理

2025-02-03 00:00:01

Ai2o1LLM

2021-10-15 10:11:00

遠(yuǎn)程管理監(jiān)控數(shù)據(jù)中心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 福利视频一区二区三区 | 99热精品在线观看 | 午夜视频一区二区 | 精品一区二区三区在线观看国产 | 久在线| 麻豆91av| 精品欧美一区二区三区 | 亚洲一区二区久久 | 狠狠草视频 | 国产在线观看一区二区三区 | 中文在线一区二区 | 可以在线观看av的网站 | 一区二区成人 | 欧美性a视频 | 99久久精品免费 | 亚洲高清一区二区三区 | 最新国产精品视频 | 亚洲一区二区中文字幕在线观看 | 欧美一级一区 | 亚洲一区二区久久 | 亚洲精品美女视频 | 国产高清免费视频 | 天天拍天天操 | 日本三级播放 | 在线日韩| 国产一区二区在线免费观看 | 国产成人久久av免费高清密臂 | 成年精品 | 一道本视频| 99r在线 | 91在线视频在线观看 | www.久久精品视频 | 日本免费在线 | 91精品久久久久久久久中文字幕 | 视频在线一区二区 | 精国产品一区二区三区四季综 | 亚洲欧美精品在线观看 | 国产一区黄色 | 天天综合日日夜夜 | 久久综合888 | 日韩欧美国产精品 |