成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3通關(guān)「俄羅斯方塊」,碾壓Gemini奪冠!UCSD新基準(zhǔn)擊碎寶可夢(mèng)

人工智能
UCSD等推出Lmgame Bench標(biāo)準(zhǔn)框架,結(jié)合多款經(jīng)典游戲,分模塊測(cè)評(píng)模型的感知、記憶與推理表現(xiàn)。結(jié)果顯示,不同模型在各游戲中表現(xiàn)迥異,凸顯游戲作為AI評(píng)估工具的獨(dú)特價(jià)值。

誰(shuí)能想到,作為童年回憶的寶可夢(mèng),現(xiàn)在竟搖身一變,成了大模型的試金石!

在無(wú)數(shù)人的童年記憶中,《寶可夢(mèng)》是一款意義非凡的游戲——簡(jiǎn)單的操作哪怕是年紀(jì)尚小的孩子也能輕松上手。

然而,要真正通關(guān)這款游戲,仍然需要縝密的規(guī)劃和大量的時(shí)間投入。

如今,這款承載童年回憶的游戲,已悄然成為各大科技公司測(cè)試最新LLM的「香餑餑」。

從Anthropic到Google,從Claude到Gemini,各家模型紛紛亮出「通關(guān)寶可夢(mèng)」的戰(zhàn)績(jī)作為展示推理、規(guī)劃與長(zhǎng)期記憶能力的證據(jù)。

而且通關(guān)后,谷歌的CEO劈柴都要親自發(fā)帖來(lái)慶祝。

圖片圖片

真的令人好奇,都2025年了,為何AI通關(guān)《寶可夢(mèng)》就成了個(gè)大新聞?

更何況,寶可夢(mèng)最早的發(fā)售是1995年,30年前的游戲?yàn)楹纬蔀榱藱z驗(yàn)最新AI頂級(jí)模型的試金石?

這是因?yàn)樽钕冗M(jìn)的AI也不一定擁有人類幼兒的感知和行動(dòng)能力。

莫拉維克悖論

在LLM還未出現(xiàn)的1980年代,早期的人工智能似乎已經(jīng)開始展現(xiàn)「智慧」。

人工智能的先驅(qū)漢斯·莫拉維克、羅德尼·布魯克斯、馬文·閔斯基等人發(fā)現(xiàn)一個(gè)悖論。

要讓電腦如成人般地下棋是相對(duì)容易的,但是要讓電腦有如一歲小孩般的感知和行動(dòng)能力卻是相當(dāng)困難甚至是不可能的。

語(yǔ)言學(xué)家和認(rèn)知科學(xué)家史迪芬·平克認(rèn)為這是人工智能學(xué)者的最重要發(fā)現(xiàn)。經(jīng)過(guò)35年人工智能的研究,他發(fā)現(xiàn)最重要的課題是:

困難的問(wèn)題是易解的,簡(jiǎn)單的問(wèn)題是難解的。

四歲小孩具有的本能——辨識(shí)人臉、舉起鉛筆、在房間內(nèi)走動(dòng)、回答問(wèn)題——事實(shí)上卻是工程領(lǐng)域內(nèi)目前為止最難解的問(wèn)題。

當(dāng)新一代的AI出現(xiàn)后,股票分析師、石化工程師都要小心他們的位置被取代,但是園丁、接待員和廚師至少十年內(nèi)都不用擔(dān)心被人工智能所取代。

這也是目前所有頂級(jí)模型都希望通過(guò)寶可夢(mèng)游戲證明的——目前的LLM到底有沒(méi)有感知能力?

圖片圖片

Claude Opus 4還在直播玩寶可夢(mèng),已經(jīng)繼續(xù)了12萬(wàn)+步。

寶可夢(mèng)作為評(píng)測(cè)基準(zhǔn),合理嗎?

寶可夢(mèng)被越來(lái)越多地用于評(píng)估現(xiàn)代大型語(yǔ)言模型,但存在一個(gè)很大的問(wèn)題——目前的挑戰(zhàn)都缺乏標(biāo)準(zhǔn)化。

Anthropic為Cladue模型提供了導(dǎo)航和讀取游戲狀態(tài)內(nèi)存的工具。

該模型進(jìn)行了幾場(chǎng)道館對(duì)戰(zhàn),大約執(zhí)行了35,000個(gè)游戲內(nèi)動(dòng)作才到達(dá)電系道館首領(lǐng)。

但Anthropic并未詳細(xì)說(shuō)明什么具體算作一個(gè)「動(dòng)作」,也未說(shuō)明允許多少次重試。

圖片圖片

Google的Gemini 2.5 Pro已經(jīng)完成了《寶可夢(mèng) 藍(lán)》(并在《寶可夢(mèng) 紅》中獲得了第五個(gè)徽章)。

然而,它依賴額外的外部代碼來(lái)提取更全面的游戲狀態(tài)文本表示并指導(dǎo)決策。

圖片圖片

并且運(yùn)行完成游戲需要大量的時(shí)間,僅獲得第五個(gè)徽章,就需要超過(guò)500個(gè)小時(shí)。

同時(shí)API的使用會(huì)產(chǎn)生大量費(fèi)用。

如何才能將大模型最愛(ài)玩的《寶可夢(mèng)》游戲轉(zhuǎn)化為標(biāo)準(zhǔn)化評(píng)估框架,甚至是多種游戲的評(píng)估框架?

這就是今天介紹的Lmgame Bench,它精心選取了一批難度適中的游戲,并提供了分層測(cè)試機(jī)制,更適合衡量大模型的真實(shí)能力。

圖片圖片

博客地址:https://lmgame.org/#/blog/pokemon_red

該測(cè)試基準(zhǔn)由UCSD等重磅出品,研究了如何使用流行的視頻游戲來(lái)評(píng)估現(xiàn)代LLM。

圖片圖片

論文地址:https://arxiv.org/pdf/2505.15146

Lmgame基準(zhǔn)測(cè)試

Lmgame Bench使用模塊化測(cè)試框架——如感知、記憶和推理模塊——系統(tǒng)地?cái)U(kuò)展模型的游戲能力。

這些測(cè)試框架使模型能夠通過(guò)迭代交互循環(huán)與模擬游戲環(huán)境進(jìn)行交互。

Lmgame-Bench采用了一種標(biāo)準(zhǔn)化的提示優(yōu)化技術(shù),以降低對(duì)提示的敏感性。

圖片圖片

為了在沒(méi)有任何外部定制游戲「腳手架」的情況下區(qū)分模型能力,Lmgame Bench精選了一系列中等難度的視頻游戲。

這些游戲包括:

推箱子:得分計(jì)算方式為所有關(guān)卡中推到目標(biāo)位置的箱子總數(shù),統(tǒng)計(jì)范圍從非常簡(jiǎn)單的關(guān)卡一直到Sokoban 1989中最難的關(guān)卡,直到出現(xiàn)第一個(gè)死局為止。

圖片圖片

超級(jí)馬里奧兄弟:分?jǐn)?shù)是馬里奧在所有關(guān)卡中累計(jì)的橫向移動(dòng)距離(游戲單位),直到失去全部三條生命或完成最終關(guān)卡為止。具備更強(qiáng)物理直覺(jué)和空間推理能力的模型通常能夠獲得更高的分?jǐn)?shù)。

圖片圖片

俄羅斯方塊:分?jǐn)?shù)是已注冊(cè)的總方塊數(shù)加上消除的總行數(shù)(乘以10倍系數(shù)),計(jì)算至游戲結(jié)束為止。不同的模型持續(xù)游戲的時(shí)間各不相同,這取決于它們高效處理下落方塊的能力。例如,o3-pro能夠有效清除超過(guò)10行,從而持續(xù)保持游戲進(jìn)行。

圖片圖片

2048:合并方塊值的總和(例如,合并兩個(gè)2會(huì)獲得+4),記錄直到棋盤停滯(連續(xù)十次回合沒(méi)有合并或改變棋盤的移動(dòng))。然后我們會(huì)報(bào)告它們的總得分。由于游戲可以持續(xù)超過(guò)10萬(wàn)步,這為區(qū)分模型在較長(zhǎng)時(shí)間范圍內(nèi)的能力提供了強(qiáng)有力的依據(jù)。

圖片圖片

糖果消除:在固定的50步會(huì)話中消除的糖果總數(shù)。盡管游戲相對(duì)簡(jiǎn)單,但它能有效區(qū)分模型在優(yōu)化移動(dòng)步驟和清除糖果方面的能力。

圖片圖片

逆轉(zhuǎn)裁判:在所有案件關(guān)卡中正確操作(提交證據(jù)、對(duì)話選擇等)的總次數(shù),直到用盡五次錯(cuò)誤決定機(jī)會(huì)(生命值)。此游戲用于評(píng)估模型的上下文理解和推理能力。

圖片圖片

模塊設(shè)計(jì)

許多模型在視覺(jué)理解上存在脆弱性,導(dǎo)致對(duì)游戲狀態(tài)頻繁誤判。

想要在游戲中取得成功,需要有效的記憶機(jī)制來(lái)實(shí)現(xiàn)長(zhǎng)期決策。

Lmgame針對(duì)性的開發(fā)了三大模塊。

感知模塊:將原始游戲幀或UI元素轉(zhuǎn)換為結(jié)構(gòu)化的符號(hào)/文本狀態(tài)描述,減少對(duì)脆弱視覺(jué)的依賴。

內(nèi)存模塊:存儲(chǔ)最近的狀態(tài)、動(dòng)作和反思筆記,以縮小動(dòng)作空間并支持長(zhǎng)期規(guī)劃。

推理模塊:綜合所有其他模塊的信息,并可選地開啟長(zhǎng)鏈?zhǔn)剿季S推理。

o3玩2048的記憶模塊展示o3玩2048的記憶模塊展示

Gym風(fēng)格標(biāo)準(zhǔn)接口

不過(guò)研究人員發(fā)現(xiàn),使用計(jì)算機(jī)直接操作智能體進(jìn)行基準(zhǔn)測(cè)試存在重大缺陷。

每款游戲都對(duì)計(jì)算機(jī)的操作要求不同,依賴基于屏幕截圖的觀測(cè)容易出現(xiàn)感知錯(cuò)誤。

圖片圖片

并且在對(duì)延遲敏感的的游戲中存在不可預(yù)測(cè)的延遲,這些問(wèn)題都削弱了測(cè)試結(jié)果的一致性和可比性。

為此研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)采用Gym風(fēng)格API的新標(biāo)準(zhǔn)化接口,來(lái)統(tǒng)一評(píng)估設(shè)置。

結(jié)合輕量級(jí)的感知與記憶輔助模塊設(shè)計(jì),穩(wěn)定提示帶來(lái)的差異并消除數(shù)據(jù)污染。

圖片圖片

在13個(gè)領(lǐng)先模型上的實(shí)驗(yàn)表明,Lmgame-Bench具有挑戰(zhàn)性,同時(shí)仍能有效區(qū)分不同模型。

圖片圖片

排行榜前列由o3占據(jù),這款模型以其強(qiáng)大的視覺(jué)感知、空間推理和長(zhǎng)視野規(guī)劃能力而著稱。

不過(guò)令人意外的是,o3雖然完全拿下了2048、推箱子和俄羅斯方塊,但是在糖果消除中遠(yuǎn)遠(yuǎn)落后。

圖片圖片

現(xiàn)在,借助Lmgame提供的開源代碼,任何人都可以通過(guò)一條命令為任何受支持的模型-游戲組合啟動(dòng)評(píng)估。

圖片圖片

近期所有模型的進(jìn)步表明,在數(shù)學(xué)和編程任務(wù)重,整合強(qiáng)化學(xué)習(xí)可以顯著增強(qiáng)LLMs的推理能力。

即使是最簡(jiǎn)單的RL算法也能改善模型的規(guī)劃和決策能力,這種能力在與復(fù)雜環(huán)境互動(dòng)時(shí)顯得尤為重要。

這些進(jìn)展凸顯了游戲環(huán)境作為評(píng)估LLMs的有效基準(zhǔn)作用。

過(guò)去那些經(jīng)典的游戲經(jīng)過(guò)精心的設(shè)計(jì),用來(lái)挑戰(zhàn)人類的思維和認(rèn)知能力。

圖片圖片

同樣地,這些游戲是極具價(jià)值但尚未被充分利用的AI基準(zhǔn)測(cè)試資源。

同時(shí),在經(jīng)典游戲之外,我們現(xiàn)在還有眾多的3A大作,可以預(yù)見,未來(lái)的評(píng)估體系將具有高度可擴(kuò)展的發(fā)展路徑。

圖片圖片

Lmgame Bench的誕生,正是在這個(gè)背景下給出答案:真正的智能不僅要能寫代碼、做數(shù)學(xué)題,更要能在復(fù)雜、開放、動(dòng)態(tài)的環(huán)境中持續(xù)思考、規(guī)劃并行動(dòng)。

而這場(chǎng)測(cè)試,還遠(yuǎn)未結(jié)束。

參考資料

https://lmgame.org/#/blog/pokemon_red

https://x.com/haoailab/status/1939777711502946544

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2015-01-22 15:36:46

游戲源碼

2014-10-08 10:04:14

代碼解釋俄羅斯方塊

2011-06-13 18:21:12

2021-01-12 12:16:55

鴻蒙HarmonyOS游戲

2020-02-27 13:43:14

Emacs俄羅斯方塊應(yīng)用

2021-12-29 11:56:16

Linux俄羅斯方塊

2020-05-19 17:26:21

Python俄羅斯方塊游戲開發(fā)

2014-05-26 10:07:18

Javascript俄羅斯方塊

2016-06-13 10:21:49

二維碼條形碼二進(jìn)制

2015-04-28 09:21:28

JSJS俄羅斯方塊游戲帝國(guó)

2025-06-11 08:56:54

2023-09-26 08:51:29

PygamePython語(yǔ)言

2023-09-25 12:35:27

Python庫(kù)

2014-06-09 12:47:35

俄羅斯方塊

2012-11-05 10:50:50

程序員萬(wàn)圣節(jié)俄羅斯方塊

2020-12-17 10:02:16

鴻蒙Hi3861開發(fā)板

2009-06-08 09:59:24

谷歌俄羅斯方塊版權(quán)

2011-11-17 16:14:25

Jscex

2020-12-11 12:45:04

鴻蒙Hi3861游戲

2025-05-14 10:09:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美精品一区二区三区蜜桃视频 | 天天久久 | 午夜精品一区二区三区在线视频 | 久草欧美 | 亚洲有码转帖 | 国产探花在线观看视频 | 天天操天天舔 | 九九成人 | 玖玖操| 中文字幕日韩欧美 | 少妇一级淫片免费播放 | 中文字幕亚洲一区 | 91大神在线看 | 久久精品在线播放 | 午夜精品一区二区三区三上悠亚 | 久久久久久国产精品免费免费狐狸 | 神马久久香蕉 | 亚洲永久免费观看 | 成人久久久 | 成年人在线观看 | 美女视频h | 日韩精品视频一区二区三区 | 日韩精品一区二区三区四区 | 日韩精品久久 | 国产99视频精品免费播放照片 | 亚洲精品一区二区在线观看 | 精品视频在线免费观看 | 国产丝袜一区二区三区免费视频 | 色综合一区| 欧美日韩一区二区三区四区五区 | 亚洲综合精品 | 久久久蜜桃 | 亚洲高清在线播放 | 久久久久久久国产 | 热久久久| 亚洲高清视频在线观看 | 欧美全黄 | eeuss国产一区二区三区四区 | 久久久久久久国产 | 亚洲一区二区三区四区五区午夜 | 久久久久久久久国产成人免费 |