o3通關(guān)「俄羅斯方塊」，碾壓Gemini奪冠！UCSD新基準(zhǔn)擊碎寶可夢(mèng)

作者：新智元 2025-07-02 02:45:00

UCSD等推出Lmgame Bench標(biāo)準(zhǔn)框架，結(jié)合多款經(jīng)典游戲，分模塊測(cè)評(píng)模型的感知、記憶與推理表現(xiàn)。結(jié)果顯示，不同模型在各游戲中表現(xiàn)迥異，凸顯游戲作為AI評(píng)估工具的獨(dú)特價(jià)值。

誰(shuí)能想到，作為童年回憶的寶可夢(mèng)，現(xiàn)在竟搖身一變，成了大模型的試金石！

在無(wú)數(shù)人的童年記憶中，《寶可夢(mèng)》是一款意義非凡的游戲——簡(jiǎn)單的操作哪怕是年紀(jì)尚小的孩子也能輕松上手。

然而，要真正通關(guān)這款游戲，仍然需要縝密的規(guī)劃和大量的時(shí)間投入。

如今，這款承載童年回憶的游戲，已悄然成為各大科技公司測(cè)試最新LLM的「香餑餑」。

從Anthropic到Google，從Claude到Gemini，各家模型紛紛亮出「通關(guān)寶可夢(mèng)」的戰(zhàn)績(jī)作為展示推理、規(guī)劃與長(zhǎng)期記憶能力的證據(jù)。

而且通關(guān)后，谷歌的CEO劈柴都要親自發(fā)帖來(lái)慶祝。

圖片

真的令人好奇，都2025年了，為何AI通關(guān)《寶可夢(mèng)》就成了個(gè)大新聞？

更何況，寶可夢(mèng)最早的發(fā)售是1995年，30年前的游戲?yàn)楹纬蔀榱藱z驗(yàn)最新AI頂級(jí)模型的試金石？

這是因?yàn)樽钕冗M(jìn)的AI也不一定擁有人類幼兒的感知和行動(dòng)能力。

莫拉維克悖論

在LLM還未出現(xiàn)的1980年代，早期的人工智能似乎已經(jīng)開始展現(xiàn)「智慧」。

人工智能的先驅(qū)漢斯·莫拉維克、羅德尼·布魯克斯、馬文·閔斯基等人發(fā)現(xiàn)一個(gè)悖論。

要讓電腦如成人般地下棋是相對(duì)容易的，但是要讓電腦有如一歲小孩般的感知和行動(dòng)能力卻是相當(dāng)困難甚至是不可能的。

語(yǔ)言學(xué)家和認(rèn)知科學(xué)家史迪芬·平克認(rèn)為這是人工智能學(xué)者的最重要發(fā)現(xiàn)。經(jīng)過(guò)35年人工智能的研究，他發(fā)現(xiàn)最重要的課題是：

困難的問(wèn)題是易解的，簡(jiǎn)單的問(wèn)題是難解的。

四歲小孩具有的本能——辨識(shí)人臉、舉起鉛筆、在房間內(nèi)走動(dòng)、回答問(wèn)題——事實(shí)上卻是工程領(lǐng)域內(nèi)目前為止最難解的問(wèn)題。

當(dāng)新一代的AI出現(xiàn)后，股票分析師、石化工程師都要小心他們的位置被取代，但是園丁、接待員和廚師至少十年內(nèi)都不用擔(dān)心被人工智能所取代。

這也是目前所有頂級(jí)模型都希望通過(guò)寶可夢(mèng)游戲證明的——目前的LLM到底有沒(méi)有感知能力？

圖片

Claude Opus 4還在直播玩寶可夢(mèng)，已經(jīng)繼續(xù)了12萬(wàn)+步。

寶可夢(mèng)作為評(píng)測(cè)基準(zhǔn)，合理嗎？

寶可夢(mèng)被越來(lái)越多地用于評(píng)估現(xiàn)代大型語(yǔ)言模型，但存在一個(gè)很大的問(wèn)題——目前的挑戰(zhàn)都缺乏標(biāo)準(zhǔn)化。

Anthropic為Cladue模型提供了導(dǎo)航和讀取游戲狀態(tài)內(nèi)存的工具。

該模型進(jìn)行了幾場(chǎng)道館對(duì)戰(zhàn)，大約執(zhí)行了35,000個(gè)游戲內(nèi)動(dòng)作才到達(dá)電系道館首領(lǐng)。

但Anthropic并未詳細(xì)說(shuō)明什么具體算作一個(gè)「動(dòng)作」，也未說(shuō)明允許多少次重試。

圖片

Google的Gemini 2.5 Pro已經(jīng)完成了《寶可夢(mèng) 藍(lán)》（并在《寶可夢(mèng) 紅》中獲得了第五個(gè)徽章）。

然而，它依賴額外的外部代碼來(lái)提取更全面的游戲狀態(tài)文本表示并指導(dǎo)決策。

圖片

并且運(yùn)行完成游戲需要大量的時(shí)間，僅獲得第五個(gè)徽章，就需要超過(guò)500個(gè)小時(shí)。

同時(shí)API的使用會(huì)產(chǎn)生大量費(fèi)用。

如何才能將大模型最愛(ài)玩的《寶可夢(mèng)》游戲轉(zhuǎn)化為標(biāo)準(zhǔn)化評(píng)估框架，甚至是多種游戲的評(píng)估框架？

這就是今天介紹的Lmgame Bench，它精心選取了一批難度適中的游戲，并提供了分層測(cè)試機(jī)制，更適合衡量大模型的真實(shí)能力。

圖片

博客地址：https://lmgame.org/#/blog/pokemon_red

該測(cè)試基準(zhǔn)由UCSD等重磅出品，研究了如何使用流行的視頻游戲來(lái)評(píng)估現(xiàn)代LLM。

圖片

論文地址：https://arxiv.org/pdf/2505.15146

Lmgame基準(zhǔn)測(cè)試

Lmgame Bench使用模塊化測(cè)試框架——如感知、記憶和推理模塊——系統(tǒng)地?cái)U(kuò)展模型的游戲能力。

這些測(cè)試框架使模型能夠通過(guò)迭代交互循環(huán)與模擬游戲環(huán)境進(jìn)行交互。

Lmgame-Bench采用了一種標(biāo)準(zhǔn)化的提示優(yōu)化技術(shù)，以降低對(duì)提示的敏感性。

圖片

為了在沒(méi)有任何外部定制游戲「腳手架」的情況下區(qū)分模型能力，Lmgame Bench精選了一系列中等難度的視頻游戲。

這些游戲包括：

推箱子：得分計(jì)算方式為所有關(guān)卡中推到目標(biāo)位置的箱子總數(shù)，統(tǒng)計(jì)范圍從非常簡(jiǎn)單的關(guān)卡一直到Sokoban 1989中最難的關(guān)卡，直到出現(xiàn)第一個(gè)死局為止。

圖片

超級(jí)馬里奧兄弟：分?jǐn)?shù)是馬里奧在所有關(guān)卡中累計(jì)的橫向移動(dòng)距離（游戲單位），直到失去全部三條生命或完成最終關(guān)卡為止。具備更強(qiáng)物理直覺(jué)和空間推理能力的模型通常能夠獲得更高的分?jǐn)?shù)。

圖片

俄羅斯方塊：分?jǐn)?shù)是已注冊(cè)的總方塊數(shù)加上消除的總行數(shù)（乘以10倍系數(shù)），計(jì)算至游戲結(jié)束為止。不同的模型持續(xù)游戲的時(shí)間各不相同，這取決于它們高效處理下落方塊的能力。例如，o3-pro能夠有效清除超過(guò)10行，從而持續(xù)保持游戲進(jìn)行。

圖片

2048：合并方塊值的總和（例如，合并兩個(gè)2會(huì)獲得+4），記錄直到棋盤停滯（連續(xù)十次回合沒(méi)有合并或改變棋盤的移動(dòng)）。然后我們會(huì)報(bào)告它們的總得分。由于游戲可以持續(xù)超過(guò)10萬(wàn)步，這為區(qū)分模型在較長(zhǎng)時(shí)間范圍內(nèi)的能力提供了強(qiáng)有力的依據(jù)。

圖片