成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小小井字棋難倒大模型??大神卡帕西被OpenAI在線踢館了

人工智能 新聞
別盯著寶可夢了,讓大模型玩井字棋會更有趣,它們不會。

寶可夢之后,讓大模型玩井字棋又成了一個新的熱門挑戰。

起因是網友在X上吐槽大模型寶可夢玩得不夠好,結果被大神Karpathy翻了牌子:

別盯著寶可夢了,讓大模型玩井字棋會更有趣,它們不會。

圖片

結果Karpathy的話引發了大量圍觀,有人表示驚訝,也有人在分析原因,還有人表示那句經典的話含金量還在上升:

對人類而言很簡單的任務,對機器來說反而很難;對人類而言難的任務,對機器來說反而簡單。

圖片

不過也有人表示不服,其中就包括OpenAI的Noam Brown,他表示讓o3玩井字棋完全沒問題,甚至還能看圖下棋。

圖片

大模型挑戰井字棋

我們也嘗試了一下,用不同的方式和o3對戰。

第一種方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局輸入給o3,并要求其用同樣的方式輸出。

思考約12秒之后,o3首先占據了棋盤中央的位置,我們落子之后,o3又思考了23秒,放置了第二顆X棋子。

圖片

接下來的兩個回合情況是這樣,其實當o3占據對角線上兩個位置的時候就已經鎖定了勝局。

不過有意思的是,直到已經連成一條線,o3都沒發現自己已經贏了。

圖片

由于沒有提示,我們誤以為游戲還在繼續,又放了一顆O旗之后o3才發現原來自己獲勝了。

圖片

第二輪,交換先后手,我們先占據中間位置,然后o3選擇了頂角……

圖片

最終,這輪游戲以平局結束。

圖片

接下來換一種方式,仿照Noam的做法把殘局寫在紙上拍給o3。

一開始看上去是在正常對弈,并且會以平局收場,但如果讓o3自己分析接下來的趨勢,竟然發現它開啟了耍賴模式。

圖片

當然,在糾正了它的錯誤認識后,最終還是成功分析出了平局的必然結果。

圖片

順便提一句,如果是4o,過程中可能會直接把我們下棋之后的棋局復制一遍,看到這就沒有繼續進行下去的必要了。

(之所以改用感嘆號,是因為-會被識別成Markdown符號導致棋局無法正常顯示,且在4o中Markdown關閉失敗)

圖片

實際上,OpenAI在之前的o3-mini時,就已經拿下了井字棋游戲,Noam還聲稱這是首個“始終正確回答”井字棋問題的模型。

圖片

在Karpathy的評論區,還有人曬圖稱Gemini也能正確處理井字棋問題。

圖片

今年2月,還有人搞了個大模型井字棋對戰,并按照大模型競技場一樣計算ELO評分,當時o1-mini取得第一,然后是Claude 3.5 Sonnet和DeepSeek-R1。

Karpathy也cue到了這位網友,希望他能重啟這個榜單,同時表示自己認為井字棋(對大模型而言)仍然是一個較難的任務。

圖片

寶可夢·藍全部徽章被Gemini拿下

看完井字棋,再來說說引發Karpathy評論的原帖中提到的寶可夢。

之前很多民間團隊都在嘗試用大模型挑戰寶可夢游戲,今年被Claude帶火。

圖片

甚至還搞了線上直播。

圖片

不過現在的最新情況是,Claude已經被后來居上的Gemini反超——后者已經取得了《寶可夢·紅》中的幾乎所有勛章。

圖片

同時,從OpenAI跳槽到谷歌做AI Studio產品負責人的Logan Kilpatrick也宣稱,Gemini在另一款寶可夢游戲《寶可夢·藍》當中已經取得了最后的八個徽章。

按照Logan的說法,Gemini 2.5 Pro目前是世界上(玩寶可夢)最強的模型。

圖片

當然除了通用模型,還有團隊用強化學習方法訓練小模型專門挑戰《寶可夢·紅》。

團隊介紹,其研究在2020年就已經開始,并在今年2月成功用參數量不到1000萬的模型成功實現。

圖片

學術界當中,也有來自佐治亞理工學院的華人學者利用上下文強化學習技術,研發出了“寶可夢智能體”。

圖片

它可以在天梯對戰中與人類玩家一較高下,對戰專業玩家勝率達到了56%。

圖片

寶可夢、井字棋之后,下一個會被大模型當做Benchmark的游戲會是什么呢?

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-02-19 13:45:14

OpenAIGPT-2模型

2025-03-03 08:25:00

模型AI訓練

2025-02-11 08:53:57

2024-11-12 09:14:52

2024-07-17 09:17:50

2025-02-06 16:40:09

2025-06-03 14:13:56

ChatGPT模型AI

2024-05-10 12:58:08

2023-11-14 17:53:39

模型訓練

2015-09-23 10:43:09

P4語言OpenFlowSDN

2023-05-16 20:47:38

2023-11-03 07:47:12

機器資源大模型:

2025-05-16 10:15:06

2024-11-11 17:35:11

2023-06-25 15:04:09

2025-03-25 09:43:03

2023-10-26 08:40:15

模型隱私推理

2024-09-30 12:51:56

谷歌AI模型

2023-09-19 12:45:36

2024-06-25 12:40:10

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本高清视频网站 | 日本黄色影片在线观看 | 久久久久久亚洲欧洲 | 欧美一级毛片免费观看 | 午夜精品久久 | 亚洲欧美中文日韩在线v日本 | av激情在线| 亚洲欧美日韩精品久久亚洲区 | 国产欧美二区 | 久久久久久综合 | 国产视频福利在线观看 | 国内精品久久久久久 | 一级毛片视频免费观看 | 日本淫视频 | 久久av一区 | 日韩在线免费视频 | 日韩中文字幕久久 | 亚洲国产成人精品女人 | 99久久精品国产一区二区三区 | 午夜av一区二区 | 国产精品高潮呻吟久久久久 | 日韩最新网址 | 午夜在线影院 | 亚洲高清一区二区三区 | 亚洲精品久久 | 成人三级视频 | 色综合久久88色综合天天 | 欧美精品一二三 | 九七午夜剧场福利写真 | 午夜视频在线观看网站 | 午夜免费| 91亚洲精品久久久电影 | 国产一区免费视频 | 最大av在线| 国产精品一区二区三区在线 | 国产激情一区二区三区 | 97人人干| 成人国内精品久久久久一区 | 99热在线免费 | 亚洲欧美日韩电影 | 91tv在线观看|