成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark火了

人工智能
由于項目是在Mistral舉辦的黑客馬拉松活動上開發,所以開發者只使用OpenAI和Mistral系列模型進行了測試。排名結果也很出人意料。經過342場對戰后,根據棋類、電競常用的ELO算法得出的排行榜如下:最新版gpt-3.5-turbo成績斷崖式領先,Mistral小杯排第二。更小的模型超過了更大的如GPT-4和Mistral中杯大杯。

讓大模型直接操縱格斗游戲《街霸》里的角色,捉對PK,誰更能打?

GitHub上一種你沒有見過的船新Benchmark火了。

圖片

與llmsys大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同——街霸Bench引入了兩個AI之間的交互,且由游戲引擎中確定的規則評判勝負。

這種新玩法吸引了不少網友來圍觀。

圖片

由于項目是在Mistral舉辦的黑客馬拉松活動上開發,所以開發者只使用OpenAI和Mistral系列模型進行了測試。

排名結果也很出人意料。

經過342場對戰后,根據棋類、電競常用的ELO算法得出的排行榜如下:

最新版gpt-3.5-turbo成績斷崖式領先,Mistral小杯排第二。更小的模型超過了更大的如GPT-4和Mistral中杯大杯。

圖片

開發者認為,這種新型基準測試評估的是大模型理解環境并根據特定情況采取行動的能力。

與傳統的強化學習也有所不同,強化學習模型相當于根據獎勵函數“盲目地”采取不同行動,但大模型完全了解自身處境并有目的的采取行動。

考驗AI的動態決策力

AI想在格斗游戲里稱王,需要哪些硬實力呢?開發者給出幾個標準:

  • 反應要快:格斗游戲講究實時操作,猶豫就是敗北
  • 腦子要靈:高手應該預判對手幾十步,未雨綢繆
  • 思路要野:常規套路人人會,出奇制勝才是制勝法寶
  • 適者生存:從失敗中吸取教訓并調整策略
  • 久經考驗:一局定勝負不說明問題,真正的高手能保持穩定的勝率

圖片

具體玩法如下:

每個大模型控制一個游戲角色,程序向大模型發送屏幕畫面的文本描述,大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等信息做出最優決策。

圖片

第一個挑戰是定位人物在場景中的位置,通過檢測像素顏色來判斷。

圖片

由于目前大模型數學能力還都不太行,直接發送坐標值效果不好,最終選擇了將位置信息改寫成自然語言描述。

所以對于AI來說,實際上他們在玩的是一種奇怪的文字冒險游戲。

圖片

把大模型生成的動作招式映射成按鍵組合,就能發送給游戲模擬器執行了。

圖片

在試驗中發現,大模型可以學會復雜的行為,比如僅在對手靠近時才攻擊,可能的情況下使用特殊招式,以及通過跳躍來拉開距離。

圖片

從結果上可以看出,與其他測試方法不同,在這個規則下似乎更大的模型表現越差

開發者對此解釋到:

目標是評估大模型的實時決策能力,規則上允許AI提前生成3-5個動作,更大的模型能提前生成更多的動作,但也需要更長的時間。

在推理上的延遲差距是有意保留的,但后續或許會加入其他選項。

圖片

后續也有用戶提交了流行開源模型的對戰結果,在7B及以下量級的戰斗中,還是7B模型排名更靠前。

圖片

從這個角度看,這種新型基準測試為評估大模型的實用性提供了新思路。

現實世界的應用往往比聊天機器人復雜得多,需要模型具備快速理解、動態規劃的本領。

正如開發者所說,想要贏,要在速度和精度之間做好權衡。

GitHub項目:https://github.com/OpenGenerativeAI/llm-colosseum。

參考鏈接:
[1]https://x.com/nicolasoulianov/status/1772291483325878709。

[2]https://x.com/justinlin610/status/1774117947235324087。

責任編輯:姜華 來源: 量子位
相關推薦

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2023-06-21 13:37:41

模型研究

2023-10-11 13:09:52

訓練模型

2023-05-05 09:42:12

2024-05-09 08:33:33

2024-06-24 17:45:16

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-05-15 15:38:59

AI模型

2023-06-19 08:19:50

2023-09-06 16:44:03

2025-04-16 09:35:03

2023-06-05 12:32:48

模型論文

2023-06-28 08:36:44

大語言模型人工智能

2023-12-26 08:17:23

微軟GPT-4

2024-01-26 15:25:27

GPT-4人工智能大模型

2023-12-04 12:56:08

AI數據

2023-05-29 09:29:52

GPT-4語言模型

2023-04-09 16:17:05

ChatGPT人工智能

2025-05-30 07:40:56

2024-01-26 08:36:07

OpenAIGPT-4?人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜极品| 狠狠干天天干 | 成人深夜福利网站 | 久久久久国产精品 | 国产亚洲欧美在线视频 | 国产精品夜色一区二区三区 | 国产精品一区二区视频 | 国产精品国产三级国产aⅴ入口 | 国产日韩欧美精品一区二区三区 | 国产激情91久久精品导航 | 欧美精品第一页 | 亚洲国产aⅴ成人精品无吗 亚洲精品久久久一区二区三区 | 欧美456| 欧美性猛交一区二区三区精品 | 欧美日韩综合视频 | 天天噜天天干 | 欧美久久一区二区 | 欧美激情在线精品一区二区三区 | www.日韩 | 久久国产亚洲 | 欧美激情在线一区二区三区 | 妹子干综合 | 亚洲一区二区免费 | 韩国av网站在线观看 | 中文字幕成人av | 国产精品免费小视频 | 亚洲成人网在线 | 久久天堂网 | 天天拍天天草 | 欧美黄色免费网站 | 色就是色欧美 | 欧美午夜一区二区三区免费大片 | 日韩成人在线看 | 九九亚洲| 91av在线不卡| 91免费在线播放 | 欧美激情精品久久久久久 | 亚洲精选一区二区 | 中文字幕成人网 | 最近日韩中文字幕 | 欧美日韩国产一区二区三区 |