成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI擊敗DotA頂級選手是不是突破?OpenAI放出了更多細(xì)節(jié)

新聞 人工智能
周末,OpenAI在DotA 2全球頂級賽事TI7(The International)的 中單1v1比賽中擊敗了頂級選手Dendi 。OpenAI的發(fā)起人之一,硅谷鋼鐵俠馬斯克還順勢 連發(fā)三條twitter,贊賞OpenAI,談監(jiān)管,談AI的風(fēng)險(xiǎn) 。

[[200484]]

周末,OpenAI在DotA 2全球頂級賽事TI7(The International)的 中單1v1比賽中擊敗了頂級選手Dendi 。OpenAI的發(fā)起人之一,硅谷鋼鐵俠馬斯克還順勢 連發(fā)三條twitter,贊賞OpenAI,談監(jiān)管,談AI的風(fēng)險(xiǎn) 。

但關(guān)于這個(gè)參賽的AI,大家并不是非常了解,因此對于這次勝利的解讀,夸大其詞者有, 質(zhì)疑其并非突破 者也有。

直到今天,OpenAI終于在官方博客上公布了人工智能打DotA技術(shù)的進(jìn)化歷程、(部分)技術(shù)細(xì)節(jié),以及和更多選手對戰(zhàn)的視頻,以及怎樣打敗這個(gè)AI。

成績

我們在DotA 2上取得的結(jié)果表明,只要具備足夠的計(jì)算能力,自我對抗可以使機(jī)器學(xué)習(xí)系統(tǒng)的水平超越人類(目前僅限于中單1v1)。

在1個(gè)月時(shí)間里,我們系統(tǒng)的水平從只能匹配高段玩家上升至能擊敗頂級職業(yè)選手。自那時(shí)以來,系統(tǒng)仍在繼續(xù)得到優(yōu)化。

有監(jiān)督深度學(xué)習(xí)系統(tǒng)的性能取決于訓(xùn)練數(shù)據(jù)集,但在自我對抗系統(tǒng)中,隨著系統(tǒng)變得更強(qiáng)大,可用數(shù)據(jù)也會自動得到優(yōu)化。

下圖是AI的TrueSkill得分:

隨著時(shí)間發(fā)展,我們最好的AI的TrueSkill得分也在線性提高。TrueSkill是通過AI之間進(jìn)行模擬游戲,觀察勝率來計(jì)算的,相當(dāng)于國際象棋的ELO評分。

TrueSkill得分的提高與系統(tǒng)各部分的改進(jìn)都相關(guān),為算法增加新功能、擴(kuò)大規(guī)模都能提高得分。

AI怎樣打DotA?

完整的DotA游戲是5v5對抗,但在某些巡回賽中也可以看到中單對抗。

我們的AI按照標(biāo)準(zhǔn)巡回賽規(guī)則來玩游戲,我們沒有在1v1比賽中加入任何有利于AI的簡化。

AI通過以下界面來操作:

  • 觀察:bot API功能使AI可以像人類一樣觀察,包括英雄、兵線和附近地形。游戲是部分可觀察的。

  • 操作:通過bot API進(jìn)行操作,操作頻率與人類選手相仿,具體操作包括移動位置、攻擊其他單位,以及使用道具。

  • 反饋:在獲勝后AI可以獲得激勵。基于其他基本指標(biāo),例如血量和補(bǔ)刀,AI也可以獲得激勵。

我們將十余種裝備合成方式列入白名單,供AI使用,并選擇其中一種進(jìn)行評價(jià)。我們還利用傳統(tǒng)的RL技術(shù)來訓(xùn)練最初的控兵線技巧。

開發(fā)歷程

項(xiàng)目進(jìn)程如下所示。下文提到的MMR全稱Match Making Rating,也就是比賽匹配分級,相當(dāng)于天梯積分。在DotA 2中,15%的玩家天梯分低于1500,58%的玩家低于3000,99.99%低于7500。

  • 3月1日:我們首個(gè)經(jīng)典的增強(qiáng)學(xué)習(xí)系統(tǒng)配置于簡單的DotA環(huán)境中。

  • 5月8日:天梯1500分的測試者表示,他的水平提升速度要高于AI。

  • 6月初:AI擊敗了天梯1500的測試者。

  • 6月30日:擊敗了大部分天梯3000分的測試者。

  • 7月8日:在對抗天梯7500分的半職業(yè)選手時(shí),取得首勝。

  • 8月7日:3比0擊敗Blitz(前職業(yè)選手,天梯6200)、2比1擊敗Pajkatt(職業(yè)選手,天梯8500)、3比0擊敗CC&C(職業(yè)選手,天梯8900)。他們都認(rèn)為,SumaiL知道如何擊敗這個(gè)AI。

  • 8月9日:10比0擊敗Arteezy(頂級職業(yè)選手,天梯10000)。他也認(rèn)為SumaiL知道如何擊敗AI。

  • 8月10日:6比0擊敗SumaiL(頂級中單職業(yè)選手,天梯8300)。他認(rèn)為這個(gè)AI是無法擊敗的。在與8月9日的AI對抗時(shí),他取得了2比1的成績。

  • 8月11日,2比0擊敗Dendi(前世界冠軍、天梯7300的職業(yè)選手)。在對抗8月10日的AI時(shí),這個(gè)AI取勝概率達(dá)到60%。

TI

我們的方法是將少量的“教練訓(xùn)練”與自我對抗結(jié)合在一起。這使得我們在周一到周四國際邀請賽(TI7)期間能大幅優(yōu)化AI。

周一晚間,Pajkatt使用了不太常見的裝備合成方式(購買了早期魔杖),并取得了勝利。我們隨后將這種裝備合成方式加入到訓(xùn)練的白名單中。

周三下午1點(diǎn)左右,我們測試了最新版AI。這個(gè)AI在第一波對抗中損失了相當(dāng)一部分血量。我們一開始打算把代碼回滾,不過又注意到,隨后的游戲變得更有趣,而第一波對抗中的嚴(yán)重失血只是為了誘敵深入。進(jìn)一步的自我對抗修復(fù)了問題,AI學(xué)會了應(yīng)對誘餌策略。與此同時(shí),我們將其結(jié)合至周一版本的AI,只用于第一波對抗。在Arteezy下午4點(diǎn)到達(dá)的20分鐘前,我們完成了整個(gè)流程。

在與Arteezy的賽后,我們升級了控兵線模型,這使得TrueSkill評分增加了1分。在周四與Sumail的比賽之前,進(jìn)一步的訓(xùn)練讓TrueSkill評分又增加了2分。Sumail指出,AI學(xué)會了在對手視野外放技能。這基于我們此前從不知道的機(jī)制:在對手視野之外放技能,對方英雄就積累不到魔棒點(diǎn)數(shù)。

Arteezy也和我們MMR 7.5k的半職業(yè)測試版進(jìn)行了比賽,幾乎取得了勝利,但是,AI采用的一種策略令他驚訝。Arteezy隨后表示,中國頂尖職業(yè)選手、iG.V戰(zhàn)隊(duì)的中單Paparazi(拒絕者)曾在和他的比賽中用過一次這種策略,但這并不是常見行為。

如何擊敗AI

盡管Sumail認(rèn)為這個(gè)AI是“不可擊敗的”,但在某些非常少見的情況下,AI仍有可能被迷惑。我們在國際邀請賽的一場LAN活動上搭建了AI。玩家進(jìn)行了超過1000盤游戲,嘗試任何可能的方式去擊敗AI。

成功擊敗AI的策略主要包括3種類型:

  • 拉兵線:玩家可以在AI的二塔和三塔之間,反復(fù)吸引剛產(chǎn)生的兵線來追你。最終將會有大量兵線在地圖上追你,而AI的防御塔將被磨血。

  • 毒球和風(fēng)靈之紋:在1級情況下,這樣的裝備組合大幅提升玩家相對于AI的移速,從而快速拿到一血。你需要利用這樣的優(yōu)勢去再次擊殺AI。

  • 1級強(qiáng)推:這需要大量技巧,但有幾名MMR 6k到7k的玩家靠在1級短時(shí)間內(nèi)放3-5次技能,擊殺了AI。

解決1v1中的這些問題類似于解決Pajkatt提出的漏洞。但在5v5情況下,這樣的漏洞無法使用。我們需要一種系統(tǒng),能處理從未見過的奇怪局面。

基礎(chǔ)設(shè)施

我們還沒有打算完整地討論這個(gè)AI的內(nèi)部原理,團(tuán)隊(duì)目前專注于解決5v5問題。

項(xiàng)目的第一步,是搞清楚如何基于實(shí)體GPU在云計(jì)算平臺上運(yùn)行DotA 2。

在GPU云計(jì)算實(shí)例上,游戲顯示了出錯(cuò)消息。在Greg的個(gè)人GPU臺式機(jī)上,也就是比賽中用的那臺主機(jī)運(yùn)行時(shí),我們注意到,在連接顯示器的情況下DotA可以啟動,但在沒有連接顯示器時(shí)仍然顯示出錯(cuò)消息。因此,我們對云計(jì)算GPU實(shí)例進(jìn)行了配置,偽裝已連接了顯示器。

DotA目前并不支持定制的專用服務(wù)器,這意味著在沒有GPU的情況下只能使用緩慢的軟件加速。我們隨后開發(fā)了一種機(jī)制,禁用大部分的OpenGL調(diào)用,僅僅保留了啟動所需要的部分。

與此同時(shí),我們開發(fā)了腳本機(jī)器人。考慮到內(nèi)置機(jī)器人在1v1情況下表現(xiàn)不是很好,我們需要一個(gè)基準(zhǔn)作為參考,并理解機(jī)器人API的所有語義。

這個(gè)腳本機(jī)器人在10分鐘時(shí)間里完成了70次補(bǔ)刀,但仍落后于優(yōu)秀的人類選手。

目前最優(yōu)秀的1v1機(jī)器人能達(dá)到97次補(bǔ)刀(在此之前塔已經(jīng)推掉,因此這個(gè)數(shù)字來自于推測),而理論最高值是101次。

如何解決5v5?

1v1很復(fù)雜,但5v5更加復(fù)雜。我們知道,我們需要進(jìn)一步推動AI向前發(fā)展,解決5v5的問題。

我們可以從行為復(fù)制著手。DotA大約每天有100萬盤公開比賽,這些比賽的回放會在Valve的服務(wù)器中保存兩周。

我們下載了自去年11月份以來所有專家級的回放,積累了包括580萬盤比賽在內(nèi)的數(shù)據(jù)庫(每盤比賽約45分鐘,有10名玩家參與)。我們使用OpenDota去分析這些回放,并捐出了1.2萬美元(相當(dāng)于他們10年的籌資目標(biāo))去支持這個(gè)項(xiàng)目。

當(dāng)然,在博客的最后,OpenAI再次表達(dá)了“我們要招人!”

責(zé)任編輯:張燕妮 來源: 36kr
相關(guān)推薦

2017-08-14 11:15:32

2021-08-04 15:20:44

開源技術(shù) 軟件

2019-11-18 10:34:24

戴爾

2019-12-16 09:38:07

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-03-17 12:35:52

2021-09-15 05:19:35

算法裁員人工智能

2019-12-24 16:46:10

AI 數(shù)據(jù)人工智能

2024-03-19 07:16:23

2012-07-18 10:51:46

Office 2013

2025-01-02 09:30:00

AI數(shù)據(jù)測試

2025-04-21 09:15:00

2021-01-22 16:25:15

AI 數(shù)據(jù)人工智能

2024-10-25 09:48:34

2022-02-10 16:14:06

AI賽車游戲

2019-05-16 09:23:18

前端Title后端

2015-11-02 09:00:54

創(chuàng)業(yè)取舍

2009-03-15 10:12:23

Mobile IE6瀏覽器

2022-12-25 14:08:10

AI模型

2023-03-31 08:11:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一区二区三区高清 | 亚洲精品丝袜日韩 | 中文字幕在线视频观看 | 亚洲中午字幕 | 日韩色在线| 成人a免费| 色综合九九| 精品欧美乱码久久久久久1区2区 | 日本激情视频中文字幕 | 免费看啪啪网站 | 精品香蕉一区二区三区 | 国产成人免费视频 | 一级欧美 | 日日爽| 精品久久国产 | 在线观看中文视频 | www.97国产 | cao在线| 欧美精品一区二区三区四区 | 亚洲福利 | 亚洲精品三级 | 国产在线中文字幕 | 亚洲精品日日夜夜 | www.日韩高清| 欧美亚洲国语精品一区二区 | 亚洲天堂一区 | 欧美精品一区在线 | 日韩视频中文字幕 | 国产91丝袜在线播放 | 亚洲精品自在在线观看 | 日本一区二区三区在线观看 | 欧美一区二区在线看 | 中文字幕视频在线观看 | 亚洲精品永久免费 | 国产一区二区av | 91久久精 | 综合久久99 | 一级黄色片日本 | 天天天插 | 69性欧美高清影院 | 精品一级 |