成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟麻將 AI 論文發布,首次公開技術細節

新聞 人工智能
2019 年 8 月 29 日,微軟發布了一個名為 Suphx(超級鳳凰)的「麻將 AI」,在專業的麻將競技平臺上,Suphx 的實力勝過了頂級人類選手的平均水平。

場景描述:還記得去年 8 月微軟發布的「雀神 AI」Suphx 嗎?今天,該研究團隊在 arXiv 上發布了更新版的論文,進一步介紹了 Suphx 背后的技術。

2019 年 8 月 29 日,微軟發布了一個名為 Suphx(超級鳳凰)的「麻將 AI」,在專業的麻將競技平臺上,Suphx 的實力勝過了頂級人類選手的平均水平。

當時一經發布,Suphx 便引起了廣泛的關注,不僅是人工智能領域,不少麻將愛好者也都趕來圍觀討論。

 

  麻將的信息集數目和信息集平均大小超過了橋牌、德撲和圍棋

  人們評價該系統比戰勝了職業圍棋手的 AlphaGo 更復雜,被譽為「最強日麻人工智能」。

  今天,該系統的研發團隊在 arXiv 上發表了論文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻將與深度強化學習》),更深一步地講解了 Suphx 背后的技術。

微软麻将 AI 论文发布,首次公开技术细节

 

  《Suphx:掌握麻將與深度強化學習》

  論文地址:https://arxiv.org/pdf/2003.13590.pdf

Suphx 愈戰愈勇:已超越 99.99% 玩家

  此前我們已經介紹過,Suphx 系統利用深度強化學習,從 5000 場比賽中學習、吸取經驗之后,在日本專業的麻將競技平臺「天鳳」上擊敗了眾多麻將玩家,取得平臺「特上房」的最高段位十段。

微软麻将 AI 论文发布,首次公开技术细节

 

Suphx 在天鳳平臺的段位,遠高于其它麻將 AI

  這樣一個強悍的麻將 AI,究竟是如何打造的?來自微軟亞洲研究院、京都大學、中國科學技術大學、清華大學以及南開大學的研究團隊,在最新版的論文中,進行了深入的介紹。

  從論文中,我們也得知,Suphx 在進一步的學習下,水平也更進一步。在擁有超過 35 萬位玩家的「天鳳」平臺上,被官方評為水平超越 99.99% 以上玩家,這是計算機程序首次超過麻將中大多數頂級人類玩家。

五大模型與強化學習,造就雀神 AI

  Suphx 包含一系列卷積神經網絡,它學習了五種模型來處理不同的場景,包括 discard(丟棄模型)、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。

微软麻将 AI 论文发布,首次公开技术细节

 

  discard 模型(上)與其它四個模型的架構(下)

  在此基礎上,Suphx 采用另一種基于規則的模型,來決定是否宣布贏家并進行下一輪,檢查是否贏牌可以從其他玩家丟棄的牌中來判斷,或者從排墻上抽出來的牌來判斷。

  據介紹,Suphx 的訓練過程一共分為三步。

  首先,它的 5 個模型都使用從「天鳳」平臺收集的頂級人類玩家的日志進行訓練。

  然后,使用包含一套基于 CPU 的麻將模擬器和基于 GPU 的軌跡生成推理引擎,通過自我博弈強化學習對系統進行微調。

  最后,在在線游戲期間,使用運行時策略調整被用來觀察當前輪的結果,從而使系統執行得更好。

微软麻将 AI 论文发布,首次公开技术细节

 

Suphx 中的分布式強化學習系統

  由于麻將牌局中,對手的信息都是未知的,因此,Suphx 嘗試了先知教練技術來提升強化學習的效果。在自我博弈的訓練階段,利用隱藏信息引導模型訓練方向 ,從而增強 AI 模型對可見信息的理解,并找到有效的決策依據。

評估 :5760 場角逐,創造十段紀錄

  在實驗之前,團隊在 44 個 GPU (包括 4 個 Nvidia Titan XPs 用于參數服務器,40 個 K80s 用于自我博弈玩家)上,使用 150 萬次牌局,對每個模型進行了為期兩天的訓練。

  該團隊對 20 個 Nvidia Tesla K80 GPU 上的 Suphx 進行了評估。為了減小穩定排名的方差,他們從 100 多萬場的麻將牌局數據集中,隨機抽取了 80 萬牌局的數據,并從中進行了 1000 次取樣。

  評估結果為,在「天鳳」平臺與人類玩家進行了超過 5760 場比賽后,Suphx 創造了十段的紀錄——大約只有 180 個玩家曾經達到過這個水平。而 Suphx 穩定的排名是 8.74 段(人類玩家最高水平是 7.4 段)。

微软麻将 AI 论文发布,首次公开技术细节

 

強化學習 agent 最終穩定排名統計

  在不斷優化中,RL-2 最終取得更好的表現 

  有趣的是,研究人員寫道,Suphx 的防守「非常強」,放胡的概率很低,只有 10.06%,而且它開發了自己的游戲風格,可以保證牌的安全,并以半平手取勝。

微软麻将 AI 论文发布,首次公开技术细节

 

  AI 玩家(南方)會選擇保守打法

  放棄籃筐內的六筒,因為牌桌上已有該牌

  此外,論文的合著者寫道,大多數現實世界的問題,如金融市場預測和物流優化與麻將有相同的特點。比如復雜的操作/獎勵規則、非完美信息問題等等。

  作者相信,在 Suphx 中設計的麻將技術,包括全局獎勵預測、先知引導以及政策調整等,都有巨大的潛力,將來可廣泛應用于現實世界,幫助解決真實而復雜的實際問題。

[[320921]]

 

  看到這里,你也躍躍欲試了嗎?天鳳麻將對戰平臺:https://tenhou.net/, 一起來一局呀!

責任編輯:張燕妮 來源: HyperAI超神經
相關推薦

2023-05-08 07:20:22

Doris分析型數據庫

2025-03-12 14:40:53

2024-03-04 07:30:00

Sora論文研究

2011-04-18 09:35:23

Windows 8

2023-06-25 10:19:49

模型論文

2021-06-11 21:46:31

RocketMQ數據JSON

2024-03-19 09:29:32

AI程序員

2015-04-13 10:12:08

Windows容器技術Nano Server

2009-11-23 09:50:54

HTML5IE9

2014-05-29 09:34:25

2024-04-25 17:07:33

無源光網絡PON接入網技術

2014-12-12 16:53:07

AWS關系型數據庫Aurora系統

2025-03-18 08:00:00

豆包文生圖技術Seedream

2019-05-06 10:51:49

總監技術場景

2019-05-13 08:51:53

總監技術CTO

2024-11-04 08:45:00

2013-06-26 09:42:25

技術服務器內存虛擬化

2017-11-10 08:35:06

存儲FCoE網絡

2022-01-11 08:52:41

微軟macOS漏洞

2018-04-20 14:37:43

互聯網技術細節
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天堂一区二区三区 | 国产99精品 | 中文字幕精品一区久久久久 | 成人免费看电影 | 美女午夜影院 | av手机在线看 | 成人小视频在线观看 | 狠狠色综合网站久久久久久久 | 欧美jizzhd精品欧美巨大免费 | 一区二区三区四区不卡视频 | 97视频人人澡人人爽 | 一区欧美 | 国产精品免费观看 | 久久精品视频网站 | 欧美日韩国产中文 | 在线色网址 | 亚洲欧美日韩精品 | 久久精品成人一区 | 91麻豆精品国产91久久久久久 | 国产精品99久久久久久久久久久久 | 国产精品久久久久久久岛一牛影视 | 亚洲精品二区 | 欧州一区二区三区 | 黄色永久免费 | 久久草在线视频 | 欧美一区二区网站 | 一区视频在线 | 国产在线播放一区二区三区 | 久久久久久av | 午夜久久久 | 精品伊人 | 国产精品欧美精品 | 日韩在线视频一区 | 国产精品国产a | 日韩美女在线看免费观看 | 伊人网综合| 午夜视频在线免费观看 | 日韩欧美国产精品一区 | 国产精品亚洲视频 | 国产精品久久久久影院色老大 | 91久久久久久久久 |