成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手AI技術對游戲的全鏈路賦能

人工智能 深度學習
近年來游戲產業迅猛發展,光是 2020 年第一季度,中國游戲市場的銷售收入就突破了 700 億元,而游戲做為承接互聯網公司流量并進行商業化變現最有效的渠道之一,各大互聯網公司也都在積極布局。

 簡介

近年來游戲產業迅猛發展,光是 2020 年第一季度,中國游戲市場的銷售收入就突破了 700 億元,而游戲做為承接互聯網公司流量并進行商業化變現最有效的渠道之一,各大互聯網公司也都在積極布局。AI 作為在多個行業被證實可以提高生產力的技術,在游戲領域的應用空間也是巨大的。AI 與游戲的結合其實早就已經出現了,從深藍到 AlphaGo,AI 迅速在各個游戲里超越人類。

[[375950]]

當大家對 AI 和游戲關系的普遍認知還停留在“與玩家對抗”的時候,我們已經注意到其實 AI 可以給游戲的研發,推廣,運營等多個環節進行賦能,本文主要介紹快手將 AI 技術應用于游戲業務各個環節的探索和落地情況。這些工作由快手 AI 平臺部,游戲技術中臺和快游工作室合作完成。

AI 輔助研發

在推關類游戲中,關卡數量隨著游戲運營時間遞增,一個成熟的推關類游戲,比如消消樂,關卡數量成千上萬。而合理的設置關卡難度是提升用戶心流體驗的關鍵要素。好的關卡設計可以有效根據用戶當前水平調動用戶游戲興趣,而難度不穩定的關卡設計會對用戶的游戲體驗造成極大的干擾。

在以上背景下,根據業務和場景的訴求產出合適難度的關卡就變得非常必要了。在傳統的推關類游戲開發中,測試關卡難度往往是通過測試人員做大量重復的測試。這種傳統的方式有兩個主要缺陷:一是需要消耗大量人力和工時;二是這種測試往往帶有測試人員的個體誤差導致關卡的難度估計存在系統性偏差。

為了系統性的解決這兩個問題,我們用 AI 能力在游戲關卡方面做出了一些嘗試。由于游戲機制問題,這里有兩種業務訴求,其一為通過 AI 來評估給定關卡的難度,其二為自動生成指定難度的關卡。快手在以上兩種場景下均有對應解決方案,并已經成功落地到點消和斗地主等游戲中。

智能關卡難度測試

點消游戲特點是 action 比較單一,游戲關卡盤面由最多 9*9 個格子組成,action 只有點擊。但是其狀態空間非常巨大,每個格子上附帶的大量屬性:元素種類(方塊、阻礙元素、道具、暫時空格、永久空格、是否有傳送門)和元素屬性(顏色、層數、狀態、朝向等)。

 

我們設計了基于強化學習(利用 CNN+A2C)和蒙特卡洛樹搜索(MCTS)的算法來解決這個問題。其中一個難點是并行 MCTS 算法。因為有多個 worker 在同時執行選擇(selection)->擴展(expansion)->仿真(simulation)->反向傳播過程(backpropagation),某一個 worker 在進行選擇的時候,其他 worker 未結束的仿真結果是無法獲取的,這導致大量 worker 只能看到過時且類似的信息,嚴重影響了搜索樹選擇節點的好壞,破壞了串行狀態下的探索 - 利用平衡(exploration-exploitation balance)。

為解決這一問題,我們提出了 WU-UCT 算法(Watch the Unobserved in UCT)。這個算法借用了異步并行算法的思想,其核心在于維護一個額外的統計量用于記錄每個節點上有多少個正在對其進行仿真的 worker,并用其對選擇算法進行調整。此外,我們使用了主 - 從工作模式的系統。由主進程維護一個完整的搜索樹,并進行選擇和反向傳播操作。同時,主進程負責將擴展和仿真的任務分配給對應的子進程,由子進程完成后將結果返還主進程。這樣做的好處在于很好地保證了統計信息對于每次選擇都是完整的,同時避免了進程間共享內存和訪問沖突等問題。

最終,我們用以上方法訓練的 AI,對超過 1000 關進行自動難度驗證,以用戶實測的通關率為標準,我們的 AI 難度評估系統的誤差在 8.6% 以內。在 WU-UCT 的幫助下,我們的系統可以準確地預測某一關卡上線后玩家的預期通關率,為關卡設計師提供了很好的指導,達到了不需要人工測試即可得到反饋,大幅降低了開發成本,也改變游戲制作方式。另外,我們也把這項工作總結成論文發表在 ICLR2020[1] 并被大會選為 Oral 報告論文。

自動關卡生成

當我們通過 AI 解決了給定關卡難度自動評測的問題后,一個自然的需求是能否連關卡生成也自動化?于是我們在快手自研的《愛游斗地主》上的殘局玩法做開始了新的嘗試。

 

棋牌類的殘局關卡的設計非常困難,對設計人員要求非常高,即便是該游戲的專家也往往難于設計出有價值的殘局。我們首先利用強化學習和 minimax 搜索設計出了一個破解斗地主殘局的 AI,然后用該 AI 為基準對隨機生成的牌局做篩選,同時利用實際測試的用戶體驗數據來學習篩選規則。除了已經上線的二人殘局關卡,還能生成三人殘局(因難度太高暫時沒在游戲內開放)。另外為了避免生成相似的殘局,我們對牌面信息做了標準化變換,讓相似的牌面信息在標準化空間內成為相同的牌面。我們最終自動生成的殘局達到 30-40% 的通過率(開發人員測試),大大提升了開發效率。目前該方案已經上線《愛游斗地主》殘局玩法。

AI 輔助推廣

游戲研發測試完成之后的下一個重要任務是進行推廣。我們這里介紹 AI 在游戲廣告投放業務中的一些實踐和探索工作。

智能投放

游戲工作室會在流量平臺(如快手)購買流量,即用戶。而作為廣告主,游戲工作室會建立或者雇傭第三方投放團隊來進行廣告投放。投放團隊用素材(短視頻,圖片封面,廣告詞)構建廣告創意,然后打包并設置相應的投放參數,最終形成廣告計劃在廣告平臺提供的接口中投放。廣告平臺負責將廣告創意在進行曝光并收取廣告主的費用,用戶通過觀看廣告并點擊廣告中的鏈接,下載游戲并激活,成為游戲用戶。用戶在游戲內部直接或間接消費,作為游戲工作室獲得流水收入。

 

傳統的廣告投放以人工制作廣告創意,生成廣告計劃為主要手段。然而,人工投放缺點明顯,首先人工投放需要大量人力做一些重復性操作。其次,人工投放效果多依賴于優化師(投放人員)的直覺和經驗,沒有可以泛化的通用方法。

 

為了解決上面的問題,解放優化師的雙手和部分大腦,我們搭建了智能投放系統。該系統的目標是可以形成投放的全鏈路閉環,不需要人工介入。這個系統是基于召回和組合排序投放策略框架。

 

 

召回是指素材(短視頻,封面,廣告詞)的召回,本質上可以理解從素材庫中選取其中部分素材。召回的方法有基于規則的和基于模型的。我們召回模型多以回歸和分類模型為主,如線性模型,樹模型,神經網絡等。我們以優化目標(ROI,激活數,激活單價等)為指標,建立監督學習模型并預測單素材表現從而優選出有潛力的素材。素材的特征,以視頻為例子,包括視頻重要幀的嵌入向量,視頻時長,視頻風格,視頻類別等。另外,除了素材本身的特征,還包括過去一段時間的表現特征,如過去 24 小時的點擊率,三秒完播率等。

組合排序是將召回的原素材進行組合(笛卡爾乘積)構建廣告創意并排序。根據排序結果將頭部創意編排進廣告計劃。我們開發了多種排序模型。如張量分解模型,基于神經網絡的雙塔模型等。在張量分解方法中,我們可以將一個創意看成是若干類型的元組,如(短視頻,圖像封面,廣告詞)可以看做一個三階張量。之前投放的廣告創意的表現,如果 ROI 等可以看做是張量的某個元素的數值。因為,張量分解可以把創意打分看成是一個張量補全問題,然后利用低秩假設和經典的張量分解算法將創意的分數補全。

 

雙塔模型,確切地說是多塔模型,是將各個維度的素材特征經過神經網絡得到各自的抽象特征表示,然后在通過融合映射為一個分數。例如,最基本的雙塔模型作用在短視頻和圖像封面的場景下,可以理解為給視頻素材找到合適的封面。

 

基于召回和組合排序框架,我們就可以設計多種具體的投放策略,包括新素材冷啟動、創意空間探索、智能創意制作等。除了上述投放策略,我們還開發了各種輔助策略,如素材的黑白名單策略,老素材的回收策略,關停策略等。所有這些策略配合基本已經滿足我們的目前的所有場景了。目前我們已經介入 10 多款游戲,其中有 2 款游戲已經全部自動托管。目前 AI 生成的廣告計劃帶來的花費已經是占總花費的 40% 左右。

AI 輔助運營

游戲推廣之后的下一個環節是運營。在運營過程中,有許多游戲內的策略問題,游戲內的運營策略非常影響用戶的體驗和留存,從而影響營收。設置合適的策略通常是游戲策劃的一個非常重要的工作,好的策略通常依賴于游戲策劃的豐富經驗和直覺。不過在某些場景下,數據可以更好指導如何生成適合用戶的運營策略。另一方面,在支持運營的過程中,常常需要游戲 AI 的輔助。例如在游戲的冷啟動,掉線帶打等場景中,游戲 AI 發揮著重要的作用。這里我們介紹我們在快手游戲業務中,我們是如何通過數據驅動的策略和游戲 AI 去提升用戶體驗的。

數據驅動的游戲內策略

匹配策略

在多人競技或者對抗游戲場景中,匹配是玩家良好體驗的重要一環,對提升用戶留存至關重要。用戶匹配算法一般是按一定策略先粗排篩選出實力相當或滿足某種規則的用戶群體進行分場,然后進行局部精排分隊以保證游戲平衡性,但如何從全局用戶體驗上進行優化得到玩家分場分隊匹配還是一個 NP-hard 難題。

 

以《愛游斗地主》游戲原始基于規則的匹配策略為例,將待匹配用戶構成匹配池,以用戶狀態(剩余金幣量、勝率、段位等)為主要尺度,按規則公式計算戰力系數,然后按該系數相近的用戶匹配到一起。然而,這些信息并不能準確反映玩家真實水平,很難保證對局玩家狀態平衡,導致用戶實際體驗不一致。因此需要更全面的評估玩家的真實水平,并從全局體驗上優化匹配策略,以提高用戶游戲時長和留存。

我們利用玩家歷史游戲行為序列和畫像數據,基于深度神經網絡實現多維特征融合的用戶匹配策略。將玩家歷史游戲行為統計特征和用戶畫像作為模型輸入,玩家歷史對局的連桌數的區間分類作為標簽,我們可以訓練一個多分類模型。線上預測時,首先通過設計的聚類模型對用戶進行粗略聚類——即粗排過程。然后將每個聚類下用戶,三人一組(斗地主規則)分組,將所有分組組合輸入預測模型,輸出不同組合下匹配概率值,優先將概率值大的組合匹配在一起——即精排過程。

 

關于特征提取,我們從用戶歷史對局數據中,提取出用戶基本特征和行為特征。此外,通過概率圖模型,我們將各玩家的游戲戰力看成一個隨時間動態變化的高斯分布,從游戲對局結果中學習玩家的能力值 [2],以反映玩家真實游戲水平。將上述用戶基本特征、行為特征和玩家能力值聯合拼接后進行特征嵌入表征作為匹配模型輸入特征。我們將連續對局次數(稱為連桌數)作為匹配結果較好的一個正向反饋。我們構建深度神經網絡作為模型,以局為單位聯合三名玩家特征作為模型輸入:


 

 

我們主要關注的運營指標是用戶留存。該模型上線后,較傳統基于規則的匹配策略,用戶 7 日留存提升了約 2.4%。

發牌策略

除了匹配,發牌也是至關重要的。在斗地主游戲中,分發出去的牌組將直接影響該局游戲玩家的發揮及游戲體驗。發牌完成后,系統不再對牌局進行干涉,由三位玩家自行完成游戲。因此,發牌的策略是斗地主游戲決策中至關重要的部分。傳統的發配策略通常為隨機發牌或者根據規則生成牌組。隨機發牌的情況下,可能出現非常零散的手牌或是三家牌力非常不平衡的牌組,從而造成不公平,這些都會嚴重影響玩家體驗。而按規則的發牌策略往往比較生硬,無法對牌力進行有效的調整。另外,以上方案都沒有利用玩家的狀態信息進行發牌。因此,我們開發了數據驅動的發牌策略。

我們首先制作了牌庫,其中包括大量的牌組。而入選牌庫的標準則是根據玩家的反饋。玩家的反饋有很多,例如一局之后,超過一個玩家點擊“再來一局”就可以認為是一個正向反饋。如果沒人點擊“再來一局”可以認為是負向反饋。我們收集多種反饋,從而標記一個牌組的“好壞”,并利用這些樣本數據訓練二分類模型。之后我們隨機或者按規則生成牌組,并通過以上模型來過濾出相對好的牌組進入牌庫。當然,不同場次的玩家偏好不一樣,從而反饋也不一致。因而我們根據不同場次分別組建牌庫。另外,在同一牌庫中,我們根據其中牌組的特征進行了聚類,這些聚類標簽也可以在后續的牌組選擇中應用。我們的牌庫模型和牌庫本身也會根據數據的積累,定期更新。

接著,我們提出一種基于強化學習的牌組選擇與牌位分配的方法。我們從玩家的歷史游戲信息以及近期的勝負信息中,提取玩家的基本特征、行為特征、狀態特征等。同時,我們從牌局提取相應的牌組特征。我們將玩家特征視為 state,牌組特征視為 action,一局游戲的 reward 定義為玩家是否繼續游戲的,從而建立 RL 學習框架。我們利用 Q-Learning 算法對最佳發牌策略進行學習。

 

在線上發牌階段,將三名玩家的信息進行特征提取得到用戶特征。另外,計算不同子庫分別能達到的收益值,取能最大化收益的子庫。再根據模型,從子庫從中選取最優牌組。

 

該策略上線后顯著提升了活躍度,綜合 7 日留存提升了 3.6%,日平均局數提升了 11.7%。另外,我們還針對不同的場次分別提供了個性化的模型和牌庫,目前該策略已經推全到《愛游斗地主》的所有場次。另外我們還提供專門用于比賽和直播的牌庫。

游戲 AI

在游戲運營過程中,我們有多個場景需要游戲 AI 的支持,例如出牌提示和掉線代打等。游戲 AI 技術對游戲的支持,主要體現在《兜來玩麻將》業務中的落地以及在斗地主業務中推廣。《兜來斗地主》包括 6 種麻將玩法,例如四川麻將 - 血流成河,四川麻將 - 血戰到底,大眾麻將,二人麻將等。在游戲剛上線的業務冷啟動階段,由于玩家數量較少,需要將游戲 AI 投入到匹配池來提升體驗。因此,需要支持 6 種以上麻將玩法的 AI 并支持分級。然而,通用的麻將 AI 研究是一個學術界尚未解決的非對稱博弈難題。MSRA 在日本麻將上做出了超越人類水平 AI[3],然而其算法框架強烈依賴于專家級別用戶的訓練數據且針對日本麻將的規則做了定制化,不適合應用于我們支持多種玩法的業務需求和大規模擴展。

 

我們基于深度強化學習進行創新性的研究,解決了缺乏專家級數據等技術難點,沉淀出一套擴展性極強的的算法框架,成功在多種規則麻將中使 AI 達到人類頂尖水平,不僅滿足了業務需求,也達到了業內領先的成就。我們還推廣該框架至其他游戲,例如斗地主。

 

首先我們解決了缺少高質量數據的問題。該方法是先使用簡單的基于規則的 AI 互相對戰生成訓練數據,并用這個數據進行監督學習得到一個初始化模型,然后從這樣一個初始化模型出發自對弈進行強化學習。我們稱這個方法為 RuleBase Initialization (RBI)。RBI 方法得到的 AI 水平遠高于從零開始訓練的 AI,并且這套流程可以適用于不同的麻將規則,可擴展性強,并可以滿足 AI 分級的要求。

 

其次,我們設計了平滑的獎勵來解決初期訓練困難和獎勵方差過大的問題。在訓練初期,AI 水平比較低,直接用游戲的真實獎勵隨機性太大,容易使梯度方向偏離正確方向。我們通過加入一些人為設計的聽牌、和牌的獎勵使得獎勵更符合對于新手的引導。在訓練過程中,我們逐漸降低人為設計獎勵的權重,使獎勵平滑地回歸游戲的真實獎勵。同時,我們采取了 reward clipping 方法來防止梯度過大。

麻將的規則十分多樣,不同規則麻將在流程、可行動作域、記分方式等方面有區別。為了高效支持大量不同規則的麻將 AI,我們的算法框架必須具有比較強的通用性和可擴展性。為了提高可擴展性,我們嘗試了區別于傳統 Decision Flow 的全新結構:將所有可能的 action(包括出牌)排成一個向量作為模型輸出的概率分布,這樣用一個模型就能處理所有打牌階段決策。我們對這個單模型 AI 使用 RBI 方法進行強化學習訓練,得到了很好的效果。此外,這種算法可擴展性極強,每種玩法只需要重新訓練一個模型,代碼改動量也很小。我們用這個框架快速拓展,目前已經支持了血流、血戰、大眾、二人、北方推倒胡,國標麻將等規則。

 

我們已經將多種玩法的 AI 在快手的《兜來玩麻將》中上線,我們最高級的 AI 水平顯著強于高水平玩家。其中,我們的國標麻將 AI 參加了 2020 年 IJCAI 的國標麻將比賽,以第一名的成績入圍即將舉行的決賽。在麻將 AI 的探索中,我們不但沉淀了一套麻將 AI 的能力,而且還錘煉了一套完整的游戲 AI 的訓練平臺和方法論,并已經將相關經驗遷移到斗地主等游戲中。

規劃和展望

隨著 AI 能力的不斷擴展,對游戲的賦能也會不斷深化和拓展,相信在不遠的將來 AI 能力可以更深入的觸及游戲行業的各個環節,極致化用戶體驗,形成 AI 能力在游戲上更完美的閉環。

 

責任編輯:華軒 來源: AI前線
相關推薦

2021-06-25 12:00:20

快手HDR

2023-09-08 09:27:21

百度營銷輕舸AI Native

2024-09-10 14:40:55

2023-01-30 22:34:44

Node.js前端

2019-04-23 14:25:40

區塊鏈數字貨幣比特幣

2021-03-31 22:39:04

區塊鏈司法數字化

2021-05-10 15:09:47

區塊鏈互聯網金融

2024-09-24 16:25:27

2021-09-23 10:00:57

鴻蒙HarmonyOS應用

2018-07-02 16:50:02

新華三

2020-12-14 09:23:16

人工智能教育機器人

2024-01-05 00:29:36

全鏈路灰度發布云原生
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品我不卡 | 成人午夜精品一区二区三区 | 美女视频三区 | 日韩一二三区视频 | 日韩成人在线视频 | 亚洲狠狠爱 | 91在线视频精品 | 91黄在线观看 | 天天操一操 | 精品视频一区二区在线观看 | 欧美日韩国产在线观看 | 91视频网址 | 久久综合一区 | 国产精品xxxx | 美女视频一区二区三区 | 男女激情网站免费 | 日本高清aⅴ毛片免费 | 一本色道久久综合亚洲精品高清 | 欧美精品一区二区在线观看 | 91精品国产乱码久久久久久久久 | 亚洲精品自在在线观看 | 色婷婷在线视频 | 日韩精品一区在线 | 亚洲日本欧美日韩高观看 | 少妇一区二区三区 | 91精品国产91综合久久蜜臀 | 欧美日韩一区二区三区四区五区 | 成人综合在线视频 | 色在线免费视频 | 精品免费视频 | 久久久久久久久精 | 欧美一区免费 | 一级毛片观看 | 天天天插 | 91免费观看| 欧美精品一区二区三区在线播放 | 亚洲网址在线观看 | 羞羞的视频免费在线观看 | 国产成人一区二区三区久久久 | 日韩欧美视频 | 欧美伊人久久久久久久久影院 |