成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實時語音交互的游戲隊友——網易伏羲 AI Agent 創新應用

人工智能
本文將重點講解語音 AI 隊友的設計和實現,及其背后的 AOP(Agent-Oriented-Programming,面向智能體編程)框架,最后還會分享語音技術在游戲場景的一些創新應用。

在 PVP 多人對戰類的游戲中,社恐玩家的社交和情緒價值、對戰局的操控感,無法得到有效滿足。因此,網易伏羲助力《永劫無間》手游率先發布了全球首創的游戲 Copilot-多模態實時交互的語音 AI 隊友。它可以在戰斗中自主跑圖、戰斗、聽指令、報戰況,還會和玩家進行自由對話,給玩家帶來極高的情緒價值。本文將重點講解語音 AI 隊友的設計和實現,及其背后的 AOP(Agent-Oriented-Programming,面向智能體編程)框架,最后還會分享語音技術在游戲場景的一些創新應用。

一、網易伏羲介紹

網易伏羲是國內首個游戲人工智能研究機構,自 2017 年成立以來,已在全球各類學術頂級會議中發表 270 余篇學術論文,并持有 600 多項技術專利,為人工智能、元宇宙、數字孿生、智能決策技術等眾多前沿科技領域的理論研究和實踐應用做出貢獻。

圖片

自成立以來,網易伏羲不斷推陳出新,積極探索前沿技術和應用場景,實現了游戲AI 領域的多項創新技術突破,推出了基于照片、文字的 AI 捏臉、智能 NPC、劇組模式、語音交互式捏臉和語音 AI 隊友等多個行業首創的AI 應用。通過將 AI 技術融入游戲系統的各個層面,網易伏羲成功助力《逆水寒》手游、《永劫無間》手游等游戲打造多項創新玩法,極大地提升了玩家的游戲體驗。

近期,網易伏羲助力《永劫無間》手游推出全新的游戲 Copilot——“語音 AI 隊友”,該玩法一經推出即受到玩家的高度評價,相關用戶生成內容迅速登上抖音和 B 站熱門榜單。

二、語音 AI 隊友的設計與實現

圖片

傳統游戲中,機器人往往存在行為呆板、缺乏互動交流等問題。對于有社交焦慮的玩家,他們希望在避免與真人玩家直接語音交流的同時,仍能享受游戲中的社交體驗及多人對戰的樂趣。此外,玩家匹配到技術不佳或配合度低的隊友,會導致游戲體驗不佳。因此,玩家希望能夠找到一個既能提供高質量的游戲技巧支持又能陪伴聊天的對象,從而滿足自身情緒需求,提升整體游戲體驗。

為了滿足玩家對于游戲互動性和情緒價值的需求,《永劫無間》手游推出了一種多模態實時交互的語音 AI 隊友。AI 隊友能夠在戰斗中自主跑圖、執行戰術動作,并根據玩家指令匯報戰況。此外,它還能與玩家進行自然對話,提供情感支持。對于新手玩家,該語音 AI 隊友還具備教學引導功能,可以幫助他們更快地熟悉游戲機制。

在《永劫無間》手游中設計的 AI 隊友 Agent 能夠綜合處理游戲環境中的狀態變化和玩家輸入的語音信息。基于對當前環境狀況的認知、決策能力,以及利用游戲知識庫與戰斗記憶,該 AI 隊友能夠做出合理的行動決策并給予相應的語音反饋。

圖片

在這一應用場景下,為實現高效互動和輔助功能,Agent 需要具備的認知與決策能力主要包括:語音識別、指令理解、教學問答、人設對話、語音生成,以及協同完成任務所需的戰斗智能體等。

接下來將詳細介紹幾個核心能力。

圖片

首先,作為 AI 隊友,必須具備“聽得懂”的能力,能夠像真人一樣與玩家實時語音互動。因此在設計之初就去掉了智能音箱等場景中常用的喚醒詞設計,比如“Hey Siri”,而是采用全開麥實時語音交互。這種模式雖然極大地提升了用戶體驗,但也帶來了很大挑戰。比如環境噪音、不同設備的兼容性、玩家方言口音差異以及存在一些專業術語等問題。為了解決這些問題,我們基于 AOP(Agent-Oriented-Programming,面向智能體編程)框架的核心能力,構建了自主數據閉環的訓練模型,使 Agent 具備自主進化的能力,并且構建了標準的測試集,有效利用測試和線上數據擴充數據集,推動模型迭代。我們的語音識別在經過幾次場景數據的閉環訓練之后,在噪聲過濾、熱詞適配等方面都得到了顯著的加強。

圖片

除了聽得懂,AI 隊友還需能夠進行表達和對話。通過結合大語言模型與文語轉換(TTS)技術,AI 隊友實現了自主對話的功能。為了增強語音生成模型的泛化能力,我們利用多年積累的大數據對語音基礎大模型進行了訓練,并針對具體游戲場景進行了自適應優化。

圖片

在聽得懂、能說話的基礎上,我們給 AI 隊友設計了非常豐富的人設選項,比如彩虹屁萌妹、溫柔體貼御姐以及溫暖深情暖男等等。這些具有鮮明個性的 AI 隊友,不僅可以和玩家產生復雜的互動關系,還可以根據不同的游戲情境展現出其獨特的性格特點,進一步增強游戲的沉浸感和互動感。比如上圖中展示的,一個玩家在玩的過程中通過和不同 AI 隊友的交互體驗,畫出了一個關系圖。

圖片

作為游戲的陪玩或隊友,對于游戲的理解需要非常到位,對于問到游戲相關內容時,要做出非常好的回答。為了實現 AI 隊友的教學問答功能,我們構建了一個強大的知識庫系統,該系統包括游戲的靜態知識(如規則和機制)和動態知識(如賽事信息)。當玩家提出問題時,AI 會通過 embedding 模型將問題轉化為向量,并在向量庫中搜索最匹配的答案。如果答案不明確,則會利用 RAG(檢索增強生成)和更高級的大語言模型進行進一步的檢索和推理,以確保提供準確的回答。

圖片

AI 隊友還必須擁有基本的游戲執行能力。當玩家發出如“集火胡桃”這樣的指令時,系統首先在預處理模塊中解析并理解該指令的意圖。識別出意圖后,系統將“集火”這一行為類型和“胡桃”這一目標轉化為狀態信息,并將其作為戰斗模塊的輸入。最終,基于強化學習的戰斗模型會根據這些輸入信息做出相應的行動決策,從而執行玩家的指令,做出集火胡桃的動作在客戶端表現出來。

基于上述介紹,可以看到 AI 隊友系統具備多種能力,包括理解語音、自然對話、展現個性以及執行任務等,因此它是一個多智能體系統,類似于人類大腦中不同區域分工明確且協同工作的機制。行業中已有一些成熟的多智能體框架,如 MetaGPT 和 AutoGEN 等,支持復雜系統的開發與應用。

在做 Agent 設計和落地時,常會遇到場景適配的問題,比如語音識別,需要適配環境噪音、口音等問題。我們是如何解決這些問題的呢?這就引入了下一部分內容——AOP 框架。

三、Agent 能力迭代- AOP 數據閉環

圖片

AOP(Agent-Oriented-Programming,面向智能體編程) 是網易伏羲設計的一套全新的編程范式,其核心價值在于為開發者對接智能體(包括 AI 和人),提供統一范式的接口和服務,并自動構建數據閉環讓智能體具備自主進化能力。開發者可通過 AOP 使用伏羲有靈機器人平臺預置的公共智能體能力,包括 ChatGPT、Midjourney 等預訓練模型,以及數據標注、美術制作、工程機械操控等眾包能力,也可針對行業細分場景定制化構建智能體應用。

AOP 的設計思想,是基于馬爾可夫決策過程(Markov Decision Processes,MDP)的定義來進行任務建模,即 Agent(智能體,包括人類或機器)在進行某個任務時,首先會和環境進行交互,產生新的狀態(State),同時環境會給予相應的獎勵(Reward),這一過程循環往復,Agent 與環境之間的交互產生了大量的數據。Agent 利用這些新數據不斷調整自身的行為策略,經過多次迭代后,Agent 便能夠學習到完成特定任務所需的最佳動作策略。

圖片

圖片

圖中展示的是我們所定義的一個用于語音識別的智能體。我們詳細規定了該智能體的狀態觀察機制及其自身的能力,無論是指定使用人工智能還是人工操作。一旦完成接口描述語言(IDL, Interface Description Language)的定義,便能夠生成并編譯出這一智能體。編譯完成后,我們將獲得一段運行時代碼,這段代碼提供了同步與異步調用的接口。接著,利用 AOP 平臺的一鍵發布功能,即可實現智能體的快速部署。部署完畢后,就可以在具體的業務場景中直接調用此智能體。例如,根據圖示代碼所示,可以選擇調用 AI 執行的自動語音識別(ASR)功能或人類執行的語音識別服務。

該 AOP 框架已成功應用于多個案例之中,除了文本提到的 AI 語音隊友以外,還在《逆水寒》手游的文字捏臉、《永劫無間》手游的交互式捏臉等應用中落地。

四、語音技術在游戲場景的應用

最后來分享一下語音技術在游戲場景的一些其他應用。

圖片

在游戲場景下,除了實時互動的語音 AI 隊友,我們在音頻內容生產上也做了一定工作。游戲場景下的音頻內容,主要包含音樂、音效、語音三個方面。游戲音樂,包括背景音樂、劇情、戰斗和關卡中的音樂等等。音效包括各種各樣的聲音效果,像環境音效、動作音效等等,例如法術釋放、技能特效、爆炸聲等,完美的音效設計可以給玩家帶來更好的沉浸感和互動體驗。游戲人物語音是指游戲角色所發出的人聲,常見的有對話語音、戰斗語音,語音設計師可以根據角色的角色設定、角色性格、場景和情節需求,來創造適合的語音內容和表達方式。在傳統的游戲生產鏈路中,這三部分都是人工完成的,耗費人力和時間很多,隨著 AI 生成式技術的興起,我們嘗試用技術去幫助游戲音頻設計師更快更好地生產內容。下面,將以人物語音為例,介紹我們在游戲里面的一些落地案例。

圖片

《逆水寒》手游自去年上線就獲得了很大的關注度,玩家可以在汴京、虹橋等很多地方,和瀾兒、高衙內等數十個 NPC 進行互動交流,這種細致入微的互動,為游戲增添了更多的樂趣和豐富性。游戲里大家所聽到的這些 NPC 的聲音,就是我們語音合成技術所實時合成的。形形色色的會說話的 NPC,增加了《逆水寒》手游街頭巷尾的煙火氣息,讓玩家獲得了更好的沉浸式體驗。

為了增強游戲的社交性、可玩性,提高游戲豐富度在《逆水寒》手游中,我們首次在游戲里加入了聲音的 DIY 玩法——自定義技能喊話,玩家可以設置技能釋放時候播放的語音內容,玩家可以輸入文本,選擇音色進行定制,也可以輸入自己的語音進行音色轉換來定制。

另外,我們還應用了歌聲合成和轉換技術,來制作歌聲內容。

在游戲場景中,對變聲器,即語音轉換能力的需求比語音合成更多,我們在這塊做了深入的探索,發表的論文有 DualVC、DualVC2、DualVC3、Expressive-VC 等等。比如在直播時可以選擇將自己的聲音更換為另一種特定的音色。實時變聲器可以在很多玩法上做嵌套,但也會遇到法律邊界的挑戰。

圖片

圍繞語音生成,網易伏羲在 Codec 和 LLM 兩個方面都做了探索。Codec 方面,網易伏羲基于自身技術積累,自研了適配生成式大語言模型的語音 Codec,不僅實現了語音的離散化和高質量重建,而且做到了內容屬性與音色屬性的解耦。

LLM 方面,在文本生成語音時,使用了 Speech LLM,利用數十萬小時的語音數據訓練,融合 SFT+RLHF 等手段,實現了媲美真人的語音合成效果。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-09-20 08:31:49

AIGA深度學習

2025-05-09 06:30:52

2025-02-17 10:36:00

微軟開源模型

2017-12-22 21:42:24

游戲語音游戲實時語音

2021-11-11 19:35:16

人工智能AI深度學習

2018-03-01 09:46:11

游戲實時語音

2025-06-06 09:46:57

2020-09-21 07:00:00

語音識別AI人工智能

2024-11-05 09:32:47

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 草草视频在线免费观看 | 日韩一区二区在线视频 | 色播久久 | 狠狠操操| 日韩精品一区二区三区 | 成人在线播放网址 | 国产精品美女久久久久久免费 | 欧美成人一区二区三区片免费 | 国产三级国产精品 | 国产日韩欧美激情 | 91久久精品国产91久久 | 一区二区免费在线观看 | 国产91久久久久 | 国产精品久久久久久久久久免费看 | 国产精品一区久久久 | 成人精品视频在线 | 免费视频一区二区三区在线观看 | 色综合99 | 欧美性网站 | 国产精品久久久久久久久久不蜜臀 | 天天爱爱网 | 天堂精品视频 | 日本亚洲欧美 | 国产精品夜夜夜一区二区三区尤 | 在线观看av免费 | 久久国产精品视频免费看 | 免费的av网站 | 久草在线| 国产精品中文字幕在线 | 一区二区三区中文 | 99精品久久久| 一区二区三区在线电影 | 国产日韩欧美在线一区 | 国产精品免费一区二区三区 | 99热在这里只有精品 | 日韩中文字幕 | 亚洲欧美视频 | 国产一区二区激情视频 | 91麻豆产精品久久久久久夏晴子 | 在线观看av中文字幕 | 精品中文字幕一区 |