開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了
目前,元宇宙熱潮下,AI 數字人也開始涉及眾多領域,包含文娛、服務、教育、營銷等。市面上出現的 AI 數字人包括功能型 AI 數字人,如虛擬助手、虛擬導游、虛擬客服等;陪伴型 AI 數字人,如虛擬伴侶、虛擬家屬等;社會型 AI 數字人,如虛擬主播、虛擬偶像、虛擬教師、虛擬醫生、虛擬導購等。
浦發銀行的首位銀行業數字員工「小浦」
虎牙 AI 數字人晚玉
搜狐新聞客戶端聯合搜狗推出的首個明星「AI 數字人」主播。
為了實現虛擬數字人的多域化滲透,讓更多 AI 數字人的場景落地,FACEGOOD 決定將語音驅動口型的算法技術正式開源,這是 AI 虛擬數字人的核心算法,技術開源后將大程度降低 AI 數字人的開發門檻。
項目地址:https://github.com/FACEGOOD/Audio2Face
項目背景
2019 年,第十屆中國國際新媒體短片節組委會和 FACEGOOD 聯合發布陸川導演 AI 數字人。
陸川導演 AI 數字人形象
觀眾可以和 AI 數字陸川面對面互動交流,為觀眾帶來打破虛擬空間和現實空間次元壁的實時實感交流互動體驗。為了能達到實時交互的效果,FACEGOOD 開發了一套數字人實時語音交互系統,實現了語音到表情動畫的實時轉換。
如今,FACEGOOD 選擇將全套語音驅動表情的技術代碼開源,免費提供給廣大數字人開發者使用。
技術解讀
該技術可以將語音實時轉換成表情 blendshape 動畫。這樣做的原因是在現行的產業中,用 BS 去驅動數字形象的動畫表情仍是主流,方便動畫藝術家對最終動畫產出最藝術調整,傳輸的數據量小,方便動畫在不同的數字形象之間進行傳遞等等。
基于這些實際生產中的需求,FACEGOOD 對輸入和輸出數據做了相應的調整,聲音數據對應的標簽不再是模型動畫的點云數據而是模型動畫的 blendshape 權重。最終的使用流程如下圖 1 所示:
在上面的流程中,FACEGOOD 主要完成 Audio2Face 部分,ASR、TTS 由思必馳智能機器人完成。如果你想用自己的聲音,或第三方的,ASR、TTS 可以自行進行替換。
當然,FACEGOOD Audio2face 部分也可根據自己的喜好進行重新訓練,比如你想用自己的聲音或其它類型的聲音,或者不同于 FACEGOOD 使用的模型綁定作為驅動數據,都可以根據下面提到的流程完成自己專屬的動畫驅動算法模型訓練。
那么 Audio2Face 這一步的框架是什么樣呢?又如何制作自己的訓練數據呢?具體如下圖 2 所示:
常規的神經網絡模型訓練大致可以分為三個階段:數據采集制作、數據預處理和數據模型訓練。
- 第一階段,數據采集制作。這里主要包含兩種數據,分別是聲音數據和聲音對應的動畫數據。聲音數據主要是錄制中文字母表的發音,以及一些特殊的爆破音,包含盡可能多中發音的文本。而動畫數據就是,在 maya 中導入錄制的聲音數據后,根據自己的綁定做出符合模型面部特征的對應發音的動畫;
- 第二階段,主要是通過 LPC 對聲音數據做處理,將聲音數據分割成與動畫對應的幀數據,及 maya 動畫幀數據的導出。
- 第三階段就是將處理之后的數據作為神經網絡的輸入,然后進行訓練直到 loss 函數收斂即可。