音樂驅動數字人技術詳解

作者：董治 2023-10-09 07:29:35

本文主題為音樂驅動數字人的算法和實踐。Music XR Maker 著重音樂，可以理解為基于音樂內容做虛擬元素的創建，實質是屬于 AI 驅動當中的音樂驅動，可以驅動的項目包括歌聲合成、歌唱口型生成、舞蹈動作生成、樂器手勢生成、歌唱表情生成等，還包括后續將會逐步迭代加入的場景燈效舞美。

一、音樂驅動體系 Music XR Maker

Music XR Maker 源于天琴實驗室，天琴實驗室是騰訊音樂首個音視頻實驗室，致力于通過 AI 科技提升音娛視聽體驗，也是騰訊音樂的首個音視頻技術研發中心。天琴實驗室在視頻、視覺方面主要做的事情包括兩方面，一方面是 Music XR Maker 以及圖像渲染技術，另一方面是視頻相關，比如視頻理解、音樂視頻化、視頻質量提升等。

1、音樂驅動在數字人技術棧中的定位

在數字人技術棧中，音樂驅動的定位可分為三個部分：

形象構建：在形象構建過程中，涉及到的技術包括模型制作、拍照捏臉、拍攝建模、服飾生成等。

人物驅動：人物驅動分成兩個體系，第一個是基于中之人，背后有真實人物在驅動；第二個是 AI 驅動。在音頻和視覺上，兩個體系都有對應的實現：在音頻聲音這塊，中之人直接用中之人的聲音，AI 驅動在說話方面有 TTS 技術，歌曲歌聲方面對應有歌聲合成技術。在面捕這塊，可以實時把中之人的面部表情捕捉到位，AI 生成則有說話口型生成、歌唱口型生成、說話表情生成、歌唱表情生成等。在動作和手勢方面，也有相應的動作捕捉、手勢捕捉，在音樂領域也有對應的舞蹈動作生成和樂器手勢生成。

可視化渲染：當成功將建立的模型驅動起來后，需要讓普通用戶看得到模型，這就涉及到可視化渲染。比如虛擬偶像視頻分發到各種視頻平臺、虛擬主播開虛擬直播、互動娛樂多人互動等。

2、Music XR Maker 音樂驅動研發體系建設

Music XR Maker 著重音樂，可以理解為基于音樂內容做虛擬元素的創建，實質是屬于 AI 驅動當中的音樂驅動，可以驅動的項目包括歌聲合成、歌唱口型生成、舞蹈動作生成、樂器手勢生成、歌唱表情生成等，還包括后續將會逐步迭代加入的場景燈效舞美。Music XR Maker 音樂驅動研發體系建設包括：

數據源：建設 Music XR Maker 體系在數據層面分成兩個部分：一是建模動作口型生成必須要有數據來源，目前大部分來源是動捕或面捕數據，還有手勢捕捉數據等；二是既然把數據跟音樂關聯，就要有非常強的音樂理解能力，包括音樂風格、情緒、音樂旋律、能量、歌曲的節奏、段落等。

AI 生成：有了基礎數據后，就通過核心 AI 生成的算法把兩方面數據進行關聯。算法有兩種類型：一類是端到端模型，包括分類預測模型、關聯點預測、生成類模型等；另一類是 AI 編排生成算法，相對復雜且涉及多種步驟，還會使用到類似搜索或推薦等做法，可以分成召回、排序、重排三個階段：在召回階段，對輸入信號進行關聯解析數據；在排序階段，根據歌曲節奏、歌曲熱度、個性化等排序；在重排階段，進行時序連貫性、段落關聯性等調整。

3D 渲染：通過 AI 生成得到驅動數據后，要打通完整商業化鏈條還需要進行 3D 渲染，這是必不可少的一環。首先需要渲染引擎，像常用的 Unity 、UE，還需要專業的 3D 數據格式，像 SMPL、GLB、FBX 等；同時也需要生產力工具，像 Blender、Maya 等。

產品應用：對企業來說，最后一環就是真正落地應用到具體產品。落地應用分兩種類型：一種是有用戶參與的互動娛樂應用，以 QQ 音樂的音樂世界、音樂直播的云蹦迪直播、全民 K 歌的 KK 秀、TMEland 等為代表；另一種是在娛樂公司比較常見的虛擬人代表，比如已公開的扇寶、安可、持續在研發的虛擬人項目，曝光的場景包括虛擬偶像視頻、虛擬直播、重要節點開虛擬演唱會等，都是虛擬偶像展現的地方。

二、音樂生成數字人舞蹈

1、虛擬人舞蹈的產生方式

數字人舞蹈的生成方式大致分成三種：

動捕棚：采用目前比較新的多目動捕設備、慣性捕捉，得到的效果是真正影視級效果，也是目前能接觸到的最佳效果。但存在價格昂貴，人力、設備成本高等問題。應用場景來說，可用于精品視頻輸出。

視頻復刻：屬于單目動捕，用于普通的低精度場景效果還不錯，但運用到非常激烈的快節奏舞蹈，特別是運用到高精度模型，效果上存在細節丟失。這種方式人力成本相對較低，所以在低精度模型場景上應用較多。視頻復刻有個非常明顯的優勢是其他方式達不到的，它可以很好抓住熱點。現在的短視頻類平臺每隔一段時間都會出一些熱點舞蹈，通過這種方式可以快速的把熱門舞蹈實時復刻出來。

基于音樂生成：屬于純算法生成，效果依賴數據質量和算法自身好壞。存在的問題是數據獲取困難，優勢在于可以批量生產場景。在批量場景下，可以和精品視頻進行互補，在日常視頻輸出可以用到這種基于音樂生成舞蹈的方案。

2、音樂生成數字人舞蹈的業內方案

業內有很多音樂生成數字人舞蹈的方案，大致有如下幾種：

基于生成的方案：非常具有想象力的方案，但商用可能存在不可控情況。

基于 codebook：對比于生成的方案進行改進，加入了 codebook 等方式，對生成的舞蹈規律有一定約束，是非常不錯的方案。

基于舞蹈編排：實驗的難度和實現的可行性更高一些。

面向商用的舞蹈生成如何做，有三點因素需要考慮：一是舞蹈動作本身是美觀的動作；二是舞蹈動作和音樂的節奏、韻律要和諧一致；三是音樂和舞蹈的風格也要一致。所以在 AI 編舞時重點會關注音樂特征，包括音樂本身的特性、音樂節奏等，對舞蹈也會做對應匹配，包括舞蹈屬性、風格、情緒、節奏快慢等。綜合來看，商用舞蹈生成是在有原始音頻文件后，通過一些方法提取音頻特征，接著通過特征回歸到舞蹈動作，最后將這些動作合理的拼接起來。

3、TME 天琴方案

下方是 TME 天琴方案的生成算法截圖。當拿到一段音樂后，切成一幀一幀的小片段，接著對每一幀提取對應的音樂屬性特征，包括旋律、節奏等最能代表音樂和舞蹈的特征，然后去匹配最合適的舞蹈片段，同時基于音樂節奏、風格類型，對召回的片段進行重新排序，過濾掉不太適合的片段，最終把對應的片段進行拼接，就形成一段完整舞蹈。這里還涉及一個問題，舞蹈動作可能前后段連接有問題，可通過平滑算法進行過渡來解決。

這個方案實際應用起來比較簡單，而且可以直接使用。但這個方案存在一定問題，因為想象力不夠，生成的方案多樣性略差。

另外一套方案是基于生成的方案。輸入一段音頻信號，對應的原始樣本音頻會關聯到對應的舞蹈，輸入模型中經過一個過程，還原回最初的舞蹈動作。在這個過程中，要把音頻信號特征和舞蹈信號特征盡量拉齊，盡量表達更廣泛的含義。

當音樂生成數字人舞蹈完成后，可以進行主觀評測。針對同樣一首歌，把生成的舞蹈和手 K 的舞蹈動作發給普通用戶進行對比，選取兩種方式對比：第一個方式是直接對比生成結果和手 K 結果，讓用戶選擇哪種更好；第二個方式是把生成結果和手 K 結果分別進行打分。經過評測發現，兩種方式的結論類似，生成結果已經接近手 K 的效果，總體效果不錯。

4、數字人舞蹈的商用路徑

在數字人舞蹈的商用路徑方面理解如下：

首先，通過動捕棚拍攝、CP 手 K 效果最好，會應用到虛擬偶像、虛擬主播的精品 MV、形象宣傳片，同時這類高質量舞蹈數據可以保留下來。

第二，單目的視頻復刻主要用到虛擬主播、虛擬偶像、用戶互動娛樂場景的爆款舞蹈生成。生成數據可以經過人工篩選，把中質量舞蹈數據保留下來。

最后，把之前保留下來的高質量舞蹈數據和中質量舞蹈數據，作為 AI 舞蹈生成模型的數據來源，生成的舞蹈數據就作為量產數據，用在虛擬偶像、虛擬主播、用戶互娛場景，批量生產更多的舞蹈動作。

三、歌聲驅動數字人口型

1、歌聲驅動數字人口型方案

歌聲驅動數字人口型有兩種實現方案：

① 專業面捕方案：有專業設備、配套軟件，優點是效果最佳，無限表情基。廣泛應用于超寫實虛擬人場景。

② 普通光學攝像頭方案：通過普通手機攝像頭可以實現，一般場景下效果完全可接受，標準 52 BS。適用于一般的虛擬人場景。

2、口型驅動數據集構建

在口型驅動數據數據建設上，把全民 K 歌軟件的用戶 K 歌視頻畫面保留下來，同時錄入用戶唱歌干聲數據。通過前面提到的單目動捕方案，把唱歌畫面進行口型識別，拿到口型 BS 數據，再加上保留下來的用戶唱歌干聲數據，同時輸入到歌聲口型驅動模型。

歌唱驅動和說話驅動有差別：說話時嘴巴動的頻率比較快，但是唱歌時因為要一口氣唱下去，嘴巴表現更有連貫性；同時說話時嘴巴動的幅度沒有歌唱時幅度大，這也是專門做歌唱口型驅動模型的原因。

3、TME 口型驅動模型

TME 口型驅動模型的方案同時用到兩部分數據：一個是用戶輸入的干聲數據，一個是歌詞文件（歌詞文件經過前處理，對歌詞文件和音頻做對齊，拿到每一個字精準的時間戳）。對輸入音頻和歌詞做 Encoder 處理后，進行融合。把融合結果輸入到另一個面部匹配預測模塊，該模塊會將當前幀的歌詞、音頻信息同之前全部幀的信息放在一起，做一個 Decoder 處理。最終預測到整首歌匹配變化后再轉換為所需要的模型參數。

4、實時性解決方案

前面是異步生成視頻的場景，實時性如何解決有如下考慮：先離線生成預設 BlendShape，輸入測試文件及干聲數據，干聲來源于兩個部分：一是之前用戶唱的優秀作品干生；二是歌曲原唱，通過技術提取原唱的干聲，然后把各式文件和綜合干聲，通過前面的口型驅動模型，得到預設 BlendShape。等到真正實施時，用戶實時干聲經過音頻映射模型，得到實時音頻分析結果，和前面的預設 BlendShape 進行融合，最后得到實時 BlendShape。這樣就解決了實時性問題，同時兼備口型生成的效果。

實時性解決方案的相關技術已經上線應用，在全民 K 歌 8.0 的 QQ 秀可以體驗到：一個場景是用戶入唱時，會有 K 歌秀界面，一邊唱一邊可以看到 QQ 秀虛擬人的動作、口型等；另一個是在歌房場景也有類似體驗。

四、歌聲驅動數字人歌唱表情

當做好數字人歌唱口型后，發現人顯得比較呆。分析專業歌手演唱表演，發現唱歌時要表達歌唱情感，除了口型之外，歌唱時的面部表情、手勢、動作都要同時具備，三者合一的完整表現才能突出演唱者當時的強烈情感。

1、歌唱表情數據的采集

歌聲驅動數字人歌唱表情的實現需要進行數據采集。數據采集時先找到帶表情的演唱視頻樣本，通過面捕拿到面部表情，通過動捕拿到動作，通過手捕拿到手勢，然后把表情、動作和手勢合一，融入歌唱表情段，經過人工表情打標后放入歌唱表情庫。

2、歌唱表情的合理驅動

采集到歌唱表情之后，需要合理的驅動起來。經過歌詞文本分析拿到歌唱時歌詞的表情信息，確定整個歌唱表演的表情基調。此時可以從龐大的各種類型表情庫里，挑選出合適的表情，適合于在歌曲或者歌曲的某一個片段安插表情。

五、總結與展望

這兩年上線了很多與虛擬人或元宇宙相關的平臺和產品，娛樂公司、明星、大型商業公司、海量主播、普通用戶等很多都有自身的虛擬形象，虛擬形象將變得越來越普遍。

中之人面臨越來越多的問題，比如成本問題、管理問題、虛擬形象的靈魂歸屬于虛擬偶像本身還是中之人。

AI 驅動技術面臨快速升級，包括形象創建技術、視覺驅動技術、音頻歌聲合成技術等。TME 以音樂為核心進行技術建設，包括音樂驅動數字人舞蹈、數字人歌唱口型、數字人歌唱表情等，未來還有其他方面。

總體來說，數字人的未來在于技術。

六、問答環節

Q1：動捕數據或公開數據集重定向到模型驅動有問題時如何處理？

A1：確實會存在重定向的問題。主要是先重定向到一些標準模型，然后再通過人工發現有問題的數據，對有問題的數據進行分類：如通過手動可以小范圍解決的，就進行修復；如解決不了，就直接把數據拋棄掉。

Q2：音樂生成數字人舞蹈的客觀評測方法？

A2：因為音樂生成數字人舞蹈是偏向主觀的一個領域，生成的東西不可能跟原始的一樣，如果跟原始一樣，那就沒有什么意義了。所以音樂生成數字人舞蹈更多的是一些主觀評測。

Q3：現在主要研究的是卡通類型的數字人嗎？

A3：現在主要研究的是在卡通類型的數字人，目前沒有太涉及寫實虛擬人方面。

Q4：拼接的單元是小節嗎？

A4：拼接的單元不是小節。這里涉及到一些細節，比如根據音樂的節奏進行切分，并不是簡單的切幾秒鐘舞蹈片段，需要把舞蹈片段切的更便于后續的拼接。

責任編輯：姜華來源： DataFunTalk

算法音樂驅動數字人

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看