成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

音樂驅動數字人技術詳解

人工智能 算法
本文主題為音樂驅動數字人的算法和實踐。Music XR Maker 著重音樂,可以理解為基于音樂內容做虛擬元素的創建,實質是屬于 AI 驅動當中的音樂驅動,可以驅動的項目包括歌聲合成、歌唱口型生成、舞蹈動作生成、樂器手勢生成、歌唱表情生成等,還包括后續將會逐步迭代加入的場景燈效舞美。

一、音樂驅動體系 Music XR Maker

Music XR Maker 源于天琴實驗室,天琴實驗室是騰訊音樂首個音視頻實驗室,致力于通過 AI 科技提升音娛視聽體驗,也是騰訊音樂的首個音視頻技術研發中心。天琴實驗室在視頻、視覺方面主要做的事情包括兩方面,一方面是 Music XR Maker 以及圖像渲染技術,另一方面是視頻相關,比如視頻理解、音樂視頻化、視頻質量提升等。

1、音樂驅動在數字人技術棧中的定位

在數字人技術棧中,音樂驅動的定位可分為三個部分:

形象構建:在形象構建過程中,涉及到的技術包括模型制作、拍照捏臉、拍攝建模、服飾生成等。

人物驅動:人物驅動分成兩個體系,第一個是基于中之人,背后有真實人物在驅動;第二個是 AI 驅動。在音頻和視覺上,兩個體系都有對應的實現:在音頻聲音這塊,中之人直接用中之人的聲音,AI 驅動在說話方面有 TTS 技術,歌曲歌聲方面對應有歌聲合成技術。在面捕這塊,可以實時把中之人的面部表情捕捉到位,AI 生成則有說話口型生成、歌唱口型生成、說話表情生成、歌唱表情生成等。在動作和手勢方面,也有相應的動作捕捉、手勢捕捉,在音樂領域也有對應的舞蹈動作生成和樂器手勢生成。

可視化渲染:當成功將建立的模型驅動起來后,需要讓普通用戶看得到模型,這就涉及到可視化渲染。比如虛擬偶像視頻分發到各種視頻平臺、虛擬主播開虛擬直播、互動娛樂多人互動等。

圖片

2、Music XR Maker 音樂驅動研發體系建設

Music XR Maker 著重音樂,可以理解為基于音樂內容做虛擬元素的創建,實質是屬于 AI 驅動當中的音樂驅動,可以驅動的項目包括歌聲合成、歌唱口型生成、舞蹈動作生成、樂器手勢生成、歌唱表情生成等,還包括后續將會逐步迭代加入的場景燈效舞美。Music XR Maker 音樂驅動研發體系建設包括:

數據源:建設 Music XR Maker 體系在數據層面分成兩個部分:一是建模動作口型生成必須要有數據來源,目前大部分來源是動捕或面捕數據,還有手勢捕捉數據等;二是既然把數據跟音樂關聯,就要有非常強的音樂理解能力,包括音樂風格、情緒、音樂旋律、能量、歌曲的節奏、段落等。

AI 生成:有了基礎數據后,就通過核心 AI 生成的算法把兩方面數據進行關聯。算法有兩種類型:一類是端到端模型,包括分類預測模型、關聯點預測、生成類模型等;另一類是 AI 編排生成算法,相對復雜且涉及多種步驟,還會使用到類似搜索或推薦等做法,可以分成召回、排序、重排三個階段:在召回階段,對輸入信號進行關聯解析數據;在排序階段,根據歌曲節奏、歌曲熱度、個性化等排序;在重排階段,進行時序連貫性、段落關聯性等調整。

3D 渲染:通過 AI 生成得到驅動數據后,要打通完整商業化鏈條還需要進行 3D 渲染,這是必不可少的一環。首先需要渲染引擎,像常用的 Unity 、UE,還需要專業的 3D 數據格式,像 SMPL、GLB、FBX 等;同時也需要生產力工具,像 Blender、Maya 等。

產品應用:對企業來說,最后一環就是真正落地應用到具體產品。落地應用分兩種類型:一種是有用戶參與的互動娛樂應用,以 QQ 音樂的音樂世界、音樂直播的云蹦迪直播、全民 K 歌的 KK 秀、TMEland 等為代表;另一種是在娛樂公司比較常見的虛擬人代表,比如已公開的扇寶、安可、持續在研發的虛擬人項目,曝光的場景包括虛擬偶像視頻、虛擬直播、重要節點開虛擬演唱會等,都是虛擬偶像展現的地方。

二、音樂生成數字人舞蹈

1、虛擬人舞蹈的產生方式

數字人舞蹈的生成方式大致分成三種:

動捕棚:采用目前比較新的多目動捕設備、慣性捕捉,得到的效果是真正影視級效果,也是目前能接觸到的最佳效果。但存在價格昂貴,人力、設備成本高等問題。應用場景來說,可用于精品視頻輸出。

視頻復刻:屬于單目動捕,用于普通的低精度場景效果還不錯,但運用到非常激烈的快節奏舞蹈,特別是運用到高精度模型,效果上存在細節丟失。這種方式人力成本相對較低,所以在低精度模型場景上應用較多。視頻復刻有個非常明顯的優勢是其他方式達不到的,它可以很好抓住熱點。現在的短視頻類平臺每隔一段時間都會出一些熱點舞蹈,通過這種方式可以快速的把熱門舞蹈實時復刻出來。

基于音樂生成:屬于純算法生成,效果依賴數據質量和算法自身好壞。存在的問題是數據獲取困難,優勢在于可以批量生產場景。在批量場景下,可以和精品視頻進行互補,在日常視頻輸出可以用到這種基于音樂生成舞蹈的方案。

圖片

2、音樂生成數字人舞蹈的業內方案

業內有很多音樂生成數字人舞蹈的方案,大致有如下幾種:

基于生成的方案:非常具有想象力的方案,但商用可能存在不可控情況。

基于 codebook:對比于生成的方案進行改進,加入了 codebook 等方式,對生成的舞蹈規律有一定約束,是非常不錯的方案。

基于舞蹈編排:實驗的難度和實現的可行性更高一些。

圖片

面向商用的舞蹈生成如何做,有三點因素需要考慮:一是舞蹈動作本身是美觀的動作;二是舞蹈動作和音樂的節奏、韻律要和諧一致;三是音樂和舞蹈的風格也要一致。所以在 AI 編舞時重點會關注音樂特征,包括音樂本身的特性、音樂節奏等,對舞蹈也會做對應匹配,包括舞蹈屬性、風格、情緒、節奏快慢等。綜合來看,商用舞蹈生成是在有原始音頻文件后,通過一些方法提取音頻特征,接著通過特征回歸到舞蹈動作,最后將這些動作合理的拼接起來。

圖片

3、TME 天琴方案

下方是 TME 天琴方案的生成算法截圖。當拿到一段音樂后,切成一幀一幀的小片段,接著對每一幀提取對應的音樂屬性特征,包括旋律、節奏等最能代表音樂和舞蹈的特征,然后去匹配最合適的舞蹈片段,同時基于音樂節奏、風格類型,對召回的片段進行重新排序,過濾掉不太適合的片段,最終把對應的片段進行拼接,就形成一段完整舞蹈。這里還涉及一個問題,舞蹈動作可能前后段連接有問題,可通過平滑算法進行過渡來解決。

這個方案實際應用起來比較簡單,而且可以直接使用。但這個方案存在一定問題,因為想象力不夠,生成的方案多樣性略差。

圖片

另外一套方案是基于生成的方案。輸入一段音頻信號,對應的原始樣本音頻會關聯到對應的舞蹈,輸入模型中經過一個過程,還原回最初的舞蹈動作。在這個過程中,要把音頻信號特征和舞蹈信號特征盡量拉齊,盡量表達更廣泛的含義。

當音樂生成數字人舞蹈完成后,可以進行主觀評測。針對同樣一首歌,把生成的舞蹈和手 K 的舞蹈動作發給普通用戶進行對比,選取兩種方式對比:第一個方式是直接對比生成結果和手 K 結果,讓用戶選擇哪種更好;第二個方式是把生成結果和手 K 結果分別進行打分。經過評測發現,兩種方式的結論類似,生成結果已經接近手 K 的效果,總體效果不錯。

4、數字人舞蹈的商用路徑

在數字人舞蹈的商用路徑方面理解如下:

首先,通過動捕棚拍攝、CP 手 K 效果最好,會應用到虛擬偶像、虛擬主播的精品 MV、形象宣傳片,同時這類高質量舞蹈數據可以保留下來。

第二,單目的視頻復刻主要用到虛擬主播、虛擬偶像、用戶互動娛樂場景的爆款舞蹈生成。生成數據可以經過人工篩選,把中質量舞蹈數據保留下來。

最后,把之前保留下來的高質量舞蹈數據和中質量舞蹈數據,作為 AI 舞蹈生成模型的數據來源,生成的舞蹈數據就作為量產數據,用在虛擬偶像、虛擬主播、用戶互娛場景,批量生產更多的舞蹈動作。 

圖片

三 、歌聲驅動數字人口型

1、歌聲驅動數字人口型方案

歌聲驅動數字人口型有兩種實現方案:

① 專業面捕方案:有專業設備、配套軟件,優點是效果最佳,無限表情基。廣泛應用于超寫實虛擬人場景。

② 普通光學攝像頭方案:通過普通手機攝像頭可以實現,一般場景下效果完全可接受,標準 52 BS。適用于一般的虛擬人場景。

圖片

2、口型驅動數據集構建

在口型驅動數據數據建設上,把全民 K 歌軟件的用戶 K 歌視頻畫面保留下來,同時錄入用戶唱歌干聲數據。通過前面提到的單目動捕方案,把唱歌畫面進行口型識別,拿到口型 BS 數據,再加上保留下來的用戶唱歌干聲數據,同時輸入到歌聲口型驅動模型。

圖片

歌唱驅動和說話驅動有差別:說話時嘴巴動的頻率比較快,但是唱歌時因為要一口氣唱下去,嘴巴表現更有連貫性;同時說話時嘴巴動的幅度沒有歌唱時幅度大,這也是專門做歌唱口型驅動模型的原因。

3、TME 口型驅動模型

TME 口型驅動模型的方案同時用到兩部分數據:一個是用戶輸入的干聲數據,一個是歌詞文件(歌詞文件經過前處理,對歌詞文件和音頻做對齊,拿到每一個字精準的時間戳)。對輸入音頻和歌詞做 Encoder 處理后,進行融合。把融合結果輸入到另一個面部匹配預測模塊,該模塊會將當前幀的歌詞、音頻信息同之前全部幀的信息放在一起,做一個 Decoder 處理。最終預測到整首歌匹配變化后再轉換為所需要的模型參數。

4、實時性解決方案

前面是異步生成視頻的場景,實時性如何解決有如下考慮:先離線生成預設  BlendShape,輸入測試文件及干聲數據,干聲來源于兩個部分:一是之前用戶唱的優秀作品干生;二是歌曲原唱,通過技術提取原唱的干聲,然后把各式文件和綜合干聲,通過前面的口型驅動模型,得到預設 BlendShape。等到真正實施時,用戶實時干聲經過音頻映射模型,得到實時音頻分析結果,和前面的預設 BlendShape 進行融合,最后得到實時 BlendShape。這樣就解決了實時性問題,同時兼備口型生成的效果。 

圖片

實時性解決方案的相關技術已經上線應用,在全民 K 歌 8.0 的 QQ 秀可以體驗到:一個場景是用戶入唱時,會有 K 歌秀界面,一邊唱一邊可以看到 QQ 秀虛擬人的動作、口型等;另一個是在歌房場景也有類似體驗。

四、歌聲驅動數字人歌唱表情

當做好數字人歌唱口型后,發現人顯得比較呆。分析專業歌手演唱表演,發現唱歌時要表達歌唱情感,除了口型之外,歌唱時的面部表情、手勢、動作都要同時具備,三者合一的完整表現才能突出演唱者當時的強烈情感。

1、歌唱表情數據的采集

歌聲驅動數字人歌唱表情的實現需要進行數據采集。數據采集時先找到帶表情的演唱視頻樣本,通過面捕拿到面部表情,通過動捕拿到動作,通過手捕拿到手勢,然后把表情、動作和手勢合一,融入歌唱表情段,經過人工表情打標后放入歌唱表情庫。

圖片

2、歌唱表情的合理驅動

采集到歌唱表情之后,需要合理的驅動起來。經過歌詞文本分析拿到歌唱時歌詞的表情信息,確定整個歌唱表演的表情基調。此時可以從龐大的各種類型表情庫里,挑選出合適的表情,適合于在歌曲或者歌曲的某一個片段安插表情。

五、總結與展望

這兩年上線了很多與虛擬人或元宇宙相關的平臺和產品,娛樂公司、明星、大型商業公司、海量主播、普通用戶等很多都有自身的虛擬形象,虛擬形象將變得越來越普遍。

中之人面臨越來越多的問題,比如成本問題、管理問題、虛擬形象的靈魂歸屬于虛擬偶像本身還是中之人。

AI 驅動技術面臨快速升級,包括形象創建技術、視覺驅動技術、音頻歌聲合成技術等。TME 以音樂為核心進行技術建設,包括音樂驅動數字人舞蹈、數字人歌唱口型、數字人歌唱表情等,未來還有其他方面。

總體來說,數字人的未來在于技術。

六、問答環節

Q1:動捕數據或公開數據集重定向到模型驅動有問題時如何處理?

A1:確實會存在重定向的問題。主要是先重定向到一些標準模型,然后再通過人工發現有問題的數據,對有問題的數據進行分類:如通過手動可以小范圍解決的,就進行修復;如解決不了,就直接把數據拋棄掉。

Q2:音樂生成數字人舞蹈的客觀評測方法?

A2:因為音樂生成數字人舞蹈是偏向主觀的一個領域,生成的東西不可能跟原始的一樣,如果跟原始一樣,那就沒有什么意義了。所以音樂生成數字人舞蹈更多的是一些主觀評測。

Q3:現在主要研究的是卡通類型的數字人嗎?

A3:現在主要研究的是在卡通類型的數字人,目前沒有太涉及寫實虛擬人方面。

Q4:拼接的單元是小節嗎?

A4:拼接的單元不是小節。這里涉及到一些細節,比如根據音樂的節奏進行切分,并不是簡單的切幾秒鐘舞蹈片段,需要把舞蹈片段切的更便于后續的拼接。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2022-01-20 16:14:00

AI數字人技術

2023-01-12 09:40:28

數字人建模動畫

2020-10-24 23:24:48

神州數碼

2009-10-10 10:55:48

TDD技術

2016-11-28 10:23:49

DELL

2022-07-22 16:36:23

協作機器人機器人

2021-04-26 14:36:38

機器人數字革命人工智能

2010-06-09 14:13:12

Opensuse顯卡驅

2021-01-19 07:46:48

TestNG測試驅動TDD

2013-11-06 11:29:39

PhoneGap

2024-04-10 11:02:48

物聯網大數據人工智能

2024-05-11 10:38:57

2012-09-29 09:00:25

2014-10-23 09:03:40

創業合伙人

2014-10-24 10:17:56

程序員

2024-04-12 14:34:59

2017-07-25 11:06:45

新華三

2012-11-26 13:12:06

歐特克數字仿真

2017-02-28 17:46:15

Linux驅動技術并發控制
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产99久久久久 | 狠狠操av| 国产目拍亚洲精品99久久精品 | 国产成人在线视频 | 国产电影一区二区 | 久久久久久久香蕉 | 91久色| 久久久国产一区二区三区四区小说 | 亚洲精品高清视频在线观看 | 91麻豆精品国产91久久久更新资源速度超快 | 欧美黄色性生活视频 | 久久成人精品一区二区三区 | 日韩毛片在线视频 | 天天操天天操 | 国产精品高清一区二区 | 日韩福利在线观看 | 免费在线观看h片 | 日本不卡一区 | 久在线观看 | 高清18麻豆 | 一区二区三区精品视频 | 欧美一区在线视频 | 本道综合精品 | 欧美一区二区在线播放 | 日韩中文字幕在线视频观看 | h视频免费观看 | 欧美一级特黄aaa大片在线观看 | 国产精品久久久久无码av | 成人在线免费 | 国产1区| 91视频国产区 | 欧美八区| 国产 日韩 欧美 制服 另类 | 久久四虎 | 成人在线免费电影 | 久久人体| 激情视频一区 | 亚洲高清在线 | 精品欧美一区二区精品久久 | 日韩快播电影网 | 国产精品久久久久久久久久久久久 |