成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中科大&京東最新成果:讓AI像真人一樣演講,手勢打得惟妙惟肖

人工智能 新聞
來自中科大和京東的研究人員,給AI也配備了這樣的功能——隨便丟給它一段任意類型的演講音頻,它就能比劃出相應(yīng)的手勢。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

人類在說話時會自然而然地產(chǎn)生肢體動作,以此來增強演講效果。

現(xiàn)在,來自中科大和京東的研究人員,給AI也配備了這樣的功能——

隨便丟給它一段任意類型的演講音頻,它就能比劃出相應(yīng)的手勢:

配合得非常自然有沒有?

對于同一個音頻,它還能生成多種不一樣的姿勢:

采用“雙流”架構(gòu)

由于每個人的習(xí)慣并不相同等原因,演講和肢體動作之間并沒有一套固定的對應(yīng)關(guān)系,這也導(dǎo)致完成語音生成姿勢這一任務(wù)有點困難。

△ 極具代表性的意大利人講話手勢

大多數(shù)現(xiàn)有方法都是以某些風(fēng)格為條件,以一種確定性的方式將語音映射為相應(yīng)肢體動作,結(jié)果嘛,也就不是特別理想。

受語言學(xué)研究的啟發(fā),本文作者將語音動作的分解為兩個互補的部分:姿勢模式(pose modes)和節(jié)奏動力(rhythmic dynamics),提出了一種新穎的“speech2gesture”模型——FreeMo

FreeMo采用“雙流”架構(gòu),一個分支用于主要的姿勢生成,另一個分支用于“打節(jié)奏”,也就是給主要姿勢施加小幅度的節(jié)奏動作(rhythmic motion),讓最終姿勢更豐富和自然。

前面說過,演講者的姿勢主要是習(xí)慣性的,沒有常規(guī)語義,因此,作者也就沒有對姿勢生成的形式進行特別約束,而是引入條件采樣在潛空間學(xué)習(xí)各種姿勢。

為了便于處理,輸入的音頻會被分成很短的片段,并提取出語音特征參數(shù)MFCC和演講文本

主要姿勢通過對演講文本進行關(guān)鍵字匹配生成。

語音特征參數(shù)MFCC則用于節(jié)奏動作的生成。

節(jié)奏動作生成器采用卷積網(wǎng)絡(luò)構(gòu)成,具體過程如圖所示:

一作為Xu Jing,來自中科大。

紅色框表示動作序列平均姿勢的偏移量。通過交換倆個序列的偏移量,模型就可以在不影響主要姿勢的情況下進行“節(jié)奏”控制。

更具多樣性、更自然、同步性更高

FreeMo的訓(xùn)練和測試視頻包括專門的Speech2Gesture數(shù)據(jù)集,里面有很多電視臺主持人的節(jié)目。

不過這些視頻受環(huán)境干擾嚴重(比如觀眾的喝彩聲),以及主持人可能行動有限,因此作者還引入了一些TED演講視頻和Youtube視頻用作訓(xùn)練和測試。

對比的SOTA模型包括:

  • 采用RNN的Audio to Body Dynamics (Audio2Body)
  • 采用卷積網(wǎng)絡(luò)的Speech2Gesture (S2G)
  • Speech Drives Template (Tmpt,配備了一組姿勢模板)
  • Mix StAGE(可以為每一個演講者生成一套風(fēng)格)
  • Trimodal-Context (TriCon,同樣為RNN,輸入包括音頻、文本和speaker)

衡量指標(biāo)一共有三個:

(1)語音和動作之間的同步性

(2)動作的多樣性

(3)與演講者的真實動作相比得出的質(zhì)量水平。

結(jié)果是FreeMo在這三個指標(biāo)上都超越5個SOTA模型獲得了最好的成績。

△ 同步性得分,越低越好

△ 多樣性和質(zhì)量水平得分

ps. 由于5個SOTA模型在本質(zhì)上都是學(xué)習(xí)的確定性映射,因此不具備多樣性。

一些更直觀的質(zhì)量對比:

最左上角為真實演講者的動作,可以看到FreeMo的表現(xiàn)最好(Audio2Body也還不錯)。

作者介紹

一作為Xu Jing,來自中科大。

通訊作者為京東AI平臺與研究部AI研究院副院長,京東集團技術(shù)副總裁,IEEE Fellow梅濤

剩余3位作者分別位來自京東AI的研究員Zhang Wei、白亞龍以及中科大的孫啟彬教授。

論文地址:
??https://arxiv.org/abs/2203.02291

代碼已開源:
??https://github.com/TheTempAccount/Co-Speech-Motion-Generation

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2011-01-18 10:45:16

喬布斯

2020-07-30 15:14:16

AI阿里SIGIR 2020

2017-04-05 12:16:21

2017-05-22 10:33:14

PythonJuliaCython

2011-10-24 13:07:00

2022-07-12 14:56:30

AI模型研究

2009-12-08 18:06:12

戴爾存儲動車組

2025-05-19 08:24:29

圖片加載開發(fā)

2009-12-08 14:26:13

大型網(wǎng)絡(luò)運維

2013-06-19 11:32:32

計算性能ISCHPC

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2023-06-21 17:56:46

華為云

2023-04-05 14:19:07

FlinkRedisNoSQL

2018-09-21 11:06:10

2021-10-02 10:36:00

YAML編程語言軟件開發(fā)

2012-10-26 12:33:58

視頻會議視頻通信華為

2021-04-13 22:30:17

SpringBoot日志微服務(wù)

2024-06-17 07:10:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲一区二区精品视频 | 精品久久香蕉国产线看观看亚洲 | 午夜丁香视频在线观看 | 午夜天堂 | 国产日韩欧美电影 | 亚洲免费人成在线视频观看 | 亚洲免费观看视频网站 | 国产欧美一区二区三区在线播放 | 久久亚洲一区二区三区四区 | 日本字幕在线观看 | 天天躁人人躁人人躁狂躁 | 一区二区三区四区在线视频 | 91精品在线播放 | 激情国产视频 | 国产精品一区久久久 | 国产色片在线 | 久久69精品久久久久久久电影好 | 亚洲精品久久久久久久久久久久久 | 狠狠爱免费视频 | 国产精品毛片一区二区在线看 | 婷婷综合激情 | 日日干日日操 | 蜜桃视频在线观看免费视频网站www | 国产成人网 | 日韩伦理一区二区 | 亚洲 自拍 另类 欧美 丝袜 | 亚洲h色| 中国一级特黄真人毛片免费观看 | 国产成人精品一区二区三区视频 | 欧美精品久久久 | 99免费 | 日韩一区二区三区在线 | 欧美国产亚洲一区二区 | 中文字幕一区二区三区在线乱码 | 紧缚调教一区二区三区视频 | 欧美福利视频 | 青青草视频免费观看 | 精品av久久久久电影 | 亚洲国产精品久久久久秋霞不卡 | 国产精品日韩欧美一区二区三区 | 日韩午夜网站 |