成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語(yǔ)音合成到了跳變點(diǎn)?深度神經(jīng)網(wǎng)絡(luò)變革TTS最新研究匯總

開(kāi)發(fā) 開(kāi)發(fā)工具
近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,計(jì)算機(jī)理解自然語(yǔ)音能力有了徹底革新,但是,使用計(jì)算機(jī)生成語(yǔ)音或文本轉(zhuǎn)語(yǔ)音(TTS)),仍在很大程度上基于所謂的拼接 TTS。

近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,計(jì)算機(jī)理解自然語(yǔ)音能力有了徹底革新,例如深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、機(jī)器翻譯中的應(yīng)用。但是,使用計(jì)算機(jī)生成語(yǔ)音(語(yǔ)音合成(speech synthesis)或文本轉(zhuǎn)語(yǔ)音(TTS)),仍在很大程度上基于所謂的拼接 TTS(concatenative TTS)。而這種傳統(tǒng)的方法所合成語(yǔ)音的自然度、舒適度都有很大的缺陷。深度神經(jīng)網(wǎng)絡(luò),能否像促進(jìn)語(yǔ)音識(shí)別的發(fā)展一樣推進(jìn)語(yǔ)音合成的進(jìn)步?這也成為了人工智能領(lǐng)域研究的課題之一。

2016 年,DeepMind 提出了 WaveNet,在業(yè)內(nèi)引起了極大的關(guān)注。WaveNet 可以直接生成原始音頻波形,能夠在文本轉(zhuǎn)語(yǔ)音和常規(guī)的音頻生成上得到出色的結(jié)果。但就實(shí)際應(yīng)用而言,它存在的一個(gè)問(wèn)題就是計(jì)算量很大,沒(méi)辦法直接用到產(chǎn)品上面。

因此在語(yǔ)音合成領(lǐng)域,仍然有很多工作要做。語(yǔ)音合成有兩個(gè)主要目標(biāo):可理解性(intelligibility)和自然感(naturalness)。可理解性是指合成音頻的清晰度,特別是聽(tīng)話人能夠在多大程度上提取出原信息。自然感則描述了無(wú)法被可理解性直接獲取的信息,比如聽(tīng)的整體容易程度、全局的風(fēng)格一致性、地域或語(yǔ)言層面的微妙差異等等。

去年,我們看到了業(yè)界將研究熱點(diǎn)聚焦于語(yǔ)音識(shí)別,而今年語(yǔ)音合成成為深度學(xué)習(xí)社區(qū)研究的重要領(lǐng)域之一。2017 年剛過(guò)去不久,機(jī)器之心已經(jīng)關(guān)注到了三篇有關(guān)這一課題的研究論文:百度的 Deep Voice、Yoshua Bengio 團(tuán)隊(duì)提出的 Char2Wav 以及谷歌的 Tacotron。

在介紹今年的最新研究成果之前,我們先來(lái)回顧一下 Deep Mind 的 WaveNet。

WaveNet 受啟發(fā)于二維的 PixelNet,在這里它被調(diào)整為了一維的。

 WaveNet 的結(jié)構(gòu)

以上的圖展示了 WaveNet 的結(jié)構(gòu)。這是一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò),其中的卷積層有不同的膨脹系數(shù)(dilation factors),這讓其感受野(receptive field)可在深度(depth)上指數(shù)式地增長(zhǎng)并可覆蓋數(shù)千個(gè)時(shí)間步驟(timesteps)。

在訓(xùn)練時(shí)間上,其輸入序列是由人類(lèi)說(shuō)話者錄制的真實(shí)波形。訓(xùn)練之后,可以對(duì)這個(gè)網(wǎng)絡(luò)進(jìn)行采樣以生成合成話語(yǔ)。在采樣的每一個(gè)時(shí)間步驟,都會(huì)從該網(wǎng)絡(luò)所計(jì)算出的概率分布中取出一個(gè)值。然后這個(gè)值會(huì)被反饋進(jìn)入輸入,并為下一個(gè)步驟生成一個(gè)新的預(yù)測(cè)。我們可以發(fā)現(xiàn),像這樣一次一步地構(gòu)建樣本就會(huì)產(chǎn)生很高的計(jì)算成本,這也是我們上面所提到的實(shí)際應(yīng)用中的問(wèn)題。

另外要提到的一點(diǎn)是,為了使用 WaveNet 將文本轉(zhuǎn)化為語(yǔ)音,需要識(shí)別文本中是什么。在 DeepMind 這篇論文中,研究人員是通過(guò)將文本轉(zhuǎn)換為一序列的語(yǔ)言和語(yǔ)音特征(包含了當(dāng)前音素、音節(jié)、詞等方面的信息)做到這一點(diǎn)的。

剛才也提到 WaveNet 在實(shí)際應(yīng)用中所面臨的挑戰(zhàn),而深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到語(yǔ)音合成上還有很大的提升空間。接下來(lái),介紹一下該領(lǐng)域最新的三篇研究成果。

百度 Deep Voice

2017 年 2 月,百度研究部門(mén)提出了深度語(yǔ)音(Deep Voice)系統(tǒng),該系統(tǒng)是一個(gè)完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量文本轉(zhuǎn)語(yǔ)音系統(tǒng)。

在研究博客中百度研究人員表示,如今建立文本轉(zhuǎn)語(yǔ)音系統(tǒng)最大的障礙就是音頻合成的速度,而他們的系統(tǒng)已經(jīng)做到了實(shí)時(shí)的語(yǔ)音合成,這相比以前的 WaveNet 推理的實(shí)現(xiàn)有 400 倍的加速。

作者們表示,Deep Voice 論文的貢獻(xiàn)在于:

  • Deep Vioce 受啟發(fā)于傳統(tǒng)的文本轉(zhuǎn)語(yǔ)音處理流程,采用了同樣的架構(gòu),但它使用神經(jīng)網(wǎng)絡(luò)取代了所有組件且使用了更簡(jiǎn)單的特征。這使得該系統(tǒng)更適用于新數(shù)據(jù)集、語(yǔ)音和沒(méi)有任何手動(dòng)數(shù)據(jù)注釋或其他特征調(diào)配的領(lǐng)域。
  • Deep Voice 為真正的端到端語(yǔ)音合成奠定了基礎(chǔ),這種端到端系統(tǒng)沒(méi)有復(fù)雜的處理流程,也不依賴(lài)于人工調(diào)配(hand-engineered)的特征作為輸入或進(jìn)行預(yù)訓(xùn)練(pre-training)。

TTS 包含 5 個(gè)模塊

如上圖所示,TTS 包含 5 個(gè)模塊:

  • 一個(gè)字素轉(zhuǎn)音素模型;
  • 一個(gè)在語(yǔ)音數(shù)據(jù)集中定位音素邊界的分隔模型;
  • 預(yù)測(cè)音素序列中每個(gè)音素時(shí)距(temporal duration)的音素長(zhǎng)度模型;
  • 一個(gè)基本的頻率模型預(yù)測(cè)音素是否濁音的;
  • 一個(gè)音頻合成模型,結(jié)合以上 4 個(gè)組件的輸出來(lái)合成音頻。

在百度的研究中,研究人員通過(guò)相應(yīng)的神經(jīng)網(wǎng)絡(luò)代替經(jīng)典 TTS 流程中的每一個(gè)組件,具體實(shí)現(xiàn)讀者可參閱論文。

百度在研究博客中表示,「深度學(xué)習(xí)變革了包括計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別在內(nèi)的許多領(lǐng)域,我們相信語(yǔ)音合成如今也到了一個(gè)跳變點(diǎn)。」

參考閱讀:

業(yè)界 | 百度提出 Deep Voice:實(shí)時(shí)的神經(jīng)語(yǔ)音合成系統(tǒng)

端到端語(yǔ)音合成模型 Char2wav

2 月份,來(lái)自印度理工學(xué)院坎普爾分校、INRS-EMT、加拿大高等研究院(CIFAR)的研究者在 arXiv 上發(fā)布了一篇論文,介紹他們?cè)诙说蕉苏Z(yǔ)音合成上的研究成果 Char2Wav。

在此論文中,作者們提出一種端到端的用于語(yǔ)音合成的模型 Char2Wav。Char2Wav 由兩個(gè)組成部分:一個(gè)讀取器(reader)和一個(gè)神經(jīng)聲碼器(nerual vocoder)。

讀取器是一個(gè)帶有注意(attention)的編碼器-解碼器模型。其中編碼器是一個(gè)以文本或音素作為輸入的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),而解碼器則是一個(gè)帶有注意的循環(huán)神經(jīng)網(wǎng)絡(luò),其會(huì)產(chǎn)出聲碼器聲學(xué)特征(vocoder acoustic features)。神經(jīng)聲碼器是指 SampleRNN 的一種條件式的擴(kuò)展,其可以根據(jù)中間表征(intermediate representations)生成原始的聲波樣本。

端到端語(yǔ)音合成模型 Char2wav

Char2Wav:一個(gè)基于注意的循環(huán)序列生成器(ARSG/attention-based recurrent sequence generator)是指一種基于一個(gè)輸入序列 X 生成一個(gè)序列 Y= (y1, . . . , yT ) 的循環(huán)神經(jīng)網(wǎng)絡(luò)。X 被一個(gè)編碼器預(yù)處理輸出一個(gè)序列 h = (h1, . . . , hL)。在本研究中,輸出 Y 是一個(gè)聲學(xué)特征的序列,而 X 則是文本或要被生成的音素序列。此外,該編碼器是一個(gè)雙向循環(huán)網(wǎng)絡(luò)。

作者們表示該工作工作受到了 Alex Graves (Graves, 2013; 2015) 研究的很大影響。在一個(gè)客座講座中,Graves 展示了一個(gè)使用了注意機(jī)制的語(yǔ)音合成模型,但 Graves 的研究未已論文的形式發(fā)表出來(lái)。

此外,與用于語(yǔ)音合成的傳統(tǒng)模型不同,Char2Wav 可以學(xué)習(xí)直接根據(jù)文本生成音頻。這和百度的 Deep Voice 系統(tǒng)一致。

參考閱讀:

Yoshua Bengio 等人提出 Char2Wav:實(shí)現(xiàn)端到端的語(yǔ)音合成

谷歌端到端的文本轉(zhuǎn)語(yǔ)音合成模型 Tacotron

不就之前,谷歌歌科學(xué)家王雨軒(第一作者)等人提出了一種新的端到端語(yǔ)音合成系統(tǒng) Tacotron,該模型可接收字符的輸入,輸出相應(yīng)的原始頻譜圖,然后將其提供給 Griffin-Lim 重建算法直接生成語(yǔ)音。此外作者們表示他們還提出了幾個(gè)可以使該序列到序列框架在這個(gè)高難度任務(wù)上表現(xiàn)良好的關(guān)鍵技術(shù)。

測(cè)試結(jié)果上,Tacotron 在美式英語(yǔ)測(cè)試?yán)锏钠骄饔^意見(jiàn)評(píng)分達(dá)到了 3.82 分(總分是 5 分),在自然感(naturalness)方面優(yōu)于已在生產(chǎn)中應(yīng)用的參數(shù)系統(tǒng)(parametric system)。此外,由于 Tacotron 是在幀(frame)層面上生成語(yǔ)音,所以它比樣本級(jí)自回歸(sample-level autoregressive)方式快得多。

谷歌端到端的文本轉(zhuǎn)語(yǔ)音合成模型 Tacotron

模型架構(gòu):該模型接收字符的輸入,輸出相應(yīng)的原始頻譜圖,然后將其提供給 Griffin-Lim 重建算法以生成語(yǔ)音

參考閱讀:

學(xué)界 | 谷歌全端到端語(yǔ)音合成系統(tǒng)Tacotron:直接從字符合成語(yǔ)音

總結(jié)

一直以來(lái),與機(jī)器進(jìn)行自然的語(yǔ)音交互一直是我們的一個(gè)夢(mèng)想。雖然,語(yǔ)音識(shí)別已經(jīng)達(dá)到了相當(dāng)高的準(zhǔn)確度,但在語(yǔ)音交互的回路中不只有語(yǔ)音識(shí)別,自然的語(yǔ)音合成也是一個(gè)非常重要的研究領(lǐng)域。

在提高語(yǔ)音識(shí)別準(zhǔn)確度之后,深度神經(jīng)網(wǎng)絡(luò)在促進(jìn)語(yǔ)音合成的發(fā)展上也有非常大的潛力。2017 年開(kāi)始到現(xiàn)在,我們已經(jīng)觀察到了上面所介紹的這樣的研究成果(當(dāng)然,會(huì)有遺漏)。我們相信,語(yǔ)音合成就像百度博客中所介紹的那樣到了一個(gè)「跳變點(diǎn)」,期待接下來(lái)會(huì)有更多新的研究成果出現(xiàn),讓人與機(jī)器能夠進(jìn)行更自然的交互。

【本文是51CTO專(zhuān)欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專(zhuān)欄
相關(guān)推薦

2021-11-16 14:11:59

語(yǔ)音合成微軟人工智能

2017-12-22 08:47:41

神經(jīng)網(wǎng)絡(luò)AND運(yùn)算

2022-12-06 09:44:00

算法神經(jīng)網(wǎng)絡(luò)

2021-01-22 22:15:30

AI

2019-11-08 10:17:41

人工智能機(jī)器學(xué)習(xí)技術(shù)

2017-03-22 11:59:40

深度神經(jīng)網(wǎng)絡(luò)

2025-02-25 10:50:11

2016-12-27 14:24:57

課程筆記神經(jīng)網(wǎng)絡(luò)

2021-12-20 09:00:00

深度學(xué)習(xí)神經(jīng)元網(wǎng)絡(luò)安全

2018-03-25 20:51:07

語(yǔ)音合成深度前饋序列記憶網(wǎng)絡(luò)

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2019-07-25 08:20:37

代碼開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)

2021-03-29 09:02:24

深度學(xué)習(xí)預(yù)測(cè)間隔

2018-04-08 11:20:43

深度學(xué)習(xí)

2022-08-08 15:48:17

研究模型

2019-07-20 11:00:00

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2018-02-05 08:58:36

Python神經(jīng)網(wǎng)絡(luò)識(shí)別圖像

2017-01-10 17:25:59

深度學(xué)習(xí)框架神經(jīng)網(wǎng)絡(luò)

2023-02-28 08:00:00

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2023-04-19 10:17:35

機(jī)器學(xué)習(xí)深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 免费成人在线网 | 欧美黑人一区二区三区 | 99在线免费观看视频 | 久久99视频| 亚洲一区二区免费视频 | 国产在线观看一区二区 | 亚洲大片 | 一区二区三区四区国产 | 亚洲在线| 日本免费黄色 | 欧美综合在线视频 | 亚洲 自拍 另类 欧美 丝袜 | 精品久久久久久久久久 | 粉嫩av在线| 中文字幕视频在线看 | 午夜激情小视频 | 日韩欧美中文字幕在线观看 | h在线播放| 亚洲综合精品 | 成人精品啪啪欧美成 | 久久国产一区二区 | 黑人巨大精品欧美黑白配亚洲 | 嫩草黄色影院 | 日韩a视频 | 一区视频 | 4hu最新网址| 天天干天天爱天天爽 | 久久久精品网站 | 欧美日韩精品综合 | 男女羞羞视频在线 | 欧美成人精品一区二区男人看 | 一区二区不卡视频 | 91久久久久久久 | 欧美黄色绿像 | h视频在线免费 | 罗宾被扒开腿做同人网站 | 亚洲国产成人精品女人 | 精品一区二区久久久久久久网精 | 成人av一区 | 国产精品揄拍一区二区 | a级在线免费 |