成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需蝴蝶結變聲器 也能一秒變柯南——語音合成+深度學習

原創
人工智能
相信看過《名偵探柯南》的小伙伴,都會對柯南身上五花八門的黑科技“保命神器”記憶猶新吧。其中最被人熟知的,當屬蝴蝶結變聲器了。近年來,隨著科技的發展,這種神奇的蝴蝶結變聲器也已成為現實了。

【51CTO.com原創稿件】相信看過《名偵探柯南》的小伙伴,都會對柯南身上五花八門的黑科技“保命神器”記憶猶新吧。它們不單陪著柯南出入各種案發現場,協助破案,關鍵時刻還能幫柯南化險為夷,逃出生天。而這其中最被人熟知的,當屬蝴蝶結變聲器了。近年來,隨著科技的發展,這種神奇的蝴蝶結變聲器也已成為現實了。今天,就讓小編帶您一同去探究下它是如何實現的吧!

[[235877]]

語音合成的三個部分

簡單來說,語音合成分為文本分析、韻律分析和聲學分析三個部分。通過文本分析提取出文本特征,在此基礎上預測基頻、時長、節奏等多種韻律特征,然后通過聲學模型實現從前端參數到語音參數的映射。

語音合成的兩種方式

語音合成主要采用波形拼接合成和統計參數合成兩種方式。

波形拼接語音合成的過程很容易理解,即在語料庫中抽取合適的拼接單元,拼接成為句子。而參數語音合成則需要對音庫進行參數化建模,根據訓練得到的模型預測出韻律參數和聲學參數。

通常情況下,波形拼接語音合成需要對錄音人進行長達幾十個小時以上的錄音采集,而參數語音合成則只需要十個小時的錄音采集,即可完成一套定制化語音包的制作 。

綜合對比來看,拼接合成的語音更加貼近真實發音,但波形拼接語音合成需要有足夠的高質量發音人錄音才能夠合成高質量的語音;統計參數語音合成雖然整體合成質量略低,但是在發音人語料規模有限的條件下,優勢更為明顯。

深度學習下的語音合成

近年來,深度學習已成為AI領域的當紅辣子雞,不單發展勢頭迅猛,所涉及領域也越發寬泛,無論是學術研究還是企業應用均呈現出指數級增長的趨勢;伴隨著這項技術的不斷成熟,深度學習對智能語音領域也產生巨大的沖擊,極大的超越了傳統的語音合成技術。

1.傳統的基于DNN/LSTM的合成

傳統的基于HMM統計參數的語音合成是在訓練過程中建立文本參數與聲學參數之間的映射模型,通過高斯混合模型描述每個建模單元。在建模過程中有三個環節會導致語音音質下降,第一是決策樹的聚類,第二是聲碼器,第三是參數生成算法。針對決策樹聚類問題,可以通過深層神經網絡建立文本特征和聲學特征之間的映射關系,替代傳統的淺層模型,提高模型精度;比較典型的深層神經網絡模型結構包括深層置信神經網絡和長短時記憶遞歸神經網絡;后者具有更強的序列學習能力,采用BLSTM-RNN建模時,還可以跳過參數生成算法直接預測語音參數,最后通過聲碼器就可以合成語音;總的來說,利用深層神經網絡強大的非線性建模能力,在一定程度上提升了語音合成系統的性能,但是并沒有跳出原有的語音合成系統框架。

2. 基于WaveNet的合成

在已有的研究中,很少有人會直接在時域上對已有音頻建模。從直覺上分析,構建一個自回歸模型,能夠預測每一個samples是如何被前面所有的samples所影響的,是一個相當艱巨的任務。谷歌提出的基于WaveNets的語音合成方法,跳出了傳統語音合成框架,繞開聲碼器模塊,直接對采樣點進行預測,面對這個充滿挑戰的問題,取得了突破。

WaveNet語音合成系統的輸入包括文本特征以及先前時段的音頻采樣點。其中文本特征的有效表述起到非常重要的作用。如果在沒有文本序列的情況下來訓練網絡,仍然可以生成語音,但是無法聽懂輸出音頻的內容。WaveNet語音合成系統存在的問題是模型每次輸出單個采樣點,計算效率難以滿足實用要求。可以引入一些自適應的方法對已有模型進行優化,使其能夠適用于不同發音人。也可以在模型的輸入端提供更多的信息,例如情感或口音,這樣使得生成的語音可以更多樣化,更具表現力。

3.基于DeepVoice的合成

2017 年 2 月,百度研究部門提出了深度語音(Deep Voice)系統,該系統是一個完全由深度神經網絡構建的高質量文本轉語音系統。

它將里面的很多模塊用深度神經網絡去實現,通過類似于WaveNet的合成器來合成,效果也是比較理想的。已有的語音合成系統會在某些環節上采用深度學習,但在Deep Voice之前,沒有團隊采用全深度學習的框架。傳統語音合成需要進行大量的特征處理和特征構建,但百度通過使用深度學習避免了這些問題。這使得 Deep Voice 的應用范圍更加廣泛,使用起來也更加方便。如果需要應用于新的數據集,傳統的語音合成系統完成重新訓練需數天到數周的時間進行調節,而對Deep Voice進行手動操作和訓練模型所需的時間只要幾個小時就足夠。相比于WaveNet語音合成系統,現在這個系統的有效速度提升了400倍。

4.兩個端對端的語音合成

第一個是Char2Wav,這個模型是直接對輸入的文本進行編碼,采用encoder-decoder模型。對輸入特征進行編碼,然后生成的中間編碼信息放到解碼器里進行最后的合成,合成采用SimpleRNN的合成器來合成語音,效果也是比較理想的,而且是典型的End-To-End的語音合成模型。

再一個是谷歌提出的端對端的語音合成系統Tacotron,它跟Char2Wav比較類似,該模型可接收Embeddings的輸入,輸出相應的原始頻譜圖,然后將其提供給 Griffin-Lim 重建算法直接生成語音。合成的效果也比較理性。

測試結果上,合成效果也比較理想:Tacotron 在美式英語測試里的平均主觀意見評分達到了 3.82 分(總分是 5 分),在自然感(naturalness)方面優于已在生產中應用的參數系統(parametric system)。此外,由于 Tacotron 是在幀(frame)層面上生成語音,所以它比樣本級自回歸(sample-level autoregressive)方式快得多。

好了,說了這么多,你是否對建立在深度學習基礎上的語音合成技術有了更進一步的了解呢?其實,目前我們已可在許多領域熟練的應用這一技術了:在AI推手此前提到的紀錄片《創造中國》中,節目負責人就成功合成了“時代之音”李易老師的聲音;百度也曾在發起的“別開生面”的張國榮誕辰60周年紀念活動中,合成出張國榮生前的聲音,并在張國榮最新電影《緣分》開場前首次公布對話實錄視頻,實現了粉絲與偶像“互動”的愿望,以特殊的方式,紀念一代天王。。。。

 

語音合成技術的不斷發展,一方面突顯了科技發展的重要性,一方面也為我們的日常生活帶來了無數驚喜~

 

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯:關崇 來源: AI推手
相關推薦

2017-04-24 08:35:09

深度學習神經網絡合成梯度

2016-10-24 18:13:48

2014-06-24 09:24:24

密碼身份驗證

2023-10-08 18:44:37

打印機

2017-03-19 15:51:47

人工神經網絡

2017-12-05 15:32:44

深度學習語音識別

2017-04-04 20:49:27

深度神經人工智能語音合成

2012-04-18 13:58:21

QQ影像

2017-09-05 08:14:09

深度學習語音合成

2013-11-26 13:11:20

編程優秀產品移動應用

2013-11-29 14:07:29

編程產品

2015-07-29 15:04:40

搜狗輸入法

2020-06-19 09:57:24

AI 數據人工智能

2017-08-30 09:20:47

深度學習語音合成Siri

2024-04-19 13:53:20

2018-01-26 10:10:45

Linux服務器性能

2012-03-02 10:35:22

金山快盤云相機

2018-03-25 20:51:07

語音合成深度前饋序列記憶網絡

2011-08-05 16:20:38

2010-09-07 13:33:44

云安全技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91综合网 | 成人精品一区二区三区四区 | 精品国产鲁一鲁一区二区张丽 | www.色午夜.com | 精品国产1区2区3区 一区二区手机在线 | 欧美久久精品一级c片 | av一区在线| 在线黄色影院 | 99免费| 欧美视频第二页 | 免费一级黄色 | 亚洲视频免费在线观看 | 成人高清在线视频 | 国产成人免费视频网站视频社区 | 久久这里只有精品首页 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 色性av| 91九色婷婷 | 久久久成人免费一区二区 | 成年男女免费视频网站 | 人人亚洲| 亚洲精品乱码久久久久久蜜桃91 | www狠狠干 | 中文字幕日韩欧美 | 精品视频免费 | 国产激情一区二区三区 | 黄在线| 久久伊人亚洲 | 在线观看亚洲欧美 | 久久久亚洲一区 | 一级免费毛片 | 国产精品国产精品国产专区不片 | 亚洲国产精品成人 | 一区二区三区免费 | 亚洲国产一区二区三区在线观看 | 久久99一区二区 | 成人免费xxxxx在线视频 | 日韩综合一区 | 手机三级电影 | 人人爽人人爽人人片av | 午夜一区二区三区在线观看 |