成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于線性網絡的語音合成說話人自適應

原創
人工智能 語音識別
一種基于低秩分解(low-rank plus diagonal,LRPD)的模型壓縮算法被應用于線性網絡。實驗發現,當數據量較少的時候,通過LRPD來移除一些冗余的參數,從而能夠使得系統合成的聲音更加穩定。

【51CTO.com原創稿件】 說話人自適應算法利用說話人少量語料來建立說話人自適應語音合成系統,該系統能夠合成令人滿意的語音。在本文中,我們提出了基于線性網絡的語音合成說話人自適應算法。該算法對每個說話人學習特定的線性網絡,從而獲得屬于目標說話人的聲學模型。通過該算法,使用200句目標說話人的自適應語料訓練的說話人自適應系統能夠獲得和使用1000句訓練的說話人相關系統相近的合成效果。

研究背景

對于一個目標說話人,如果他(她)擁有充足的訓練數據,那么我們便可以建立一個說話人相關的聲學模型,基于該聲學模型的系統稱之為說話人相關的語音合成系統。利用該系統,我們能夠合成和目標說話人聲音很像的語音。但是,大多數時候,目標說話人沒有充足的數據,這使得合成出來的語音效果不太理想。利用說話人自適應算法,能夠基于比較有限的數據來獲得較好的語音合成系統,該類算法節省了大量的錄音、轉錄和檢查工作,使得建立新的聲音的代價變得很小。

本文中,我們提出了基于線性網絡(Linear Network, LN)的語音合成說話人自適應算法。該算法通過在源說話人聲學模型的層間插入線性網絡,然后利用目標說話人的數據來更新該線性網絡和神經網絡的輸出層,從而能夠獲得屬于目標說話人的聲學模型。另外,一種基于低秩分解(low-rank plus diagonal,LRPD)的模型壓縮算法被應用于線性網絡。實驗發現,當數據量較少的時候,通過LRPD來移除一些冗余的參數,從而能夠使得系統合成的聲音更加穩定。

算法描述

本文中,源說話人聲學模型是一個基于多任務(multi-task)DNN-BLSTM的聲學模型,見Fig. 1左側。聲學模型的輸入為語音學特征,輸出為聲學特征。聲學特征包括梅爾倒譜系數等。實驗證明,在聲學模型的底層使用深層神經網絡(Deep Neural Network,DNN)可以獲得更好的底層特征,并且收斂速度上相比于不使用DNN更快。在輸出層上,不同的聲學特征使用各自的輸出層,它們僅共享聲學模型的隱層。

基于線性網絡的自適應算法首先被提出于語音識別領域,它的系統結構見Fig. 1右側。根據線性網絡插入的位置不同,它可以被分為線性輸入網絡(Linear Input Network,LIN)、線性隱層網絡(Linear Hidden Network,LHN)和線性輸出網絡(Linear Output Network,LON)。

實驗

本文提出的算法,在中文數據集上進行實驗,該數據集包含3個說話人,每個說話人有5000句話,時長約5h。數據集中語音的采樣率為16k,特征提取中的窗長和窗移分別為25ms和5ms。分別用A-male、B- female和C-female來命名這三個說話人。本實驗中,源說話人聲學模型訓練過程所使用的句子數為5000。為了對比不同句子數目下的合成效果,目標說話人的自適應數據集對應的句子數從50到1000不等。在自適應數據集之外,我們取200句話作為開發集,取20句話作為測試集(用于主觀打分)。為了分析性別對自適應效果的影響,進行了三對源說話人-目標說話人之間的實驗:女生-女生、男生-女生和女生-男生。另外,使用客觀度量和主觀測聽兩種方式來衡量模型的性能??陀^度量主要包括:Mel-Cepstral Distortion (MCD)、root mean squared error (RMSE) of F0、unvoiced/voiced (U/V) prediction errors和開發集的MSE。主觀測聽主要是對系統合成的聲音樣本進行自然度和相似度上的打分——mean opinion score (MOS) 。

 

以女生-女生(C-female – B-female)為例,Fig. 3顯示了不同自適應句子數目和客觀度量之間的關系曲線圖。其中,SD表示說話人相關系統,OL表示只更新源說話人聲學模型輸出層的說話人自適應系統,OL+Full-LN和OL+LRPD-LN分別表示基于Full-LN和LRPD-LN的說話人自適應系統。根據Fig. 3,隨著訓練/自適應句子數的增加,所有系統間的客觀度量趨于相近。對比SD和另外三個自適應系統,自適應系統的性能在相同句子數目下要更優。另外,OL+LRPD-LN和OL+Full-LN相比于OL均出現性能上的跳變(提升),說明只更新輸出層而不對其他層進行更新不能夠得到較好的自適應效果。同時,當自適應句子數較少的時候,OL+Full-LN在客觀性能上要差于OL+LRPD-LN,這是因為OL+Full-LN引入太多的參數量,出現過擬合問題。反之,在句子數多的時候OL+Full-LN在客觀性能上要優于OL+LRPD-LN,此時OL+LRPD-LN由于參數量少,出現欠擬合問題。

Fig. 4上對比了不同系統間的自然度和相似度。隨著句子數的減少,SD系統的性能出現急劇下降,OL+LRPD-LN相比于SD和OL+Full-LN要更加穩定。與客觀度量一致,在相同句子數下,OL+Full-LN和OL+LRPD-LN在性能上要優于SD。并且,OL+Full-LN和OL+LRPD-LN在200句話的性能和SD在1000句話時的性能相近。與客觀度量不同,OL+LRPD-LN在500句以下的時候性能上就優于OL+Full-LN。這是因為過擬合導致合成出來的聲音不穩定(雖然客觀度量更優)聲音的可懂度下降導致的。由此,我們依然可以得到相同的結論:當自適應句子數較少的時候,過擬合使得OL+Full-LN的性能變差。

結論

本文中,基于線性網絡的說話人自適應算法被應用于語音合成領域,基于LRPD的模型壓縮算法能夠提高聲音的穩定性。通過三對不同的源說話人-目標說話人的實驗,我們發現,當自適應句子數目非常少的時候,LRPD能夠提升聲音的穩定性。另外,通過提出的算法,使用200句目標說話人的訓練語料訓練的說話人自適應系統能夠獲得和使用1000句訓練的說話人相關系統相近的效果。

【本月排行***0】

  1. 張真:AIOps六大技術難點與宜信運維的重大變革
  2. 新炬網絡程永新:插上AI翅膀 運維平臺煥發出嶄新生命力
  3. 從SIEM&AI到SIEM@AI AI構建下一代企業安全大腦
  4. 基于線性網絡的語音合成說話人自適應
  5. 轉轉公司架構算法部孫玄:AI下的微服務架構

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯:王雪燕 來源: 51CTO
相關推薦

2017-10-09 11:21:46

神經網絡OpenAI非線性

2020-09-09 09:51:41

神經網絡DA技術感知器

2017-06-06 10:30:12

前端Web寬度自適應

2022-05-13 12:46:06

開源深度學習技術

2019-08-07 18:45:40

語音助手TTS前端

2018-03-25 20:51:07

語音合成深度前饋序列記憶網絡

2025-03-12 00:00:22

2024-03-14 14:16:13

2022-10-24 17:57:06

CSS容器查詢

2025-05-26 17:16:51

2025-01-21 08:00:00

自適應框架框架開發

2010-08-30 10:26:20

DIV自適應高度

2023-07-31 08:24:34

MySQL索引計數

2014-04-15 13:09:08

Android配色colour

2016-02-17 10:39:18

語音識別語音合成語音交互

2010-08-30 09:52:03

DIV高度自適應

2012-05-09 10:58:25

JavaMEJava

2014-09-05 10:10:32

Android自適應布局設計

2022-07-06 13:13:36

SWIL神經網絡數據集

2009-08-21 15:28:23

C#英文
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久国产精品 | 亚洲国产精品99久久久久久久久 | 午夜丁香视频在线观看 | 日韩在线观看中文字幕 | 精品日韩一区二区三区av动图 | 九九热在线视频 | 欧美黑人一级爽快片淫片高清 | 1000部精品久久久久久久久 | 国产又爽又黄的视频 | 日韩 国产 在线 | 日韩一区二区三区精品 | 久久成人免费视频 | 三级黄色大片网站 | 久久精品二区亚洲w码 | 黄 色 毛片免费 | 午夜视频在线视频 | 精品一区二区三区免费视频 | 欧美日韩精品专区 | 成人亚洲综合 | 色网站入口 | 一区二区三区免费 | 国产一伦一伦一伦 | 毛片网络| 欧美性精品 | 国产精品资源在线 | 国产精品视频500部 a久久 | 国产在线永久免费 | 国产精品1区2区3区 欧美 中文字幕 | 国产午夜视频 | 天天看天天爽 | 国产美女精品视频免费观看 | 老司机成人在线 | 日韩一级免费电影 | 精品久久久久久久久久久 | 欧美一区二区大片 | 91高清视频在线 | av天天澡天天爽天天av | 国产最新精品视频 | 嫩草视频网 | 91久久精品| 91精品国产综合久久精品 |