成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

世界超大的多語言語音數據集現已開源!超40萬小時,共23種語言

新聞 人工智能
最近,Facebook開源了目前世界上最大的多語言語音數據集,VoxPopuli。

 [[416170]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

最近,Facebook開源了目前世界上最大的多語言語音數據集,VoxPopuli:

世界最大的多語言語音數據集現已開源!超40萬小時,共23種語言

這一數據集共涵蓋了23種語言,時長超過40萬小時。

其中,每種語言都有9000到18000小時的無標簽語音數據。

此外,還包括了共1800小時,16種語言的轉錄語音數據,以及17300小時,15種目標語言的口譯語音數據。

國外網友很快為這一行為點贊:

顯然,如果數據集已經存在,那么它應該被利用,并以一種道德的方式來改善人類社會。

世界最大的多語言語音數據集現已開源!超40萬小時,共23種語言

這一數據集龐大的無標簽數據量和廣泛的語言覆蓋率,對改進自監督模型有著很大的幫助。

而Facebook也希望能夠幫助提高語音數據集的質量和魯棒性,使訓練語音轉換神經網絡更加可靠。

最終加速新的NLP系統的開發,使AI翻譯的效果越來越好。

而數據集的名字,VoxPopuli的直譯“人民的心聲”也表示了其原始數據的來源——

即源語音全都收集自2009-2020年歐洲議會的活動錄音。

來自10年歐會的語料庫

在歐洲議會的各自活動,如全體會議、委員會會議和其他活動上,發言者都會以不同的歐盟語言輪流發表演講。

Facebook就是從歐會官網上抓取了每個演講的文字記錄、演講者信息、開始/結束時間戳。

世界最大的多語言語音數據集現已開源!超40萬小時,共23種語言

然后,將所有的原始演講數據進行處理,大致分為以下3類:

共40萬小時,23種語言的無標簽語音數據

每種語言都有8千到2萬多的原始語音數據。

因此,Facebook基于能量的語音激活檢測(VAD)算法,將完整音頻分割成15-30秒的短片段。

最終得到沒有太多的數據不平衡,也不需要調整數據采樣策略的數據集。

因此非常適合多語言模型的訓練。

世界最大的多語言語音數據集現已開源!超40萬小時,共23種語言

而上表中除了無標簽數據,也有轉錄的語音數據,這也就是第二種:

共1800小時,16種語言的轉錄語音數據

歐會官方的時間戳雖然可以用來在會議中定義演講者,但常常會被截斷,或混合前后演講的片段,因此并不完全準確。

所以Facebook對全會話音頻采用了聲紋分割聚類(SD)。

這時的語音段落平均時長為197秒,再利用語音識別(ASR)系統,將其細分為20秒左右的短片段。

觀察上表,可以看到最終得到的數據中,有包括各語言的持續時間、發言人數量、女性發言人百分比、標記數量等多種屬性。

17300小時的15種目標語言的口譯語音數據

世界最大的多語言語音數據集現已開源!超40萬小時,共23種語言

每個原始語音都有相對應的同聲傳譯,并互相關聯。

但要使這個數據集可用,必須經過大量的預處理和過濾。

因此,Facebook使用了語音識別(ASR)系統在句子層面上對齊源語音和目標語音。

在域外環境的半監督學習下具有通用性

那么這一數據集用起來到底怎么樣?

首先,是使用包含了域外語言(out-of-domain out-of-language)的無監督預訓練,進行少樣本的語音識別

世界最大的多語言語音數據集現已開源!超40萬小時,共23種語言

可以從表中看到,VP-Mono5K在5種VoxPopuli語言上,都優于XLSR-Mono和XLSR-10。

而VP-100K則在10種語言中的8種上的都比XLSR-10的表現更好。

并且,雖然XLSR-53涵蓋了Zh語言,但與VP-100K(Large)在Zh上的表現相距甚遠。

這表明VP-100K所學的語音表征具有高度的通用性

然后是使用VoxPopuli數據集進行自我訓練或弱監督的語言翻譯(ST)和語音識別(ASR):

世界最大的多語言語音數據集現已開源!超40萬小時,共23種語言

從表中可以看到,不管是對于域內語言還是域外語言,對VoxPopuli的自我訓練在大多數時候都能夠提高性能。

而在翻譯上,也不用再增加昂貴的標簽數據。

通過自我訓練,就能夠縮小端到端模型和級聯模型之間的差距。

論文地址:
https://arxiv.org/abs/2101.00390

下載:
https://github.com/facebookresearch/voxpopuli

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-23 14:14:14

技術模型

2023-09-04 19:19:36

語言模型LLM

2021-06-29 21:48:32

開源語言架構

2014-07-09 09:20:06

WPFWPF應用

2022-08-09 07:22:15

語言數據庫程序

2014-04-16 14:50:20

Spark

2011-08-05 17:54:33

Cocoa Touch 多語言

2009-08-25 10:44:50

C#實現多語言

2012-04-19 11:40:21

Titanium

2023-08-04 10:18:15

2024-11-25 15:30:00

語言模型數據

2023-05-23 14:01:29

模型開源

2021-09-07 10:17:35

iOS多語言適配設計

2019-10-10 09:00:00

谷歌數據技術

2024-05-09 08:14:09

系統設計語言多語言

2025-05-22 05:00:00

2023-10-18 15:21:23

2009-07-17 10:02:29

WPF程序多語言支持

2023-08-29 13:54:00

AI技術

2024-03-04 14:15:16

OpenAI語言嵌入模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人av免费| 国产成人99久久亚洲综合精品 | 欧美a级成人淫片免费看 | 久久精品一| 成人欧美一区二区三区黑人孕妇 | 中文字幕在线观看一区 | 在线观看亚洲一区二区 | 久久久久久亚洲精品 | 日韩一区二区三区在线 | 99精品国产一区二区三区 | 久热国产精品视频 | 久久久噜噜噜久久中文字幕色伊伊 | 免费成人在线网站 | 高清一区二区视频 | 羞羞在线观看视频 | 亚洲精品免费视频 | 国内精品久久精品 | 午夜视频网 | 欧美日韩黄 | 99久久中文字幕三级久久日本 | 日本精品一区 | 欧美在线视频二区 | 一区二区三区四区在线免费观看 | 久久久久久美女 | 波多野吉衣在线播放 | 亚洲精品永久免费 | 久久免费香蕉视频 | 91精品国产91久久综合桃花 | 国产一级免费视频 | 国产一级特黄视频 | 日韩在线不卡 | 成人在线视频免费看 | 日韩欧美不卡 | 欧美一级毛片久久99精品蜜桃 | 日本成人二区 | 国产精品久久久久久婷婷天堂 | www.色.com | 色视频在线免费观看 | 99免费精品视频 | 精品9999| 久久久久成人精品亚洲国产 |