成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

150萬條多語種音頻數(shù)據(jù)!浙大清華發(fā)布語音偽造檢測(cè)框架SafeEar,兼顧隱私保護(hù)|CCS 2024

人工智能 新聞
SafeEar是一種內(nèi)容隱私保護(hù)的語音偽造檢測(cè)方法,其核心是設(shè)計(jì)基于神經(jīng)音頻編解碼器的解耦模型,分離語音聲學(xué)與語義信息,僅利用聲學(xué)信息檢測(cè),包括前端解耦模型、瓶頸層和混淆層、偽造檢測(cè)器、真實(shí)環(huán)境增強(qiáng)四部分。

近年來,語音合成和語音轉(zhuǎn)換等技術(shù)取得快速發(fā)展,基于相關(guān)技術(shù)能夠合成逼真、自然的音頻。然而,攻擊者可利用該技術(shù)進(jìn)行語音偽造,即「克隆」特定對(duì)象語音,為用戶隱私安全與社會(huì)穩(wěn)定帶來嚴(yán)重威脅。

目前,已有較多基于卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等的偽造檢測(cè)方法取得了優(yōu)越的檢測(cè)效果。但現(xiàn)有工作通常需要采用音頻波形或頻譜特征作為輸入,即需要訪問語音完整信息,在該過程中存在語音隱私泄露問題。同時(shí),已有研究證實(shí)音色、響度等聲學(xué)特征在語音偽造檢測(cè)上的重要性[1,2],這為僅基于聲學(xué)特征進(jìn)行深度偽造檢測(cè)帶來潛在可能。

針對(duì)此問題,浙江大學(xué)智能系統(tǒng)安全實(shí)驗(yàn)室(USSLAB)與清華大學(xué)聯(lián)合提出SafeEar,一種內(nèi)容隱私保護(hù)的語音偽造檢測(cè)方法。

圖片

論文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

論文主頁:https://safeearweb.github.io/Project/

代碼地址:https://github.com/LetterLiGo/SafeEar

CVoiceFake數(shù)據(jù)集地址:https://zenodo.org/records/11124319

SafeEar的核心思路是,設(shè)計(jì)基于神經(jīng)音頻編解碼器(Neural Audio Codec)的解耦模型,該模型能夠?qū)⒄Z音的聲學(xué)信息與語義信息分離,并且僅利用聲學(xué)信息進(jìn)行偽造檢測(cè)(如圖1),從而實(shí)現(xiàn)了內(nèi)容隱私保護(hù)的語音偽造檢測(cè)。

該框架針對(duì)各類音頻偽造技術(shù)展現(xiàn)良好的檢測(cè)能力與泛化能力,檢測(cè)等錯(cuò)誤率(EER)可低至2.02%,與基于完整語音信息進(jìn)行偽造檢測(cè)的SOTA性能接近。同時(shí)實(shí)驗(yàn)證明攻擊者無法基于該聲學(xué)信息恢復(fù)語音內(nèi)容,基于人耳與機(jī)器識(shí)別方法的單詞錯(cuò)誤率(WER)均高于93.93%。

圖片

圖1 SafeEar原理示意圖

方法概述

SafeEar采用一種串行檢測(cè)器結(jié)構(gòu),對(duì)輸入語音獲取目標(biāo)離散聲學(xué)特征,進(jìn)而輸入后端檢測(cè)器,主要框架如圖2所示。

圖片

圖2 SafeEar框架示意圖。(虛線方框內(nèi)的④Real-world Augmentation僅在訓(xùn)練時(shí)出現(xiàn),推理階段僅有①②③模塊)

主要包括以下四個(gè)部分:

1. 基于神經(jīng)音頻編解碼器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)

受SpeechTokenizer[3]等前期工作的啟發(fā),該部分基于神經(jīng)音頻編解碼器結(jié)構(gòu),在語音特征分離與重建的過程中實(shí)現(xiàn)語音特征解耦。如圖3所示,包括編碼器(Encoder)、多層殘差向量量化器(Residual Vector Quantizers, RVQs)、解碼器(Decoder)、鑒別器(Discriminator)四個(gè)核心部分。

其中,RVQs主要包括級(jí)聯(lián)的八層量化器,在第一層量化器中以Hubert特征作為監(jiān)督信號(hào)分離語義特征,后續(xù)各層量化器輸出特征累加即為聲學(xué)特征。

圖片 圖3 基于神經(jīng)音頻編解碼器的解耦模型示意圖。

2. 瓶頸層和混淆層(Bottleneck & Shuffle)

如圖4所示,瓶頸層被用于特征降維表征和正則化處理。混淆層對(duì)聲學(xué)特征進(jìn)行固定時(shí)間窗范圍內(nèi)的隨機(jī)打亂重置,從而提升特征復(fù)雜度,確保內(nèi)容竊取攻擊者即便借助SOTA的語音識(shí)別(ASR)模型,也無法從聲學(xué)特征中強(qiáng)行提取出語義信息。最終,經(jīng)過解纏和混淆雙重保護(hù)的音頻可以有效抵御人耳或者模型兩方面的惡意語音內(nèi)容竊取。

圖片 圖4 瓶頸層和混淆層示意圖

3. 偽造檢測(cè)器(Deepfake Detector)

最近研究表明Transformer分類器在偽造檢測(cè)方面的潛力[4],SafeEar框架的偽造音頻檢測(cè)后端設(shè)計(jì)了一種僅基于聲學(xué)輸入的Transformer-based分類器,采用正弦、余弦函數(shù)交替形式對(duì)語音信號(hào)在時(shí)域和頻域上進(jìn)行位置編碼。該分類器的主要結(jié)構(gòu)如圖5所示,包括編碼器、池化層和全連接層等部分。

圖片

圖5 基于聲學(xué)特征的語音偽造檢測(cè)分類器。


4. 真實(shí)環(huán)境增強(qiáng)(Real-world Augment)

鑒于現(xiàn)實(shí)世界的信道多樣性,采用具有代表性的音頻編解碼器(如G.711、G.722、gsm、vorbis、ogg)進(jìn)行數(shù)據(jù)增強(qiáng),模擬實(shí)際環(huán)境中帶寬、碼率的多樣性,以推廣到不可見通信場(chǎng)景。

實(shí)驗(yàn)結(jié)果

偽造檢測(cè)效果

本文選擇了八個(gè)代表性的基線方法,其中包括端到端檢測(cè)器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行檢測(cè)器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer),測(cè)試數(shù)據(jù)集采用語音偽造檢測(cè)代表性數(shù)據(jù)集ASVspoof2019[11]和ASVspoof2021[12],實(shí)驗(yàn)結(jié)果如表1所示。

SafeEar在信息損失的情況下,仍能實(shí)現(xiàn)較為優(yōu)越的檢測(cè)效果,在同類型的串行檢測(cè)器中達(dá)到最低等錯(cuò)誤率(3.10%),且優(yōu)于部分端到端檢測(cè)器。

圖片

表1 整體偽造檢測(cè)效果對(duì)比 

隱私保護(hù)效果

對(duì)于隱私保護(hù)效果,本文討論了具有不同能力的三類主要攻擊者,包括Naive content recovery adversary(CRA1)、Knowledgeable content adversary(CRA2)和Adaptive content adversary(CRA3),通過語音識(shí)別(具有代表性的ASR模型和開源ASR API)準(zhǔn)確率評(píng)價(jià)隱私保護(hù)的效果。

由于解耦出的聲學(xué)特征具有信息損失性,攻擊者無法有效恢復(fù)或重建語音內(nèi)容,從而證明該方法具有隱私保護(hù)能力。同時(shí),論文通過用戶測(cè)試體現(xiàn)出人耳與機(jī)器在內(nèi)容隱私恢復(fù)上均具有較高難度。部分實(shí)驗(yàn)結(jié)果如下。

圖片

圖6 訓(xùn)練過程中驗(yàn)證集上詞錯(cuò)誤率變化曲線(CRA1)。可見ASR模型(Conformer、Bi-LSTM)對(duì)于SafeEar保護(hù)后的語音始終無法識(shí)別,WER曲線保持過高數(shù)值且震蕩;而對(duì)于完整音頻,ASR模型可迅速收斂并在驗(yàn)證集上取得極低的WER

圖片

圖7 真實(shí)的用戶調(diào)研表明,ASR模型被認(rèn)為能夠有效識(shí)別完整音頻(高達(dá)Original: 8.99),而對(duì)于SafeEar面對(duì)不同攻擊者等級(jí)下的識(shí)別效果始終很差(低至CRA2: 1.31、CRA3: 1.31);同理人耳聽感的清晰度分別為Original: 9.38、CRA2: 1.10、CRA3: 1.60。當(dāng)用戶模擬攻擊者嘗試恢復(fù)語音內(nèi)容時(shí),在SafeEar保護(hù)下的WER始終高于96.37%

總結(jié)與展望

本文在保護(hù)語音內(nèi)容隱私的同時(shí)實(shí)現(xiàn)了語音深度偽造檢測(cè),該方法可被應(yīng)用于實(shí)時(shí)語音通話環(huán)境,具有優(yōu)越的檢測(cè)準(zhǔn)確性和泛化能力。

同時(shí),該工作構(gòu)建了涉及五種主流語言(英語、中文、德語、法語、意大利語)、多聲碼器(Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave)的語音偽造檢測(cè)數(shù)據(jù)集CVoiceFake,最新數(shù)據(jù)集涵蓋150萬個(gè)語音樣本及其對(duì)應(yīng)轉(zhuǎn)錄文本,可作為語音偽造檢測(cè)和內(nèi)容恢復(fù)攻擊的基準(zhǔn)數(shù)據(jù)集。

SafeEar也提供了一種新穎的隱私保護(hù)串行檢測(cè)框架,能夠在其他相關(guān)任務(wù)中沿用和拓展,進(jìn)而推進(jìn)智能語音服務(wù)安全化發(fā)展。


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-19 09:28:43

2014-10-31 15:58:28

APEC郵件部署盈世

2013-10-10 15:08:32

電子郵件APEC

2009-12-17 16:38:20

正版免費(fèi)詞典

2012-05-24 15:41:05

瀏覽器

2020-11-19 15:49:40

信息安全圓通安全

2022-02-21 10:36:29

隱私應(yīng)用技術(shù)

2014-08-13 09:43:53

CoremailGmail郵件

2024-11-25 17:03:17

2021-05-18 14:41:57

深度偽造生物識(shí)別身份認(rèn)證

2020-10-28 10:38:08

谷歌模型機(jī)器翻譯

2023-09-28 12:52:58

2022-07-20 16:36:02

模型AI

2022-05-19 13:21:51

數(shù)據(jù)保護(hù)隱私信息安全

2017-06-19 15:32:39

Python爬蟲音頻數(shù)據(jù)

2011-10-17 09:27:04

Siri蘋果語音應(yīng)用

2021-11-25 19:51:12

AI 數(shù)據(jù)人工智能

2019-09-09 14:15:00

谷歌Android工具

2021-10-12 19:00:30

數(shù)據(jù)保護(hù)數(shù)據(jù)泄露數(shù)字企業(yè)

2016-11-15 15:54:41

華為助力新華網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一级片视频免费观看 | 午夜视频在线观看网站 | 蜜桃视频在线观看免费视频网站www | 日韩一区二区三区在线视频 | av网站在线免费观看 | 亚洲一区二区三区免费在线观看 | 99精品99| 国产精品国产精品国产专区不片 | 一级黄色片网址 | 久久国 | 亚洲欧美日韩在线 | 欧美日韩在线成人 | 国产精品美女一区二区三区 | 欧美性受xxx| 97国产在线视频 | 日韩一区二区三区av | 91夜夜夜| 国产精品一区在线观看 | 国产精品99999999| 久久99成人 | 国产综合视频 | 国产精品亚洲第一区在线暖暖韩国 | 欧美日本在线观看 | 精品国产18久久久久久二百 | 老头搡老女人毛片视频在线看 | 国产在线不卡视频 | 91麻豆蜜桃一区二区三区 | 欧美精品二区三区 | 亚洲在线一区二区 | 99视频在线播放 | 伦理午夜电影免费观看 | 精品国产伦一区二区三区观看方式 | 久久av网站 | 欧美日韩国产精品一区二区 | 国产欧美日韩一区二区三区在线观看 | 91成人精品| 成人美女免费网站视频 | 中国一级特黄毛片大片 | 国产精品久久久久久吹潮 | 欧美一级免费观看 | 在线中文字幕av |