150萬條多語種音頻數(shù)據(jù)！浙大清華發(fā)布語音偽造檢測(cè)框架SafeEar，兼顧隱私保護(hù)｜CCS 2024

作者：新智元 2024-09-26 15:30:00

SafeEar是一種內(nèi)容隱私保護(hù)的語音偽造檢測(cè)方法，其核心是設(shè)計(jì)基于神經(jīng)音頻編解碼器的解耦模型，分離語音聲學(xué)與語義信息，僅利用聲學(xué)信息檢測(cè)，包括前端解耦模型、瓶頸層和混淆層、偽造檢測(cè)器、真實(shí)環(huán)境增強(qiáng)四部分。

近年來，語音合成和語音轉(zhuǎn)換等技術(shù)取得快速發(fā)展，基于相關(guān)技術(shù)能夠合成逼真、自然的音頻。然而，攻擊者可利用該技術(shù)進(jìn)行語音偽造，即「克隆」特定對(duì)象語音，為用戶隱私安全與社會(huì)穩(wěn)定帶來嚴(yán)重威脅。

目前，已有較多基于卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等的偽造檢測(cè)方法取得了優(yōu)越的檢測(cè)效果。但現(xiàn)有工作通常需要采用音頻波形或頻譜特征作為輸入，即需要訪問語音完整信息，在該過程中存在語音隱私泄露問題。同時(shí)，已有研究證實(shí)音色、響度等聲學(xué)特征在語音偽造檢測(cè)上的重要性[1,2]，這為僅基于聲學(xué)特征進(jìn)行深度偽造檢測(cè)帶來潛在可能。

針對(duì)此問題，浙江大學(xué)智能系統(tǒng)安全實(shí)驗(yàn)室(USSLAB)與清華大學(xué)聯(lián)合提出SafeEar，一種內(nèi)容隱私保護(hù)的語音偽造檢測(cè)方法。

論文地址：https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

論文主頁：https://safeearweb.github.io/Project/

代碼地址：https://github.com/LetterLiGo/SafeEar

CVoiceFake數(shù)據(jù)集地址：https://zenodo.org/records/11124319

SafeEar的核心思路是，設(shè)計(jì)基于神經(jīng)音頻編解碼器（Neural Audio Codec）的解耦模型，該模型能夠?qū)⒄Z音的聲學(xué)信息與語義信息分離，并且僅利用聲學(xué)信息進(jìn)行偽造檢測(cè)(如圖1)，從而實(shí)現(xiàn)了內(nèi)容隱私保護(hù)的語音偽造檢測(cè)。

該框架針對(duì)各類音頻偽造技術(shù)展現(xiàn)良好的檢測(cè)能力與泛化能力，檢測(cè)等錯(cuò)誤率(EER)可低至2.02%，與基于完整語音信息進(jìn)行偽造檢測(cè)的SOTA性能接近。同時(shí)實(shí)驗(yàn)證明攻擊者無法基于該聲學(xué)信息恢復(fù)語音內(nèi)容，基于人耳與機(jī)器識(shí)別方法的單詞錯(cuò)誤率(WER)均高于93.93%。

圖1 SafeEar原理示意圖

方法概述

SafeEar采用一種串行檢測(cè)器結(jié)構(gòu)，對(duì)輸入語音獲取目標(biāo)離散聲學(xué)特征，進(jìn)而輸入后端檢測(cè)器，主要框架如圖2所示。

圖2 SafeEar框架示意圖。(虛線方框內(nèi)的④Real-world Augmentation僅在訓(xùn)練時(shí)出現(xiàn)，推理階段僅有①②③模塊)

主要包括以下四個(gè)部分：

1. 基于神經(jīng)音頻編解碼器的前端解耦模型（Frontend Codec-based Decoupling Model, Frontend CDM）

受SpeechTokenizer[3]等前期工作的啟發(fā)，該部分基于神經(jīng)音頻編解碼器結(jié)構(gòu)，在語音特征分離與重建的過程中實(shí)現(xiàn)語音特征解耦。如圖3所示，包括編碼器（Encoder）、多層殘差向量量化器（Residual Vector Quantizers, RVQs）、解碼器（Decoder）、鑒別器（Discriminator）四個(gè)核心部分。

其中，RVQs主要包括級(jí)聯(lián)的八層量化器，在第一層量化器中以Hubert特征作為監(jiān)督信號(hào)分離語義特征，后續(xù)各層量化器輸出特征累加即為聲學(xué)特征。

圖3 基于神經(jīng)音頻編解碼器的解耦模型示意圖。

2. 瓶頸層和混淆層（Bottleneck & Shuffle）

如圖4所示，瓶頸層被用于特征降維表征和正則化處理。混淆層對(duì)聲學(xué)特征進(jìn)行固定時(shí)間窗范圍內(nèi)的隨機(jī)打亂重置，從而提升特征復(fù)雜度，確保內(nèi)容竊取攻擊者即便借助SOTA的語音識(shí)別（ASR）模型，也無法從聲學(xué)特征中強(qiáng)行提取出語義信息。最終，經(jīng)過解纏和混淆雙重保護(hù)的音頻可以有效抵御人耳或者模型兩方面的惡意語音內(nèi)容竊取。

圖4 瓶頸層和混淆層示意圖

3. 偽造檢測(cè)器（Deepfake Detector）

最近研究表明Transformer分類器在偽造檢測(cè)方面的潛力[4]，SafeEar框架的偽造音頻檢測(cè)后端設(shè)計(jì)了一種僅基于聲學(xué)輸入的Transformer-based分類器，采用正弦、余弦函數(shù)交替形式對(duì)語音信號(hào)在時(shí)域和頻域上進(jìn)行位置編碼。該分類器的主要結(jié)構(gòu)如圖5所示，包括編碼器、池化層和全連接層等部分。

圖5 基于聲學(xué)特征的語音偽造檢測(cè)分類器。

4. 真實(shí)環(huán)境增強(qiáng)（Real-world Augment）

鑒于現(xiàn)實(shí)世界的信道多樣性，采用具有代表性的音頻編解碼器（如G.711、G.722、gsm、vorbis、ogg）進(jìn)行數(shù)據(jù)增強(qiáng)，模擬實(shí)際環(huán)境中帶寬、碼率的多樣性，以推廣到不可見通信場(chǎng)景。

實(shí)驗(yàn)結(jié)果

偽造檢測(cè)效果

本文選擇了八個(gè)代表性的基線方法，其中包括端到端檢測(cè)器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行檢測(cè)器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer)，測(cè)試數(shù)據(jù)集采用語音偽造檢測(cè)代表性數(shù)據(jù)集ASVspoof2019[11]和ASVspoof2021[12]，實(shí)驗(yàn)結(jié)果如表1所示。

SafeEar在信息損失的情況下，仍能實(shí)現(xiàn)較為優(yōu)越的檢測(cè)效果，在同類型的串行檢測(cè)器中達(dá)到最低等錯(cuò)誤率（3.10%），且優(yōu)于部分端到端檢測(cè)器。

表1 整體偽造檢測(cè)效果對(duì)比

隱私保護(hù)效果

對(duì)于隱私保護(hù)效果，本文討論了具有不同能力的三類主要攻擊者，包括Naive content recovery adversary（CRA1）、Knowledgeable content adversary（CRA2）和Adaptive content adversary（CRA3），通過語音識(shí)別（具有代表性的ASR模型和開源ASR API）準(zhǔn)確率評(píng)價(jià)隱私保護(hù)的效果。

由于解耦出的聲學(xué)特征具有信息損失性，攻擊者無法有效恢復(fù)或重建語音內(nèi)容，從而證明該方法具有隱私保護(hù)能力。同時(shí)，論文通過用戶測(cè)試體現(xiàn)出人耳與機(jī)器在內(nèi)容隱私恢復(fù)上均具有較高難度。部分實(shí)驗(yàn)結(jié)果如下。

圖6 訓(xùn)練過程中驗(yàn)證集上詞錯(cuò)誤率變化曲線（CRA1）。可見ASR模型（Conformer、Bi-LSTM）對(duì)于SafeEar保護(hù)后的語音始終無法識(shí)別，WER曲線保持過高數(shù)值且震蕩；而對(duì)于完整音頻，ASR模型可迅速收斂并在驗(yàn)證集上取得極低的WER

圖7 真實(shí)的用戶調(diào)研表明，ASR模型被認(rèn)為能夠有效識(shí)別完整音頻（高達(dá)Original: 8.99），而對(duì)于SafeEar面對(duì)不同攻擊者等級(jí)下的識(shí)別效果始終很差（低至CRA2: 1.31、CRA3: 1.31）；同理人耳聽感的清晰度分別為Original: 9.38、CRA2: 1.10、CRA3: 1.60。當(dāng)用戶模擬攻擊者嘗試恢復(fù)語音內(nèi)容時(shí)，在SafeEar保護(hù)下的WER始終高于96.37%

總結(jié)與展望

本文在保護(hù)語音內(nèi)容隱私的同時(shí)實(shí)現(xiàn)了語音深度偽造檢測(cè)，該方法可被應(yīng)用于實(shí)時(shí)語音通話環(huán)境，具有優(yōu)越的檢測(cè)準(zhǔn)確性和泛化能力。

同時(shí)，該工作構(gòu)建了涉及五種主流語言（英語、中文、德語、法語、意大利語）、多聲碼器（Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave）的語音偽造檢測(cè)數(shù)據(jù)集CVoiceFake，最新數(shù)據(jù)集涵蓋150萬個(gè)語音樣本及其對(duì)應(yīng)轉(zhuǎn)錄文本，可作為語音偽造檢測(cè)和內(nèi)容恢復(fù)攻擊的基準(zhǔn)數(shù)據(jù)集。

SafeEar也提供了一種新穎的隱私保護(hù)串行檢測(cè)框架，能夠在其他相關(guān)任務(wù)中沿用和拓展，進(jìn)而推進(jìn)智能語音服務(wù)安全化發(fā)展。

責(zé)任編輯：張燕妮來源：新智元