150萬條多語種音頻數(shù)據(jù)!浙大清華發(fā)布語音偽造檢測(cè)框架SafeEar,兼顧隱私保護(hù)|CCS 2024
近年來,語音合成和語音轉(zhuǎn)換等技術(shù)取得快速發(fā)展,基于相關(guān)技術(shù)能夠合成逼真、自然的音頻。然而,攻擊者可利用該技術(shù)進(jìn)行語音偽造,即「克隆」特定對(duì)象語音,為用戶隱私安全與社會(huì)穩(wěn)定帶來嚴(yán)重威脅。
目前,已有較多基于卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等的偽造檢測(cè)方法取得了優(yōu)越的檢測(cè)效果。但現(xiàn)有工作通常需要采用音頻波形或頻譜特征作為輸入,即需要訪問語音完整信息,在該過程中存在語音隱私泄露問題。同時(shí),已有研究證實(shí)音色、響度等聲學(xué)特征在語音偽造檢測(cè)上的重要性[1,2],這為僅基于聲學(xué)特征進(jìn)行深度偽造檢測(cè)帶來潛在可能。
針對(duì)此問題,浙江大學(xué)智能系統(tǒng)安全實(shí)驗(yàn)室(USSLAB)與清華大學(xué)聯(lián)合提出SafeEar,一種內(nèi)容隱私保護(hù)的語音偽造檢測(cè)方法。
論文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf
論文主頁:https://safeearweb.github.io/Project/
代碼地址:https://github.com/LetterLiGo/SafeEar
CVoiceFake數(shù)據(jù)集地址:https://zenodo.org/records/11124319
SafeEar的核心思路是,設(shè)計(jì)基于神經(jīng)音頻編解碼器(Neural Audio Codec)的解耦模型,該模型能夠?qū)⒄Z音的聲學(xué)信息與語義信息分離,并且僅利用聲學(xué)信息進(jìn)行偽造檢測(cè)(如圖1),從而實(shí)現(xiàn)了內(nèi)容隱私保護(hù)的語音偽造檢測(cè)。
該框架針對(duì)各類音頻偽造技術(shù)展現(xiàn)良好的檢測(cè)能力與泛化能力,檢測(cè)等錯(cuò)誤率(EER)可低至2.02%,與基于完整語音信息進(jìn)行偽造檢測(cè)的SOTA性能接近。同時(shí)實(shí)驗(yàn)證明攻擊者無法基于該聲學(xué)信息恢復(fù)語音內(nèi)容,基于人耳與機(jī)器識(shí)別方法的單詞錯(cuò)誤率(WER)均高于93.93%。
圖1 SafeEar原理示意圖
方法概述
SafeEar采用一種串行檢測(cè)器結(jié)構(gòu),對(duì)輸入語音獲取目標(biāo)離散聲學(xué)特征,進(jìn)而輸入后端檢測(cè)器,主要框架如圖2所示。
圖2 SafeEar框架示意圖。(虛線方框內(nèi)的④Real-world Augmentation僅在訓(xùn)練時(shí)出現(xiàn),推理階段僅有①②③模塊)
主要包括以下四個(gè)部分:
1. 基于神經(jīng)音頻編解碼器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)
受SpeechTokenizer[3]等前期工作的啟發(fā),該部分基于神經(jīng)音頻編解碼器結(jié)構(gòu),在語音特征分離與重建的過程中實(shí)現(xiàn)語音特征解耦。如圖3所示,包括編碼器(Encoder)、多層殘差向量量化器(Residual Vector Quantizers, RVQs)、解碼器(Decoder)、鑒別器(Discriminator)四個(gè)核心部分。
其中,RVQs主要包括級(jí)聯(lián)的八層量化器,在第一層量化器中以Hubert特征作為監(jiān)督信號(hào)分離語義特征,后續(xù)各層量化器輸出特征累加即為聲學(xué)特征。
圖3 基于神經(jīng)音頻編解碼器的解耦模型示意圖。
2. 瓶頸層和混淆層(Bottleneck & Shuffle)
如圖4所示,瓶頸層被用于特征降維表征和正則化處理。混淆層對(duì)聲學(xué)特征進(jìn)行固定時(shí)間窗范圍內(nèi)的隨機(jī)打亂重置,從而提升特征復(fù)雜度,確保內(nèi)容竊取攻擊者即便借助SOTA的語音識(shí)別(ASR)模型,也無法從聲學(xué)特征中強(qiáng)行提取出語義信息。最終,經(jīng)過解纏和混淆雙重保護(hù)的音頻可以有效抵御人耳或者模型兩方面的惡意語音內(nèi)容竊取。
圖4 瓶頸層和混淆層示意圖
3. 偽造檢測(cè)器(Deepfake Detector)
最近研究表明Transformer分類器在偽造檢測(cè)方面的潛力[4],SafeEar框架的偽造音頻檢測(cè)后端設(shè)計(jì)了一種僅基于聲學(xué)輸入的Transformer-based分類器,采用正弦、余弦函數(shù)交替形式對(duì)語音信號(hào)在時(shí)域和頻域上進(jìn)行位置編碼。該分類器的主要結(jié)構(gòu)如圖5所示,包括編碼器、池化層和全連接層等部分。
圖5 基于聲學(xué)特征的語音偽造檢測(cè)分類器。
4. 真實(shí)環(huán)境增強(qiáng)(Real-world Augment)
鑒于現(xiàn)實(shí)世界的信道多樣性,采用具有代表性的音頻編解碼器(如G.711、G.722、gsm、vorbis、ogg)進(jìn)行數(shù)據(jù)增強(qiáng),模擬實(shí)際環(huán)境中帶寬、碼率的多樣性,以推廣到不可見通信場(chǎng)景。
實(shí)驗(yàn)結(jié)果
偽造檢測(cè)效果
本文選擇了八個(gè)代表性的基線方法,其中包括端到端檢測(cè)器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行檢測(cè)器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer),測(cè)試數(shù)據(jù)集采用語音偽造檢測(cè)代表性數(shù)據(jù)集ASVspoof2019[11]和ASVspoof2021[12],實(shí)驗(yàn)結(jié)果如表1所示。
SafeEar在信息損失的情況下,仍能實(shí)現(xiàn)較為優(yōu)越的檢測(cè)效果,在同類型的串行檢測(cè)器中達(dá)到最低等錯(cuò)誤率(3.10%),且優(yōu)于部分端到端檢測(cè)器。
表1 整體偽造檢測(cè)效果對(duì)比
隱私保護(hù)效果
對(duì)于隱私保護(hù)效果,本文討論了具有不同能力的三類主要攻擊者,包括Naive content recovery adversary(CRA1)、Knowledgeable content adversary(CRA2)和Adaptive content adversary(CRA3),通過語音識(shí)別(具有代表性的ASR模型和開源ASR API)準(zhǔn)確率評(píng)價(jià)隱私保護(hù)的效果。
由于解耦出的聲學(xué)特征具有信息損失性,攻擊者無法有效恢復(fù)或重建語音內(nèi)容,從而證明該方法具有隱私保護(hù)能力。同時(shí),論文通過用戶測(cè)試體現(xiàn)出人耳與機(jī)器在內(nèi)容隱私恢復(fù)上均具有較高難度。部分實(shí)驗(yàn)結(jié)果如下。
圖6 訓(xùn)練過程中驗(yàn)證集上詞錯(cuò)誤率變化曲線(CRA1)。可見ASR模型(Conformer、Bi-LSTM)對(duì)于SafeEar保護(hù)后的語音始終無法識(shí)別,WER曲線保持過高數(shù)值且震蕩;而對(duì)于完整音頻,ASR模型可迅速收斂并在驗(yàn)證集上取得極低的WER
圖7 真實(shí)的用戶調(diào)研表明,ASR模型被認(rèn)為能夠有效識(shí)別完整音頻(高達(dá)Original: 8.99),而對(duì)于SafeEar面對(duì)不同攻擊者等級(jí)下的識(shí)別效果始終很差(低至CRA2: 1.31、CRA3: 1.31);同理人耳聽感的清晰度分別為Original: 9.38、CRA2: 1.10、CRA3: 1.60。當(dāng)用戶模擬攻擊者嘗試恢復(fù)語音內(nèi)容時(shí),在SafeEar保護(hù)下的WER始終高于96.37%
總結(jié)與展望
本文在保護(hù)語音內(nèi)容隱私的同時(shí)實(shí)現(xiàn)了語音深度偽造檢測(cè),該方法可被應(yīng)用于實(shí)時(shí)語音通話環(huán)境,具有優(yōu)越的檢測(cè)準(zhǔn)確性和泛化能力。
同時(shí),該工作構(gòu)建了涉及五種主流語言(英語、中文、德語、法語、意大利語)、多聲碼器(Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave)的語音偽造檢測(cè)數(shù)據(jù)集CVoiceFake,最新數(shù)據(jù)集涵蓋150萬個(gè)語音樣本及其對(duì)應(yīng)轉(zhuǎn)錄文本,可作為語音偽造檢測(cè)和內(nèi)容恢復(fù)攻擊的基準(zhǔn)數(shù)據(jù)集。
SafeEar也提供了一種新穎的隱私保護(hù)串行檢測(cè)框架,能夠在其他相關(guān)任務(wù)中沿用和拓展,進(jìn)而推進(jìn)智能語音服務(wù)安全化發(fā)展。