AI語音詐騙的克星:AI語音識別干擾系統
在AI技術日益滲透日常通信的背景下,電話詐騙手段也隨之升級。如今,詐騙者不再親自出馬,而是借助文本轉語音(TTS)與自動語音識別(ASR)系統,批量撥打“釣魚電話”,騙取用戶隱私信息甚至財務數據。
根據CrowdStrike的《2025年全球威脅報告》,2024年下半年,全球“語音釣魚”(vishing)攻擊激增442%,讓執法與安全機構壓力倍增。
但這一趨勢或許正在被扭轉。以色列本古里安大學與印度阿姆利塔大學的研究人員聯合開發出一套名為“ASRJam”的語音識別防御系統,有望在源頭上瓦解AI詐騙鏈條。
直擊AI詐騙技術的軟肋
研究人員Freddie Grabovski、Gilad Gressel與Yisroel Mirsky在預印本論文《ASRJam: 一種面向人類友好的AI語音干擾機制》中指出,當前AI語音詐騙鏈條中的“最薄弱環節”正是ASR——自動語音識別系統。
詐騙流程通常是:AI撥打電話,用TTS模擬真人語音誘導受害者回應;而后,ASR系統迅速將受害者的語音轉為文字,傳輸至后臺的語言模型進行對話續寫。這一過程幾乎無需人類介入,卻足以完成一次自動化社會工程攻擊。
ASRJam采用一種“主動型對抗”策略:在不影響人類理解的前提下,實時擾亂ASR系統的識別精度,從而使詐騙AI“聽不懂”用戶的回應,陷入邏輯崩潰。
ASRJam系統的核心算法名為EchoGuard。它通過三種方式微妙地擾動語音信號:
- 混響擾動(Reverberation)——改變語音反射特性,模擬不同空間環境;
- 麥克風震蕩(Microphone Oscillation)——制造麥克風位置頻繁變化的錯覺;
- 瞬時聲衰減(Transient Acoustic Attenuation)——對語音中的瞬時特征進行壓縮或拉伸。
這些聲音變化不會影響人類的語義理解,卻會讓AI陷入困惑。研究者稱,這種方式在保持“語音自然性與舒適度”的同時,對ASR系統的干擾效果最佳,遠勝此前提出的AdvDDoS、Kenku等方法。
對抗測試:擊敗幾乎所有主流ASR模型
研究團隊在三大語音數據集(Tedlium、SPGISpeech、LibriSpeech)以及六款主流ASR模型(包括DeepSpeech、Wav2Vec2、Vosk、IBM Watson、Whisper等)上進行了評估。
結果顯示:EchoGuard在幾乎所有數據與模型組合中均取得了最高干擾成功率。唯一例外是SpeechBrain系統,在個別場景下略遜于其他算法,但研究人員表示該系統在現實應用中較為少見,影響有限。
需要特別指出的是,即便在被普遍認為抗干擾能力最強的OpenAI Whisper模型面前,EchoGuard仍表現出色。雖然成功率略低(在LibriSpeech數據集上為0.14),但這已足以使每六次轉錄中就有一次嚴重錯誤,從而在關鍵對話中“扯亂AI劇本”。
首個可實際部署的ASR防御工具
研究人員表示,與過去提出的語音干擾方法相比,ASRJam具備真正的可用性和用戶友好性:
- 實時運行:可在用戶終端本地運行,不依賴云端;
- 對攻擊者不可見:不會暴露給詐騙方,無從繞過;
- 零查詢設計:無需事先獲取ASR模型的輸出樣本,即可生成有效擾動。
他們還搭建了公開網站,展示原始語音樣本與各種算法處理后的對比效果,讓公眾直觀感受EchoGuard的“隱形攻擊”能力。
展望:下一代通信安全的主動防御思路
ASRJam目前仍處于研究階段,但Grabovski表示,團隊正積極推進其商業化進程。他相信未來版本將進一步提升對Whisper等高魯棒性模型的干擾能力。
與此同時,美國聯邦通信委員會已于2024年明確規定,使用AI生成語音從事電話通信行為屬違法行為。但在技術手段落地前,監管仍有死角,主動型防御方案如ASRJam的意義愈加凸顯。
在AI技術越來越能夠“裝人說話”的當下,人類或許需要依靠“干擾AI的AI”來守護通信安全。這正是ASRJam為我們帶來的啟示:下一代安全,不是靠封堵通道,而是“讓AI變成聾子和瞎子”。
論文鏈接: