成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

聊聊實時通信中的AI降噪技術

人工智能 深度學習
本篇文章將介紹如何基于深度學習做實時噪聲抑制,并落地于移動端和家親APP的過程。

Part 01  概述 

在實時音視頻通信場景,麥克風采集用戶語音的同時會采集大量環境噪聲,傳統降噪算法僅對平穩噪聲(如電扇風聲、白噪聲、電路底噪等)有一定效果,對非平穩的瞬態噪聲(如餐廳嘈雜噪聲、地鐵環境噪聲、家庭廚房噪聲等)降噪效果較差,嚴重影響用戶的通話體驗。針對泛家庭、辦公等復雜場景中的上百種非平穩噪聲問題,融合通信系統部生態賦能團隊自主研發基于GRU模型的AI音頻降噪技術,并通過算法和工程優化,將降噪模型尺寸從2.4MB壓縮至82KB,運行內存降低約65%;計算復雜度從約186Mflops優化至42Mflops,運行效率提升77%;在現有的測試數據集中(實驗環境下),可有效分離人聲和噪聲,將通話語音質量Mos分(平均意見值)提升至4.25。

本篇文章將介紹我們團隊如何基于深度學習做實時噪聲抑制,并落地于移動端和家親APP的過程。全文將按照如下組織,介紹噪聲的分類,如何選擇算法去解決這些噪聲的問題;如何通過深度學習的方式去設計算法,訓練AI模型;最后會介紹目前AI降噪能達到什么樣效果和重點應用場景。

Part 02  噪聲分類和降噪算法選擇  

實時音視頻的應用場景中,設備處于復雜的聲學環境,麥克風采集語音信號的同時還會采集大量噪聲,對實時音視頻質量來說是一個非常大的挑戰。噪聲的種類是多種多樣的。根據噪聲的數學統計特性可以將噪聲分為兩類:

平穩噪聲:噪聲的統計特性在比較長的時間里不會隨時間而變化,比如白噪聲、電風扇、空調、車內噪聲等;

圖片

圖片

非平穩噪聲:噪聲的統計特性隨時間在變化,如餐廳嘈雜噪聲、地鐵站、辦公室、家庭廚房等。

圖片

圖片

在實時音視頻應用中,通話易受到各類噪聲干擾從而影響體驗,因此實時音頻降噪已經成為實時音視頻中的一個重要功能。對于平穩的噪聲 ,比如空調出風口呼呼聲或者錄制設備的底噪,它不會隨著時間變化而產生較大變化,可以將其估計預測出來,通過簡單的減法的方式把它去掉,常見的有譜減法、維納濾波以及小波變換。對于非平穩噪聲,例如馬路上車子呼嘯而過的聲音、餐廳內餐盤的撞擊聲、家庭廚房內的鍋具的敲擊聲,都是隨機突發出現,是不可能通過估計預測的方式去解決的。傳統算法對于非平穩噪聲難以估計和消除,這也是我們采用深度學習算法的原因。

Part 03  深度學習降噪算法設計 

圖片

為了提高音頻SDK對于各種噪聲場景的降噪能力,彌補傳統降噪算法的不足,我們研發了基于RNN的AI降噪模塊,結合傳統降噪技術和深度學習技術。重點針對家庭和辦公室使用場景的降噪處理,在噪聲數據集中加入大量的室內噪聲類型,諸如辦公室內的鍵盤敲擊、辦公桌與辦公用品拖拉的摩擦聲、座椅拖動、家庭中的廚房嘈雜聲、地板撞擊聲等等。

與此同時,為了在移動端的實時語音處理落地,該AI音頻降噪算法將計算開銷和庫的尺寸控制在一個非常低的量級。在計算開銷上,以48KHz為例,每幀語音的RNN網絡處理處理僅需約17.5Mflops,FFT和IFFT每幀語音需要約7.5Mflops,特征提取需要約12Mflops,總計約42Mflops,計算復雜度約和48KHz的Opus編解碼相當,在某品牌中端手機型號,統計RNN降噪模塊CPU占用約為4%。在音頻庫的尺寸上,開啟RNN降噪編譯后,音頻引擎庫的體積僅僅增加約108kB。

Part 04  網絡模型及處理流程 

該模塊采用RNN 模型,原因是 RNN 相比其他學習模型(例如 CNN)攜帶時間信息,可以對時序信號進行建模,而不僅僅是單獨的音頻輸入和輸出幀。同時,模型采用門控循環單元(GRU,如圖1所示),實驗表明,GRU在語音降噪任務上的性能略好于LSTM,并且由于GRU的權值參數更少,可以節省計算資源。與簡單的循環單元相比,GRU有兩個額外的門。重置門控制狀態是否用于計算新狀態,而更新門控制狀態將根據新輸入改變的程度。這個更新門使GRU可以長時間記憶時序信息,這也是GRU比簡單的循環單元表現更好的原因。

圖片

圖 1 左側為簡單循環單元,右側為GRU

模型的結構如圖2所示。訓練后的模型會被嵌入到音視頻通信 SDK 中,通過讀取硬件設備的音頻流,對音頻流進行分幀處理并送入 AI 降噪預處理模塊中,預處理模塊會將對應的特征(Feature)計算出來,并輸出到訓練好的模型中,通過模型計算出對應的增益(Gain)值,使用增益值對信號進行調整,最終達到降噪的目的(如圖3所示)。

圖片

圖 2. 基于GRU的RNN網絡模型

圖片

圖3. 上方為模型訓練流程,下方為實時降噪流程


Part 05  AI降噪處理效果和落地 

圖4為帶有鍵盤敲擊噪聲的降噪前后語音語譜圖的對比,上半部分為降噪前的帶噪語音信號,其中紅色矩形框內為鍵盤敲擊噪聲。下半部分為降噪后的語音信號,通過觀測可以發現,絕大部分鍵盤敲擊聲均可以被抑制,同時語音損傷控制在較低的程度。

圖片

圖4. 帶噪語音(通話過程伴隨著鍵盤敲擊聲)降噪前后對比

目前的AI降噪模型,已經在手機端和家親上線,改善手機端和家親APP通話降噪效果,對泛家庭、辦公室等100多種噪聲場景具備優秀的抑制能力,同時保持語音不失真。下一階段,將將持續優化AI降噪模型的計算復雜度,以在IoT低功耗設備上能夠推廣使用。

責任編輯:龐桂玉 來源: 移動Labs
相關推薦

2024-11-04 09:04:20

2025-04-27 02:00:00

實時通信Nacos服務端

2021-04-26 07:52:35

通信技術實時

2023-09-07 17:05:58

語音增強AI音頻編碼

2009-11-23 17:32:34

路由器技術

2010-05-25 15:13:41

UWB

2010-09-07 16:34:31

統一通信sip

2009-03-13 09:53:32

2013-06-27 09:59:26

網絡通信HTML5Web

2021-08-23 10:18:24

機器學習商業通信人工智能

2010-06-09 14:25:55

2025-01-14 08:59:16

2012-04-16 14:42:19

2011-12-28 10:08:24

Javajni

2024-03-11 15:11:48

2009-12-09 13:23:21

動態路由協議

2009-12-14 16:55:34

動態路由協議

2009-11-20 10:04:32

動態路由協議

2022-07-04 16:41:16

IPC通信HiTrace

2023-10-12 19:37:50

通信協議HTTP
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 最近日韩中文字幕 | 国产精品自产拍在线观看蜜 | 91精品国产91久久久久久 | 99精品在线 | 成人在线精品视频 | 91在线免费观看网站 | 91免费视频观看 | 成人精品鲁一区一区二区 | 国产不卡一区 | 男女羞羞视频网站 | 国产一级在线观看 | 亚洲男人天堂 | 国产一区二区在线播放 | 伊人青青久久 | 黑人巨大精品欧美一区二区免费 | 国产精品视频999 | 美女天堂 | 人操人人 | 久久久青草婷婷精品综合日韩 | 黄色免费三级 | 第一色在线 | 免费h视频 | 色婷婷一区二区三区四区 | 久久精品亚洲精品国产欧美 | 国产精品小视频在线观看 | 国产激情在线 | 精品视频一区二区三区在线观看 | 国产高清亚洲 | 国产精品美女久久久久久免费 | 国产精品国产精品国产专区不卡 | 午夜影视大全 | 99视频在线免费观看 | 91精品国产一区二区三区 | 国产美女视频黄 | 91免费在线 | 亚洲成人av| 中文在线一区二区 | 国产精品久久久久久久免费观看 | 国产精久久久久久久 | 日韩欧美成人一区二区三区 | 日韩快播电影网 |