AI智能語音識別算法 上篇
一、聲源定位
1、電掃陣列
當系統掃描到輸出信號功率最大時所對應的波束方向就是認為是聲源的DOA方向,從而可以聲源定位。電掃陣列的方式存在一定的局限,僅僅適用于單一聲源。若多聲源在陣列方向圖的同一主波束內,則無法區分
2、超分辨譜估計
如MUSIC,ESPRIT算法等,對其協方差矩陣(相關矩陣)進行特征分解,構造空間譜,關于方向的頻譜,譜峰對應的方向即為聲源方向。適合多個聲源的情況,且聲源的分辨率與陣列尺寸無關,突破了物理限制,因此成為超分辨譜方案。
3、TDOA
TDOA是先后估計聲源到達不同麥克風的時延差,通過時延來計算距離差,再利用距離差和麥克風陣列的空間幾何位置來確定聲源的位置。分為TDOA估計和TDOA定位兩步。
二、波束成形
1、CBF-傳統的波束形成
CBF是最簡單的非自適應波束形成,對各個麥克風的輸出進行加權求和得到波束,在CBF中,各個通道的權值是固定的,作用是抑制陣列方向圖的旁瓣電平,以濾除旁瓣區域的干擾和噪聲。
2、CBF + Adaptive Filter 增強型波束形成
CBF+Adaptive Filter結合Weiner濾波來改善語音增強的效果,帶噪語音經過Weiner濾波得到基于LMS準則的純凈語音信號。而濾波器系數可以不斷更新迭代,與傳統的CBF相比,可以更有效的去除非穩態噪聲。
3、ABF-自適應波束形成
ABF在CBF的基礎之上,對干擾和噪聲進行空域自適應濾波。ABF中,采用不同的濾波器得到不同的算法,即不同通道的幅度加權值是根據某種最優準則進行調整和優化。
三、語音增強
語音增強是指當語音信號被各種各樣的噪聲(包括語音)干擾甚至淹沒后,從含噪聲的語音信號中提取出純凈語音的過程。
四、混響抑制
利用麥克風陣列去混響的主要方法有以下幾種:
(1)基于盲語音增強的方法(Blind signal enhancement approach),即將混響信號作為普通的加性噪聲信號,在這個上面應用語音增強算法。
(2)基于波束形成的方法(Beamforming based approach),通過將多麥克風對收集的信號進行加權相加,在目標信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。
(3)基于逆濾波的方法(An inverse filtering approach),通過麥克風陣列估計房間的房間沖擊響應(Room Impulse Response, RIR),設計重構濾波器來補償來消除混響。
五、噪聲抑制
語音識別不需要完全去除噪聲,相對來說通話系統中則必須完全去除噪聲。這里說的噪聲一般指環境噪聲,比如空調噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會掩蓋正常的語音,只是影響了語音的清晰度和可懂度。這種方法不適合強噪聲環境下的處理,但是足以應付日常場景的語音交互。
六、回聲消除
回聲消除就是在Mic采集到聲音之后,將本地音箱播放出來的聲音從Mic采集的聲音數據中消除掉,使得Mic錄制的聲音只有本地用戶說話的聲音。