基于對(duì)數(shù)譜圖的深度學(xué)習(xí)心音分類
這是一篇很有意思的論文,他基于心音信號(hào)的對(duì)數(shù)譜圖,提出了兩種心率音分類模型,我們都知道:頻譜圖在語(yǔ)音識(shí)別上是廣泛應(yīng)用的,這篇論文將心音信號(hào)作為語(yǔ)音信號(hào)處理,并且得到了很好的效果。
對(duì)心音信號(hào)進(jìn)行一致長(zhǎng)度的分幀,提取其對(duì)數(shù)譜圖特征,論文提出了長(zhǎng)短期記憶(LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)兩種深度學(xué)習(xí)模型,根據(jù)提取的特征對(duì)心跳聲進(jìn)行分類。
心音數(shù)據(jù)集
影像學(xué)診斷包括心臟核磁共振成像(MRI)、CT掃描、心肌灌注成像。這些技術(shù)的缺點(diǎn)也很明顯對(duì)現(xiàn)代機(jī)械、專業(yè)人員的要求高,診斷時(shí)間長(zhǎng)。
論文使用的是公共數(shù)據(jù)集,由1000個(gè)。wav格式的信號(hào)樣本組成,采樣頻率為8 kHz。數(shù)據(jù)集分為5類,包括1個(gè)正常類(N)和4個(gè)異常類:主動(dòng)脈瓣狹窄(AS)、二尖瓣反流(MR)、二尖瓣狹窄(MS)和二尖瓣脫垂(MVP)。
主動(dòng)脈瓣狹窄(AS)是指主動(dòng)脈瓣太小、狹窄或僵硬。主動(dòng)脈瓣狹窄的典型雜音是高音調(diào)的“菱形”雜音。
二尖瓣返流(MR)是指心臟的二尖瓣沒(méi)有正常關(guān)閉,導(dǎo)致血液回流到心臟而不是被泵出。聽(tīng)診胎兒心臟時(shí),S1可能很低(有時(shí)很響)。直到S2,雜音的音量增加。由于S3后二尖瓣急流,可聽(tīng)到短而隆隆聲的舒張中期雜音。
二尖瓣狹窄(MS)是指二尖瓣受損不能完全打開(kāi)。心音聽(tīng)診顯示二尖瓣狹窄早期S1加重,嚴(yán)重二尖瓣狹窄時(shí)S1軟。隨著肺動(dòng)脈高壓的發(fā)展,S2音將被強(qiáng)調(diào)。純多發(fā)性硬化癥患者幾乎沒(méi)有左室S3。
二尖瓣脫垂(MVP)是指在心臟收縮期二尖瓣小葉脫垂至左心房。MVP通常是良性的,但并發(fā)癥包括二尖瓣反流、心內(nèi)膜炎和脊索斷裂。體征包括收縮期中期的咔嗒聲和收縮期晚期的雜音(如果存在反流)。
預(yù)處理與特征提取
聲音信號(hào)有不同的長(zhǎng)度。所以需要固定每個(gè)記錄文件的采樣率。長(zhǎng)度被裁剪后使聲音信號(hào)包含至少一個(gè)完整的心臟周期。成年人每分鐘心跳65-75次,心跳周期約為0.8秒,所以信號(hào)樣本被裁剪為2.0-s, 1.5-s和1.0-s段。
基于離散傅里葉變換(DFT),將心音信號(hào)的原始波形轉(zhuǎn)換為對(duì)數(shù)譜圖。聲音信號(hào)的DFT y(k)為Eq.(1),對(duì)數(shù)譜圖s定義為Eq.(2)。
式中,N為向量x的長(zhǎng)度,ε = 10^(- 6)是一個(gè)小偏移量。部分心音樣本的波形和對(duì)數(shù)譜圖如下:
深度學(xué)習(xí)模型
1、LSTM
LSTM模型設(shè)計(jì)為2層直接連接,然后是3層完全連接。第三個(gè)完全連接的層輸入softmax分類器。
2、CNN模型
如上圖所示,前兩個(gè)卷積層之后是重疊的最大池化層。第三個(gè)卷積層直接連接到第一個(gè)全連接層。第二個(gè)完全連接的層提供給具有五個(gè)類標(biāo)簽的softmax分類器。在每個(gè)卷積層之后使用BN和ReLU。
3、訓(xùn)練細(xì)節(jié)
結(jié)果
訓(xùn)練集包含整個(gè)數(shù)據(jù)集的70%,測(cè)試集包含其余部分。
當(dāng)CNN模型片段持續(xù)時(shí)間為2.0 s時(shí),準(zhǔn)確率最高為0.9967;分割時(shí)間為1.0 s的LSTM準(zhǔn)確率最低為0.9300。
CNN模型的整體準(zhǔn)確率分別為0.9967、0.9933和0.9900,片段持續(xù)時(shí)間分別為2.0 s、1.5 s和1.0 s,而LSTM模型的這三個(gè)數(shù)字分別為0.9500、0.9700和0.9300。
CNN模型比LSTM模型在各時(shí)段的預(yù)測(cè)精度更高。
混淆矩陣如下:
N類(Normal)的預(yù)測(cè)正確率最高,在5個(gè)案例中達(dá)到60個(gè),而MVP類在所有案例中預(yù)測(cè)正確率最低。
LSTM模型輸入時(shí)間長(zhǎng)度為2.0 s,最長(zhǎng)預(yù)測(cè)時(shí)間為9.8631 ms。分類時(shí)間為1.0 s的CNN模型預(yù)測(cè)時(shí)間最短,為4.2686 ms。
與其他SOTA比較,一些研究的準(zhǔn)確率非常高,但這些研究只進(jìn)行了兩類(正常和異常),而本研究分為五類。
與使用相同數(shù)據(jù)集的其他研究相比(0.9700),論文研究有了顯著提高,最高準(zhǔn)確率為0.9967。