成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于注意力長短期記憶的語音可理解度分類系統

人工智能
基于 LSTM 網絡和 log-mel 譜圖的自動語音清晰度分類系統,結合注意力機制,能夠有效地預測語音清晰度水平。該系統在性能上顯著優于傳統的 SVM 模型,并展現出良好的應用前景。

引   言

在大多數人生活中,語音是最主要的交流方式。然而,不幸的是,語音質量常受多種因素影響,包括聽力損失、背景噪音干擾、設備故障,甚至是某些生理狀況導致的語音系統障礙。語音的清晰度則是衡量在特定條件下(如上述影響因素)語音可理解程度的重要標準。

本文探討了由于生理因素導致的語音質量下降,尤其是在構音障礙的情況下,如何自動估計語音的清晰度水平。文章翻譯自《An attention Long Short-Term Memory based system for automatic classification of speech intelligibility》[1]。

構音障礙(dysarthria)是指由于神經病變,與言語有關的肌肉麻痹、收縮力減弱或運動不協調所致的言語障礙,它是一種運動性言語障礙,其特征包括音素發音相關肌肉運動的失控,導致說話速度改變、言語不連貫、音素重復、音量和音調變化過大以及鼻音等癥狀。這種障礙可能由多種疾病引起,如腫瘤、腦損傷、中風、帕金森病或肌萎縮性側索硬化癥等退行性疾病。

構音障礙不僅阻礙了患者的正常交流,還可能對患者心理造成傷害,因為他們無法有效表達自己的想法和感情。在這種情況下,準確測量語音的清晰度對于治療和監測手段至關重要,例如評估患者接受特定言語治療或醫療干預后的效果。

目前,確定語音清晰度的“金標準”包括一系列標準測試,患者在測試中發出特定的單詞或聲音組合,然后由專家進行主觀評估,評估語音的可理解程度。然而,這些測試可能存在主觀性問題,因為醫生的評估依賴于其聽力技能和對病理性言語的熟悉程度,導致可能高估或低估語音清晰度。

為了解決這些問題,本研究旨在開發一種客觀、自動且非侵入式的系統,通過分析構音障礙患者的語音來預測其語音清晰度水平(低、中、高)。該系統基于深度學習(DL)范式,特別是基于長短期記憶(LSTM)網絡。LSTM 網絡與注意力機制結合,能夠有效建模每個時間幀對最終決策的貢獻,從而提高系統的性能和預測精度。

通過這種方法,自動化測量語音清晰度不僅可以節省醫生的時間,使其可以更好地關注其他患者或進行其他醫療活動,還能提供更一致和客觀的評估結果。這對于改善言語治療的效果評估以及促進構音障礙患者的生活質量具有重要意義。

相關工作

先前關于病理性語音清晰度自動預測的研究可分為兩大類方法:侵入式或非盲方法,以及非侵入式或盲方法。侵入式方法通常依賴于健康參考語音模型,如高斯混合模型、iVectors或頻譜基,通過比較病理性語音與健康模型的差異來評估清晰度。另一種方法假設病理性語音會降低基于健康語音訓練的自動語音識別性能,如通過詞錯誤率等特征進行評估。然而,這些方法需要大量平衡的健康數據,這在實際應用中可能限制了其可行性。

非侵入式或盲方法則通常涉及手工特征提取和機器學習算法,如支持向量機或隨機森林,用于分析語音特征并預測清晰度水平。這些方法的優勢在于不需要健康語音數據,但需要精心設計的特征提取和分類器選擇來獲得良好的性能。

文章致力于開發一種新型的自動且非侵入式系統,用于評估病理性語音的清晰度水平,特別是在沒有健康語音參考數據的情況下。這一創新方法基于深度學習技術,具體使用了長短期記憶網絡(LSTM),這些網絡能夠有效地建模語音信號的時間序列特征。同時,引入注意力模型進一步改善了系統的性能,通過對每個時間幀的重要性進行建模,使得系統能夠更精確地預測語音清晰度。

深度學習技術在語音處理領域已經取得了顯著進展,例如在自動語音識別、語音情感識別和認知負荷分類中的成功應用。這些技術的高效性和靈活性使它們成為處理復雜語音數據和識別語音障礙的理想工具。通過文中提出的方法,研究人員可以更準確地評估病理性語音的清晰度,從而為言語治療和醫療干預提供更可靠的評估工具。

總結而言,該文章的創新在于提出了一種基于深度學習和注意力機制的自動語音清晰度評估系統,該系統克服了傳統方法中對健康語音數據依賴的限制,并在實驗結果中顯示出顯著的性能優勢,這對于未來進一步研究和臨床應用具有重要意義。

語音清晰度分類系統

文中開發的兩種系統,旨在將說話者的清晰度分為三類:低、中和高。一方面,第一種系統用作參考,包括提取不同的手工聲學特征集和 SVM 作為分類器。另一方面,第二種系統,即我們對該任務的提議,使用對數梅爾譜圖作為輸入,并使用 LSTM 網絡進行分類。這兩種方法都遵循類似的步驟序列,為了更清晰地了解這項工作,圖 1 顯示了一個包含這些階段的框圖。

圖 1 語音可理解程度分類系統的框圖圖 1 語音可理解程度分類系統的框圖

1.預處理

預處理步驟包括對原始音頻信號應用語音活動檢測器 (VAD),以去除靜音/噪聲幀。此階段背后的基本原理是,理論上,非語音幀不會傳達有關清晰度水平的信息。但是,正如前面所述,去除非語音區域會對系統的性能產生負面影響。因此,在兩種情況下都進行了實驗:有 VAD 和沒有 VAD。

2.特征提取

對于參考系統,提取了三組不同的聲學特征:(i) 梅爾頻率倒譜系數 (MFCC) 及其一階導數;(ii) 調制譜的平均能量;(iii) 在中提出的特征集。對于基于 LSTM 的系統,使用對數梅爾譜圖作為聲學特征。以下小節中,將簡要介紹所有這些特征。

 MFCC 及其一階導數

MFCC是自動語音和說話人識別以及音頻分類任務中最流行的特征提取程序。因此,這些參數已針對所考慮的任務進行了嘗試。MFCC 是通過對語音信號的對數梅爾譜圖應用離散余弦變換 (DCT) 來逐幀提取的。計算出 MFCC 后,將它們的一階導數添加到最終的聲學向量中。

調制譜的平均能量

這組特征源自語音信號的調制譜,該譜測量了語音信號在不同調制頻率下的波動。調制譜包含有關病理性語音中可能出現的幾種現象的信息,例如非習慣性的強度和速度變化、不精確的共發音或中斷和不流暢。

調制譜是通過使用 Falk 等人提出的方法,從音頻信號的頻譜時間表示中計算出來。其中,對應于每個聲學頻帶的時間包絡用特定的調制濾波器組進行濾波,從而獲得所謂的調制能量。最終的特征集由這些能量在所有語音幀上的平均值組成。圖 2 顯示了兩個不同語音記錄中調制能量平均值的兩個示例,其中橫軸和縱軸分別表示調制頻率和聲學頻率。可以觀察到,對于病理性說話者,調制能量通常高度集中在低調制頻率,如圖 2 (b) 中的示例所示,而對于高清晰度說話者,調制能量分布在更寬的頻率區域,如圖 2 (a) 中的示例所示。

圖2  (a)高清晰度和(b)低清晰度語音記錄的調制頻譜的平均能量。這兩句話都對應于“jowls”這個詞

Falk 的特征

這組聲學特征最初是Falk 等人提出的,用于清晰度水平預測。它包含以下六個特征:

零階 MFCC 一階導數的標準差。該參數與信號的對數能量相關,可用于檢測語音強度中的異常。

線性預測殘差的峰度。該特征可以提供有關聲音嘶啞、音量損失或聲音氣喘的信息。

低調制與高調制比率 (LHMR)。該參數是對語音信號調制譜中包含的信息的總結。特別是,它是一個商,比較了低調制頻率(小于 4 Hz)和高調制頻率(大于 4 Hz)處的調制譜能量。

三個與韻律相關的特征:話語中濁音段的百分比,以及基頻的標準差和范圍。第一個特征可以提供有關由于發聲器官障礙導致的濁音發音異常的信息。第二個和第三個參數有助于檢測單調語音(構音障礙的一種癥狀)以及聲音中的顫抖和震顫。

對數梅爾譜圖

最后一組特征對應于音頻信號的譜圖,該譜圖首先使用由梅爾尺度濾波器組成的聽覺濾波器組映射到梅爾頻率間距,然后轉換為對數尺度。梅爾尺度是一種頻率扭曲,試圖模擬人類聽覺在不同頻率下的非均勻敏感性。

3.分類器

一般的分類器主要分為SVM和LSTM。SVM主要采用一對一策略和高斯核。LSTM 是一種專門設計用于處理序列數據的神經網絡架構,具有記憶單元和門控機制,可以有效地處理長期依賴關系。在文章中,作者設計了幾種不同的 LSTM 架構來進行分類任務,包括基本 LSTM、LSTM with Mean-Pooling 和 LSTM with Attention-Pooling。

這些 LSTM 架構會接受音頻記錄中的特征作為輸入,并通過訓練學習特征之間的關系,從而對音頻記錄進行分類。訓練過程中,使用了隨機梯度下降和 Adam 優化方法來調整網絡參數,以使模型能夠更好地擬合數據。此外,在某些架構中還實施了 dropout 技術,以減少過度擬合現象。

在實現 LSTM with Attention-Pooling 架構時,還引入了注意力機制,用于動態地計算每個 LSTM 幀的權重,以便更加關注對分類任務有重要影響的幀。這有助于提高模型的性能和準確率。

實    驗

1.數據庫

用于實驗的數據集是 UA-Speech 數據庫,包含 15 人患有不同程度構音障礙和 13 名健康對照組人員的錄音。音頻以 16 KHz 頻率使用 7 個麥克風錄制,包括數字、計算機命令、簡單詞語、復雜詞語和無線電字母表。數據庫中的語音根據專家聽錄音并寫下理解的單詞百分比進行醫學測試,得到清晰度得分,范圍為 0 到 100,經修改后分為低清晰度、中等清晰度和高清晰度三個類別。實驗未使用健康對照組的音頻,僅考慮第六個麥克風上的語音信號,總文件數量為 9,140 個。實驗以說話者無關方式配置,訓練集、驗證集和測試集中包含不同的說話者,避免模型學習說話者身份或環境聲學條件而非清晰度水平。

2.預處理和特征提取

在預處理階段,對語音信號進行分幀和加窗,并使用 VAD(語音活動檢測)來去除靜音片段。特征提取方面,參考系統使用了三種特征:MFCC 和其一階導數、調制譜的平均能量以及 Falk’s features。LSTM 系統則使用 log-mel spectrogram 特征,該特征包含 32 個 log-Mel 濾波器能量,每 10 毫秒計算一次。

3.分類器

參考系統使用 SVM 分類器,采用 one-vs-all 策略和高斯核函數。LSTM 系統則使用了三種不同的 LSTM 架構:Basic LSTM、LSTM Mean-Pooling 和 LSTM Attention-Pooling。

4.結果

實驗結果表明,LSTM 系統在該任務中取得了更好的性能,特別是 LSTM Attention-Pooling 架構,其準確率達到了 76.97%±0.28%,顯著優于參考系統。Mean-Pooling 策略進一步也提升了 LSTM 模型的性能,表明 LSTM 框架中的所有幀都包含有價值的信息,不應完全舍棄。而注意力機制通過學習語音片段的重要性,進一步提升了 LSTM 模型的性能,表明該機制在處理語音清晰度分類任務中具有顯著的優勢。最后,VAD 預處理步驟對于語音清晰度分類任務的性能提升并不顯著,甚至可能導致性能下降。這表明沉默片段和語音中的其他人工制品(如口吃或猶豫)可能包含有關語音清晰度的重要信息。

圖片圖片

表:基于lstm的分類器實現的分類率[%]

結論

研究表明,基于 LSTM 網絡和 log-mel 譜圖的自動語音清晰度分類系統,結合注意力機制,能夠有效地預測語音清晰度水平。該系統在性能上顯著優于傳統的 SVM 模型,并展現出良好的應用前景。

參考文獻

1. Fernández-Díaz M, Gallardo-Antolín A. An attention Long Short-Term Memory based system for automatic classification of speech intelligibility[J]. Engineering Applications of Artificial Intelligence, 2024, 96: 103976.

責任編輯:武曉燕 來源: 中國保密協會科學技術分會
相關推薦

2025-02-20 00:28:59

2020-09-17 12:40:54

神經網絡CNN機器學習

2025-01-13 08:23:07

LLMMHAMLP

2022-02-21 09:25:57

VR研究Nature

2024-09-19 10:07:41

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-03-06 09:25:00

DeepSeek模型訓練

2025-02-25 09:40:00

模型數據AI

2011-07-07 13:12:58

移動設備端設計注意力

2025-02-10 00:00:55

MHAValue向量

2023-10-07 07:21:42

注意力模型算法

2021-05-06 15:55:01

谷歌Android開發

2025-02-17 13:00:00

2024-02-19 00:12:00

模型數據

2024-10-31 10:00:39

注意力機制核心組件

2022-03-25 11:29:04

視覺算法美團

2024-06-28 08:04:43

語言模型應用

2023-07-30 15:42:45

圖神經網絡PyTorch

2025-02-07 16:15:27

2024-11-08 15:00:00

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品视频一区二区三区在线观看 | 国产成人精品久久二区二区91 | 婷婷在线网站 | 国内精品视频在线 | 久久久久精 | 黄色香蕉视频在线观看 | 中文字幕日韩欧美一区二区三区 | 午夜不卡一区二区 | 午夜性色a√在线视频观看9 | 国产精品久久久久久久一区探花 | 国产美女精品视频 | 毛片一级网站 | 日本在线一二 | 亚洲一一在线 | 国产精品一区在线 | 老子午夜影院 | 亚洲二区视频 | 亚洲欧美日韩国产综合 | 精品在线免费观看视频 | 蜜桃精品在线 | 国产精品久久久久久久久污网站 | 成人欧美在线 | 国久久| 美女日批免费视频 | 国产高清一二三区 | 最近中文字幕第一页 | 欧美日韩在线看 | 成人性生交a做片 | 亚洲中午字幕 | 欧美一区二区三区,视频 | 亚洲 中文 欧美 日韩 在线观看 | 91av在线电影| 亚洲精品第一页 | 欧美性吧 | 夏同学福利网 | 欧美视频在线播放 | 精品久久影院 | 91精品国产综合久久久久久 | 午夜精品久久久 | av免费看片 | 日韩网站在线观看 |