基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM
Transformer憑借強(qiáng)大的自注意力機(jī)制,成為文本、音頻、視頻等模型的基礎(chǔ)架構(gòu)之一。但其計算復(fù)雜度隨著序列長度的增加而呈指數(shù)級增長,這在處理長序列數(shù)據(jù)時會出現(xiàn)嚴(yán)重的效率問題。
韓國高等科學(xué)技術(shù)院的研究人員受最新的Mamba架構(gòu)啟發(fā),開發(fā)了首個沒有自注意力機(jī)制純粹狀態(tài)空間的音頻分類模型Audio Mamba(下面簡稱“AUM”)。
狀態(tài)空間是Mamba架構(gòu)的核心功能之一,這是一種用于描述和預(yù)測系統(tǒng)狀態(tài)隨時間變化的數(shù)學(xué)模型,通過維護(hù)一個隱藏狀態(tài)來映射輸入序列到輸出,可幫助模型能夠以線性時間復(fù)雜度高效處理數(shù)據(jù),無論序列多長都沒有問題。
論文地址:https://arxiv.org/abs/2406.03344
AUM架構(gòu)簡單介紹
在AUM架構(gòu)中,先通過傅里葉變換方法,將原始的音頻波形首先被轉(zhuǎn)換成頻譜圖。把得到的頻譜圖隨后被劃分成一系列規(guī)則的 “patches”塊。每個patch都是一個正方形矩陣,代表了音頻信號的一個局部特征區(qū)域。通過這種方式,將音頻信號被分解為一系列的局部特征,為后續(xù)的數(shù)據(jù)處理奠定了基礎(chǔ)。
接著,每個patch通過一個線性投影層被嵌入到一個高維空間中。在這個嵌入過程不僅將原始的音頻特征轉(zhuǎn)換為模型可以處理的形式,而且還通過引入一個特殊的分類標(biāo)記來增強(qiáng)模型的分類能力。
這個分類標(biāo)記被放置在嵌入序列的中間位置,將作為模型訓(xùn)練和推理過程中的關(guān)鍵元素,幫助模型集中注意力于音頻數(shù)據(jù)中最重要的部分。
再從序列的末尾開始,通過反向卷積層和狀態(tài)空間模型來提取特征,幫助AUM模型能從不同的角度理解音頻數(shù)據(jù),增強(qiáng)了模型對音頻信號全局上下文的理解能力。
此外,AUM還采用了一種現(xiàn)代化的硬件優(yōu)化掃描方法,能夠從輸入序列的開始到結(jié)束進(jìn)行單向掃描,同時更新模型的隱藏狀態(tài)。不僅提高了模型的處理效率,還使得模型能夠選擇性地更新其隱藏狀態(tài),從而更有效地捕捉輸入序列中的相關(guān)信息。
實(shí)驗(yàn)測試與數(shù)據(jù)集
為了測試AUM的性能,研究人員使用了AudioSet、VGGSound、VoxCeleb、Speech Commands V2和EPIC-SOUNDS等多個知名音頻數(shù)據(jù)集進(jìn)行了綜合評估。
這些數(shù)據(jù)集不僅在規(guī)模上有所不同,在音頻樣本的多樣性和復(fù)雜性上也各有特點(diǎn)。例如,AudioSet數(shù)據(jù)集包含了超過200萬個10秒長的音頻剪輯,涵蓋了527個不同的標(biāo)簽;而VGGSound則包含了近20萬個視頻剪輯,每個剪輯都有10秒長,標(biāo)注了309種不同的聲音類別。
結(jié)果顯示,AuM在AudioSet上的平均精準(zhǔn)度達(dá)到了32.43%,比知名的Audio Spectrogram Transformers(簡稱“AST”)模型高出3.33%;在VGGSound上,準(zhǔn)確率提高到42.58%,比AST提升了5.33%。
在VoxCeleb、Epic-Sounds和Speech Commands V2,AuM也顯示出了卓越的數(shù)據(jù)序列處理性能。
除了性能優(yōu)秀,AuM對計算效率和內(nèi)存消耗也比AST強(qiáng)很多。在處理長序列音頻數(shù)據(jù)時,AuM顯示出了顯著的內(nèi)存效率,這得益于其基于狀態(tài)空間模型的架構(gòu),能夠在保持性能的同時減少內(nèi)存使用。
此外,AuM在推理階段的效率也比AST快,這意味著在實(shí)際應(yīng)用中,AuM能夠提供更快的推理響應(yīng),對于需要實(shí)時音頻處理的業(yè)務(wù)場景尤為重要。
本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
