有這5款開源軟件,語音轉文字很簡單!
語音文字轉換(STT)系統,一種能夠將語音單詞轉換成文本的方法,用途十分廣泛,比如我們經常在用的微信聊天中語音轉文字功能。
過去,語音轉文本技術由專有軟件和庫控制;開源替代方案不存在或存在極端局限,如今這種形勢已經發生變化,今天你可以使用許多開源的語音轉文本工具和庫,今天,我們就舉5個好用的開源語音識別庫。
1、DeepSpeech項目
該項目由Mozilla開發,這是一個100%免費的開源語音轉文本庫,它使用了 TensorFlow 機器學習框架實現去功能。
你可以使用它自己構建訓練模型,以增強語音轉換到文本的效果,你還可以根據自己的需要引入其他語言,甚至可以輕松把它集成到TensorFlow上的其他機器學習項目中。唯一可惜的是,該項目目前默認情況下僅支持英語。
它也支持多種語言,例如Python(3.6)。運行十分簡單:
- pip3安裝deepspeech
- deepspeech --model模型/output_graph.pbmm --alphabet模型/alphabet.txt --lm模型/lm.binary --trie模型/ trie --audio my_audio_file.wav
你也可以使用npm安裝它:
- npm安裝deepspeech
近日,DeepSpeech還登上Github Trending周榜:
Github地址:https://github.com/mozilla/DeepSpeech
2、Kaldi
Kaldi是用C++編寫的開源語音識別軟件,遵循Apache公共許可協議,支持Windows,macOS和Linux,2009年就已經發布了。
與其他語音識別軟件相比,Kaldi的主要功能是可擴展和模塊化。社區提供了大量的第三方模塊,Kaldi還支持深度神經網絡,并在其網站上提供了完整的使用文檔。
雖然代碼主要是用C++編寫的,但是它通過 Bash 和 Python 腳本進行了封裝。因此,如果你只是想實現基本的語音轉換成文本功能,那通過Python或Bash就可以輕松實現這一點。
項目主頁:http://kaldi-asr.org/
3、Julius
這可能是有史以來最古老的語音識別軟件之一;京都大學在1991年的時候開發的,然后于2005年將它移交給一個獨立的項目團隊。
Julius 的主要特點包括了執行實時 STT 的能力,低內存占用(20000 單詞少于 64 MB),能夠輸出最優詞N-best word和詞圖Word-graph,能夠作為服務器單元運行等等。這款軟件主要為學術和研究所設計。它是由C 語言寫成,并且可以運行在 Linux、Windows、macOS 甚至 Android(在智能手機上)。
目前,它僅支持英語和日語,該軟件可能很容易安裝在Linux發行版的倉庫中。只需在軟件包管理器中搜索julius包即可。
項目主頁:https://github.com/julius-speech/julius
4、Wav2Letter ++
Wav2Letter ++是一款開源語音識別軟件,在今年由Facebook的AI研究團隊發布。該代碼在BSD許可下發布。Facebook將其倉庫描述為“當下最快、最先進的語音識別系統”,默認情況下,構建此工具所基于的概念使其針對性能進行了優化,Wav2Letter ++是基于FlashLight構建,它也是Facebook最新的機器學習庫。
使用Wav2Letter ++,你首先需要為你自己想要的語言構建訓練模型,以便于訓練算法,沒有任何一種語言(包括英語)的預訓練模型,它僅僅是個機器學習驅動的文本語音轉換工具,它用 C++ 寫成,因此被命名為 Wav2Letter++。
項目主頁:https://github.com/facebookresearch/wav2letter
5、DeepSpeech2
百度的研究人員也在研究自己的語音轉文本引擎DeepSpeech2。這是一個端到端的開源引擎,它使用“ PaddlePaddle”深度學習框架將英語和普通話的語音轉換為文本。該項目在BSD許可下發布。
該引擎可以針對任何模型和所需的任何語言進行培訓。模型不隨代碼一起發布;就像其他軟件一樣,你必須自己構建它們。DeepSpeech2的源代碼是用Python編寫的;因此,如果這是你使用的語言,你應該很快就能使用上手
項目地址:https://github.com/PaddlePaddle/DeepSpeech
語音識別類別主要還是由專有軟件巨頭(例如Google和IBM)來主導(它們確實為此提供了自己的閉源商業服務),但是開源替代方案是有希望的。這5個開源語音識別引擎讓你可以自己著手構建應用程序,不知道有沒有你用過的呢?