只需3kbps就能清晰通話,這個(gè)谷歌音頻工具開(kāi)源了
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
3kbps也能清晰通話的神器Lyra,開(kāi)源了!
Lyra是谷歌公司推出的一款不懼低帶寬的音頻編解碼器,用來(lái)實(shí)現(xiàn)隨時(shí)隨地高質(zhì)量通話。
3kbps是什么概念?
換算成生活中常見(jiàn)的單位,等于0.375KB/s。
對(duì)比來(lái)看更加直觀,Skype官網(wǎng)給出的通話最低速度是30kbps,帶寬要求整整高出了10倍。

Lyra利用機(jī)器學(xué)習(xí)模型,將原始音頻壓縮到3kbps,即使沒(méi)有高速網(wǎng)絡(luò),也能得到自然清晰的語(yǔ)音。
它的架構(gòu)與傳統(tǒng)的編解碼器類似,分為編碼器和解碼器兩部分:

編碼器以40毫秒為單位,從語(yǔ)音中提取特征,進(jìn)行壓縮后通過(guò)網(wǎng)絡(luò)傳輸。
解碼器利用機(jī)器學(xué)習(xí)模型,能使用最少的數(shù)據(jù)量重建語(yǔ)音,將特征轉(zhuǎn)換成完整的音頻波形,以進(jìn)行播放。
帶寬要求低、效果更好
在Lyra之前,音頻編解碼器的比特率越低,語(yǔ)音的清晰度就越差,并且機(jī)械感越重。
傳統(tǒng)的音頻編解碼器使用的是數(shù)字信號(hào)處理技術(shù),而Lyra則依賴其強(qiáng)大的信號(hào)重建能力。
由于Lyra無(wú)需逐個(gè)處理信號(hào),因此無(wú)需高帶寬,而且在保持低比特率的同時(shí),還能提供高質(zhì)量的音頻輸出。

谷歌還使用Lyra與Opus、Speex,在6kbps和3kbps的情況下,對(duì)同一音頻的壓縮質(zhì)量進(jìn)行對(duì)比測(cè)試。
結(jié)果顯示:
在3kbps的情況下,Lyra性能優(yōu)于現(xiàn)有的其他編解碼器;
在8kbps的情況下,其性能優(yōu)于Opus,同時(shí)降低了超過(guò)60%的帶寬;
甚至,Lyra在3kbps情況下的語(yǔ)音清晰度,也優(yōu)于6kbps情況下的Opus。

谷歌公司認(rèn)為L(zhǎng)yra可能有廣泛的應(yīng)用前景,比如:降低音頻文件大小,以存儲(chǔ)大量語(yǔ)音;節(jié)省手機(jī)電量;以及緩解網(wǎng)絡(luò)擁堵等。
已在GitHub開(kāi)源
現(xiàn)在,Lyra已經(jīng)在GitHub上開(kāi)源。

Lyra使用Bazel構(gòu)建框架,并且使用C++編寫(xiě)代碼,以保證速度、效率和可操作性。
這一版本支持用戶在Linux上開(kāi)發(fā)和調(diào)試,還針對(duì)64位ARM Android平臺(tái)進(jìn)行了性能優(yōu)化,使它不僅能在云服務(wù)器上運(yùn)行,而且還可以在手機(jī)上實(shí)時(shí)運(yùn)行和訓(xùn)練。
此外,Lyra還為開(kāi)發(fā)人員提供了編碼和解碼所需的工具。
谷歌工程師Andrew Storus和Michael Chinen表示:
“很高興看到開(kāi)源社區(qū)的創(chuàng)造力能體現(xiàn)在Lyra上,以開(kāi)發(fā)更多獨(dú)特和有影響力的應(yīng)用。”