為何機(jī)器學(xué)習(xí)識(shí)別聲音還做不到像識(shí)別圖片那么容易?
作者 | John Mannes
編譯團(tuán)隊(duì) |Yawei, Jennifer Zhu,孫雅姍
聲音是傳遞信息的重要方式之一。 大多數(shù)開(kāi)車(chē)的人都熟悉汽車(chē)皮帶打滑的聲音。我爺爺甚至能靠耳朵來(lái)判斷高載火車(chē)的剎車(chē)問(wèn)題。還有很多專(zhuān)家都能通過(guò)聽(tīng)他們常用機(jī)器發(fā)出來(lái)的聲音來(lái)檢測(cè)機(jī)器運(yùn)行的問(wèn)題。
如果能找到一種自動(dòng)監(jiān)聽(tīng)的方法,我們就可以24小時(shí)監(jiān)控我們生活的世界中存在的各種機(jī)器。 當(dāng)我們被通知機(jī)器聲音發(fā)生異常時(shí),我們便可以預(yù)測(cè)出發(fā)動(dòng)機(jī)、鐵路基礎(chǔ)設(shè)施、石油鉆井和發(fā)電廠的運(yùn)行故障。
自動(dòng)監(jiān)聽(tīng)技術(shù)能減少運(yùn)行事故造成的人員傷亡。盡管最近機(jī)器學(xué)習(xí)領(lǐng)域取得了很大發(fā)展,利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)自動(dòng)監(jiān)聽(tīng)的技術(shù)仍處于研發(fā)階段。我們已經(jīng)獲得許多音頻數(shù)據(jù),但這些數(shù)據(jù)往往沒(méi)有關(guān)鍵的分類(lèi)標(biāo)簽(譯者注:即標(biāo)注每段音頻來(lái)自正常還是異常的運(yùn)行情況)。 在深度學(xué)習(xí)的模型里,這樣的“黑箱”問(wèn)題讓我們很難確定某段音頻被標(biāo)記為異常的原因。我們?nèi)匀辉谂鉀Q真實(shí)的機(jī)器學(xué)習(xí)的邊緣問(wèn)題中的難題。。 而且這些音頻常常帶有比信號(hào)更強(qiáng)的噪音,從而限制了我們能從音頻數(shù)據(jù)里提取到的可用于機(jī)器學(xué)習(xí)的特征。
聲音的鴻溝
大多數(shù)機(jī)器學(xué)習(xí)領(lǐng)域的研究者認(rèn)為人工智能作為一顆冉冉升起的新星,將征服一個(gè)又一個(gè)領(lǐng)域,偶爾還能有些影響廣泛的大突破。根據(jù)這個(gè)預(yù)測(cè),我們已經(jīng)征服了圖像字幕和語(yǔ)音識(shí)別領(lǐng)域,但使用更廣泛的機(jī)器聲音識(shí)別仍落在后面。
眾多機(jī)器學(xué)習(xí)的突破背后依賴(lài)于一個(gè)精心組建的數(shù)據(jù)集。比如:在研究對(duì)象識(shí)別的時(shí)我們可以用 ImageNet(譯者注:ImageNet是一個(gè)被廣泛應(yīng)用于圖像識(shí)別研究的圖像數(shù)據(jù)庫(kù)),而在研究語(yǔ)言數(shù)據(jù)聯(lián)盟和語(yǔ)音識(shí)別時(shí)則可以參考GOOG-411(譯者注:GOOG-411是Google公司在2007年推出的一個(gè)以語(yǔ)音識(shí)別為基礎(chǔ)的商業(yè)性電話公司咨詢(xún)服務(wù),該服務(wù)已于2010年11月12日終止)。但要找到一個(gè)合適的數(shù)據(jù)集來(lái)區(qū)分列車(chē)門(mén)關(guān)閉和臥室門(mén)關(guān)閉的聲音仍然具有一定的挑戰(zhàn)性。
Deepgram(一家?guī)椭渌舅阉骱头诸?lèi)音頻數(shù)據(jù)的創(chuàng)業(yè)公司)的首席執(zhí)行官Scott Stephenson認(rèn)為:“如果你能正確地構(gòu)建模型,深度學(xué)習(xí)可以做很多事情。你所需要的只是很多機(jī)器的數(shù)據(jù)。十五年前還沒(méi)有那些好的數(shù)據(jù)集的時(shí)候,語(yǔ)言識(shí)別技術(shù)也沒(méi)有現(xiàn)在這么成熟。 ”
盡管亞馬遜土耳其機(jī)器人(AmazonMechanical Turk)上有大量公眾可以使用的帶標(biāo)簽的狗和貓的圖片(譯者注:這些大規(guī)模貓狗圖片數(shù)據(jù)集已被廣泛用于深度學(xué)習(xí)的研究),但要收集100,000個(gè)滾珠軸承的聲音和那些帶標(biāo)記的貓狗數(shù)據(jù)集是完全不同的。(譯者注:亞馬遜土耳其機(jī)器人是一個(gè)Web服務(wù)應(yīng)用程序接口(API),開(kāi)發(fā)商通過(guò)它可以將人的智能整合到遠(yuǎn)程過(guò)程調(diào)用(RPC)。)
這些問(wèn)題已經(jīng)折磨著單一用途的聲學(xué)分類(lèi)器,而更加難以實(shí)現(xiàn)的目標(biāo)是建造一個(gè)可用于識(shí)別所有的聲音(而不僅僅是建一個(gè)區(qū)分這些門(mén)的聲音的模型)的工具。
通過(guò)內(nèi)省欣賞
人類(lèi)的歸納能力使我們特別擅長(zhǎng)給聲音進(jìn)行分類(lèi)。 回想一下上一次你聽(tīng)到一輛救護(hù)車(chē)從你的公寓樓下沖過(guò), 即使多普勒效應(yīng)造成聲波的變化頻率會(huì)影響你聽(tīng)到的警笛的音調(diào),你仍然能很容易地識(shí)別出沖過(guò)的是輛救護(hù)車(chē)。
然而研究人員需要發(fā)揮出創(chuàng)造性才能把這個(gè)過(guò)程自動(dòng)化。其中一個(gè)原因是從收集移動(dòng)物體(聲音)信息的固定傳感器中提取的特征是有限的。
缺乏源分離可能使問(wèn)題進(jìn)一步復(fù)雜化。(譯者注:在數(shù)字信號(hào)處理領(lǐng)域,源分離問(wèn)題指從幾個(gè)信號(hào)混合成的合成信號(hào)中恢復(fù)原始的分量信號(hào)。)即使是人類(lèi)自己也不容易分離這些混合的聲音信號(hào)。如果你曾經(jīng)嘗試在一個(gè)喧嘩的餐廳里試圖聽(tīng)清楚其中一個(gè)桌子上的對(duì)話,你就知道理解混合在一起的聲音有多么困難。
英國(guó)薩里大學(xué)(University ofSurrey)的研究人員能使用深度卷積神經(jīng)網(wǎng)絡(luò)(deepconvolutional neural network)在許多歌曲中分離人聲和背景樂(lè)器。他們的訣竅是把50首歌拆分成的單個(gè)樂(lè)器和人聲來(lái)訓(xùn)練他們的模型。然后將這些聲軌切割成每段20秒來(lái)創(chuàng)建許多個(gè)譜圖。利用這50首歌的譜圖,他們的模型能在新的歌曲中分離人聲和背景樂(lè)器。
但這僅僅是把一首歌分成五個(gè)易于識(shí)別的部分。如果我們要記錄一個(gè)近60英尺高(譯者注:約18米高)的MANB&W 12S90ME-C Mark 9.2型柴油發(fā)動(dòng)機(jī)的聲音,并要求機(jī)器學(xué)習(xí)模型切分出來(lái)自發(fā)動(dòng)機(jī)各元件的聲音,就不是一件容易的工程了。
聲音領(lǐng)域的開(kāi)拓者
Spotify是一家雄心勃勃地要把機(jī)器學(xué)習(xí)應(yīng)用到音頻信號(hào)上的公司。 雖然Spotify仍然依賴(lài)于其他數(shù)據(jù)堆,但他們的推薦特征里也包括了歌曲本身的信號(hào)。
音樂(lè)推薦傳統(tǒng)上依賴(lài)于協(xié)同過(guò)濾(collaborative filtering)的啟發(fā)。(譯者注:協(xié)同過(guò)濾是機(jī)器學(xué)習(xí)中基于對(duì)其他相似顧客對(duì)哪些產(chǎn)品感興趣的分析來(lái)推薦給某位特定顧客他可能感興趣的東西的一種模型。)這些基本模型推薦給你與你有相似喜好的用戶(hù)所播放的歌曲。
上圖,根據(jù)Spotify,濾波器以不同頻率的紅色和藍(lán)色波帶來(lái)表示聲音的內(nèi)容。傾斜表示上升和下降的音調(diào)。
在可控的音樂(lè)環(huán)境之外,工程師提出了大致兩類(lèi)解決方案。第一個(gè)我把它稱(chēng)作“定制解決方案”模型,公司從客戶(hù)端收集數(shù)據(jù),唯一目的是識(shí)別預(yù)設(shè)的聲音范圍。實(shí)施這個(gè)方案如同“建造一只熊”,成本昂貴,通常為工業(yè)應(yīng)用。
第二種方法是一種“捕捉”可以標(biāo)記任何聲學(xué)異常的深度學(xué)習(xí)模型。這些模型通常需要專(zhuān)業(yè)人士手動(dòng)分類(lèi)聲音,然后進(jìn)一步訓(xùn)練模型去尋找什么。隨著時(shí)間的推移,這些系統(tǒng)需要越來(lái)越少的人為干預(yù)。
一家名為“3D信號(hào)”的公司正在結(jié)合這兩種方法進(jìn)行創(chuàng)業(yè)。該公司在旋轉(zhuǎn)設(shè)備的聲學(xué)異常檢測(cè)方面擁有專(zhuān)利。這些設(shè)備包括電動(dòng)機(jī)、泵、渦輪機(jī)、齒輪箱和發(fā)電機(jī)等。
3D信號(hào)公司的首席執(zhí)行官Amnon Shenfeld說(shuō):“我們構(gòu)建了一個(gè)非常龐大的架構(gòu),將大量分布式機(jī)器連接到我們的監(jiān)控平臺(tái),當(dāng)這些機(jī)器發(fā)生故障時(shí),我們的算法會(huì)檢測(cè)到這些故障。
上圖,MAN B&W12S90ME-C Mark 9.2型柴油發(fā)動(dòng)機(jī)
他們也利用現(xiàn)有工程師對(duì)特別重要的問(wèn)題進(jìn)行分類(lèi)。如果技術(shù)人員識(shí)別到問(wèn)題,他們可以標(biāo)記為聲學(xué)異常,這有助于訓(xùn)練學(xué)習(xí)算法以便在未來(lái)區(qū)分這些類(lèi)型的聲音。
另一家公司OtoSense則在其網(wǎng)站上提供了一個(gè)“設(shè)計(jì)實(shí)驗(yàn)室”。 客戶(hù)可以查找他們想要的識(shí)別特定聲音事件的樣板,公司將提供一個(gè)可以滿(mǎn)足他們特定需要的軟件平臺(tái)。
預(yù)測(cè)性維護(hù)不僅是可實(shí)現(xiàn)的,而且將隨時(shí)可以使用。像3DSignals和OtoSense這樣的公司都瞄準(zhǔn)了這個(gè)領(lǐng)域:利用商品化的物聯(lián)網(wǎng)傳感器來(lái)幫助用戶(hù)準(zhǔn)確無(wú)誤地替換剛出問(wèn)題的部件,從而避免了代價(jià)高昂的停機(jī)時(shí)間。
明天的機(jī)器
在未來(lái)的幾年內(nèi),我們將為廣泛的聲音檢測(cè)問(wèn)題提供解決方案。新的聲學(xué)分析系統(tǒng)將跟蹤機(jī)器的生命周期成本,并幫助企業(yè)估計(jì)未來(lái)的預(yù)算。
ATS咨詢(xún)公司(該公司從事噪聲和振動(dòng)分析工作)的工程師ShannonMcKenna表示:“美國(guó)聯(lián)邦運(yùn)輸管理局(FederalTransit Administration)強(qiáng)烈推動(dòng)交通資產(chǎn)管理(Transit Asset Management)的狀態(tài)評(píng)估。我們認(rèn)為這是一種幫助運(yùn)輸機(jī)構(gòu)為其鐵路系統(tǒng)提供狀態(tài)評(píng)估指標(biāo)的方法。“
除了像輪哨聲這樣的短路指示器,鐵路監(jiān)控工程師開(kāi)始陷入如同在干草堆里尋找一個(gè)漂亮的粗糙的針頭這樣的問(wèn)題。 McKenna解釋說(shuō),普通聲信號(hào)只代表大約50%的復(fù)雜鐵路系統(tǒng)可能面臨的問(wèn)題。與規(guī)范性檢查的框架相反,真正的風(fēng)險(xiǎn)管理需要一個(gè)通用系統(tǒng) ––沒(méi)有人希望遇到由于罕見(jiàn)情況而導(dǎo)致的災(zāi)難。
但我們要想實(shí)現(xiàn)可以識(shí)別任何聲音的廣義分類(lèi)器仍有很長(zhǎng)的路要走。除非在算法上取得突破,我們將不得不分段解決問(wèn)題。我們將需要研究人員建造出用于地下地鐵系統(tǒng)、人類(lèi)呼吸系統(tǒng)和關(guān)鍵能源基礎(chǔ)設(shè)施的聲音分類(lèi)器,以幫助監(jiān)控可能發(fā)生的事故。
來(lái)源:https://techcrunch.com/2017/01/29/the-sound-of-impending-failure/
【本文是51CTO專(zhuān)欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】