語音識別:市場前景可觀,但核心技術(shù)仍需突破
隨著人工智能產(chǎn)品在生活中的滲透率越來越高,其中技術(shù)的發(fā)展也成為了眾人關(guān)心的重點所在。作為人機自然交互的基本途徑之一,近期以來,語音識別的發(fā)展不可謂不快速。
當下,諸如科大訊飛、百度等多家企業(yè)聲稱,其研發(fā)的語音識別技術(shù)已經(jīng)達到了97%的準確率。而在日前,谷歌研究員公開表示其語音識別的錯誤率(將一個詞語從語音轉(zhuǎn)錄成為文字時的錯誤率)自2012年以來已經(jīng)降低了30%以上……縱觀過去的2016年,谷歌、蘋果和微軟等多家科技巨頭都公布了自己在語音識別上的進展和突破,而在接下來的時間里,語音識別也將是2017年的發(fā)展重點之一。
新興產(chǎn)業(yè)市場廣闊,推動語音識別技術(shù)發(fā)展
在剛剛過去不久的CES 2017展會上,我們見到了許多人工智能產(chǎn)品,要是來一場評比大賽,自動駕駛和智能家居絕對是主角。不過,再往深究,語音識別技術(shù)才是此次展會人工智能部分的“亮點”。
智能家居
在智能家居,不管是智能家電還是機器人,語音識別技術(shù)都是必備的基本功能之一。據(jù)知名市場調(diào)研公司《Markets And Markets》發(fā)布的調(diào)查報告稱,全球智能家居市場規(guī)模將在2022年達到1220億美元,2016-2022年年均增長率預(yù)測為14%。而在機器人方面,研究機構(gòu)IDC預(yù)測,至2020年,全球機器人與相關(guān)服務(wù)市場規(guī)模將由2016年的915億美元增至1880億美元。從這兩點數(shù)據(jù)來看,可想而知未來智能家居的市場之大。
在控制方式上,除了部分智能家電之外,語音控制已經(jīng)成為了市場的主流,而這就是語音識別市場的商機。未來,作為人機自然交互的前提之一,語音識別必然是智能家居的發(fā)展趨勢,只有語音識別的準確率接近完美,人機的自然交互才能繼續(xù)開展。在智能家居市場的推動下,語音識別技術(shù)必將成為重點發(fā)展對象。
智能汽車
在CES 2017展會上,各大傳統(tǒng)汽車制造商都帶來了自己在自動駕駛汽車的最新成果。與此同時,在展會上,除了展示成果,不少廠商也宣布了自己的一系列計劃,其中就包括在汽車中加入虛擬助手平臺,以促進人車交互,進一步提升用戶體驗,比如日產(chǎn)、寶馬與Cortana的合作,還有福特與Alexa的聯(lián)手。
根據(jù)美國市場研究機構(gòu)勒克斯的研究報告顯示,自動駕駛汽車將在2030年創(chuàng)造價值870億美元的市場。此外,另有研究顯示,2030年全球范圍將售出約1.2億輛自動駕駛汽車。從數(shù)據(jù)來看,自動駕駛汽車的市場十分具有看頭。
自動駕駛市場的推動下,人車交互也成了自動駕駛玩家的一個關(guān)注點,是汽車智能化的一部分。此外,相對于自動駕駛輔助技術(shù),語音識別等交互技術(shù)的實現(xiàn)則容易得多,目前也已有不少車型搭載了語音識別技術(shù)。在智能汽車中,語音識別已經(jīng)成為了一項基礎(chǔ)的服務(wù),而隨著智能化時代的來臨,人們對語音識別的要求也會進一步提升。
未來市場可觀,而語音識別仍需“做事”
在新興產(chǎn)業(yè)市場需求的推動下,語音識別的市場也是十分具有看頭的,有研究機構(gòu)指出,預(yù)計到2020年,全球語音識別的市場規(guī)模將從2015年的61.9億美元增長到200億美元。然而,在市場規(guī)模壯大這一美好的預(yù)測面前,我們也不能忽視一些需要面對的問題,只有解決了它們,語音識別才能得到完善,給用戶帶來極致服務(wù)。
首先就是對象識別的準確性。現(xiàn)在,在應(yīng)用上,我們看見語音識別多是在智能家居領(lǐng)域,包括智能家電和服務(wù)機器人。此時,我們就要考慮一個問題了,當多個家庭成員同時講話時,智能家電和服務(wù)機器人該執(zhí)行誰的命令呢?它們又如何能在眾聲音中找出自己主人的命令?這些都是當前語音識別所需要解決的問題,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內(nèi)容進行識別。
在這個問題上,人們也找到了一個解決方案——聲紋識別。一般來講,聲紋具有唯一性,對說話人身份的確認有著極大的幫助。借助于聲紋識別,語音識別能夠準確對說話人的位置和身份進行定位,從而準確識別語音內(nèi)容,執(zhí)行其中下達的指令。不過,鑒于數(shù)據(jù)的極大空缺等問題,聲紋識別技術(shù)還需完善。
其次是降低周邊環(huán)境的干擾。對于人類來講,在嘈雜環(huán)境中聽別人說話或是從眾多聲音中找出自己想聽的內(nèi)容還是一件較為簡單的事,而與此相反,這件事在機器這里并沒有那么容易。
為了降低周邊環(huán)境對語音識別的干擾,亞馬遜和谷歌都在智能音箱中使用了麥克風陣列技術(shù),從而起到一定的“降噪”作用,增加語音識別的準確率。不過,到目前為止,環(huán)境的干擾依然沒有得到更好的解決,仍然是語音識別前進道路中的一只“攔路虎”,尤其是在多段語音中準確找出指定說話人的情境中。
在一次采訪中,人工智能和機器學習權(quán)威學者、百度首席科學家吳恩達表示,2017年是“對話式電腦”快速發(fā)展的一年。對話式電腦,諸如聊天機器人、人工智能虛擬助手之類,作為展開對話的第一步,語音識別也屬于這快速發(fā)展的一部分。
在智能家居、智能汽車等多種產(chǎn)業(yè)以及聊天機器人、虛擬助手這些產(chǎn)品市場的推動下,語音識別的市場正在不斷擴大,同時也是對它準確性的一個挑戰(zhàn)。
2016年,在語音識別內(nèi)容的準確率上,各科技企業(yè)和團隊都有了相應(yīng)的突破,而在接下來的一年里,如何降低周邊環(huán)境的干擾以及如何提高對聲音的識別準確率將是語音識別所要解決的問題。