羅永浩高調(diào)站臺(tái)的訊飛是傳說(shuō) 關(guān)于語(yǔ)音輸入的四個(gè)誤區(qū)
看相聲還是看手機(jī)?當(dāng)羅永浩“意外”抖出了某語(yǔ)音輸入的包袱后。一把刷屏好手之稱的羅永浩這次是回歸廣告界了嗎?或許是。那么,因直播驚艷而走火的“老干部”科大訊飛真如老羅展示“上了天”嗎?
事實(shí)上,在語(yǔ)音識(shí)別這個(gè)幾近成熟的市場(chǎng)內(nèi),技術(shù)和產(chǎn)品的勝負(fù)早已有定奪。要了解語(yǔ)音輸入和語(yǔ)音識(shí)別,應(yīng)該先走出四大誤區(qū)。
誤區(qū)一:語(yǔ)音識(shí)別是個(gè)新領(lǐng)域嗎?
1950年,計(jì)算機(jī)之父圖靈在《思想》雜志上發(fā)表了一篇題為《計(jì)算的機(jī)器和智能》的論文。在這篇文章中圖靈提出了影響至今的圖靈測(cè)試,后來(lái),計(jì)算機(jī)科學(xué)家們認(rèn)為,如果計(jì)算機(jī)實(shí)現(xiàn)了語(yǔ)音識(shí)別、機(jī)器翻譯、文本的自動(dòng)摘要或者寫(xiě)作、戰(zhàn)勝人類的國(guó)際象棋冠軍、自動(dòng)回答問(wèn)題中的一件事情,就可以認(rèn)為它有圖靈所說(shuō)的那種智能,所以語(yǔ)音識(shí)別是科學(xué)家們從上個(gè)世紀(jì)50年代就“庖丁解牛”的領(lǐng)域。
當(dāng)科學(xué)家進(jìn)行語(yǔ)音識(shí)別研究之初,最初是陷入了計(jì)算機(jī)需要模擬人腦的誤區(qū)。直到20世紀(jì)70年代,在IBM華生實(shí)驗(yàn)室,賈里尼克的團(tuán)隊(duì)花了4年的時(shí)間,開(kāi)發(fā)了一個(gè)基于統(tǒng)計(jì)法和數(shù)據(jù)的語(yǔ)音識(shí)別系統(tǒng)后,語(yǔ)音識(shí)別有了巨大飛躍,識(shí)別率迅速提高到90%以上,同時(shí)語(yǔ)音識(shí)別的規(guī)模從幾百詞上升到兩萬(wàn)多詞。從此,語(yǔ)音識(shí)別就從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用了。
誤區(qū)二:訊飛是個(gè)toC的公司嗎?
當(dāng)然,從用戶群來(lái)說(shuō),哪個(gè)產(chǎn)品的用戶數(shù)多,則代表著該產(chǎn)品被用戶的認(rèn)可度更高。
事實(shí)上,科大訊飛一直是個(gè)2B(面向企業(yè)用戶)服務(wù)的公司,將自己的人工智能服務(wù)授權(quán)給其他企業(yè)是主要的商業(yè)模式。雖然科大訊飛在最近幾年也開(kāi)始發(fā)力2C(面向消費(fèi)者)的產(chǎn)品,比如智能音箱、錄音寶、錄音筆等硬件,以及錘子發(fā)布會(huì)火了的“語(yǔ)音識(shí)別”,但這些產(chǎn)品在市場(chǎng)上的占有率并不算高。
那么,到底什么語(yǔ)音輸入法是2C用戶為主,被用戶使用次數(shù)最多、認(rèn)可度更高的呢?數(shù)據(jù)會(huì)說(shuō)話。答案是歷經(jīng)五年發(fā)展的搜狗語(yǔ)音輸入。據(jù)了解,截止目前,搜狗輸入法總用戶量已經(jīng)超過(guò)5億,其中有相當(dāng)部分的用戶會(huì)用到語(yǔ)音識(shí)別功能,每天擁有超過(guò)1.9億次的語(yǔ)音請(qǐng)求,是中國(guó)語(yǔ)音輸入量***的應(yīng)用工具。
誤區(qū)三:沒(méi)數(shù)據(jù)就能做好語(yǔ)音輸入嗎?
“我的辦公室里每開(kāi)除一個(gè)語(yǔ)言學(xué)家,我的語(yǔ)音識(shí)別系統(tǒng)錯(cuò)誤率就能降低一個(gè)百分點(diǎn)!”當(dāng)大神賈里尼克說(shuō)出這句話的時(shí)候,他就意識(shí)到語(yǔ)音識(shí)別和語(yǔ)言語(yǔ)法關(guān)系不大,而是和語(yǔ)料數(shù)據(jù)息息相關(guān)。
要提升語(yǔ)音輸入用戶的產(chǎn)品體驗(yàn),必然需要積累大量的數(shù)據(jù)。搜狗語(yǔ)音識(shí)別背后就是由搜狗搜索引擎大數(shù)據(jù)支持,加之積累了十年的搜狗輸入法云詞庫(kù)數(shù)據(jù),這樣才提升了用戶的使用體驗(yàn),從大數(shù)據(jù)的角度來(lái)看,科大訊飛在短時(shí)間是難以趕超搜狗的。
搜狗和科大訊飛***的不同是,搜狗是一家互聯(lián)網(wǎng)企業(yè),其互聯(lián)網(wǎng)的產(chǎn)品布局更多,服務(wù)更全面,語(yǔ)音識(shí)別不僅能用于搜狗語(yǔ)音輸入法,還能用于搜狗搜索、搜狗地圖,一方面采集更廣泛數(shù)據(jù),另一方也將用戶體驗(yàn)提升至一個(gè)更高的水平。
誤區(qū)四:語(yǔ)音識(shí)別上屏是初亮相
“天啦嚕,老羅一邊演講,一邊字幕就上墻了!太神奇了!”能有類似感慨的不能不說(shuō)是語(yǔ)音識(shí)別界的“小白”。
今年7月,搜狗公司CEO王小川在極客公園“奇點(diǎn)·創(chuàng)新者峰會(huì)”,就首秀了演講內(nèi)容在現(xiàn)場(chǎng)實(shí)時(shí)生成滾動(dòng)字幕,同步的字幕引起了現(xiàn)場(chǎng)觀眾極大的興趣,紛紛起立拍照。在演講結(jié)束后,現(xiàn)場(chǎng)語(yǔ)音識(shí)別成果立刻生成了完整的演講稿,觀眾通過(guò)掃描二維碼即可閱讀。利用搜狗公司的語(yǔ)音識(shí)別技術(shù),王小川的演講內(nèi)容顯示為文字的準(zhǔn)確率已高達(dá)97%以上。
此外,搜狗語(yǔ)音輸入的新功能“語(yǔ)音修改”也***展示。用戶對(duì)著手機(jī)說(shuō)出一段文字后,再通過(guò)自然語(yǔ)言的方式將語(yǔ)音識(shí)別錯(cuò)誤的地方進(jìn)行修正,贏得了現(xiàn)場(chǎng)熱烈的掌聲。因?yàn)樗压氛Z(yǔ)音交互引擎“知音”所具備的利用自然語(yǔ)言交互的語(yǔ)音修改能力,搜狗語(yǔ)音不僅要實(shí)現(xiàn)“能聽(tīng)會(huì)說(shuō)”,還要求具有“能理解會(huì)思考”的能力。