DingDong智能音箱:聽見科技的聲音
在今年首屆亞洲消費(fèi)電子展(International CES Asia)上,京東智能與科大訊飛聯(lián)手推出了首款產(chǎn)品——DingDong智能音箱,一經(jīng)發(fā)布便引起了業(yè)界的普遍關(guān)注。其不僅開創(chuàng)了一種嶄新的語音交互方式,同時(shí)也是一款具有入口級戰(zhàn)略意義的智能產(chǎn)品。語音交互一直是人類探索人機(jī)交互的下一步場景。這種場景讓我們可以徹底解放雙手,如果你認(rèn)為這種情況還只能出現(xiàn)在科幻電影里,那不妨看看京東智能與科大訊飛是如何讓科幻照進(jìn)現(xiàn)實(shí)的。
自由之聲:麥克風(fēng)遠(yuǎn)場識別技術(shù)
語音交互想要做到智能化,首先是要在場景的使用上足夠自由,也就是說,不論你在客廳的哪個(gè)角落發(fā)出指令,設(shè)備都能夠準(zhǔn)確的識別。想要做到這樣一種體驗(yàn),它所涉及的是多種復(fù)雜的語音交互處理。
目前室內(nèi)的語音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響,導(dǎo)致識別率極低,甚至無法使用,只能在相對安靜、近距離的環(huán)境下使用。為了能夠打破這種限制,科大訊飛為DingDong智能音箱提供了遠(yuǎn)場識別技術(shù),使語音交互的距離可以達(dá)到5米且保證識別率在90%以上,這也是目前市場上唯一支持5米的超遠(yuǎn)距離語音交互產(chǎn)品。
該技術(shù)利用安放在音箱頂部的8個(gè)麥克風(fēng)陣列,實(shí)現(xiàn)空間上360°的語音信號采集,通過聲源定位來確定目標(biāo)說話人的方向。同時(shí),利用麥克風(fēng)陣列形成的空域?yàn)V波特性,在目標(biāo)說話人方向形成拾音波束,抑制波束之外的噪音和反射聲,此外,結(jié)合獨(dú)特的去混響算法,***程度的吸收反射聲,從而達(dá)到去混響的目的。
細(xì)心設(shè)計(jì)的結(jié)構(gòu)與精密的算法結(jié)合,將目標(biāo)聲源方向之外的噪聲或干擾抑制10dB以上,很好的保障了DingDong智能音箱的語音識別率。
在排除了外部干擾之后,音箱本身所發(fā)出的聲音,如何不變成干擾,使用戶可以在播放過程中進(jìn)行喚醒和打斷,DingDong智能音箱采用了基于多通道回聲消除的語音打斷技術(shù),通過多通道回聲消除和麥克風(fēng)陣列技術(shù)的結(jié)合,實(shí)現(xiàn)音箱在播放100dB的音樂時(shí),可以做到90%的語音喚醒率。
聆聽之聲:語音識別技術(shù)
在解決了遠(yuǎn)距離語音交互的混響和噪音問題后,“語音識別”便成了決定這款音箱是否智能的關(guān)鍵。“語音識別”技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)裝上“耳朵”,使其具備“能聽”的功能。該技術(shù)經(jīng)過語音信號處理、語音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟,使機(jī)器最終能夠?qū)⒄Z音中的內(nèi)容、說話人、語種等信息識別出來。
為此科大訊飛將深度神經(jīng)網(wǎng)絡(luò)技術(shù)引入到了語音識別當(dāng)中。通過海量訓(xùn)練語料基礎(chǔ)上的高精度聲學(xué)模型和語言模型訓(xùn)練,并結(jié)合***的解碼引擎工程技術(shù),使識別效果和識別速度有了質(zhì)的提升。大詞匯連續(xù)語音識別率達(dá)到95%以上,命令詞識別率達(dá)到99%以上,解碼引擎可以在用戶講話后40毫秒內(nèi)給出結(jié)果,實(shí)現(xiàn)真正的“秒懂”。
不僅要“秒懂”還要24小時(shí)待命,在我需要的時(shí)候,發(fā)出特定的喚醒詞觸發(fā)語音識別系統(tǒng),以實(shí)現(xiàn)后續(xù)的語音交互。然而這僅僅是挑戰(zhàn)的開始,人類的語言是復(fù)雜的,每個(gè)人說話時(shí),口音、語速、口頭禪都不一樣,智能設(shè)備只會識別一些基本詞句顯然遠(yuǎn)遠(yuǎn)不夠,它們必須更懂你。懂你的口音、方言、口頭禪亦或時(shí)不時(shí)蹦出來的專業(yè)詞匯等。這就牽扯到另外一項(xiàng)技術(shù)——個(gè)性化識別技術(shù)。
個(gè)性化識別指的是語音識別系統(tǒng)具備自動學(xué)習(xí)并適應(yīng)用戶使用習(xí)慣的能力,你用的越多,它越懂你。一般來說,個(gè)性化識別包括發(fā)音和語言兩方面。其中發(fā)音個(gè)性化主要是指系統(tǒng)對用戶語速、口音等發(fā)音習(xí)慣的學(xué)習(xí),而語言個(gè)性化主要是指系統(tǒng)可以對用戶的特定詞匯(例如人名、地名、口頭禪、專業(yè)詞匯等)具備更好的辨識性。在DingDong智能音箱所采用的個(gè)性化識別技術(shù)上,能夠針對每個(gè)人的興趣點(diǎn)、知識背景來進(jìn)行個(gè)性化語言模型建模,從而準(zhǔn)確識別出個(gè)性化的詞匯內(nèi)容。
聯(lián)接之聲:微聯(lián)與京東智能云
既然是一款具有入口級戰(zhàn)略意義的智能產(chǎn)品,在邁入了語音交互的這道門檻之后,它所要做的就是聯(lián)接。DingDong智能音箱已經(jīng)接入到了京東微聯(lián)的平臺當(dāng)中,這意味著通過微聯(lián)的平臺你可以跨品牌、跨平臺的與多種智能設(shè)備連接,并控制。目前京東微聯(lián)對接的產(chǎn)品已經(jīng)超過400款,覆蓋生活電器、廚房電器、空調(diào)、可穿戴設(shè)備。試想一下,你可以對DingDong智能音箱發(fā)出指令,讓其打開空調(diào),關(guān)閉電源等操作。這種場景化的組合,正是微聯(lián)賦予智能產(chǎn)品新的意義所在。
音箱與微聯(lián)的結(jié)合,讓我們看到了更接近電影中智能管家的形象。實(shí)現(xiàn)智能設(shè)備的統(tǒng)一管理,互聯(lián)互通,大數(shù)據(jù)的集中管理,這樣的做法,很好的規(guī)避了智能硬件之間形成的孤島,數(shù)據(jù)無法互通的問題,真正的讓數(shù)據(jù)包裹住用戶,從而形成連貫的數(shù)據(jù)記錄。
為了能夠構(gòu)建完整的智能生態(tài),在微聯(lián)的背后還有京東智能云的支撐,它將用戶、智能硬件和APP應(yīng)用三者有效的連接起來。使得智能硬件廠商和用戶充分享受到大數(shù)據(jù)分析、云計(jì)算構(gòu)建的智能硬件生態(tài)圈。實(shí)現(xiàn)智能場景化、開放服務(wù)、可對接O2O服務(wù)商等***延伸。
合作之聲:京東與科大訊飛
DingDong智能音箱很好的體現(xiàn)了核心技術(shù)與智能產(chǎn)業(yè)鏈整合的威力。來自科大訊飛的語音識別和交互技術(shù)帶來了流暢的交互,而京東微聯(lián)則提供了跨品牌、跨平臺的智能產(chǎn)品連接和控制,對于用戶來說,DingDong智能音箱將扮演起智能家居交互中樞的角色。推動智能家居的普及,改變用戶習(xí)慣。
智能音箱的智能家居語音交互入口定位充分顯示了京東開放的智能生態(tài)布局,京東希望通過自己的努力推動智能行業(yè)發(fā)展,拓寬市場,贏得更多用戶對智能產(chǎn)品的接受,從而帶動合作伙伴共同成長。
關(guān)于京東(JD.com)
京東(JD.com)是中國***的自營式電商企業(yè)。京東為消費(fèi)者提供愉悅的在線購物體驗(yàn)。通過內(nèi)容豐富、人性化的網(wǎng)站(www.jd.com)和移動客戶端,京東以富有競爭力的價(jià)格,提供具有豐富品類及卓越品質(zhì)的商品和服務(wù),并且以快速可靠的方式送達(dá)消費(fèi)者。京東相信其擁有全國電商行業(yè)中***的倉儲設(shè)施。截至2015年3月31日,京東在全國范圍內(nèi)擁有7大物流中心,在43座城市運(yùn)營了143個(gè)大型倉庫,擁有3,539個(gè)配送站和自提點(diǎn),覆蓋全國范圍內(nèi)的1,961個(gè)區(qū)縣,且全部自營。
關(guān)于京東智能(JD Smart)
京東智能成立于2014年8月,承載著京東集團(tuán)未來在智能領(lǐng)域的創(chuàng)新與布局。它通過JD+計(jì)劃整合了智能產(chǎn)業(yè)鏈上下游優(yōu)質(zhì)資源和微聯(lián)技術(shù)平臺,為用戶提供有品質(zhì)的智能的互聯(lián)、互通產(chǎn)品,讓他們生活的簡單、快樂。京東智能建立了開放的線上頁面,聚集了用戶和品牌商、初創(chuàng)團(tuán)隊(duì),讓用戶來京東一起玩智能、感受智能生活。
關(guān)于科大訊飛(iFLYTEK)
科大訊飛股份有限公司(iFLYTEK)是一家專業(yè)從事智能語音及語言技術(shù)、人工智能技術(shù)研究,軟件及芯片產(chǎn)品開發(fā),語音信息服務(wù)的***骨干軟件企業(yè)??拼笥嶏w的語音合成、語音識別、口語評測、自然語言處理、麥克風(fēng)陣列等智能語音與人工智能核心技術(shù),代表了世界的***水平。
2014年8月,科大訊飛發(fā)布了“訊飛超腦”計(jì)劃,核心是讓機(jī)器從“能聽會說”到“能理解會預(yù)測”。基于在人工智能研究的突破,2014年科大訊飛***參加國際口語機(jī)器翻譯比賽就擊敗了國外***研究機(jī)構(gòu)和院校,摘得桂冠。作為“訊飛超腦”的重要組成部分,科大訊飛正牽頭國家“863”重大專項(xiàng)——類人答題機(jī)器人項(xiàng)目的研發(fā)工作??拼笥嶏w為全行業(yè)2000多家企業(yè)提供語音核心技術(shù),占有中文語音主流市場70%以上市場份額,在教育、通信、金融、互聯(lián)網(wǎng)等領(lǐng)域廣泛應(yīng)用。2010年,科大訊飛在全球發(fā)布了***提供移動互聯(lián)網(wǎng)智能語音交互能力的“訊飛語音云”平臺(該平臺應(yīng)用項(xiàng)目合作伙伴超過6萬家,終端用戶數(shù)量超過6.8億),并且在最近將更具人工智能屬性的云端自然語言處理和全球識別率***的人臉識別技術(shù)納入其中。目前,科大訊飛已發(fā)展成為亞太地區(qū)***的語音上市公司和智能語音與人工智能產(chǎn)業(yè)的***。