科勝訊Conexant:語音交互重在提升應用體驗
原創【51CTO.com原創稿件】或許,很多朋友都沒有聽說過科勝訊Conexant這家公司,筆者在收到采訪邀請之前,也完全不了解它們。不過,這家專業的音視頻高科技公司,已經在語音交互領域取得了不俗的成績。憑借優秀的軟硬件產品解決方案和聲學積累獲取了一大批的合作客戶,像百度、騰訊、亞馬遜這些科技巨頭,在人工智能等相關產品上均采用了科勝訊公司的語音交互解決方案。
市場占有率***的語音交互解決方案廠商
科勝訊Conexant總部位于美國加州爾灣,主要有音頻和成像兩個事業部組成。其中,音頻事業部又有兩個業務部門組成,一個是語音交互業務,一個是數字耳機業務。此次筆者采訪的重點為語音交互方面的內容。
據了解,五年之前科勝訊開始進入語音交互領域,在產品研發上投入了大量的經費,積累了豐富的經驗。可以說,它是***家涉及遠場語音交互的公司。根據科勝訊的介紹,科勝訊語音交互產品解決方案即包括DSP硬件,又集成了優秀的軟件算法,并積累了大量的聲學設計經驗。
筆者獲悉,科勝訊AudioSmart DSP實際上是一個系統芯片,除了DSP之外還集成了微控制器, 模擬數字轉換器并嵌入了科勝訊的專有Smart Source Pickup 和 Smart Source Locator算法。科勝訊表示,之所以采用這樣的設計,主要是考慮到原廠需求。原廠需要接入高性能的麥克風,所以在設計之初它就是一個功能強大的系統芯片。
科勝訊表示,基于優秀的軟硬件組合和對客戶喚醒詞和語音識別的聲學優化和設計經驗,科勝訊語音交互產品成為當前市場中占有率最多的解決方案。在國內市場,百度DuerOS產品開發套件和參考設計均采用了科勝訊方案,騰訊小微也列科勝訊作為重要的合作伙伴。在國際市場,科勝訊與亞馬遜建立了非常密切的合作關系,并成為亞馬遜官方承認的、給第三方開發者提供語音解決方案的***雙麥克風和4麥克風指定廠商。
雙麥克風仍是當前最彈性的解決方案
當市場主要推廣6個麥克風或7個麥克風的語音交互解決方案的時候,科勝訊卻推出了雙麥克風和四麥克風兩種不同的語音交互解決方案,針對不同應用場景需求, 以滿足不同行業與領域客戶的需求。談到兩種方案的應用場景優缺點,Conexant表示,兩個麥克風是目前性價比***的解決方案,其***的優點是能夠用在任何產品上,沒有太多設計上的限制并提供出色的語音拾音。例如智能音箱、智能溫度控制器、智能燈泡、智能電視、智能機頂盒和其他智能家電產品上,大都采用兩個麥克風的解決方案,并且性能和效果都非常好。
相比較兩個麥克風的方案,四個麥克風的解決方案***的特點在于其提供了聲源定位功能,因此性能更強。在科勝訊看來,聲源定位是具有潛力的功能,在具備聲源定位的未來產品上加裝攝像頭,即可以實現更多更豐富的應用。例如人類與機器人的交互,機器人能夠通過聲源定位來確定人的位置,并完成一系列的指令,如拍照、遞咖啡等,這是與兩個麥克風方案***的差別。
因為擁有專有的算法和高度優化的硬件, 科勝訊的兩個麥克風和4個麥克風解決方案甚至能夠實現比其他更多麥克風的解決方案更好的性能. 由于兩個麥克風的方案設計出的產品可以掛在墻上、天花板上,無論如何擺放,都能夠完成360度拾音,應用場景非常豐富,因此兩個麥克風方案仍然是當前最常見、最為彈性且最多被采用的方案。
語音交互的重點在于應用體驗
語音交互需要解決各種各樣的難題,例如喚醒率, 語音識別率、誤喚醒率等等,特別是面對各種復雜和不可預測的應用環境,如何有效解決這些問題,給用戶***的應用體驗,給語音交互提出了很高的要求。
由于采用了自已研發的芯片、算法,并且積累了大量的聲學經驗,因此在音頻處理方面科勝訊已經有了非常成熟的解決方案。Conexant表示,不管面對什么樣的機器,手機、電視或是任何一個終端產品,重要的是能夠在各個不同環境下準確識別聲音,將語音傳到AI引擎上面去,如百度DuerOS、騰訊云小微, 亞馬遜Alexa等。在語音識別上,噪音、回聲、混響是遠場語音交互面對的***挑戰。對于科勝訊而言,這些困難都已經攻克,現在重點是如何幫助AI供應商和制造商開發良好用戶體驗的產品。
據了解,目前市場中80-90%用到的四個麥克風以上方案都是基于Beamforming降噪技術,Beamforming降噪技術的入門門檻較低,從根本上講,性能將隨著麥克風的增加而提高。科勝訊則采用了自己獨有的Smart Source Pickup技術,其***的優勢在于360度拾音時,采用了獨特的算法來分辨人聲與噪聲、回音,純粹用演算方法來區分實現。此外,當聲波束傳送過來時,Beamforming技術不能準確分辨在同一位置的人聲和噪聲,但Smart Source Pickup技術不存在這個問題,不管聲音在什么地方,人在什么地方,噪音在什么地方,都能夠把人聲抓出來。Smart Source Pickup技術用的是性噪比,是聲音跟噪音的比例,而不是噪音跟人聲的位置,區別非常大。
“語音交互的準確率高不高,誤喚醒率是否降到很低,這些特性都會影響到用戶對產品的使用體驗。如果用戶能夠更自然的與產品講話,更自然的問各種問題,并不是一定要聽固定的詞語,能夠很正常的像人與人之間交互一樣回答你的問題,這才是語音交互的最終目標。只有用戶體驗好,產品才會繼續向著更好的方向發展。”Conexant如是說。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】