Siri越來(lái)越“大眾”,未來(lái)智能語(yǔ)音會(huì)有哪些突破?
原創(chuàng)對(duì)于人機(jī)交互來(lái)說(shuō),如何讓機(jī)器具備良好的聽(tīng)覺(jué),一直是近些年來(lái) AI 領(lǐng)域不懈追求的目標(biāo)。2009 年前后,深度學(xué)習(xí)模型用于開(kāi)始走出學(xué)術(shù)界,而以語(yǔ)音喚醒、識(shí)別、增強(qiáng)和合成為代表的智能語(yǔ)音技術(shù),也逐漸走向成熟。
一個(gè)早期典型的例子是,2011 年 siri 的誕生。智能語(yǔ)音成了人與機(jī)器之間的溝通交互方式的新躍遷。而后經(jīng)過(guò)十余年的發(fā)展,"嘿,siri"式的人機(jī)問(wèn)答已經(jīng)不再局限于移動(dòng)終端設(shè)備,走進(jìn)千家萬(wàn)戶,廣泛應(yīng)用于各個(gè)場(chǎng)景:家居陪伴智能音箱,方便網(wǎng)購(gòu)的天貓精靈,會(huì)議上的同聲翻譯,出行時(shí)的車載語(yǔ)音導(dǎo)航助手等等。
隨著越來(lái)越多的互聯(lián)網(wǎng)企業(yè)及上游廠商在智能語(yǔ)音賽道的積極布局,智能語(yǔ)音客服、對(duì)話式 AI 應(yīng)用、AI 虛擬助手等產(chǎn)品的取得了進(jìn)一步質(zhì)量提升,響應(yīng)語(yǔ)音更自然,理解問(wèn)題更準(zhǔn)確,并且有了自己的"小情緒"。
身處數(shù)字化浪潮的時(shí)代,萬(wàn)物互聯(lián)的趨勢(shì)不可阻擋。而智能語(yǔ)音作為當(dāng)下人機(jī)交互的關(guān)鍵接口,正處于與實(shí)體經(jīng)濟(jì)深度融合碰撞的時(shí)期。隨著應(yīng)用場(chǎng)景的進(jìn)一步下沉和拓展,我們也看到不少挑戰(zhàn)性的問(wèn)題,比如:如何識(shí)別說(shuō)話人身份、如何識(shí)別方言、如何消除歧義等等都是最新的研究熱點(diǎn)。
一項(xiàng)技術(shù)走向成熟的背后,往往蘊(yùn)含著一些潛質(zhì),這其中包括它在實(shí)際應(yīng)用中的創(chuàng)新能力,以及它更有潛力的演進(jìn)方向。展望下一個(gè)階段,智能語(yǔ)音技術(shù)也必會(huì)出現(xiàn)新的演進(jìn)趨勢(shì),例如:深度集成的AI語(yǔ)音芯片能否取代云端運(yùn)行模型的模式?多模態(tài)融合、無(wú)監(jiān)督學(xué)習(xí)、腦學(xué)科交叉融合的創(chuàng)新研究能否取得突破性成果?我們拭目以待。
那么,智能語(yǔ)音技術(shù)在各大企業(yè)中實(shí)踐探索中都遇到了哪些真實(shí)的生產(chǎn)問(wèn)題?又是如何解決的?取得了哪些進(jìn)展?行業(yè)出現(xiàn)了哪些新變化?下一步的發(fā)展趨勢(shì)又會(huì)有哪些?"AISummit全球人工智能技術(shù)大會(huì)"智能語(yǔ)音技術(shù)專場(chǎng)帶給你深度思考!
8月7日,51CTO傾力打造的“AISummit全球人工智能技術(shù)大會(huì)”智能語(yǔ)音專場(chǎng)重磅來(lái)襲!
專場(chǎng)有哪些你感興趣的專題內(nèi)容?
專題一:作業(yè)幫語(yǔ)音技術(shù)實(shí)踐
1.語(yǔ)音識(shí)別技術(shù)探索:分享端到端、高效利用數(shù)據(jù)等大規(guī)模實(shí)際應(yīng)用場(chǎng)景下的語(yǔ)音識(shí)別技術(shù),并提出了基于前綴自動(dòng)機(jī)的熱詞技術(shù)方案。
2.語(yǔ)音評(píng)測(cè)技術(shù)實(shí)踐:語(yǔ)音發(fā)音糾錯(cuò)技術(shù)方面結(jié)合作業(yè)幫的高并發(fā)場(chǎng)景,提出了多任務(wù)知識(shí)遷移、多模態(tài)特征融融合方案,很大程度上提升提升模型的因素區(qū)分能力和噪聲環(huán)境下的檢錯(cuò)能力。并針對(duì)語(yǔ)音評(píng)測(cè)落地難的痛點(diǎn),提出了高性能的云端一體化測(cè)評(píng)技術(shù)。
3.語(yǔ)音合成技術(shù)框架:分享作業(yè)幫基于現(xiàn)有的小數(shù)據(jù)量語(yǔ)音技術(shù)框架進(jìn)一步改進(jìn)的思考與實(shí)踐。
專題二:字節(jié)語(yǔ)音識(shí)別技術(shù)在飛書(shū)中的應(yīng)用
1.語(yǔ)音識(shí)別技術(shù)在辦公場(chǎng)景中的應(yīng)用進(jìn)程:辦公郵件、即時(shí)通訊中的語(yǔ)音輸入辦公語(yǔ)音助手、實(shí)時(shí)字幕&會(huì)后轉(zhuǎn)寫(xiě)。
2.解決思考:會(huì)議智能化、效率提升。
3.挑戰(zhàn)與機(jī)遇:語(yǔ)音識(shí)別任務(wù)的挑戰(zhàn)、下游任務(wù)帶來(lái)的挑戰(zhàn)、會(huì)議提供額外的信息。
4.重點(diǎn)算法工作介紹(端到端語(yǔ)音識(shí)別系統(tǒng)):Transducer & CIF、動(dòng)態(tài)+靜態(tài)熱詞、Context-aware。
專題三:構(gòu)建高水平的語(yǔ)音合成系統(tǒng)實(shí)踐
1.高水平語(yǔ)音合成系統(tǒng)背景介紹及問(wèn)題分析。
2.高水平語(yǔ)音合成系統(tǒng)設(shè)計(jì)思考與實(shí)現(xiàn)。
3.實(shí)驗(yàn)評(píng)估。
4.未來(lái)工作展望。
專題四:SOUL社交場(chǎng)景下的智能語(yǔ)音技術(shù)實(shí)踐之路
1.SOUL社交元宇宙場(chǎng)景下的端到端語(yǔ)音識(shí)別
2.多模態(tài)語(yǔ)音合成技術(shù)的構(gòu)建路線
3.在語(yǔ)音安全和語(yǔ)音交互等業(yè)務(wù)場(chǎng)景下的應(yīng)用
專題五:端到端語(yǔ)音識(shí)別技術(shù)在58同城的探索實(shí)踐
1.語(yǔ)音識(shí)別在58同城的應(yīng)用場(chǎng)景:AI智能語(yǔ)音應(yīng)用、語(yǔ)音識(shí)別鏈路介紹、挑戰(zhàn)與技術(shù)路線
2.基于WeNet的模型優(yōu)化工作:半監(jiān)督訓(xùn)練、Efficient Conformer、模型壓縮
3.端到端語(yǔ)音識(shí)別的部署方案:自研引擎架構(gòu)、Wenet解碼服務(wù)部署、流式/非流式解碼性能測(cè)試
都有哪些重量級(jí)嘉賓?
一、宋旸,作業(yè)幫首席算法專家、智能中臺(tái)負(fù)責(zé)人、專場(chǎng)出品人
宋旸在百度工作7年,從事算法研發(fā)工作。2015年加入作業(yè)幫,為智能中臺(tái)部負(fù)責(zé)人,為公司各業(yè)務(wù)輸出包括數(shù)據(jù)挖掘、NLP、語(yǔ)音在內(nèi)的中臺(tái)技術(shù)能力,先后負(fù)責(zé)搜索答疑、個(gè)性化推薦、智能質(zhì)檢、語(yǔ)音評(píng)測(cè)、服務(wù)智能化調(diào)度等方向。
二、王強(qiáng)強(qiáng),作業(yè)幫語(yǔ)音技術(shù)團(tuán)隊(duì)負(fù)責(zé)人
在加入作業(yè)幫之前,王強(qiáng)強(qiáng)曾任職于清華大學(xué)電子工程系語(yǔ)音處理與機(jī)器智能實(shí)驗(yàn)室,負(fù)責(zé)語(yǔ)音識(shí)別算法落地,搭建工業(yè)級(jí)解決方案。2018 年加入作業(yè)幫,負(fù)責(zé)語(yǔ)音相關(guān)算法研究和落地,主導(dǎo)了語(yǔ)音識(shí)別、評(píng)測(cè)、合成等算法在作業(yè)幫的落地實(shí)踐, 為公司提供整套語(yǔ)音技術(shù)解決方案。
三、張駿,字節(jié)跳動(dòng)AI Lab語(yǔ)音識(shí)別算法研究員
張駿長(zhǎng)期從事語(yǔ)音識(shí)別、語(yǔ)音喚醒等語(yǔ)音算法研究與應(yīng)用,經(jīng)驗(yàn)豐富。2018 年加入字節(jié)跳動(dòng)AI Lab智能語(yǔ)音團(tuán)隊(duì),目前主要負(fù)責(zé)智能辦公、智能硬件、智能客服等方向的語(yǔ)音技術(shù)方案建設(shè)。
四、譚旭,微軟亞洲研究院主管研究員
譚旭,研究領(lǐng)域包括深度學(xué)習(xí)、自然語(yǔ)言/語(yǔ)音/音樂(lè)、AI內(nèi)容生成等。研發(fā)的機(jī)器翻譯和語(yǔ)音合成系統(tǒng)獲得多項(xiàng)比賽冠軍并在學(xué)術(shù)評(píng)測(cè)集上達(dá)到人類水平,研究工作如預(yù)訓(xùn)練語(yǔ)言模型MASS、語(yǔ)音合成模型FastSpeech/NaturalSpeech、AI音樂(lè)項(xiàng)目Muzic受到業(yè)界廣泛關(guān)注。
五、劉忠亮,SOUL語(yǔ)音算法負(fù)責(zé)人
劉忠亮碩士畢業(yè)于中科院研究生院,目前在SOUL擔(dān)任語(yǔ)音算法負(fù)責(zé)人,曾任職于搜狗AI交互部和陌陌大數(shù)據(jù)部。近10年主要從事語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)音合成、音頻音樂(lè)理解等語(yǔ)音技術(shù)體系的研發(fā)工作,主要應(yīng)用于輸入法、手機(jī)助手、智能硬件、語(yǔ)音安全等語(yǔ)音交互和語(yǔ)音理解業(yè)務(wù)場(chǎng)景,致力于打造最好的可落地的語(yǔ)音技術(shù)。
六、周維,58同城 AI Lab語(yǔ)音算法部負(fù)責(zé)人、算法架構(gòu)師
周維,58同城AI Lab語(yǔ)音算法部負(fù)責(zé)人、算法架構(gòu)師,負(fù)責(zé)語(yǔ)音識(shí)別、語(yǔ)音合成算法研發(fā)。2016年碩士畢業(yè)于中國(guó)科學(xué)院大學(xué),畢業(yè)后參與對(duì)話式AI產(chǎn)品方向創(chuàng)業(yè),2018年5月加入58同城,曾先后參與智能客服、智能外呼、智能寫(xiě)稿等AI項(xiàng)目的NLP算法研發(fā),2019年開(kāi)始主攻語(yǔ)音算法方向,帶領(lǐng)團(tuán)隊(duì)從0到1自主研發(fā)58同城語(yǔ)音處理引擎中的語(yǔ)音算法。
還有哪些精彩活動(dòng)?
除了精彩的AI技術(shù)大咖的精彩的實(shí)踐創(chuàng)新干貨分享外,AISummit全球人工智能技術(shù)大會(huì)還為與會(huì)的朋友們準(zhǔn)備了豐富的場(chǎng)前、場(chǎng)中互動(dòng)福利。加入這場(chǎng)盛會(huì),在拓展技術(shù)能力和人脈資源的同時(shí),順便驚喜禮品帶回家!
活動(dòng)包括"當(dāng)人不讓"、"工享幸運(yùn)"、"智同道合"等四大妙趣橫生的互動(dòng)游戲,總有一款精美禮品驚艷到你!那么,傳說(shuō)中神秘的終極大獎(jiǎng)會(huì)是什么呢?等待熱愛(ài)技術(shù)的你來(lái)現(xiàn)場(chǎng)揭秘!(PS:聽(tīng)說(shuō)越早預(yù)約報(bào)名,中大獎(jiǎng)幾率越高哦?。?/span>
怎么快速預(yù)約報(bào)名?
點(diǎn)擊進(jìn)入??AISummit 全球人工智能技術(shù)大會(huì)?? 官方網(wǎng)站,按提示完整填寫(xiě)、提交信息即可完成報(bào)名。
掃碼加入大會(huì)官方群,參與抽獎(jiǎng),贏取SONY音響、冰墩墩、AI技術(shù)書(shū)籍等精美禮品,還有紅包雨掉落。