成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小鵬汽車的車規(guī)級(jí)“真”人語(yǔ)音助手,是如何煉成的?

企業(yè)動(dòng)態(tài)
不久前,小鵬汽車P7車型進(jìn)行了一次重要的OTA(Over-The-Air,遠(yuǎn)程空中下載)系統(tǒng)升級(jí),其中語(yǔ)音助手小P媲美人聲的更新,再次拉高了智能汽車語(yǔ)音助手的水平線。

 如果在你的愛車?yán)铮幸豢钅芟袢艘粯颖磉_(dá)情緒的智能車載語(yǔ)音助手,它媲美人聲,不用反復(fù)喚起就能流暢對(duì)話,會(huì)對(duì)你說“好滴”而不是“好的”,這樣的語(yǔ)音助手你會(huì)心動(dòng)嗎?

不久前,小鵬汽車P7車型進(jìn)行了一次重要的OTA(Over-The-Air,遠(yuǎn)程空中下載)系統(tǒng)升級(jí),其中語(yǔ)音助手小P媲美人聲的更新,再次拉高了智能汽車語(yǔ)音助手的水平線。

“耗時(shí)十個(gè)月上線,這是一次汽車界對(duì)車載語(yǔ)音的前沿探索。”小鵬汽車AI產(chǎn)品高級(jí)專家郝超說道。

對(duì)于車載語(yǔ)音來說,“媲美人聲”為什么很重要,小P的更新到底高明在什么地方?我們跟郝超以及微軟云計(jì)算與人工智能事業(yè)部產(chǎn)品總監(jiān)丁秉公聊了聊關(guān)于車載語(yǔ)音的那些事兒。

車載語(yǔ)音“媲美人聲”為什么很重要?

不知道大家有沒有這種感覺,在手機(jī)上或者智能音箱上聽機(jī)器人播新聞,好像總沒有真人主播播得痛快;特別是無聊的時(shí)候,想跟語(yǔ)音助手逗個(gè)樂,三兩句話下來,總會(huì)無奈地自言自語(yǔ)一句:“它真的好傻啊。”

在業(yè)界,這種同語(yǔ)音助手互動(dòng)不流暢帶來的不適感,可以用“聽覺疲勞”來形容。而相對(duì)于家常環(huán)境場(chǎng)景下的語(yǔ)音互動(dòng),如在長(zhǎng)時(shí)間開車的場(chǎng)景下,車主很大程度上會(huì)放大對(duì)聽覺疲勞的感知。換句話說,車主對(duì)語(yǔ)音助手語(yǔ)音流暢度、自然度敏感性更高,對(duì)車載語(yǔ)音助手更逼近人聲的需求也更高。

“小P升級(jí)后,很多車主半夜蹲點(diǎn)兒去車?yán)飺屜仍嚶犘侣曇簟?rdquo;郝超說起小P剛更新時(shí)一些車主的反應(yīng)。

這與車載語(yǔ)音產(chǎn)品不斷追求“媲美人聲”的效果,形成了一種默契。“原來我們可能只追求讓大家把聲音聽懂就行,后來我們認(rèn)為不僅要聽懂,還要像人聲一樣更加自然,最后我們覺得自然還不夠,還想用多情感的聲音來代替單調(diào)的聲音。”丁秉公表示。

因此早在2018年,為了讓人工智能的聲音更自然,微軟就已經(jīng)在神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù)上做了很多工作。最近兩年來,該技術(shù)的不斷創(chuàng)新使合成聲音錯(cuò)誤率進(jìn)一步減少、顯著提升了句子韻律的合成質(zhì)量和語(yǔ)音的高保真度。

數(shù)據(jù)顯示,經(jīng)行業(yè)公認(rèn)的、專業(yè)評(píng)估語(yǔ)音自然度的MOS(Mean Opinion Score平均意見評(píng)分)測(cè)試,微軟AI語(yǔ)音評(píng)分4.49分(真人錄音得分 4.5分),這證明在音質(zhì)、發(fā)音、說話準(zhǔn)確性和清晰度等方面,合成語(yǔ)音已經(jīng)能夠與真人錄音樣本相媲美。

這種更自然的合成聲音也推動(dòng)了車載語(yǔ)音場(chǎng)景的應(yīng)用的落地,小鵬汽車在這個(gè)過程中成了那個(gè)率先吃螃蟹的人。

不過需要強(qiáng)調(diào)的是,微軟提供的神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù)、及其背后的語(yǔ)音模型,都是平臺(tái)化的可匹配多行業(yè)的通用產(chǎn)品,要將這種通用產(chǎn)品與小鵬汽車的特定場(chǎng)景融合,雙方還要在“車載”場(chǎng)景上做很多融合。

“車規(guī)級(jí)”語(yǔ)音需要克服哪些難點(diǎn)?

有人可能會(huì)說,車載語(yǔ)音不就是語(yǔ)音交互嗎,現(xiàn)在不管是手機(jī)還是音箱,但凡帶點(diǎn)“智能”,讓它“說話”似乎并不是什么難事。這種質(zhì)疑并沒有什么問題,但仔細(xì)想來,就像芯片也有車規(guī)級(jí)一樣,汽車的語(yǔ)音交互系統(tǒng)也在不斷追求“車規(guī)級(jí)”的完美。

據(jù)郝超和丁秉公介紹,車規(guī)級(jí)語(yǔ)音需要克服的挑戰(zhàn)主要有3個(gè):

第一,應(yīng)對(duì)汽車移動(dòng)狀態(tài)下的網(wǎng)絡(luò)抖動(dòng),在保證聲音保真率的情況下盡量壓縮對(duì)流量及硬件性能的消耗,同時(shí)還要解決合成語(yǔ)音上比較難的歧義、分詞問題。

為了應(yīng)對(duì)網(wǎng)絡(luò)抖動(dòng),小鵬汽車采取了多級(jí)緩存的方法,把好的聲音提前進(jìn)行各級(jí)緩存然后下發(fā),盡量減少對(duì)網(wǎng)絡(luò)的依賴。“比如系統(tǒng)判斷前方500米有攝像頭,該播報(bào)了,但可能在‘前方’兩個(gè)字播出之后會(huì)因?yàn)榫W(wǎng)絡(luò)抖動(dòng)導(dǎo)致這句話播不全,那系統(tǒng)會(huì)啟動(dòng)語(yǔ)意動(dòng)態(tài)等待。”郝超說,“等個(gè)1-2秒,網(wǎng)絡(luò)抖動(dòng)過去,再播報(bào)。雖然多開了兩米,但在可接受范圍內(nèi)。”不過,像“前方右轉(zhuǎn)”等這類特殊情況除外,系統(tǒng)則不會(huì)啟動(dòng)動(dòng)態(tài)等待。

第二個(gè)比較大的難點(diǎn)是語(yǔ)音高保真度帶來的連鎖挑戰(zhàn)。

一般情況下,大部分車載語(yǔ)音系統(tǒng)的語(yǔ)音采樣率為16k HZ(一秒鐘有1萬(wàn)6千個(gè)采樣點(diǎn)),量化水平在8比特(每個(gè)采樣點(diǎn)數(shù)據(jù)量為8比特)。而小鵬汽車使用的語(yǔ)音模型在采樣率上達(dá)到了24k HZ,量化水平為16比特,這也就意味著一秒鐘的信息量是幾十KB,那么一分鐘可能就是幾十兆,一小時(shí)可能就是接近一個(gè)G,一天就是幾十G。不壓縮的話,這么大流量的壓力是非常大的。

“除了剛才談到的多級(jí)緩存,云計(jì)算在這里也起到了很大的作用。這些高質(zhì)量的聲音與微軟云相結(jié)合,在不降低聲音質(zhì)量的情況下,能夠?qū)崿F(xiàn)用戶對(duì)高保真語(yǔ)音體驗(yàn)上的實(shí)時(shí)傳輸。”丁秉公表示。

高保真的聲音也增加了對(duì)整車CPU的資源占用。因此,在實(shí)踐過程中,小鵬汽車盡量不占用本地的計(jì)算資源,在網(wǎng)絡(luò)條件好的情況下盡量對(duì)在線模型發(fā)起請(qǐng)求,而不是依賴本地,盡量平衡單位周期內(nèi)對(duì)CPU的占用。

另外一個(gè)挑戰(zhàn)是解決合成語(yǔ)音中歧義的問題。中文的分詞,多音字,數(shù)字讀法等都有歧義問題。一個(gè)典型的例子是比如“南京市長(zhǎng)江大橋”,合成語(yǔ)音可能斷句為“南京 市長(zhǎng) 江大橋”,這類烏龍?jiān)贏I合成語(yǔ)音中目前仍然很常見。“在不同的場(chǎng)景下,受眾對(duì)歧義的容忍度有很大差別。因此我們希望針對(duì)合成語(yǔ)音的使用場(chǎng)景進(jìn)行優(yōu)化,減少歧義對(duì)用戶體驗(yàn)的影響。”丁秉公強(qiáng)調(diào)。

比如,還是上文談到的人工智能播新聞的場(chǎng)景,這個(gè)時(shí)候AI分詞出現(xiàn)錯(cuò)誤最嚴(yán)重可能就是對(duì)某個(gè)句子聽不懂,但在車載場(chǎng)景下可能直接影響到車主的車況。這些都要在車載端做優(yōu)化,保證車主在開得比較快、噪音比較大的聽音環(huán)境下也能夠聽到高保真的聲音。這也是車規(guī)級(jí)語(yǔ)音同我們?nèi)粘S玫闹悄苁謾C(jī)語(yǔ)音助手、智能音箱助手比較大的不同。

車載語(yǔ)音“媲美人聲”是壁壘還是趨勢(shì)?

技術(shù)在產(chǎn)業(yè)落地的過程,往往被看作是技術(shù)尋找場(chǎng)景的過程。場(chǎng)景找到了,技術(shù)是否高深、前沿便顯得沒那么重要。

小鵬汽車的媲美人聲的車載語(yǔ)音助手也正是運(yùn)用了微軟的通用語(yǔ)言模型才達(dá)到了當(dāng)前的效果。但對(duì)于使用了通用技術(shù)的小鵬來說,小P的煉成是一次前沿技術(shù)的探索,還是通用技術(shù)落地的其中一環(huán)呢?

對(duì)于這個(gè)問題,郝超的答案更偏向于前者。“當(dāng)大家不知道AI能做什么事情的時(shí)候,可能認(rèn)為,找場(chǎng)景更重要。把現(xiàn)有的這些技術(shù)落地到某一個(gè)場(chǎng)景,可能就有AI了。這是因?yàn)榇蠹覍?duì)這個(gè)事情理解不深。”他說,“當(dāng)對(duì)整個(gè)車載場(chǎng)景,或者對(duì)出行有足夠深的理解的話,就會(huì)發(fā)現(xiàn)這里面有太多太多的問題要解決。”

郝超認(rèn)為,智能汽車非常依賴高精尖技術(shù),甚至現(xiàn)在很多技術(shù)做不到的事情,他們也希望能嘗試通過技術(shù)來解決。也就是說,對(duì)于新技術(shù)的應(yīng)用,小鵬汽車的思路是,不是有這樣一個(gè)技術(shù)能用到什么樣的場(chǎng)景,而是我們看到這樣一個(gè)場(chǎng)景,去探索、尋找有沒有更好的技術(shù)來解決。

“作為一個(gè)造車新技術(shù)的探索者,可能踩的坑會(huì)比較多,甚至成本也很高,但其實(shí)我們一直是希望探索明白了之后,路趟平了之后,告訴業(yè)內(nèi)同行們,這個(gè)方向用戶是認(rèn)可的。以此推動(dòng)整個(gè)行業(yè)的進(jìn)步。”郝超總結(jié)。

事實(shí)證明,小P的上線確實(shí)達(dá)到了這樣的效果。

當(dāng)下,作為提供通用技術(shù)平臺(tái)的微軟也正在將小鵬汽車對(duì)于語(yǔ)音模型的應(yīng)用經(jīng)驗(yàn),反哺到通用語(yǔ)音模型中。

“從技術(shù)上面,我們其實(shí)想大道至簡(jiǎn),用一套模型可以服務(wù)所有的用戶。”丁秉公說道。他認(rèn)為,微軟在不同行業(yè)里的積累,正在擴(kuò)大微軟的模型能力,觸類旁通后,使得像小鵬這樣的企業(yè)能夠在他們的基礎(chǔ)模型上,享受到平臺(tái)級(jí)的AI模型紅利。

責(zé)任編輯:趙立京 來源: 網(wǎng)絡(luò)
相關(guān)推薦

2018-09-05 10:14:32

小程序

2017-12-22 21:42:24

游戲語(yǔ)音游戲?qū)崟r(shí)語(yǔ)音

2022-01-26 10:00:39

智能車載攝像頭

2010-02-06 15:14:36

ibmdw架構(gòu)師

2010-03-24 15:40:39

網(wǎng)管運(yùn)維管理摩卡軟件

2018-06-06 15:33:47

Cortanawindows 10語(yǔ)音助手

2021-12-14 10:45:59

智能飛行汽車

2015-10-23 10:39:21

2020-12-15 11:37:18

語(yǔ)音通話網(wǎng)絡(luò)拓?fù)?/a>音頻

2020-08-04 13:20:58

無人駕駛人工智能傳感器

2020-08-03 07:57:43

人工智能無人駕駛技術(shù)

2021-11-12 15:09:08

智能自動(dòng)駕駛汽車

2012-02-01 16:32:32

2015-11-10 09:09:23

代碼程序員成長(zhǎng)

2024-03-28 08:13:51

GPTsOpenAI人工智能

2013-08-19 16:17:48

CIO

2011-11-25 09:48:04

天線無線

2015-09-06 09:09:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美日韩中文字幕 | www.色.com| 夜夜骑首页 | 日韩1区2区 | 欧美日韩免费视频 | 91人人在线 | 欧美黄色一区 | 一级片在线播放 | www国产成人免费观看视频,深夜成人网 | 二区三区av| 国产日韩欧美精品一区二区 | 国产视频久久久 | 国产精品xxxx| 欧美成人一级视频 | av毛片| 自拍偷拍第1页 | 中文字幕 在线观看 | 国产精品久久亚洲 | h视频在线看 | 国产一卡二卡三卡 | 亚洲综合色视频在线观看 | 欧洲免费毛片 | 亚洲热在线视频 | 中文字幕日本一区二区 | www在线视频| 国产91丝袜在线播放 | h肉视频 | 四虎影院免费在线 | 日韩欧美在线一区 | 97在线观看 | 欧美free性| 成人福利在线观看 | 干出白浆视频 | 日韩在线一区二区三区 | 成人国产精品入口免费视频 | 国产精品美女久久久久久免费 | 国产精品免费一区二区三区四区 | 久久免费精品 | 国产91亚洲精品 | 欧美一区二区免费电影 | 久久精品中文字幕 |