淺談人工智能在流媒體領(lǐng)域的應(yīng)用
人工智能正加速改變各個(gè)行業(yè),而流媒體領(lǐng)域可能是其中改變最快的一個(gè)。隨著神經(jīng)網(wǎng)絡(luò)相關(guān)算法問(wèn)題得到解決,人工智能技術(shù)在最近幾年得到了快速的發(fā)展,而人工智能技術(shù)在流媒體領(lǐng)域的滲透,使這項(xiàng)技術(shù)獲得了新的突破。當(dāng)下圖片、長(zhǎng)視頻、短視頻、直播、AR等各種媒體形式占據(jù)著互聯(lián)網(wǎng)圈,在媒體內(nèi)容和形式都非常豐富的今天,如何辨識(shí)、解析這些內(nèi)容,并通過(guò)人工智能反饋是目前所有科技巨頭關(guān)注的焦點(diǎn),其中圖像識(shí)別、語(yǔ)音語(yǔ)義識(shí)別、同聲傳譯、字幕識(shí)別等應(yīng)用場(chǎng)景的進(jìn)一步挖掘,需要人工智能大戰(zhàn)拳腳。
什么是人工智能?
通俗一點(diǎn)講,人工智能就是大數(shù)據(jù)+機(jī)器學(xué)習(xí)。這跟我們?nèi)祟惡芟?,我們想要獲取知識(shí)的話,需要很多的源材料,比如通過(guò)觀察外邊的世界,去閱讀各種書籍,或者請(qǐng)教老師、他人等。對(duì)于計(jì)算機(jī)來(lái)說(shuō)也是這樣的原理,它需要獲取大量的數(shù)據(jù)去做訓(xùn)練,在大量數(shù)據(jù)里邊抽取出有用的信息,構(gòu)成它的知識(shí)庫(kù)。
數(shù)據(jù)是人工智能的基礎(chǔ)
數(shù)據(jù)是人工智能技術(shù)實(shí)現(xiàn)的基礎(chǔ),在UCloud平臺(tái)中,數(shù)據(jù)處理是如何操作的呢?首先,我們我們的對(duì)象存儲(chǔ)、直播云、媒體工廠每天會(huì)產(chǎn)生大量的原始數(shù)據(jù),比如對(duì)象存儲(chǔ)每天新增的圖片會(huì)超過(guò)10億張,但是這些原始數(shù)據(jù)并不一定是對(duì)計(jì)算機(jī)友好的,例如直播數(shù)據(jù),里面有傳輸?shù)膮f(xié)議、音視頻的交錯(cuò),還有各種編碼在里面,這樣的原始的數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō)是不友好的。我們就需要預(yù)處理的平臺(tái)對(duì)原始數(shù)據(jù)進(jìn)行處理,譬如圖片壓縮、音頻提取與聲道、采樣率歸一化、視頻的抽幀等,這些預(yù)處理的功能目前采用docker鏡像部署的方式跑在我們的彈性計(jì)算平臺(tái)上,目前有超過(guò)10000個(gè)虛擬節(jié)點(diǎn)在做這個(gè)事情。
僅有數(shù)據(jù)還是不夠的,我們需要對(duì)數(shù)據(jù)打上標(biāo)簽,讓計(jì)算機(jī)知道這個(gè)東西是什么,然后它通過(guò)數(shù)據(jù)標(biāo)簽去訓(xùn)練和想學(xué)習(xí),認(rèn)識(shí)這一類的事物。目前打標(biāo)簽有多種形式,如人工標(biāo)注、關(guān)鍵字主動(dòng)抓取等,對(duì)于難于標(biāo)注的語(yǔ)音類的數(shù)據(jù),我們也會(huì)購(gòu)買第三方的數(shù)據(jù)。數(shù)據(jù)是人工智能的基礎(chǔ),未來(lái)在人工智能這個(gè)領(lǐng)域,數(shù)據(jù)層面的競(jìng)爭(zhēng)將會(huì)非常激烈。
機(jī)器學(xué)習(xí)解決哪些問(wèn)題?
人工智能的另外一個(gè)重要環(huán)節(jié)機(jī)器學(xué)習(xí),它解決的主要是兩類問(wèn)題,一是分類,二是回歸。
分類目前應(yīng)用得比較廣泛,也相對(duì)成熟一些,如圖片的分類,給出一張圖片,識(shí)別這個(gè)圖片是小貓還是小狗;或是對(duì)文字內(nèi)容的分類,比如讓計(jì)算機(jī)去分析一篇文章到底是體育類的還是經(jīng)濟(jì)類的等等。回歸則是數(shù)學(xué)的概念,它處理的問(wèn)題也是偏數(shù)學(xué)方向的,輸入和輸出都是數(shù)字類型的。據(jù)了解,目前有些團(tuán)隊(duì)在做類似股票預(yù)測(cè)的場(chǎng)景,像這種場(chǎng)景依賴的變量非常多,而且本身系統(tǒng)非常復(fù)雜,難度比較大。
分類功能在媒體領(lǐng)域的應(yīng)用
在當(dāng)下這個(gè)內(nèi)容為王的時(shí)代,分類和回歸在媒體方面的應(yīng)用十分廣泛,如內(nèi)容審核、人臉識(shí)別、自動(dòng)標(biāo)簽、字幕識(shí)別、同聲傳譯等。
【內(nèi)容審核】
目前大多數(shù)的內(nèi)容平臺(tái)對(duì)用戶都是開(kāi)放的,用戶可以上傳圖片、視頻等。開(kāi)放本身是好事,使得內(nèi)容更加豐富,但會(huì)涉及到很多網(wǎng)絡(luò)監(jiān)管問(wèn)題,在國(guó)家和政府對(duì)網(wǎng)絡(luò)內(nèi)容的監(jiān)管要求越來(lái)越嚴(yán)格的背景下,很多內(nèi)容平臺(tái)公司會(huì)專門成立內(nèi)容審核部門,采用人工審核的方式,對(duì)用戶上傳內(nèi)容進(jìn)行全量審核。這項(xiàng)工作如果完全依賴人力審核的話是一項(xiàng)巨大的工程,且審核團(tuán)隊(duì)的工作枯燥乏味。
目前UCloud的UMAI平臺(tái)支持圖片與視頻的涉黃、暴力等內(nèi)容識(shí)別,通過(guò)調(diào)用UMAI接口來(lái)對(duì)內(nèi)容做預(yù)處理,可以將占比為絕大多數(shù)的正常內(nèi)容過(guò)濾掉,而只留下極少數(shù)判定為疑似不健康的內(nèi)容,需要審核團(tuán)隊(duì)進(jìn)行進(jìn)一步的復(fù)查,這樣極大的減少了人工審核的工作量。
【人臉識(shí)別】
人臉識(shí)別現(xiàn)在在人工智能這塊應(yīng)用較為廣泛,如身份認(rèn)證、手機(jī)刷臉、系統(tǒng)登錄等;另外是人臉的搜索,比如在一段視頻里快速確定有沒(méi)有出現(xiàn)某個(gè)關(guān)鍵人物,或一個(gè)圖片集里有沒(méi)有包含這樣的人。人臉識(shí)別主要的流程一般如下,首先對(duì)這個(gè)圖片進(jìn)行人臉的檢測(cè),然后提取關(guān)鍵點(diǎn),包括眼睛、鼻子、嘴巴、耳朵、輪廓等,切分處理以后,再給到卷積網(wǎng)絡(luò)提取特征,最后再做人臉識(shí)別,目前我們?cè)诠究记凇⒄稳蝿?wù)識(shí)別方面已有相關(guān)的應(yīng)用。
【自動(dòng)標(biāo)簽】
針對(duì)用戶自主上傳的圖片,自動(dòng)標(biāo)簽則發(fā)揮出重要作為。用戶在上傳圖片的時(shí)候,往往只會(huì)標(biāo)注一到兩個(gè)關(guān)鍵詞,對(duì)圖片進(jìn)行描述,而圖片里邊包含的大量其他的內(nèi)容和信息,是沒(méi)辦法檢索出來(lái)的,因?yàn)楝F(xiàn)在很多后臺(tái)的搜索是基于關(guān)鍵字的。通過(guò)計(jì)算機(jī)視覺(jué)的場(chǎng)景識(shí)別功能,可以很好的將圖片的隱藏信息挖掘出來(lái),讓圖片有更多的關(guān)鍵字,能夠被更多的場(chǎng)景檢索出來(lái),發(fā)揮其作用。
【字幕識(shí)別】
字幕識(shí)別的應(yīng)用非常直接而實(shí)用,例如身份證、發(fā)票、名片的識(shí)別,可以減少手寫錄入的工作量,而類似視頻字幕識(shí)別這種,則可以幫助計(jì)算機(jī)更好地去理解視頻的內(nèi)容。
【同聲傳譯】
目前國(guó)內(nèi)企業(yè)出海風(fēng)潮正盛,利用人工智能實(shí)現(xiàn)同聲傳譯可以幫助跨國(guó)公司、員工進(jìn)行不同語(yǔ)種間的交流。在視頻直播這一塊,我們做了這樣的系統(tǒng),可以在視頻直播傳輸前,把里面的音頻提取出來(lái),做切片處理以后,把語(yǔ)音識(shí)別出來(lái),經(jīng)過(guò)翻譯系統(tǒng)后輸出字幕并打上時(shí)間戳,播放終端拿到字幕和視頻數(shù)據(jù)后,做一次時(shí)間戳同步,在播放端進(jìn)行展示。
這個(gè)系統(tǒng)主要有兩個(gè)難點(diǎn):一是它是經(jīng)過(guò)了兩次計(jì)算機(jī)的識(shí)別,第一次是語(yǔ)音的識(shí)別,第二次是翻譯,這會(huì)有一個(gè)誤差的累積;二是這種場(chǎng)景的實(shí)時(shí)性要求比較高,比如說(shuō)字幕的翻譯有點(diǎn)滯后,視頻數(shù)據(jù)又需要比較低的延遲,這樣體驗(yàn)會(huì)非常不好。這也是這款產(chǎn)品正在優(yōu)化的兩個(gè)方向。
人工智能私有化部署應(yīng)用
以上提及的是聚焦于公有云平臺(tái)的人工智能的應(yīng)用,而我們?cè)诟芏嗫蛻舻慕涣髦?,因?yàn)檎咭约氨C艿脑?,他們不希望將?shù)據(jù)放到公有云上,在他們內(nèi)部也有不少服務(wù)器、視頻采集設(shè)備等硬件資源,希望能夠直接利用上。針對(duì)這樣的需求,我們會(huì)建議使用私有化部署的方案。
UCloud平臺(tái)做了兩件事去實(shí)現(xiàn)私有化部署的方案:第一是組件化,我們內(nèi)部有很多功能,比如直播、存儲(chǔ)、錄制、截圖等,我們將這些功能剝離開(kāi),做成各種組件的形式。這樣有一個(gè)好處,組件可以靈活搭配,用戶需要什么功能就部署什么組件,如果對(duì)某些功能有個(gè)性化需求,只要簡(jiǎn)單修改對(duì)應(yīng)組件的功能就可以了。第二是我們提供訓(xùn)練好的模型,部署到客戶的私有環(huán)境中,目前這個(gè)模型是在我們公有云上訓(xùn)練好的。
私有化部署在自動(dòng)考勤系統(tǒng)等場(chǎng)景已經(jīng)有成熟的應(yīng)用,我們也在不斷挖掘更多可應(yīng)用的場(chǎng)景,希望運(yùn)用人工智能技術(shù)讓我們的工作更便利、生活更美好。