新浪微博胡南煒:深度學(xué)習(xí)在微博信息流推薦中的實(shí)踐
原創(chuàng)【51CTO.com原創(chuàng)稿件】2017年12月01日-02日,由51CTO主辦的WOTD全球軟件開發(fā)技術(shù)峰會(huì)將在深圳中州萬豪酒店隆重舉行。本次峰會(huì)以軟件開發(fā)為主題,數(shù)十位專家級嘉賓將帶來多場精彩的技術(shù)內(nèi)容分享。屆時(shí),新浪微博 機(jī)器學(xué)習(xí)資深架構(gòu)師胡南煒將在深度學(xué)習(xí)與智能應(yīng)用開發(fā)分會(huì)場與來賓分享"深度學(xué)習(xí)在微博信息流推薦系統(tǒng)的實(shí)踐與應(yīng)用"主題演講,為大家詳細(xì)闡述新浪微博團(tuán)隊(duì)在微博信息流推薦系統(tǒng)中是如何應(yīng)用深度學(xué)習(xí)的。51CTO誠邀您蒞臨大會(huì),與我們共享技術(shù)帶來的喜悅。
51CTO記者對即將參加大會(huì)演講的胡南煒老師進(jìn)行了專訪,讓我們先睹為快,探聽一下他是如何解讀深度學(xué)習(xí)的。
復(fù)雜的場景需要深度學(xué)習(xí)技術(shù)
移動(dòng)時(shí)代人們對信息內(nèi)容的獲取和閱讀已經(jīng)發(fā)生了巨大變化。信息流推薦是社會(huì)化推薦領(lǐng)域一個(gè)相對比較新穎的話題。人工智能技術(shù)正在改變?nèi)伺c信息的連接方式,也大大提高了內(nèi)容創(chuàng)作、審核、分發(fā)、消費(fèi)、互動(dòng)的效率和質(zhì)量。
微博本身的信息流推薦從自身特點(diǎn)來說,傳統(tǒng)的機(jī)器學(xué)習(xí)已經(jīng)不能滿足海量用戶,復(fù)雜場景以及更加強(qiáng)烈的個(gè)性化消費(fèi)需求。因此,新浪微博團(tuán)隊(duì)的注意力也逐漸從傳統(tǒng)機(jī)器學(xué)習(xí)轉(zhuǎn)到深度學(xué)習(xí)領(lǐng)域。在深度學(xué)習(xí)比較擅長的圖像、視頻和語音等領(lǐng)域,新浪微博已經(jīng)有成型的產(chǎn)品或者已經(jīng)在默默地在為廣大微博用戶提供優(yōu)質(zhì)服務(wù)。同時(shí),在深度學(xué)習(xí)應(yīng)用相對較少的領(lǐng)域,新浪微博也投入很大的研發(fā)精力,深挖高維度微博產(chǎn)品特征,相應(yīng)的推薦產(chǎn)品相信已經(jīng)應(yīng)用到微博用戶的日常生活中了。
目前,基于深度學(xué)習(xí)的微博信息流推薦系統(tǒng)主要用于推薦,例如主Feed推薦、熱門微博推薦、Push推薦等。其特點(diǎn)有:
1. 大樣本量,單次訓(xùn)練樣本量可以達(dá)到5000億以上規(guī)模。
2. 大特征維度特征維度,可以達(dá)到10億維度以上。
3. 特征類別復(fù)雜,有微博特征、用戶特征、關(guān)系特征、轉(zhuǎn)評贊特征、互動(dòng)特征、曝光特征、圖片特征、視頻特征等等。
深度學(xué)習(xí)的本質(zhì)就是學(xué)習(xí)特征。深度學(xué)習(xí)通過逐層學(xué)習(xí),自動(dòng)從原始數(shù)據(jù)中學(xué)習(xí)到一些不易變化的潛在的高層特征,然后基于這些高層特征,進(jìn)行分類等學(xué)習(xí)任務(wù)。傳統(tǒng)機(jī)器學(xué)習(xí)需要大量的特征工程工作,有時(shí)候機(jī)器學(xué)習(xí)的效果跟抽取的特征好壞密切相關(guān),很多時(shí)候由于一些潛在的特征很難抽取,導(dǎo)致學(xué)習(xí)效果不佳。
寬度和深度模型
CNN就是一個(gè)例子,如下圖所示,它通過卷積和池化,可以從原生像素中抽取某類圖像通用的高層特征(比如鳥喙、翅膀、鳥爪等),然后根據(jù)這些特征去識別一張圖像是不是一只鳥??傊疃葘W(xué)習(xí)通過特征學(xué)習(xí),使學(xué)習(xí)更容易達(dá)到較好的效果。
雖然理論上淺層的神經(jīng)網(wǎng)絡(luò)也可以模擬任何復(fù)雜的函數(shù),但是對于很多復(fù)雜的問題,深度學(xué)習(xí)的效率更高,深度學(xué)習(xí)可以以更少的參數(shù)表示更復(fù)雜的函數(shù)。
易于業(yè)務(wù)快速訓(xùn)練和迭代的CTR訓(xùn)練套件
新浪微博團(tuán)隊(duì)參考Wide & Deep Learning模型,并結(jié)合微博場景下相關(guān)推薦業(yè)務(wù)的需求與特點(diǎn),將連續(xù)、離散、文本和標(biāo)簽等特征的處理,以及網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)、模型導(dǎo)出和預(yù)測進(jìn)行標(biāo)準(zhǔn)化,開發(fā)了易于業(yè)務(wù)快速訓(xùn)練和迭代的深度學(xué)習(xí)CTR訓(xùn)練套件。
此套件有以下三大特點(diǎn):
1.配置化:不用寫程序,只需寫xml配置文件即可進(jìn)行模型訓(xùn)練。
2.集成化:主要體現(xiàn)在數(shù)據(jù)端、運(yùn)行環(huán)境和在線預(yù)測三方面的集成。
數(shù)據(jù)端集成為微博特有特征(如標(biāo)簽)訂制各種網(wǎng)絡(luò)結(jié)構(gòu)。運(yùn)行環(huán)境集成的目的是與微博內(nèi)部的多個(gè)訓(xùn)練集群打通,隱藏各調(diào)度系統(tǒng)的差異性。在線預(yù)測集成則是和在線預(yù)測系統(tǒng)和模型存儲系統(tǒng)打通,無縫對接離線訓(xùn)練和在線預(yù)測。
3.可視化:利用tensor board特性,訂制微博特有數(shù)據(jù)的可視化功能。
通過應(yīng)用深度學(xué)習(xí),新浪微博信息流推薦系統(tǒng)的特征維度達(dá)到億級+維度以上,樣本規(guī)模達(dá)到數(shù)千億以上規(guī)模。已經(jīng)在離線訓(xùn)練和評估中采用了深度學(xué)習(xí)模型,實(shí)現(xiàn)了分布式和大規(guī)模的深度學(xué)習(xí)模型訓(xùn)練。現(xiàn)在正在評估小流量在線測試的效果并打算大規(guī)模的應(yīng)用。
【講師簡介】
胡南煒,資深架構(gòu)師,微博機(jī)器學(xué)習(xí)計(jì)算和服務(wù)平臺負(fù)責(zé)人。博士畢業(yè)于北京航空航天大學(xué)計(jì)算機(jī)科學(xué)和工程系,多年軟件工程研發(fā)和互聯(lián)網(wǎng)從業(yè)經(jīng)驗(yàn),個(gè)人技術(shù)專長為大數(shù)據(jù),云計(jì)算技術(shù)和機(jī)器學(xué)習(xí)。2014年加入微博,負(fù)責(zé)微博機(jī)器學(xué)習(xí)計(jì)算和服務(wù)平臺開發(fā)。在此之前,曾經(jīng)在IBM,Yahoo等公司工作。
使用雙十一特別優(yōu)惠碼[B310BD20D337F914] 立減200元,和我一起去WOTD全球軟件開發(fā)技術(shù)峰會(huì)!詳情點(diǎn)擊wot.51cto.com
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】