京東推薦搜索部技術(shù)總監(jiān)劉尚堃:數(shù)據(jù)驅(qū)動下的個(gè)性化推薦
原創(chuàng)當(dāng)消費(fèi)者在電商網(wǎng)站搜索喜好商品時(shí),會看到在頁面周邊的一些推薦。這些推薦商品中可能是消費(fèi)者現(xiàn)在需要的,也可能是曾經(jīng)搜索過的。這一現(xiàn)象背后如果沒有強(qiáng)大技術(shù)支持,就不會在精準(zhǔn)推送的同時(shí)還能夠保證消費(fèi)者的體驗(yàn)度。在51CTO舉辦的WOT2015互聯(lián)網(wǎng)開發(fā)者大會上京東推薦搜索部技術(shù)總監(jiān)劉尚堃給分享了《京東數(shù)據(jù)驅(qū)動下的個(gè)性化推薦系統(tǒng)》,51CTO記者也在大會現(xiàn)場對其進(jìn)行了專訪。接下來就來領(lǐng)略身為國內(nèi)最大自營B2C平臺京東是通過哪些技術(shù)對消費(fèi)者進(jìn)行精準(zhǔn)的個(gè)性化推薦的?
【受訪者簡介】
劉尚堃·京東推薦搜索部技術(shù)總監(jiān)
劉尚堃,京東推薦搜索部技術(shù)總監(jiān),有七年B2C行業(yè)搜索經(jīng)驗(yàn)。目前負(fù)責(zé)搜索引擎、推薦方面的產(chǎn)品研發(fā)和團(tuán)隊(duì)管理工作。他領(lǐng)導(dǎo)團(tuán)隊(duì)將推薦搜索技術(shù)應(yīng)用于京東各個(gè)品牌的支持當(dāng)中,包括移動端的平臺、以及PC端平臺、以及微信平臺全部的推薦業(yè)務(wù)和場景。
個(gè)性化推薦簡述
個(gè)性化推薦就是通過全方位的數(shù)據(jù)精準(zhǔn)刻畫用戶的購買意圖,然后有針對性給用戶推薦用戶購買意愿高的商品,為用戶提供極致的產(chǎn)品體驗(yàn),提升下單轉(zhuǎn)化率,增強(qiáng)用戶粘性。個(gè)性化推薦模型分為召回和排序兩大類,劉尚堃在采訪中,通過舉例詳細(xì)的講解了這兩大類模型。
召回模型
召回模型就是選舉推薦的侯選,京東主要用到基于行為的召回模型,其分為近期和長期兩種,其他還有基于偏好、基于地域等。
基于行為
基于近期行為的召回模型:例如一個(gè)用戶喜歡最近瀏覽一些炒股類的書籍,那么就會給這個(gè)用戶推薦一些他可能感興趣的其他炒股書籍。像這樣就尤其是最近發(fā)生的行為,這樣的情況就叫做近期行為的相似商品推薦。例如一個(gè)用戶買了一本《秘密花園》,這時(shí)候就會馬上給用戶推薦彩色筆。像這樣的情況就叫做近期行為的商品購買搭配推薦。劉尚堃表示:“基于近期行為的在線算法是最基礎(chǔ)最好用同時(shí)也是轉(zhuǎn)化率最高的”。
長尾商品的搭配
基于中長期行為的召回模型:中長期的行為通常在半年左右,可以用瀏覽相似、離線購買搭配和離線的SVD。當(dāng)在做搭配的時(shí)會有一些小Trick。因?yàn)榫〇|的商品比較豐富,其中有些新商品沒有用戶行為。針對這樣的情況,利用購物籃分析,建立產(chǎn)品和產(chǎn)品之間的關(guān)系。把這些關(guān)系應(yīng)用到個(gè)性化推薦中去,提升長尾商品的搭配覆蓋率。
基于偏好
基于偏好也就是用戶畫像:比如女孩又比較喜歡化妝品買衣服,那么就會根據(jù)她在京東過去的一些行為,針對興趣愛好進(jìn)行推薦。當(dāng)然在推薦的時(shí)候,還要考慮到用戶的購買力,敏感度等問題。如果用戶特別鐘愛戶外用品,這就是用戶的偏好。喜歡韓版衣服,這是用戶的修飾的偏好。當(dāng)不知道用戶喜歡什么產(chǎn)品,也不知道什么興趣愛好甚至偏好時(shí),就會通過一些算法來預(yù)測你感興趣的產(chǎn)品。基于大數(shù)據(jù)從海量的其他用戶中挖掘最接近的一個(gè)用戶,看看他喜歡什么樣的東西,他的興趣是什么,他的品牌是什么,然后再傳遞給用戶。
基于地域:京東有很多配送地,可以把一些區(qū)域做一些建模,比如說三里屯地區(qū)撲克牌、色子買的人比較多,因?yàn)橛腥诵枰鼈兘o女孩變魔術(shù)。還有一些別的地區(qū),也可能有類似這樣的偏向于某一種消費(fèi)品。通過區(qū)域劃分可以獲得很多的信息,比如購買力,就拿萬國城和史個(gè)莊相比,萬國城的消費(fèi)程度比較高,就推薦一些高價(jià)位的商品。地域模型主要還可以用在沒有任何消費(fèi)行為的新用戶上,就拿一名從來沒有在京東上購買過商品的學(xué)來說,如果他是清華大學(xué)這個(gè)區(qū)域,就推薦一些比較有難度的考研題目,或四六級書籍。如果是北京聯(lián)合大學(xué)的學(xué)生,就相對應(yīng)簡單一些。
排序模型
當(dāng)積累一定的用戶和流量,有一定點(diǎn)擊和購買之后,就需用到排序算法。
排序?qū)W習(xí)
標(biāo)記:Point、pair、wise。第一步是做模型選取,因?yàn)槟P陀胁煌奶卣骱吞匦孕枰x取模型。第二是根據(jù)選取的模型進(jìn)行標(biāo)注,如果是Point標(biāo)注,是選取正例和負(fù)例,如果是pair wise標(biāo)注方法是,比如用ABCD四個(gè)商品,A沒有任何操作,B點(diǎn)擊了,C購買了,D沒有任何操作,那么就是點(diǎn)擊了BA,那么BA就是一個(gè)正例。CA因?yàn)槭菍?shí)際購買的,是正例,還有CB由于C是購買,B是點(diǎn)擊,購買比點(diǎn)擊更重要一些,CB也是正例,CD也是一個(gè)正例。后面的Tao是比較重要的程度。
特征計(jì)算:召回模型標(biāo)記特征,在線相似、在線相關(guān)、離線相似、離線相關(guān),基于用戶畫像的召回和基于地域的召回,從哪個(gè)模型召回,這是我們重要的內(nèi)容。商業(yè)模型,比如某一個(gè)商品是大品牌還是小品牌等。用戶特征,實(shí)際上是對用戶畫像的維度,用戶的性別和購買力,還有用戶之前點(diǎn)擊的商品以及之前購買的商品是什么等。商品特征,,商品的銷量數(shù),價(jià)格區(qū)間等。、上下文特征,指的是用戶之前和之后一系列的操作等。時(shí)間特征,什么時(shí)間點(diǎn)對這個(gè)商品進(jìn)行了點(diǎn)擊和購買等。地域特征、季節(jié)特征等。
離線計(jì)算和在線計(jì)算
離線計(jì)算,數(shù)據(jù)存在Data Mart,通過Hadoop上面運(yùn)行Map Reduce,另外大量通過Mahout和Spark,通過分布式任務(wù)調(diào)度系統(tǒng)將輸送的結(jié)果存入HBase當(dāng)中。
在線計(jì)算計(jì)算流程,通過Kafka接收消息存入HBase當(dāng)中,在線計(jì)算主要基于Storm,實(shí)時(shí)消息基于Kafka是150億+消息的處理。
未來突破點(diǎn)
當(dāng)問及未來針對個(gè)性化推薦系統(tǒng)從哪個(gè)角度去突破時(shí)候,劉尚堃這樣說:“個(gè)性化推薦會達(dá)到一定瓶頸是肯定的,不敢說在機(jī)器學(xué)習(xí)、推薦搜索算法上,已經(jīng)達(dá)到了一個(gè)什么樣的高度。因?yàn)樵谇懊嬗泻芏嗑揞^,包括國外也有不斷地出現(xiàn)一些新的技術(shù)。京東推薦部門經(jīng)過了幾年的發(fā)展不斷的趨向完美,在資深團(tuán)隊(duì)成長的同時(shí)還有來自新浪谷歌的科學(xué)家加入。在過去,京東關(guān)更多關(guān)注的是推薦系統(tǒng)怎么去帶動京東的銷售,怎么幫助網(wǎng)站提高轉(zhuǎn)化率。在未來,需要更多考慮的是體驗(yàn)類的指標(biāo),就是怎么去提升用戶體驗(yàn)度。”
個(gè)性化推薦助力618大促
當(dāng)提及今年的618大促,劉尚堃說:“在過去,618是對京東系統(tǒng)的一次考驗(yàn)或者壓力測試。但現(xiàn)在隨著京東系統(tǒng)的技術(shù)成熟,從2014年開始,618更像是一次Party。可以從中結(jié)識新朋友、新人可從中學(xué)到知識。在個(gè)性化推薦方面,今年針對618設(shè)立了特別的場景并進(jìn)行優(yōu)化和提升,達(dá)到千人千面“。
寫在最后:
一路走來京東個(gè)性化推薦有著突飛猛進(jìn)的發(fā)展,后續(xù)還會從用戶體驗(yàn)度出發(fā),研發(fā)一些有驚喜度或者吸引人的產(chǎn)品。采訪最后,劉尚堃表示“京東下半年準(zhǔn)備直接在用戶沒有下單情況下,利用大數(shù)據(jù)技術(shù)直接將商品給到用戶,當(dāng)然用戶也可以拒收,這開始會在小范圍實(shí)施”。可以設(shè)想一下,你需要的商品不用通過下單,就會送上門來。那時(shí)候是怎樣一番情景?