優酷土豆單明輝—基于Hadoop平臺下的視頻推薦系統
原創2008年于中科院聲學所獲博士學位,主導了優酷土豆視頻推薦支撐平臺設計與開發,目前負責低延時、高并發的大數據應用支撐平臺建設。
從視頻網站的分類來說,優酷土豆屬于兩者兼備的模式(用戶產生內容+專業視頻內容)。而這兩種類型的網站內容和用戶行為各異,相應的推薦系統的設計也會有一定差別。對此優酷土豆建立了自己的推薦系統,平衡二者的權重。并在此基礎之上發現GPU產生類型。在未來也將在此基礎上,進行新的拓展。
目前,優酷土豆視頻推薦系統分可大致分為為兩部分。***部分,是底層的算法架構,主要做算法的研究工作。第二部分,是上層的支撐架構,即大數據的支撐平臺。主要用于將海量視頻信息,快速實時的推薦給用戶,實現良好的用戶體驗。
和舊有的視頻推薦系統相比,新的視頻推薦系統,將數據和計算建立在Hadoop大數據平臺之上,包括信息算法的小流量支持和各種業務的流量支持,等可以作為擴展在這個平臺上得以實現。
現在,優酷土豆每天可以承受4-5億次響應,每次響應在3-4毫秒左右。有了一個非常不錯的成績。
而在用戶行為的收集上,視頻行業一直都把它當作重中之重。對此,優酷土豆成立專項小組,對用戶行為進行收集。在新的架構之上,包括之前沒有辦法收集的用戶實時訪問的視頻數據,用戶搜索行為、訪問的頁面,現在都可以實現實時采集,并引入到實時的算法當中去。同時,在數據的更新頻率上,優酷土豆也將更新頻率分為了三鐘類型。用以實現更加快速實時的用戶體驗。
未來的優酷土豆視頻推薦將會朝什么方向發展?談到這個問題,單經理對記者說:“未來,優酷土豆視頻推薦未來的發展方向可大致分為兩點。***,系統架構上將更加實時,以便能更加準確、快速對用戶進行分析。第二,在現在的UGC、PGC背景下,傳統的基于用戶行為的數據,不足以挖掘出用戶的全部信息。因此,我們想通過用戶行為,用機器自動聚合出標簽,用標簽做類似準內容推薦。這個標簽可以用在用戶身上,也可以用在內容上面,來標明用戶喜好。更好的提升對用戶的服務體驗。