終于有人把用戶畫像的流程、方法講明白了
本文轉(zhuǎn)載自微信公眾號「大數(shù)據(jù)DT」,作者馬海平 于俊 等 。轉(zhuǎn)載本文請聯(lián)系大數(shù)據(jù)DT公眾號。
一.用戶畫像概述
1. 什么是用戶畫像
現(xiàn)代交互設(shè)計之父Alan Cooper很早就提出了Persona的概念:Persona是真實用戶的虛擬代表,是建立在一系列真實數(shù)據(jù)之上的目標用戶模型,用于產(chǎn)品需求挖掘與交互設(shè)計。
通過調(diào)研和問卷去了解用戶,根據(jù)他們的目標、行為和觀點的差異,將他們區(qū)分為不同的類型,然后從每種類型中抽取出典型特征,賦予名字、照片、人口統(tǒng)計學(xué)要素、場景等描述,就形成了一個Persona。Persona就是最早對用戶畫像的定義,隨著時代的發(fā)展,用戶畫像早已不再局限于早期的這些維度,但用戶畫像的核心依然是真實用戶的虛擬化表示。
在大數(shù)據(jù)時代,用戶畫像尤其重要。我們通過一些手段,給用戶的習(xí)慣、行為、屬性貼上一系列標簽,抽象出一個用戶的全貌,為廣告推薦、內(nèi)容分發(fā)、活動營銷等諸多互聯(lián)網(wǎng)業(yè)務(wù)提供了可能性。它是計算廣告、個性化推薦、智能營銷等大數(shù)據(jù)技術(shù)的基礎(chǔ),毫不夸張地說,用戶畫像是大數(shù)據(jù)業(yè)務(wù)和技術(shù)的基石。
用戶畫像的核心工作就是給用戶打標簽,標簽通常是人為規(guī)定的高度精煉的特征標識,如年齡、性別、地域、興趣等。由這些標簽集合能抽象出一個用戶的信息全貌,如圖10-1所示是某個用戶的標簽集合,每個標簽分別描述了該用戶的一個維度,各個維度相互聯(lián)系,共同構(gòu)成對用戶的一個整體描述。
▲圖10-1 用戶標簽集合
2. 為什么需要用戶畫像
Cooper最初建立Persona的目的是讓團隊成員將產(chǎn)品設(shè)計的焦點放在目標用戶的動機和行為上,從而避免產(chǎn)品設(shè)計人員草率地代表用戶。產(chǎn)品設(shè)計人員經(jīng)常不自覺地把自己當(dāng)作用戶代表,根據(jù)自己的需求設(shè)計產(chǎn)品,導(dǎo)致無法抓住實際用戶的需求。往往對產(chǎn)品做了很多功能的升級,用戶卻覺得體驗變差了。
在大數(shù)據(jù)領(lǐng)域,用戶畫像的作用遠不止于此。如圖10-2所示,用戶的行為數(shù)據(jù)無法直接用于數(shù)據(jù)分析和模型訓(xùn)練,我們也無法從用戶的行為日志中直接獲取有用的信息。而將用戶的行為數(shù)據(jù)標簽化以后,我們對用戶就有了一個直觀的認識。同時計算機也能夠理解用戶,將用戶的行為信息用于個性化推薦、個性化搜索、廣告精準投放和智能營銷等領(lǐng)域。
▲圖10-2 用戶標簽化
對于一個產(chǎn)品,尤其是互聯(lián)網(wǎng)產(chǎn)品,建立完善的用戶畫像體系,有著重大的戰(zhàn)略意義。基于用戶畫像能夠構(gòu)建一套分析平臺,用于產(chǎn)品定位、競品分析、營收分析等,為產(chǎn)品的方向與決策提供數(shù)據(jù)支持和事實依據(jù)。在產(chǎn)品的運營和優(yōu)化中,根據(jù)用戶畫像能夠深入用戶需求,從而設(shè)計出更適合用戶的產(chǎn)品,提升用戶體驗。
二. 用戶畫像流程
用戶畫像的核心工作就是給用戶打“標簽”,構(gòu)建用戶畫像的第一步就是搞清楚需要構(gòu)建什么樣的標簽,而構(gòu)建什么樣的標簽是由業(yè)務(wù)需求和數(shù)據(jù)的實際情況決定的。下面介紹構(gòu)建用戶畫像的整體流程和一些常用的標簽體系。
1. 整體流程
對構(gòu)建用戶畫像的方法進行總結(jié)歸納,發(fā)現(xiàn)用戶畫像的構(gòu)建一般可以分為目標分析、標簽體系構(gòu)建、畫像構(gòu)建三步,下面詳細介紹每一步的工作。
1)目標分析
用戶畫像構(gòu)建的目的不盡相同,有的是實現(xiàn)精準營銷,增加產(chǎn)品銷量;有的是進行產(chǎn)品改進,提升用戶體驗。明確用戶畫像的目標是構(gòu)建用戶畫像的第一步,也是設(shè)計標簽體系的基礎(chǔ)。
目標分析一般可以分為業(yè)務(wù)目標分析和可用數(shù)據(jù)分析兩步。目標分析的結(jié)果有兩個:
一個是畫像的目標,也就是畫像的效果評估標準;
另一個是可用于畫像的數(shù)據(jù)。
畫像的目標確立要建立在對數(shù)據(jù)深入分析的基礎(chǔ)上,脫離數(shù)據(jù)制定的畫像目標是沒有意義的。
2)標簽體系構(gòu)建
分析完已有數(shù)據(jù)和畫像目標之后,還不能直接進行畫像建模工作,在畫像建模開始之前需要先進行標簽體系的制定。對于標簽體系的制定,既需要業(yè)務(wù)知識,也需要大數(shù)據(jù)知識,因此在制定標簽體系時,最好有本領(lǐng)域的專家和大數(shù)據(jù)工程師共同參與。
在制定標簽體系時,可以參考業(yè)界的標簽體系,尤其是同行業(yè)的標簽體系。用業(yè)界已有的成熟方案解決目標業(yè)務(wù)問題,不僅可以擴充思路,技術(shù)可行性也會比較高。
此外,需要明確的一點是:標簽體系不是一成不變的,隨著業(yè)務(wù)的發(fā)展,標簽體系也會發(fā)生變化。例如電商行業(yè)的用戶標簽,最初只需要消費偏好標簽,GPS標簽既難以刻畫也沒有使用場景。隨著智能手機的普及,GPS數(shù)據(jù)變得易于獲取,而且線下營銷也越來越注重場景化,因此GPS標簽也有了構(gòu)建的意義。
3)畫像構(gòu)建
基于用戶基礎(chǔ)數(shù)據(jù),根據(jù)構(gòu)建好的標簽體系,就可以進行畫像構(gòu)建的工作了。用戶標簽的刻畫是一個長期的工作,不可能一步到位,需要不斷地擴充和優(yōu)化。一次性構(gòu)建中如果數(shù)據(jù)維度過多,可能會有目標不明確、需求相互沖突、構(gòu)建效率低等問題,因此在構(gòu)建過程中建議將項目進行分期,每一期只構(gòu)建某一類標簽。
畫像構(gòu)建中用到的技術(shù)有數(shù)據(jù)統(tǒng)計、機器學(xué)習(xí)和自然語言處理技術(shù)(NLP)等,如圖10-3所示。具體的畫像構(gòu)建方法會在本文后面的部分詳細介紹。
▲圖10-3 用戶畫像的構(gòu)建技術(shù)
2. 標簽體系
目前主流的標簽體系都是層次化的,如圖10-4所示。首先標簽分為幾個大類,每個大類再進行逐層細分。在構(gòu)建標簽時,只需要構(gòu)建最下層的標簽,就能夠映射出上面兩級標簽。
上層標簽都是抽象的標簽集合,一般沒有實用意義,只有統(tǒng)計意義。例如我們可以統(tǒng)計有人口屬性標簽的用戶比例,但用戶有人口屬性標簽,這本身對廣告投放沒有任何意義。
▲圖10-4 互聯(lián)網(wǎng)大數(shù)據(jù)領(lǐng)域常用標簽體系
用于廣告投放和精準營銷的一般是底層標簽,對于底層標簽有兩個要求:一個是每個標簽只能表示一種含義,避免標簽之間的重復(fù)和沖突,便于計算機處理;另一個是標簽必須有一定的語義,方便相關(guān)人員理解每個標簽的含義。
此外,標簽的粒度也是需要注意的,標簽粒度太粗會沒有區(qū)分度,粒度過細會導(dǎo)致標簽體系太過復(fù)雜而不具有通用性。
下文列舉了各個大類常見的底層標簽。
- 人口標簽:性別、年齡、地域、教育水平、出生日期、職業(yè)、星座
- 興趣特征:興趣愛好、使用App/網(wǎng)站、瀏覽/收藏內(nèi)容、互動內(nèi)容、品牌偏好、產(chǎn)品偏好
- 社會特征:婚姻狀況、家庭情況、社交/信息渠道偏好
- 消費特征:收入狀況、購買力水平、已購商品、購買渠道偏好、最后購買時間、購買頻次
最后介紹一下構(gòu)建各類標簽的優(yōu)先級。對此需要綜合考慮業(yè)務(wù)需求、構(gòu)建難易程度等,業(yè)務(wù)需求各有不同,這里介紹的優(yōu)先級排序方法主要依據(jù)構(gòu)建的難易程度和各類標簽的依存關(guān)系,優(yōu)先級如圖10-5所示。
▲圖10-5 各類標簽的構(gòu)建優(yōu)先級
1)事實標簽
基于原始數(shù)據(jù)首先構(gòu)建的是事實標簽,事實標簽可以從數(shù)據(jù)庫直接獲取(如注冊信息),或通過簡單的統(tǒng)計得到。這類標簽構(gòu)建難度低、實際含義明確,且部分標簽可用作后續(xù)標簽挖掘的基礎(chǔ)特征(如產(chǎn)品購買次數(shù)可用來作為用戶購物偏好的輸入特征數(shù)據(jù))。
事實標簽的構(gòu)造過程,也是對數(shù)據(jù)加深理解的過程。對數(shù)據(jù)進行統(tǒng)計的同時,不僅完成了數(shù)據(jù)的處理與加工,也對數(shù)據(jù)的分布有了一定的了解,為高級標簽的構(gòu)造做好了準備。
2)模型標簽
模型標簽是標簽體系的核心,也是用戶畫像中工作量最大的部分,大多數(shù)用戶標簽的核心都是模型標簽。模型標簽的構(gòu)建大多需要用到機器學(xué)習(xí)和自然語言處理技術(shù),下文介紹的標簽構(gòu)建主要指的是模型標簽構(gòu)建,具體的構(gòu)造算法會在下文中詳細介紹。
3)高級標簽
最后構(gòu)造的是高級標簽,高級標簽是基于事實標簽和模型標簽進行統(tǒng)計建模得出的,它的構(gòu)造多與實際的業(yè)務(wù)指標緊密聯(lián)系。只有完成基礎(chǔ)標簽的構(gòu)建,才能夠構(gòu)造高級標簽。構(gòu)建高級標簽使用的模型,可以是簡單的數(shù)據(jù)統(tǒng)計模型,也可以是復(fù)雜的機器學(xué)習(xí)模型。
三.構(gòu)建用戶畫像
我們把標簽分為三類,這三類標簽有較大的差異,構(gòu)建時所用技術(shù)的差別也很大。
- 第一類是人口屬性,這一類標簽比較穩(wěn)定,一旦建立很長一段時間基本不用更新,標簽體系也比較固定;
- 第二類是興趣屬性,這類標簽隨時間變化很快,標簽有很強的時效性,標簽體系也不固定;
- 第三類是地理屬性,這一類標簽的時效性跨度很大,如GPS軌跡標簽需要做到實時更新,而常住地標簽一般可以幾個月不用更新,所用的挖掘方法和前面兩類也大有不同,如圖10-6所示。
▲圖10-6 三類標簽屬性
1. 人口屬性畫像
人口屬性包括年齡、性別、學(xué)歷、人生階段、收入水平、消費水平、所屬行業(yè)等。這些標簽基本是穩(wěn)定的,構(gòu)建一次可以很長一段時間不用更新,標簽的有效期都在一個月以上。同時標簽體系的劃分也比較固定,表10-2是中國無線營銷聯(lián)盟對人口屬性的一個劃分。
大部分主流的人口屬性標簽都和這個體系類似,有些在分段上有一些區(qū)別。
▼表10-2 人口標簽
很多產(chǎn)品(如QQ、Facebook等)都會引導(dǎo)用戶填寫基本信息,這些信息就包括年齡、性別、收入等大多數(shù)的人口屬性,但完整填寫個人信息的用戶只占很少一部分。對于無社交屬性的產(chǎn)品(如輸入法、團購App、視頻網(wǎng)站等),用戶信息的填充率非常低,有的甚至不足5%。
在這種情況下,一般會用填寫了信息的用戶作為樣本,把用戶的行為數(shù)據(jù)作為特征訓(xùn)練模型,對無標簽的用戶進行人口屬性的預(yù)測。這種模型把有標簽用戶的標簽傳給與他行為相似的用戶,可以認為是對人群進行了標簽擴散,因此常被稱為標簽擴散模型。
下面使用視頻網(wǎng)站性別年齡畫像的例子來說明標簽擴散模型是如何構(gòu)建的。
某個視頻網(wǎng)站希望了解自己的用戶組成,于是對用戶的性別進行畫像。通過數(shù)據(jù)統(tǒng)計,有大約30%的用戶在注冊時填寫了個人信息,將這30%的用戶作為訓(xùn)練集,以構(gòu)建全量用戶的性別畫像,所用數(shù)據(jù)如表10-3所示。
▼表10-3 視頻網(wǎng)站用戶數(shù)據(jù)
下面來構(gòu)建特征。通過分析發(fā)現(xiàn)男性和女性對于影片的偏好是有差別的,因此使用用戶觀看的影片列表預(yù)測用戶性別有一定的可行性。此外,還可以考慮用戶的觀看時間、瀏覽器、觀看時長等,為了簡化,這里只使用用戶觀看的影片特征。
由于觀看影片特征是稀疏特征,所以可以調(diào)用MLlib,使用LR、線性SVM等模型進行訓(xùn)練。考慮到注冊用戶填寫的用戶信息的準確性不高,所以可以從30%的樣本集中提取準確性較高的部分(如用戶信息填寫較完備的)用于訓(xùn)練,因此整體的訓(xùn)練流程如圖10-7所示。
對于預(yù)測性別這樣的二分類模型,如果行為的區(qū)分度較好,一般準確率和覆蓋率都可以達到70%左右。
▲圖10-7 訓(xùn)練流程
對于人口屬性標簽,只要有一定的樣本標簽數(shù)據(jù),并找到能夠區(qū)分標簽類別的用戶行為特征,就可以構(gòu)建標簽擴散模型。其中使用的技術(shù)方法主要是機器學(xué)習(xí)中的分類技術(shù),常用的模型有LR、FM、SVM、GBDT等。
2. 興趣畫像
興趣畫像是互聯(lián)網(wǎng)領(lǐng)域中使用最廣泛的畫像,互聯(lián)網(wǎng)廣告、個性化推薦、精準營銷等領(lǐng)域最核心的標簽都是興趣標簽。興趣畫像主要是從用戶海量的行為日志中進行核心信息抽取、標簽化和統(tǒng)計,因此在構(gòu)建用戶興趣畫像之前需要先對用戶有行為的內(nèi)容進行內(nèi)容建模。
內(nèi)容建模需要注意粒度,過細的粒度會導(dǎo)致標簽沒有泛化能力和使用價值,過粗的粒度會導(dǎo)致標簽沒有區(qū)分度。
- 例如用戶在購物網(wǎng)上點擊查看了一雙“Nike AIR MAX跑步鞋”,如果用單個商品作為粒度,畫像的粒度就過細,結(jié)果是只知道用戶對“Nike AIR MAX跑步鞋”有興趣,在進行商品推薦時,也只能給用戶推薦這雙鞋;
- 而如果用大品類作為粒度,如“運動戶外”,將無法發(fā)現(xiàn)用戶的核心需求是買鞋,從而會給用戶推薦所有的運動用品,如乒乓球拍、籃球等,這樣的推薦缺乏準確性,用戶的點擊率就會很低。
為了保證興趣畫像既有一定的準確性又有較好的泛化性,我們會構(gòu)建層次化的興趣標簽體系,其中同時用幾個粒度的標簽去匹配用戶興趣,既保證了標簽的準確性,又保證了標簽的泛化性。下面以用戶的新聞興趣畫像舉例,介紹如何構(gòu)建層次化的興趣標簽。
新聞興趣畫像的處理難度要比購物興趣畫像困難,購物標簽體系基本固定,如圖10-8所示,京東頁面已經(jīng)有成熟的三級類目體系。
▲圖10-8 三級類目體系
1)內(nèi)容建模
新聞數(shù)據(jù)本身是非結(jié)構(gòu)化的,首先需要人工構(gòu)建一個層次化的標簽體系。考慮如圖10-9所示的一篇新聞,看看哪些內(nèi)容可以表示用戶的興趣。
▲圖10-9 新聞例子
首先,這是一篇體育新聞,體育這個新聞分類可以表示用戶興趣,但是這個標簽太粗了,因為用戶可能只對足球感興趣,所以體育這個標簽就顯得不夠準確。
其次,可以使用新聞中的關(guān)鍵詞,尤其是里面的專有名詞(人名、機構(gòu)名),如“桑切斯”“阿森納”“厄齊爾”,這些詞也表示了用戶的興趣。關(guān)鍵詞的主要問題在于粒度太細,如果某天的新聞里沒有這些關(guān)鍵詞,就無法給用戶推薦內(nèi)容。
最后,我們希望有一個中間粒度的標簽,既有一定的準確度,又有一定的泛化能力。于是我們嘗試對關(guān)鍵詞進行聚類,把一類關(guān)鍵詞當(dāng)成一個標簽,或者拆分一個分類下的新聞,生成像“足球”這種粒度介于關(guān)鍵詞和分類之間的主題標簽。我們可以使用文本主題聚類完成主題標簽的構(gòu)建。
至此,就完成了對新聞內(nèi)容從粗到細的“分類-主題-關(guān)鍵詞”三層標簽體系的內(nèi)容建模,新聞的三層標簽如表10-4所示。
▼表10-4 三層標簽體系
可能讀者會有疑問,既然主題的準確度和覆蓋率都不錯,我們只使用主題不就可以了嗎?為什么還要構(gòu)建分類和關(guān)鍵詞這兩層標簽?zāi)?這么做是為了針對用戶進行盡可能精確和全面的內(nèi)容推薦。
當(dāng)用戶的關(guān)鍵詞命中新聞時,顯然能夠給用戶更準確的推薦,這時就不需要再使用主題標簽;而對于比較小眾的主題(如體育類的冰上運動主題),若當(dāng)天沒有新聞覆蓋,就可以根據(jù)分類標簽進行推薦。層次標簽兼顧了刻畫用戶興趣的覆蓋率和準確性。
2)興趣衰減
在完成內(nèi)容建模以后,就可以根據(jù)用戶點擊,計算用戶對分類、主題、關(guān)鍵詞的興趣,得到用戶興趣標簽的權(quán)重。最簡單的計數(shù)方法是,用戶點擊一篇新聞,就把用戶對該篇新聞的所有標簽興趣值上加1,用戶對每個詞的興趣計算使用如下的公式:
scorei+1=scorei+ C×weight
其中,詞在這次瀏覽的新聞中出現(xiàn),則C=1,否則C=0, weight表示詞在這篇新聞中的權(quán)重。
這樣做有兩個問題:一個是用戶的興趣累加是線性的,數(shù)值會非常大,老的興趣權(quán)重會特別高;另一個是用戶的興趣有很強的時效性,對一篇新聞昨天的點擊要比一個月之前的點擊重要的多,線性疊加無法突出用戶的近期興趣。
為了解決這個問題,需要對用戶興趣得分進行衰減,可使用如下的方法對興趣得分進行次數(shù)衰減和時間衰減。
次數(shù)衰減的公式如下:
scorei+1=α×scorei+ C×weight, 0<α<1
其中,α是衰減因子,每次都對上一次的分數(shù)做衰減,最終得分會收斂到一個穩(wěn)定值,α取0.9時,得分會無限接近10。
時間衰減的公式如下:
scoreday+1=scoreday×β, 0<β<1
它表示根據(jù)時間對興趣進行衰減,這樣做可以保證時間較早期的興趣會在一段時間以后變得非常弱,同時近期的興趣會有更大的權(quán)重。根據(jù)用戶興趣變化的速度、用戶活躍度等因素,也可以對興趣進行周級別、月級別或小時級別的衰減。
3. 地理位置畫像
地理位置畫像一般分為兩部分:一部分是常駐地畫像;一部分是GPS畫像。這兩類畫像的差別很大,常駐地畫像比較容易構(gòu)造且標簽比較穩(wěn)定,GPS畫像需要實時更新。
常駐地包括國家、省份、城市三級,一般只細化到城市粒度。在常駐地挖掘中,對用戶的IP地址進行解析,并對應(yīng)到相應(yīng)的城市,再對用戶IP出現(xiàn)的城市進行統(tǒng)計就可以得到常駐城市標簽。用戶的常駐城市標簽不僅可以用來統(tǒng)計各個地域的用戶分布,還可以根據(jù)用戶在各個城市之間的出行軌跡識別出差人群、旅游人群等。
GPS數(shù)據(jù)一般從手機端收集,但很多手機App沒有獲取用戶GPS信息的權(quán)限。能夠獲取用戶GPS信息的主要是百度地圖、滴滴打車等出行導(dǎo)航類App,此外收集到的用戶GPS數(shù)據(jù)比較稀疏。
百度地圖使用該方法并結(jié)合時間段數(shù)據(jù),構(gòu)建了用戶公司和家的GPS標簽。此外百度地圖還基于GPS信息,統(tǒng)計各條路上的車流量,進行路況分析,圖10-10所示是北京市某天的實時路況圖,紅色表示擁堵線路。
▲圖10-10 北京的實時路況圖
四. 用戶畫像評估和使用
人口屬性畫像的相關(guān)指標比較容易評估,而興趣畫像的標簽比較模糊,所以人為評估比較困難,對于興趣畫像的常用評估方法是設(shè)計小流量的A/B測試進行驗證。
可以篩選一部分打了標簽的用戶,給這部分用戶進行和標簽相關(guān)的推送,看他們對相關(guān)內(nèi)容是否有更好的反饋。例如,在新聞推薦中,我們給用戶構(gòu)建了興趣畫像,從體育類興趣用戶中選取一小批用戶,給他們推送體育類新聞,如果這批用戶對新聞的點擊率和閱讀時長明顯高于平均水平,就說明標簽是有效的。
1. 效果評估
評估使用用戶畫像的效果最直接的方法就是,看其提升了多少實際業(yè)務(wù),如在互聯(lián)網(wǎng)廣告投放中,用戶畫像的使用效果主要是看它提升了多少點擊率和收入,在精準營銷過程中,主要是看使用用戶畫像后銷量提升了多少等。
但是如果把一個沒有經(jīng)過效果評估的模型直接用在線上,風(fēng)險是很大的,因此我們需要一些在上線前可計算的指標來衡量用戶畫像的質(zhì)量。
用戶畫像的評估指標主要是準確率、覆蓋率、時效性等。(篇幅有限,這里不詳細介紹,有需要的同學(xué)可以看《Spark機器學(xué)習(xí)進階實戰(zhàn)》一書第10.4.1節(jié))
2. 用戶畫像使用
構(gòu)建好用戶畫像并做了評估之后,就可以在業(yè)務(wù)中使用它。對此,一般需要一個可視化平臺,對標簽進行查看和檢索。用戶畫像的可視化過程中,一般使用餅圖、柱狀圖等對標簽的覆蓋人數(shù)、覆蓋比例等指標做形象的展示,如圖10-11所示是用戶畫像的一個可視化界面。
▲圖10-11 用戶畫像的可視化界面
此外,對于所構(gòu)建的用戶畫像,還可以使用不同維度的標簽,進行高級的組合分析,產(chǎn)出高質(zhì)量的分析報告。用戶畫像可以應(yīng)用在智能營銷、計算廣告、個性化推薦等領(lǐng)域,具體的使用方法與應(yīng)用領(lǐng)域緊密結(jié)合,在此不再詳細介紹。
關(guān)于作者:馬海平,科大訊飛大數(shù)據(jù)研究院研究主管,中國科學(xué)與技術(shù)大學(xué)計算機技術(shù)博士,專注數(shù)據(jù)挖掘和人工智能算法的研究,及其在計算廣告和個性化教育等方向的落地應(yīng)用。
于俊,科大訊飛大數(shù)據(jù)專家,專注大數(shù)據(jù)和人工智能應(yīng)用方案設(shè)計、基于Spark的大數(shù)據(jù)分析和價值挖掘,在大數(shù)據(jù)算法工程化實現(xiàn)方面具有豐富經(jīng)驗。
呂昕,科大訊飛大數(shù)據(jù)專家,專注大數(shù)據(jù)和人工智能技術(shù)在消費者業(yè)務(wù)中的應(yīng)用、基于Spark的大數(shù)據(jù)分析和算法建模,在用戶畫像、內(nèi)容推薦和精準營銷領(lǐng)域有豐富的實踐。
向海,邂智科技算法負責(zé)人,前科大訊飛大數(shù)據(jù)專家。專注Spark機器學(xué)習(xí)在智能客服中的應(yīng)用,在NLP與對話機器人應(yīng)用方面有豐富經(jīng)驗。
本文摘編自《Spark機器學(xué)習(xí)進階實戰(zhàn)》,經(jīng)出版方授權(quán)發(fā)布。