成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

干貨 :基于用戶畫像的聚類分析

大數據 數據分析
聚類(Clustering),顧名思義就是“物以類聚,人以群分”,其主要思想是按照特定標準把數據集聚合成不同的簇,使同一簇內的數據對象的相似性盡可能大,同時,使不在同一簇內的數據對象的差異性盡可能大。通俗地說,就是把相似的對象分到同一組。

聚類(Clustering),顧名思義就是“物以類聚,人以群分”,其主要思想是按照特定標準把數據集聚合成不同的簇,使同一簇內的數據對象的相似性盡可能大,同時,使不在同一簇內的數據對象的差異性盡可能大。通俗地說,就是把相似的對象分到同一組。

聚類算法通常不使用訓練數據,只要計算對象間的相似度即可應用算法。這在機器學習領域中被稱為無監督學習。

某大型保險企業擁有海量投保客戶數據,由于大數據技術與相關人才的緊缺,企業尚未建立統一的數據倉庫與運營平臺,積累多年的數據無法發揮應有的價值。企業期望搭建用戶畫像,對客戶進行群體分析與個性化運營,以此激活老客戶,挖掘百億續費市場。眾安科技數據團隊對該企業數據進行建模,輸出用戶畫像并搭建智能營銷平臺。再基于用戶畫像數據進行客戶分群研究,制訂個性化運營策略。

本文重點介紹聚類算法的實踐。

Step 1 數據預處理

任何大數據項目中,前期數據準備都是一項繁瑣無趣卻又十分重要的工作。

首先,對數據進行標準化處理,處理異常值,補全缺失值,為了順利應用聚類算法,還需要使用戶畫像中的所有標簽以數值形式體現。

其次要對數值指標進行量綱縮放,使各指標具有相同的數量級,否則會使聚類結果產生偏差。

接下來要提取特征,即把最初的特征集降維,從中選擇有效特征放進聚類算法里跑。眾安科技為該保險公司定制的用戶畫像中,存在超過200個標簽,為不同的運營場景提供了豐富的多維度數據支持。但這么多標簽存在相關特征,假如存在兩個高度相關的特征,相當于將同一個特征的權重放大兩倍,會影響聚類結果。

我們可以通過關聯規則分析(Association Rules)發現并排除高度相關的特征,也可以通過主成分分析(Principal Components Analysis,簡稱PCA)進行降維。這里不詳細展開,有興趣的讀者可以自行了解。

Step 2 確定聚類個數

層次聚類是十分常用的聚類算法,是根據每兩個對象之間的距離,將距離最近的對象兩兩合并,合并后產生的新對象再進行兩兩合并,以此類推,直到所有對象合為一類。

Ward方法在實際應用中分類效果較好,應用較廣。它主要基于方差分析思想,理想情況下,同類對象之間的離差平方和盡可能小,不同類對象之間的離差平方和應該盡可能大。該方法要求樣品間的距離必須是歐氏距離。

值得注意的是,在R中,調用ward方法的名稱已經從“ward”更新為“ward.D”。

 

  1. library(proxy) 
  2. Dist <- dist(data,method='euclidean') #歐式距離 
  3. clusteModel <- hclust(Dist, method='ward.D'
  4. plot(clusteModel) 

 

根據R繪制的層次聚類圖像,我們對該企業的客戶相似性有一個直觀了解,然而單憑肉眼,仍然難以判斷具體的聚類個數。這時我們通過輪廓系數法進一步確定聚類個數。

輪廓系數旨在對某個對象與同類對象的相似度和與不同類對象的相似度做對比。輪廓系數取值在-1到1之間,輪廓系數越大時,表示對應簇的數量下,聚類效果越好。

 

  1. library(fpc) 
  2. K <- 3:8 
  3. round <- 30 # 避免局部*** 
  4. rst <- sapply(K,function(i){ 
  5. print(paste("K=",i)) 
  6. mean(sapply(1:round,function(r){ 
  7. print(paste("Round",r)) 
  8. result<- kmeans(data, i) 
  9. stats<- cluster.stats(dist(data), result$cluster) 
  10. stats$avg.silwidth 
  11. })) 
  12. }) 
  13. plot(K,rst,type='l',main='輪廓系數與K的關系',ylab='輪廓系數'

 

在輪廓系數的實際應用中,不能單純取輪廓系數***的K值,還需要考慮聚類結果的分布情況(避免出現超大群體),以及從商業角度是否易于理解與執行,據此綜合分析,探索合理的K值。

綜上,根據分析研究,確定K的取值為7。

Step 3 聚類

K-means是基于距離的聚類算法,十分經典,簡單而高效。其主要思想是選擇K個點作為初始聚類中心, 將每個對象分配到最近的中心形成K個簇,重新計算每個簇的中心,重復以上迭代步驟,直到簇不再變化或達到指定迭代次數為止。K-means算法缺省使用歐氏距離來計算。

 

  1. library(proxy)  
  2. library(cluster)  
  3. clusteModel <- kmeans(data, centers = 7, nstart =10)  
  4. clusteModel$size  
  5. result_df <- data.frame(data,clusteModel$cluster) 
  6.  
  7. write.csv(result_df, file ="clusteModel.csv", row.names = T, quote = T) 

Step 4 聚類結果分析

對聚類結果(clusteModel.csv)進行數據分析,總結群體特征:

  • cluster=1:當前價值低,未來價值高。(5.6%)
  • cluster=2:當前價值中,未來價值高。(5.4%)
  • cluster=3:當前價值高,未來價值高。(18%)
  • cluster=4:當前價值高,未來價值中低。(13.6%)
  • cluster=5:高價值,穩定群。(14%)
  • cluster=6:當前價值低,未來價值未知(可能信息不全導致)。(2.1%)
  • cluster=7:某一特征的客戶群體(該特征為業務重點發展方向)。(41.3%)

根據分析師與業務團隊的討論結果,將cluster=1與cluster=6進行合并,最終得到6個客戶群體,并針對客戶群體制訂運營策略。

客戶分群與運營策略

(業務敏感信息打碼)

 

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2017-04-28 11:15:26

大數據用戶畫像技術

2018-11-22 11:06:56

畫像分析

2024-02-06 08:18:30

用戶畫像標簽數字化異常值處理

2016-03-16 10:22:28

Spark用戶畫像數據科學

2017-11-21 13:46:30

大數據用戶畫像數據管理

2016-04-08 11:39:49

用戶畫像個性化推薦標簽

2016-04-18 12:01:16

2022-10-31 11:35:48

用戶畫像底層模型

2023-03-15 07:22:56

畫像平臺數據中臺

2017-02-27 17:34:12

大數據

2024-02-27 13:07:49

用戶畫像數據分析HR

2020-07-23 09:15:25

Python機器學習聚類分析

2022-12-15 08:35:01

用戶畫像平臺

2024-08-20 08:22:21

2024-03-29 11:39:57

用戶畫像用戶分群用戶分層

2016-04-11 14:24:08

用戶畫像技術架構數據分析

2017-11-07 11:17:40

樸素貝葉斯畫像數據數據挖掘

2018-04-24 15:19:52

聚類分析數據方法

2017-02-13 20:36:14

群體畫像用戶數據

2018-05-16 08:58:04

用戶畫像存儲
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩福利 | 男女羞羞网站 | 日韩在线一区二区三区 | 丁香五月缴情综合网 | 国产精品视屏 | 国产一区久久精品 | 天堂一区在线 | 麻豆亚洲 | 日屁网站 | 99久久精品国产麻豆演员表 | 91网站在线看 | 天天爱爱网 | 国产中文一区二区三区 | 亚洲高清在线 | 亚洲97| 国产日韩欧美激情 | 国产精品色| 亚洲国产激情 | 中文字幕在线免费观看 | 国产91精品久久久久久久网曝门 | 国产中文字幕在线观看 | 久久精品欧美一区二区三区麻豆 | 男女爱爱福利视频 | 国产一级一级毛片 | 国内精品视频免费观看 | 在线播放日韩 | 国产成人区 | 国产91综合 | 特黄一级 | 久久久久久久一区二区三区 | 男女下面一进一出网站 | 日韩一区二区福利视频 | 91精品国产综合久久久久 | 久久综合伊人一区二区三 | 亚洲欧美久久 | 亚洲精品一区二区三区四区高清 | 国产免费一区二区三区网站免费 | 欧美日韩在线一区二区 | 久草精品视频 | 一区二区精品视频 | 日韩在线视频观看 |