成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何基于Spark進行用戶畫像?

大數據 Spark
如果你面對5萬個匿名駕駛員線路的數據集,你知道如何根據路線研發出一個駕駛類型的算法類簽名,來表征駕駛員的特征嗎?本文就從數據分析、機器學習和結果等三個方面介紹comSysto團隊解決以上問題的過程。

近期,comSysto公司分享了該公司研發團隊利用Spark平臺解決Kaggle競賽問題的經歷,為Spark等平臺應用于數據科學領域提供了借鑒。

主辦方提供了一個包含5萬個匿名駕駛員線路的數據集,競賽的目的是根據路線研發出一個駕駛類型的算法類簽名,來表征駕駛員的特征。例如,駕駛員是否長距離駕駛?短距離駕駛?高速駕駛?回頭路?是否從某些站點急劇加速?是否高速轉彎?所有這些問題的答案形成了表征駕駛員特征的獨特標簽。

面對此挑戰,comSysto公司的團隊想到了涵蓋批處理、流數據、機器學習、圖處理、SQL查詢以及交互式定制分析等多種處理模型的Spark平臺。他們正好以此挑戰賽為契機來增強Spark方面的經驗。接下來,本文就從數據分析、機器學習和結果等三個方面介紹comSysto團隊解決以上問題的過程。

數據分析

作為解決問題的***個步驟,數據分析起著非常關鍵的作用。然而,出乎comSysto公司團隊意料的是,競賽提供的原始數據非常簡單。該數據集只包含了線路的若干匿名坐標對(x,y),如(1.3,4.4)、(2.1,4.8)和(2.9,5.2)等。如下圖所示,駕駛員會在每條線路中出發并返回到原點 (0,0),然后從原點挑選隨機方向再出發,形成多個折返的路線。

 

拿到數據后,comSysto公司的團隊有些氣餒:只看坐標很難表征一個駕駛員吧?!

信息指紋的定義

因此,在原始數據如此簡單的情況,該團隊面臨的一個問題就是如何將坐標信息轉換為有用的機器學習數據。經過認證思考,其采用了建立信息指紋庫的方法,來搜集每一個駕駛員有意義和特殊的特征。為了獲得信息指紋,團隊首先定義了一系列特征:

  • 距離:所有相鄰兩個坐標歐氏距離的總和。
  • 絕對距離:起點和終點的歐氏距離。
  • 線路中停頓的總時間:駕駛員停頓的總時間。
  • 線路總時間:某個特定線路的表項個數(如果假設線路的坐標值為每秒鐘記錄的數值,路線中表項的個數就是線路的總秒數)。
  • 速度:某個點的速度定義為該點和前一個點之間的歐氏距離。假設坐標單位為米、坐標之間的記錄時間間隔為1秒,該定義所給出的速度單位就為m/s。然而,本次分析中,速度主要用于對比不同點或者不同駕駛員。只要速度的單位相同即可,并不追求其絕對值。對于加速、減速和向心加速度,該說明同樣成立。
  • 加速度:加速時,該點和前一點速度的差值
  • 減速度:減速時,該點和前一點速度的差值
  • 向心加速度:

 

其中,v為速度、r為曲線路徑所形成圓的半徑。半徑計算需要用到當前點、之前和之后的若干個點的坐標信息。而,向心加速度是對駕駛員高速駕駛風格的體現:該值越大表明轉彎的速度越快。

一個駕駛員所有線路的上述特征組成了其簡歷(信息指紋)。根據經驗,城市道路和高速道路上的平均速度是不同的。因此,一個駕駛員在所有線路上的平均速度并沒有很多意義。ecoSysto選擇了城市道路、長距離高速道路和鄉村道路等不同路線類型的平均速度和***速度作為了研究對象。

數據統計:根據統計,本次競賽的數據集中共包含了2700個駕駛員,共54000個線路的信息。所有的線路共包含3.6億個X/Y坐標——以每秒記錄一個坐標來算,共包含10萬個小時的線路數據。

機器學習

在初步的數據準備和特征提取后,ecoSysto團隊開始選擇和測試用于預測駕駛員行為的機器學習模型。

聚類

機器學習的***步就是把路線進行分類——ecoSysto團隊選擇k-means算法來對路線類型進行自動分類。這些類別根據所有駕駛員的所有路線推導得到,并不針對單個駕駛員。在拿到聚類結果后,ecoSysto團隊的***感覺就是,提取出的特征和計算得到的分類與路線長度相關。這表明,他們能夠作為路線類型的一個指針。最終,根據交叉驗證結果,他們選擇了8種類型——每條路線指定了一種類型的ID,用于進一步分析。

預測

對于駕駛員行為預測,ecoSysto團隊選擇一個隨機森林(random forest)算法來訓練預測模型。該模型用于計算某個特定駕駛員完成給定路線的概率。首先,團隊采用下述方法建立了一個訓練集:選擇一個駕駛員的約 200條路線(標為“1”——匹配),再加隨機選擇的其他駕駛員的約200條路線(標為“0”——不匹配)。然后,這些數據集放入到隨機森林訓練算法中,產生每個駕駛員的隨機森林模型。之后,該模型進行交叉驗證,并最終產生Kaggle競賽的提交數據。根據交叉驗證的結果,ecoSysto團隊選擇了10 棵樹和***深度12作為隨機森林模型的參數。有關更多Spark機器學習庫(MLib)中用于預測的集成學習算法的對比可參考Databrick的博客。

流水線

ecoSysto團隊的工作流劃分為了若干用Java應用實現的獨立步驟。這些步驟可以通過“spark-submit”命令字節提交給Spark執行。流水線以Hadoop SequenceFile作為輸入,以CSV文件作為輸出。流水線主要包含下列步驟:

 

  1. 轉換原始輸入文件:將原有的55萬個小的CSV文件轉換為一個單獨的Hadoop SequenceFile。
  2. 提取特征并計算統計數字:利用以上描述的定義計算特征值,并利用Spark RDD變換API計算平均值和方差等統計數字,寫入到一個CSV文件中。
  3. 計算聚類結果:利用以上特征和統計值以及Spark MLlib的API來對路線進行分類。
  4. 隨機森林訓練:選取maxDepth和crossValidation等配置參數,結合每條線路的特征,開始隨機森林模型的訓練。對于實際Kaggle提交的數據,ecoSysto團隊只是加載了串行化的模型,并預測每條線路屬于駕駛員的概率,并將其以CSV格式保存在文件中。

結果

最終,ecoSysto團隊的預測模型以74%的精度位列Kaggle排行榜的670位。該團隊表示,對于只花2天之間就完成的模型而言,其精度尚在可接受范圍內。如果再花費一定的時間,模型精度肯定可以有所改進。但是,該過程證明了高性能分布式計算平臺可用于解決實際的機器學習問題。

責任編輯:Ophira 來源: 煉數成金
相關推薦

2018-06-06 14:17:44

聚類分析算法大數據

2017-04-28 11:15:26

大數據用戶畫像技術

2016-04-08 11:39:49

用戶畫像個性化推薦標簽

2023-03-15 07:22:56

畫像平臺數據中臺

2018-05-16 08:58:04

用戶畫像存儲

2024-02-06 08:18:30

用戶畫像標簽數字化異常值處理

2017-11-21 13:46:30

大數據用戶畫像數據管理

2022-12-15 08:35:01

用戶畫像平臺

2016-04-18 12:01:16

2024-03-29 11:39:57

用戶畫像用戶分群用戶分層

2017-08-24 09:55:57

2018-11-22 11:06:56

畫像分析

2017-02-09 11:05:11

大數據用戶畫像技術

2022-10-31 11:35:48

用戶畫像底層模型

2017-02-13 20:36:14

群體畫像用戶數據

2024-04-11 08:02:11

算法用戶畫像深度學習

2017-02-27 17:34:12

大數據

2024-02-27 13:07:49

用戶畫像數據分析HR

2021-07-29 11:37:32

SIKT模型數據

2017-02-09 11:34:57

大數據用戶畫像應用實踐
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费视频一区二区 | 91精品国产一区二区三区 | 欧美 日韩 综合 | 亚洲一区二区三区在线 | 成人精品啪啪欧美成 | 毛片99| 羞羞视频网 | 国产香蕉视频在线播放 | 精品欧美| 干狠狠| 日韩毛片| 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 欧美视频免费在线 | 中文字幕av第一页 | 国产操操操 | 日韩在线免费 | 久久久国产精品网站 | 国产精品99久久久久久动医院 | 国产午夜三级一区二区三 | 免费观看一级毛片视频 | 国产亚洲一区二区三区 | 国产999精品久久久久久 | 日韩视频三区 | 中文精品一区二区 | 免费国产黄网站在线观看视频 | 欧美一区二区三区在线观看视频 | 中文字幕精 | 欧美αv | 亚洲免费在线视频 | 美女视频三区 | 久久免费精品视频 | 亚洲国产成人精品女人久久久 | 男女午夜免费视频 | 99热在线观看精品 | 欧美一级片在线看 | 91精品国产综合久久久久久丝袜 | 国产激情视频 | 亚洲黄色在线免费观看 | 韩国毛片一区二区三区 | 国产精品99久久久久久久久久久久 | 激情三区 |