成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于運營商數據的疫情流向感知分析

大數據 數據分析
2020年初一場又新型冠狀病毒引發的疫情席卷全中國。各大運營商積極響應國家工信部號召,將利用自身大數據優勢,以手機信令為主,通過位置軌跡、用戶漫游識別、交往圈、返鄉用戶識別等模型構建一個疫情流向分析輔助決策系統,輔助相關部門疫情決策的大數據分析應用,并實現特定人群通知警示類公益短信發送。

Labs 導讀

2020年初一場又新型冠狀病毒引發的疫情席卷全中國。各大運營商積極響應國家工信部號召,將利用自身大數據優勢,以手機信令為主,通過位置軌跡、用戶漫游識別、交往圈、返鄉用戶識別等模型構建一個疫情流向分析輔助決策系統,輔助相關部門疫情決策的大數據分析應用,并實現特定人群通知警示類公益短信發送。幫助國家打贏這場戰“疫”。

1、背景

2020年初,一場突如其來的由新型冠狀病毒引發的肺炎疫情席卷中國大陸,為有效遏制病毒的傳播1月23日武漢封城,但即使這樣依舊有大批潛在疫情人口在城市里流動。那些來自疫情重災區湖北武漢、浙江溫州、廣東深圳等城市,暫時無任何肺炎癥狀也沒有發熱的人,他們作為首批潛在疫情人口,踏上了春運,一場數以千萬計人參與的大遷徙。

如何找到那些潛在的疫情人口,如何把瘟疫的傳播從源頭上控制住,每個省受到傳播感染的情況未來到底有多嚴重?是這場2019新冠病毒給我們帶來的課題。

運營商數據,在一個人人使用智能手機的時代,有覆蓋廣、規模大、數據連續且時效性高的特點。針對此次疫情傳播率高,且恰逢寒假和春節,有大量學生回家、務工人員返鄉的春運,通過運營商手機信令數據與用戶數據及基站數據的計算,建立不同人員模型,感知整個春運期間不同人員,尤其是疫情重點地區人員的流向分布情況。為當地政府相關部門應對疫情發展、蔓延防控決策提供數據上的決策支撐。

2、研究過程

2.1 數據來源

做整體數據分析時,我們采集數據源為:

  • d口位置數據:交換機位置切換數據/漫游位置數據,特點是數據范圍大,不精確,只能到地市級別和國家級別;優點是可以捕獲用戶出省以及出國的位置情況。
  • mc口:本地網2G位置數據,小區級別數據;
  • s1-mme口:本地網4G位置數據、小區級別數據;
  • 數據結構流量/語音話單:省內小區級、省外地市級。

采集的數據進行歸納整理后的形成基礎數據表:

  • 位置軌跡表:由 B域的vpmn語音話單,GPRS漫入話單,GPRS省內話單,語音漫入話單,語音省內話單和O域的cs信令數據,愛立信4G信令數據一共7種信令通過MR程序的模型算法得出,時間緯度為小時;
  • 基站工參信息表:通過網優部門采集的覆蓋全省10個地市,92個區縣的30余萬個基站工參信息。
  • 用戶資料表:全省3000余萬用戶的B域基礎數據。

 

表1:基礎數據表

 

2.2 數據特點

以本次分析的重點貴州省為例,截止到2018年末貴州省的通訊用戶有3940.4萬戶,覆蓋全省10個地市直轄區下的92個區縣,共計30余萬個基站小區平均每天產生的數據量高達19.5TB。只要手機開著,無論是否打電話、刷流量,手機都會全天24小時不間斷與基站發生交互,產生各種狀態的信令消息。

這些數據從基站小區的交換機采集,傳輸到機房,在進行數據的合并,清洗,加工,最后模型計算、分析與上層應用數據呈現,整套流程的時間延遲最大不超過24小時。對于應對這種大型災難性疫情的防控研判起到至關緊要的作用。

但是運營商數據從采集信令的時候,到事件合成和XDR合成過程中,均會出現問題導致信令漏采,號碼回填失敗等。

 

圖1:LTE無線網絡部分涉及的網元間的業務/信令接口

 

在信令采集時基站(eNB)和核心網之間采用S1接口,S1有兩種接口:

  • S1-MME 連接eNB和MME,接口專門傳送信令;
  • S1-U 連接eNB和SGW接口傳輸業務數據;

多個eNB之間采用X2口連接,X2接口上能同時傳輸業務&信令,eNB和UE之間采用Uu接口,Uu接口上也是能同時傳輸業務&信令。

在上述接口對接的過程中數據的傳輸會存在不穩定、丟包的情況。這樣會從源端導致一部分用戶數據的丟失。

當源端數據采集過來后將進行事件融合和XDR融合的信令數據處理,處理的過程中還有號碼丟失的情況,遇到這種情況不同的數據處理廠商會提供基于他們自身算法的號碼回填機制,但回填的號碼存在無效號碼或空號。這種情況也將導致數據不可用。

2.3 數據模型

對于運營商數據上存在的不全、缺損的問題,有一部分我們沒有辦法通過算法補全,但是對于大數據決策來說,只要總體數據展現出來的發展趨勢符合現實發生的狀況,那數據就是可用的,有價值的;而對于另一些數據而言,我們將采用4個核心模型作為研判的基礎模型,通過大量數據計算和合理的公式處理以得出最終可用輔助政府部門決策的結論。

1)軌跡模型

由于特定的某一類人的位置信息有很強的關聯性和相關性,對用戶位置軌跡建模就是基于集體行為模式的方法,來優化用戶的位置軌跡,同時,根據集體行為模式也可以用來預測用戶未來一段時間的軌跡,根據用戶歷史的位置軌跡及預測的位置軌跡。

模型主要根據現有的基站數據,提取用戶的基站數據初步模擬用戶的位置軌跡,同時對所有用戶的位置軌跡進行相似度分析,使用軌跡層次聚類算法將所有用戶軌跡進行聚類,最后根據聚類結果校對優化用戶原先的位置軌跡,提升用戶位置軌跡的準確率,同時,可以將最終的位置軌跡映射到地圖上,結合地圖周邊信息進行針對性的疫情分析。

  • 根據基站數據模擬用戶位置軌跡
  • 用戶位置軌跡相似度分析
  • 軌跡層次聚類算法
  • 優化用戶位置軌跡

 

Figure 2: Trajectory algorithm model
圖2:軌跡算法模型

 

具體的思路和規則:

  • 提取用戶一天之內的基站信息;
  • 將用戶的基站經緯度映射到地圖上,按時間先后進行連接畫線;
  • 對用戶與其他用戶之間的軌跡曲線進行相似度計算;
  • 用軌跡聚類算法,尋找出與此用戶位置軌跡在同一群體里的用戶;
  • 根據同一群體內的用戶位置軌跡,剔除此用戶中異常的基站。

在此基礎上,優化用戶的位置軌跡,同時,可以根據用戶所經過的基站的經緯度計算出基站之間的距離,結合每個基站的駐留時長,計算出用戶兩兩基站之間的速度,判斷用戶的交通工具,根據交通工具匹配地圖上的軌跡路線,進一步優化用戶的位置軌跡。

2)漫游模型

通過對運營商用戶漫游過程的監測和分析,找到漫游進入用戶和漫游離開用戶。

針對漫游離開用戶,基于用戶話單表、用戶表等基礎表單信息,凡漫游到其他省份的用戶在產生流量、通話、短信等通信消費行為后,會產生話單信息。根據話單表中記錄的用戶所產生消費行為對應的省份、地市信息,確定用戶漫游到訪的省份地市。

針對漫游進入用戶,基于常駐表、工參表、基站信息表等基礎表單,根據用戶進入省內基站的時間,基站位置信息,確定用戶漫入省內的開始時間、結束時間、基站ECI、基站名稱等。

3)交往圈模型

  • 取目標用戶有效交往圈清單;
  • 取待識別號碼有效交往清單;
  • 取目標用戶和待識別用戶有效交往圈交集;

分別計算和目標用戶有效交往圈存在交集的待識別號碼的符合率:

  • 符合率=交往圈交集大小/目標用戶有效交往圈大小
  • 分目標號碼將符合率有高到低進行排序;
  • 取目標號碼的網絡位置小區和待識別號碼的網絡位置小區;
  • 計算每個目標號碼和待識別號碼網絡位置小區重合數;
  • 判斷目標號碼和待識別號碼是否相同;
  • 如果符合率大于,將、小區重合數、符合率從高到低綜合排序,取排名第一位;
  • 如果符合率小于等于,必須相同,然后將小區重合數、符合率從高到低綜合排序,取排名第一位;
  • 最終識別結果必須滿足符合率大于或者小于且相同;
  • 指紋匹配相似度=符合率+(0.5×有效交往圈近似性+0.5×全集交往圈近似性)

交往圈近似性是通過目標用戶與待識別用戶交往圈大小來描述其近似性的。包括全集交往圈近似性和有效交往圈近似性。

全集交往圈描述的是待識別用戶與目標用戶全集交往圈的近似性程度,公式如下:

  • 全集交往圈近似性=1-目標用戶與待識別用戶的全集交往圈大小之差的絕對值/目標用戶與待識別用戶的全集交往圈大小之和

有效交往圈近似性:描述的是待識別用戶與目標用戶的有效交往圈的近似程度,其公式如下:

  • 有效交往圈近似性=-目標用戶與待識別用戶的有效交往圈大小之差的絕對值目標用戶與待識別用戶的有效交往圈大小之和。

最終得到用戶的匹配號碼,以此獲得用戶特征信息。

4)返鄉模型

基站駐留軌跡、通話行為、用戶基礎屬性作為模型的基本數據;

通過對目標用戶的業務規則和數據剖析,初步篩選出36個用戶特征緯度,進一步采用統計學算法的因子、聚類、主成分分析,最終選取相關度較高(r>0.6)、獨立性較好(p<0.05)、累計貢獻率超過80%以上的前11個綜合特征指標;

為消除各個用戶特征數量級不同對模型預測效果產生的影響,采用Z-score方法對相應指標進行標準化處理;

結合業務經驗評估及對比各維度的重要性,采用專家打分法,計算權重系數,并對模型輸入的緯度數據進行加權處理;

數據挖掘的過程中,先采用Logistic回歸算法訓練模型,確定識別規則,預測返鄉用戶分值,再采用二八定律制定分數閾值;

邏輯(斯蒂)回歸(Logistic Regression),是一種廣義的線性回歸分析模型,是數據挖掘中比較常用的模型算法,用于估計某種事物的可能性。邏輯回歸最終輸出一個0-1之間的概率值,通常以0.5為分界點,越接近1表示可能性傾向性越大,反之越近0表示可能性越低。

假設我們有n個獨立的樣本{(x1, y1) ,(x2, y2),…, (xn, yn)},y={0, 1},那每一個觀察到的樣本(xi, yi)出現的概率是:

1. 寫出似然函數,對整個樣本來說明,n個獨立樣本出現的似然函數為(最大似然法就是求模型中使得似然函數最大的系數取值θ*,對應為代價函數):

2. 對似然函數取對數,并整理:

3.

 

這次建模將通過python的scikit-learn中的LogisticRegression實現邏輯回歸算;。

得出返鄉目標用戶。

5)位置定位算法

采用PNPoly 算法對將用戶所在位置進行優化。根據 W. Randolph Franklin 提出的 PNPoly 算法,如果一個點在多邊形的內部,那么從這個點引一條射線,那么與多邊形的邊的交點是奇數個,那么就在多邊形的內部,如果是偶數個,那么該點在多邊形的外面。考慮到運營商網絡的特點,還需要計算基站與住宅小區輪廓線各點的距離,通過設置閾值,來判斷拉遠站以及周邊站。從而計算出住宅小區的網絡覆蓋,進一步計算潛在疫情人口分布。

2.4計算環境

  • HADOOP基本的數據清洗,運用到700個節點;
  • SPARK模型數據計算,運用到100個節點;
  • MPP用于存放結果數據的數據倉庫,運用到71個節點。

2.5數據應用

A.可視化數據大屏

 

圖3:疫情流向監控大屏

 

將通過模型計算的數據按照系統規定好的數據格式放入數據庫中,系統頁面通過折線圖可以感知到從疫情重點區域到訪的每日人數變化趨勢,柱狀圖可以了解到重點省份的重點地市下的一個人員數量及占比,熱力圖更好的可以看出不同時段下、不同人數區間、不同地區人員聚集的情況。

從可視化大屏可以直觀的感受到潛在疫情人口的分布、流向,對相關政府部門進行疫情防控決策起重要的輔助作用。

B.公益性通知短信

 

圖4:公益類告知短信

 

利用運營商平臺優勢,實現公益類短信發送。通過文字類短信、圖片類短信和視頻類短信多種形式,可定向給潛在感染人群發送警示類短信,及衛生防疫知識。

掌握確診人群的信息的前提下,還可以通過數據模型分析,識別出與確診人群接觸過的一般接觸者,對一般接觸者發送有特點內容的警示告知類短信。短信發送均不出運營商內網,保證每一個用戶的隱私和安全。

3、結論

3.1 算法驗證

以2020年2月2日貴陽市軍閱酒店為例,作為第一批向公眾開放的湖北籍旅客指定接待酒店。該酒店位于貴陽市觀山湖區西二環84號北大資源夢想城軍創大廈內,1月26日起作為湖北籍旅客指定接待酒店開放,截止到1月30日已接待旅客108人。

從貴州疫情流向分析數據中查詢到2020年1月30日軍閱酒店內室分基站下湖北籍用戶人數有71人。按照運營商用戶數占比,以及兒童無手機等其他干擾情況數據分析后得出,軍閱酒店內湖北籍旅客在100人左右,和實際情況出入不大。可以將軍閱酒店納入重點疫情監控區域。

 

[[321040]]

圖6:系統中熱力圖呈現的軍閱酒店湖北籍旅客人數

 

當截止到2020年2月13日,軍閱酒店內已有三例新型冠狀病毒肺炎的確診病例。

3.2未來展望

通過此次新型冠狀病毒肺炎疫情的考驗,我們發現運營商的大數據發展雖然有了不錯的模型建設能力及展示能力,但是在基礎數據采集和回填上仍存在漏洞。僅依靠以基站為準的位置定位范圍較廣,只能進行宏觀層面的決策輔助,并不能實現細節方面的精確定位。隨著模型算法的不斷成熟,基于OTT和MR的精確位置定位,和5G應用的廣泛推廣,基于運營商的應用一定可以在各行各業中起到關鍵性的作用。

而通訊運營商作為國有企業,有責任和義務享受著大數據時代帶來便捷同時保護每個用戶的隱私不被泄露的同時,在國家重大突發事件中積極響應工業和信息化部的號召,按照要求在疫情初期完成省級平臺高危人群的定位、位置軌跡的風險、區域內非正常人群聚集的監控,為國家的抗“疫”之戰添磚加瓦。

OTT和MR的精確位置定位,和5G應用的廣泛推廣,基于運營商的應用一定可以在各行各業中起到關鍵性的作用。

而通訊運營商作為國有企業,有責任和義務享受著大數據時代帶來便捷同時保護每個用戶的隱私不被泄露的同時,在國家重大突發事件中積極響應工業和信息化部的號召,按照要求在疫情初期完成省級平臺高危人群的定位、位置軌跡的風險、區域內非正常人群聚集的監控,為國家的抗“疫”之戰添磚加瓦。

【本文為51CTO專欄作者“移動Labs”原創稿件,轉載請聯系原作者】

戳這里,看該作者更多好文

 

責任編輯:未麗燕 來源: 移動Labs
相關推薦

2022-08-03 18:29:53

數據庫數據庫替換

2015-09-17 14:36:00

運營商轉型/運營商

2020-03-24 10:27:01

數據中心運營商冠狀病毒

2020-02-18 08:56:48

疫情運營商網絡

2021-01-04 09:51:44

數據中心全棧數據中心數字化轉型

2017-09-20 15:05:45

監控系統

2020-06-15 09:59:26

大數據疫情技術

2022-07-19 11:01:16

數據存儲

2017-02-27 12:19:06

華為數字化論壇

2018-10-08 13:41:01

運營商通信網絡攜號轉網

2018-12-09 21:11:12

SD-WAN運營商軟件定義網絡

2020-10-21 10:58:19

數據中心

2022-02-28 10:27:46

華為5G

2020-08-07 09:03:19

數據中心IT技術

2019-09-27 10:39:48

5G數據中心銳捷網絡

2018-01-04 15:30:56

SD-WANSDNIDC

2021-06-24 09:55:53

運營商中國電信中國移動

2022-06-01 14:08:31

5G運營商數字經濟

2022-01-21 09:28:56

運營商5G5G基站
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人做爰69片免费观看 | 天天干成人网 | 久久精品视频9 | 毛片在线视频 | 国产精品综合色区在线观看 | 人妖无码 | 黄色一级免费观看 | 中文字幕一区二区三区四区不卡 | 最新中文字幕久久 | 国产精品福利视频 | 日韩欧美亚洲 | 午夜小视频免费观看 | 在线观看成人精品 | 欧美激情一区二区三区 | 亚洲精品视频在线 | 成人毛片视频免费 | 9999久久 | 国产精品免费一区二区三区四区 | 精品成人免费一区二区在线播放 | 超碰精品在线观看 | 丁香综合| 国产精品伦理一区二区三区 | 国产精品视频久久久 | 亚洲精品一区二区在线观看 | 久久精品网 | 久免费视频 | 精品久久久久久久久久久院品网 | 成人午夜影院 | 成人在线视频一区二区三区 | 久久中文字幕一区 | 亚洲成人精品国产 | 欧美一级久久 | 国产成都精品91一区二区三 | 在线国产视频 | 亚洲成人免费视频 | 久久久久亚洲精品 | 久久国产亚洲 | 干狠狠| 在线播放国产一区二区三区 | 天堂成人国产精品一区 | 国产蜜臀 |