成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據案例分析:電信業Hadoop應用分析

大數據 Hadoop
聯通采用了Hadoop、HBase,這里面還有用戶管理員信息等等。目前,在客服使用當中感覺也是非常非常好的,更重要的是利用這個系統可以做深入的數據挖掘工作。

 隨著國內3G網絡的發展,或者移動通信網絡的發展,中國聯通(600050,股吧)目前運營著世界上***的CDMA網絡,流量運營是中國聯通一個重要特點。中國聯通3G套餐當中流量占比非常非常大,中國聯通3G用戶流量使用情況也是非常可觀的。而目前中國聯通遇到一個世紀問題:隨著流量的增長,3G流量的爭議也迅速的增加。現在3G業務在流量方面的投訴達到了投訴的7-10%,并且最近這半年還在成迅猛的上升趨勢,各個省份已經達到了20%。

  投訴來源于哪兒呢?

  一些用戶,特別是一些移動智能手機用戶,聯通研究院處長王志軍以自己為例說明。如我的安卓手機,前一陣子谷歌安卓4.0出來之后發布了新的版本,我的手機在某一天下午某一個時刻進行了自動更新,基本有200兆大小的流量的產生。

  如果是普通的3G用戶,中國聯通資費0.3元/兆,當套餐用光了之后,這次更新可能花費60元,這種更新是在不自覺情況下發生的,用戶毫不知情。所以,最終致使用戶到中國聯通進行投訴:用戶認為自己沒有使用這個流量,向聯通要證據。

  目前,電信計費系統流量話單在GGSN設備上產生,是網關設備。這個設備產生流量話單的時候是根據一個流量依據而產生:

  ***,達到一定時間,例如2個小時。

  第二,達到一定流量大小,比如5兆。

  這個流量話單相當于一段時間之內使用流量總合的話單,沒有說訪問哪個目標的IP地質,沒有訪問的目的地,只告訴你這個時刻產生了這樣的話單,用戶當然不愿意,用戶說我那天沒有使用過手機,沒有產生這個流量,這樣情況下用戶要求退費,或者雙倍賠償,GSN設備,無論是中國聯通也好,還是其他運營商也好,采用設備可能來子華為、阿爾卡特,這些設備在全球商用了,GGSN產生的話單在一定意義上之上,出現這種問題是微乎其微的,說不清流量到哪兒去了,運營商作為弱勢群體,只能退費或者雙倍賠償。

  運營商的難言之隱

  聯通研究院處長王志軍以一個案例進行說明,2011年,中國聯通一個用戶在0點到4點之間產生巨額流量費用,他認為中國聯通既然拿不出證據,以涉嫌欺詐消費者為由向法院提起了訴訟,影響是兩方面的。

  對用戶而言,他也是想知道流量到底什么時候發生的,如果手機的問題,他也知道怎么進行防范,這樣就不會發生類似問題,根據客戶部門提供的數據,可能因為無法提供商網流量詳單造成退費和賠付,會影響到運營商流量計費商務模式,所以我們建立這種系統意義非常大,***,我們的系統供聯通客服人員使用,提供快速查詢服務,解決流量投訴的問題,另外,我們也準備向最終用戶提供異常的大流量查詢服務。再一個問題,上網記錄數據本身是數據的金礦,我們可以通過獲取上網數據記錄對流量進行統計。

  海量數據的應對之策

  對于以上這些問題該如何應對呢?聯通研究院處長王志軍分析處理問題的難點:上網記錄數據是海量數據,經過我們的系統可以分析到,用戶每個用上網記錄基本幾萬到幾十萬,有的用戶五六十萬,我們現在采用的方案是在網關所有用戶流量必經地方采集,分析流量數據,然后上成上網記錄話單,話單量非常大。

  聯通研究院處長王志軍表示,例如用移動手機訪問新浪網首頁,對流量采集設備基本能生成20條左右上網記錄話單,如果點iPad新聞鏈接,恐怕會產生180條上網記錄,如果訪問淘寶網首頁,會產生60條請求和回應,在手機上網記錄當中有大量DNS查詢和推送服務。以中國聯通某一個中等省份公司為例,日均上網記錄達到10億條,每個月的數據接近9T,整個移動互聯網也在快速發展。

  根據中國聯通統計,每隔6個月中國聯通用戶整體上網流量會翻一番,去年平均3G每用戶的流量一年之內翻一番,整個流量增長非常迅速,也帶來了上網記錄的量非常非常大。

  傳統IOE方式,IBM小型機,思科數據庫存儲,EMC存儲,思科數據庫存儲這么大上網記錄時候已經不可能了,所以,聯想采用開源的Hadoop解決,Hadoop本身是系統架構,也是開源項目,由Apache基金會開發,Hadoop本身***層是分布式文件系統,這個分布式文件系統叫HDFL,在它之上有分布式處理框架,基于Hadoop整個開源項目,上面構建了結構化的訪問數據庫,在這之上又提供了類似的數據挖掘工具,另外也提供了一些分布式同步,以及遠程調用和序列化工具。

  Hadoop伴隨大數據一同火爆起來。現如今,Hadoop已經無人不知無人不曉。Hadoop從它一誕生的那天開始就與大數據深深地關聯到了一起。眾所周知,大數據多是出現在這些領域,包括金融、電信、保險以及一些大型互聯網企業等。以電信行業為例,Hadoop在這些領域的應用情況是怎么樣的呢?

  Hadoop+HBase+ MapReduce

  對于Hadoop分布式文件系統本身來說,重要的出發點在于硬件故障是常態,不是非異常的狀態,我們可以摒棄采用IBM小型機方案,Hadoop中數據可以自動復制,一份數據可以復制成三份,***份在一臺服務器上,第二份數據在另外一臺機架的另外一臺服務器上,第三份數據可能在另外一臺機架的另外一臺服務器上,作為分布式文件系統,每次請求寫入的磁盤和服務器物理地點可能不一樣,可以帶來高并發的讀寫請求。

  MapReduce框架分成很多數據級,***再合并處理。HBase分布式數據庫是分布式存儲系統,主要特點在正它是四維存儲系統,傳統的數據庫是二維表的結構,有行、有列,對它來說,除了有行之外,有列的概念,在列和行之間又可以存放多個版本,在這種情況下相當于四維表結構,好處在于可以靈活的表格結構,每個列組里面的列后來都可以隨機應變,我們的采集系統現在在采集一些字段,未來的發展過程中,為了數據挖掘的需要,會采集更多的字段,方便我們在一個結構之下進行更多信息的存儲以及后續的處理工作。

  HBase本身利用自動復制機制保證Hbase本身存儲的高可靠性。我們會做一些數據挖掘工作,除了采用MapReduce技術之外,還采用數據倉庫技術,針對海量數據進行高性能查詢和分析工作。中國聯通已經構建了一個全國集中的一級架構海量數據存儲和查詢系統,***,是一級架構,全國所有用戶所有上網記錄數據都放北京數據中心里,在國內電信行業當中也是首創的方式。

  另外一個方式,首先將開源Hadoop、Hbase技術應用商用電信服務系統中來,開源的軟件架構基本上沒有商用系統的,但是這次是商用系統,系統的構成,包括數據采集、數據入庫、數據存儲、數據查詢和數據分析技術,基本技術采用Hadoop,目前上網記錄數據存儲一般不小于30分鐘,30分鐘之前的上網記錄現在可以通過我們系統查詢到。

  在實際使用過程中,聯通發現約10分鐘的記錄可以查到,用HBase處理這么海量的數據時候,入庫速度非常非常迅速,另外查詢速度也非常非常迅速。另外系統的存儲不少于6個月原始上網記錄能力,中間的統計報表會保存不少于5年,現在的數據查詢速度,查詢一個用戶上網記錄,比如有幾萬條記錄,在幾千億條記錄當中檢索的時間小于一秒鐘,當然,這個時間不包括查詢頁面的時間。

  這是上網記錄詳單內容,存儲了很多用戶上網記錄信息,隨著系統的發展,為了數據挖掘的需要,聯通會進一步提取更多信息存到上網記錄系統當中來。

  Hadoop三節點 控制數據

  整個系統部署情況是這樣的,我們采用普通PC服務器部署這個系統,Hadoop本身有三個節點,一個是數據存儲節點,現在有178個數據存儲節點,每個數據存儲節點有14T的容量,集群的監控節點有一臺,入庫服務節點24臺,Web查詢應用服務節點20臺,在同一個機架上的數據交換采用千兆交換機。這是查詢系統的界面,用戶詳細信息都可以通過這個系統查詢出來。

  在目前情況下,現在已經部署完成了4個省份,北京、黑龍江、浙江、重慶,四個省份所有用戶上網記錄都可以上來,每天入庫條數超過42億條用戶上網數據記錄,每天入庫數據量超過1.2T,在這種數據量的情況下,現在已經保存了幾個月的上網記錄數據,在這種情況下,上網記錄數據保存在一張表當中,保存4個省的數據,一個月可能超過1200億條的數據,在這種情況下,在1200億條數據當中檢索一個用戶數據會達到不小于一秒,目前1200億條只用到15個數據節點,隨著178個數據節點上線之后,保存全國31省的數據以及進行快速入庫、查詢和檢索我們認為都沒有問題。

  現在預估,31省上線之后,每個月用戶上網記錄超過8千億條,我們系統明年6月份才可能考慮到下一期擴容工程,在這種情況下,我們相信每個月會有1萬億條數據,保存6個月用戶數據,原始數據量會超過6萬億條,目前每條上網記錄基本上在300個字節,隨著我們把更多的字段加入進來之后,可能平均每條用戶上網記錄的長度還會增加,可能達到400字節,對整個集群的要求會更高。

  聯通研究院處長王志軍表示,聯通***次采用了開源技術,在此之前,在電信行業當中比較少見。聯通采用了Hadoop、HBase,這里面還有用戶管理員信息等等。目前,在客服使用當中感覺也是非常非常好的,更重要的是利用這個系統可以做深入的數據挖掘工作。

  中國聯通在查詢用戶上網記錄之前會征得用戶的同意,有可能通過口服開頭同意,如果客服后臺查詢的話,我們可能會通知用戶有人要查詢其上網記錄,在安全方面聯通做了考慮。

【編輯推薦】

  1. 小白學數據分析:怎么做流失分析
  2. 小白學數據分析之K-means理論篇
  3. 小白學數據分析之從購買記錄分析道具支付環節
  4. 小白學數據分析之付費滲透率
  5. 小白學數據分析之Excel制作INFOGRAPHIC

責任編輯:彭凡 來源: 中關村在線
相關推薦

2013-10-18 17:15:37

SAP

2014-01-03 17:15:45

大數據電信業聯絡中心

2019-08-06 07:26:31

物聯網電信業IOT

2015-03-20 09:54:37

2013-01-16 09:24:42

愛立信電信網絡4G

2010-05-17 16:51:39

電信行業三網融合思科

2020-11-19 06:49:07

電信業物聯網IOT

2022-06-30 08:43:44

CNFVM網絡

2010-07-27 17:01:29

TD-LTE

2012-04-29 13:05:59

2012-09-20 17:50:26

IDC行業

2012-09-20 10:02:31

中國國際信息通信展覽會電信北京通信展

2013-07-05 09:30:07

大數據旅游業革命

2011-09-14 14:43:40

2011-07-08 09:11:34

惠普桌面虛擬化電信

2020-12-31 14:14:35

大數據大數據應用

2017-09-18 17:59:23

Hadoop數據分析

2014-03-27 09:36:36

Spark

2015-11-11 09:19:47

金融數據分析商業

2012-10-12 10:02:18

大數據印度IT業IT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美久久精品 | 巨大荫蒂视频欧美另类大 | 一区二区av在线 | 又黑又粗又长的欧美一区 | 成人精品一区二区 | 久久久激情视频 | 久热免费 | 欧美一区二区三区在线观看 | 国产福利资源在线 | 国产日韩欧美激情 | 欧美日韩久久久 | 中文字幕在线观 | 91麻豆精品国产91久久久更新资源速度超快 | 亚洲导航深夜福利涩涩屋 | 中文字幕国产精品 | 视频一区中文字幕 | 成人精品在线观看 | 91免费高清| 久久久久国产一区二区三区四区 | 男女爱爱网站 | 欧美日韩国产一区二区三区 | 伊人春色在线 | 亚洲91精品 | 国产成人精品一区二 | 成av人电影在线 | 欧美视频福利 | 天天干天天操天天看 | 一级片免费视频 | 国产福利91精品 | 成人在线观看免费视频 | 欧美日韩淫片 | 亚洲精品久久久久久久久久久 | 亚洲视频在线免费观看 | 在线观看亚洲欧美 | 成人午夜毛片 | 91精品国产综合久久久久久 | 九九av| 国产91丝袜在线播放 | 四虎永久免费黄色影片 | 精品少妇v888av | 亚洲精品免费视频 |