華為大數據平臺:重塑企業數據處理新時代
2016年是大數據發展歷程中相當振奮的一年,大數據背后的價值已經獲得業界的認可,眾人對大數據的追捧開始更趨于理性。海量數據如何整合,如何分析加以利用,如何驅動商業這一連串的追問,將大數據的應用也推向新一輪的高潮。
多個維度劃分大數據
華為認為按照不同的維度可以將大數據做不同的劃分。為了更加全面地認識大數據,可從三個維度來準確定位大數據。
從業務創新角度看,往往是以業務問題為出發點圍繞著商業理解、數據科學和技術實踐形成一個系統性的數據價值發現體系。目前主要是從數據獲取、數據存查、客戶洞察、客戶標簽、實時消費這幾個環節來切入,整體支撐業務創新。
從大數據的發展方向來看,隨著數據量的增加,以及訪問并發量的增加,未來大數據平臺將是一個端到端的分布式的架構,從底層大數據的平臺到中間數據的服務層,甚至應用層,都將呈現出一個全分布式的大數據平臺。
而從技術演進的角度看,又可以暫將大數據分為三個階段。
2007年到2012年,大數據以Hadoop原生技術為主,主要是以HDFS作為分布式的存儲,MapReduce作為并行計算框架,做一些分布式的任務。HBase作為NoSQL數據庫去做單一的大批量的大負載的計算能力。
2013年到2016年,可看作是大數據2.0時代。Hadoop2.0將計算層和資源管理層做了分離。MapReduce分成兩部分,一部分是專注于計算的MapReduce,另外一部分專注于集成管理的YARN。其中YARN形成了一個統一的資源管理,便于大數據平臺內部的統一資源調配。此外像流處理的這種技術也在不斷地完善。
2018年到2020年,有專家預測將出現企業級的數據智能平臺。企業級大數據平臺將具備開發生態、行業優化、易運維、安全可靠,以及內核演進內核維護等特征。屆時業界更需要的將是能夠創建新的社區頂級項目,并且獲得生態認可的大數據廠商。那些只基于Hadoop開發應用的大數據團隊,市場空間將遭遇發展瓶頸。
多行業加速大數據應用
大數據究竟可以為企業級用戶帶來什么價值?最重要的是五點:“一是技術高效、低成本,二是增強管理水平,三是提升業務效率,四是提升客戶體驗,五是創新商業模式。“未來各行各業都會產生大量數據,讓數據產生價值,讓使用數據的人有更優質的體驗感受,讓數據能夠變現,是現在企業用戶如此熱衷大數據的主要因素。
我們知道,政府也在積極推動大數據的應用,在智慧城市、城市的精細化管理、醫療、教育、交通、社會安全、工業等多個領域探討大數據的應用。而目前已經走在大數據應用前列的金融行業,從2016年到2020年這五年期間,數據治理與數據服務成為了銀行業對大數據應用的非常重要的兩個方向。例如實時征信、風險審計、內部管理、精準推薦、歷史數據管理、小微貸、客戶預測、客戶流失分析等多個應用都需要大數據技術來支撐。
華為大數據發展之路
大數據是華為四個戰略方向之一,華為在美國研究所、歐洲研究所布局100多高端大數據專業人才,進行未來3到5年的大數據技術研究,確保華為大數據產品的長期的技術競爭力。
華為在2007年開始研究大數據,2013年發布了FusionlnsightHD版本,FusionInsight是華為面向眾多行業客戶推出的,基于Apache開源社區軟件進行功能增強的企業級大數據存儲、查詢和分析的統一平臺,可以讓企業可以更快、更準、更穩的從各類繁雜無序的海量數據中發現全新價值點和企業商機。
華為大數據的產品是一個全站式的大數據產品,它從大數據的平臺FusionlnsightHD到數據的集成平臺Porter,再到數據的分析挖掘數據建模的平臺Miner,到數據服務平臺FarmerRTD,具備全流程的全分布式的能力。它集成了業界各種標準組件,如分布式文件系統YARN、MapReduce、Spark等等,還包括Redis、SOLER、Strom這樣在企業級很少集成的組件,甚至華為獨創的自研組件也在其中。“未來華為大數據平臺將能夠實現各種應用,包括對跑批的應用、對流式處理的應用、對實時查詢的應用、對機器學習的應用等等,都可以在統一平臺上去實現。”
除此之外,企業級的大數據平臺還應該具備高可靠性、高性能、應用性、高安全這些能力。華為在此基礎上還提供了可視化的數據集成能力、HDFS的二級索引能力,毫秒級的流處理平臺能力,慢盤檢測、多租戶的解決方案等等,真正做到了基于業務、開發兼容、敏捷可信。
事實證明,FusionInsight的推出恰當時,截止2016年上半年華為大數據產品已經成功應用于各個行業、客戶遍布全球20多個國家,實施案例超過600個。在中國金融大數據領域,市場占有率超過60%。
華為也一直致力于推動大數據社區的發展,社區貢獻率穩居前列。FusionInsight是國內唯一的與大數據社區長期同步研究的大數據平臺產品。2016年華為創建了頂級的社區項目Apache CarboonData,還發布了實時反欺詐的平臺FarmerRTD。2017年初華為還將發布基于社區最新的Hadoop3.0和Spark 2.0的大數據產品。華為已經成為大數據社區的引領者,位居全球大數據研究的第一陣營。