盲目追“數據中臺”,遲早藥丸!
數據中臺這個概念已逐步火了起來,但數據中臺是什么?我該建數倉、大數據平臺還是數據中臺?相信看完這篇,你會有個清醒的認識!
圖片來自 Pexels
現在各種新名詞層出不窮:
- 頂層的有數字城市、智慧地球、智慧城市、城市大腦;
- 企業(yè)層面的有數字化轉型、互聯(lián)網經濟,數字經濟、數字平臺;
- 平臺層面的有物聯(lián)網,云計算,大數據,5G,人工智能,機器智能,深度學習,知識圖譜;
- 技術層面的有數據倉庫、數據集市、大數據平臺、數據湖、數據中臺、業(yè)務中臺、技術中臺等等。
總之是你方唱罷他登場,各種概念滿天飛!在比拼新經濟的過程中,其實比拼的是流量也就是用戶,但流量不等于用戶,用戶也不完全等同于流量;有了流量和用戶,就等于比拼了對用戶的話語權。
各種互聯(lián)網概念也是如此,單純從傳統(tǒng)的數據倉庫或是大數據平臺而言,金融或通信運營商在數據治理、數據管理、企業(yè)模型、應用效能、高可靠性上做的絕對不比 BAT 差的。
但這些行業(yè)有著國企的內斂、同時承擔了太多的安全、隱私、穩(wěn)定要求,空有用戶和數據,卻很難對外發(fā)揮應有的作用,導致在整個信息技術行業(yè)內的話語權不高。
互聯(lián)網公司在對數據使用的靈活性、技術的前瞻性、經濟效益的引導性、適度容錯方面做的遠遠超出其他行業(yè),所以行業(yè)之間的相互吸收和借鑒也是值得探討的。
新名詞的推出,要被大眾所能接受,在背后是要有話語權支撐的,而目的當然只有利益了,也不排除個別技術人員自己美好的想法和初衷。
數據中臺的初衷
回到正文,不管怎么說,數據中臺這個概念已逐步火了起來,但數據中臺是什么?我總結了如下五點:
①數據中臺是聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業(yè)務價值的邏輯概念。
②數據中臺是一套可持續(xù)“讓企業(yè)的數據用起來”的機制,一種戰(zhàn)略選擇和組織形式,是依據企業(yè)特有的業(yè)務模式和組織架構,通過有形的產品和實施方法論支撐,構建一套持續(xù)不斷把數據變成資產并服務于業(yè)務的機制。
③數據中臺連接數據前臺和后臺,突破數據局限,為企業(yè)提供更靈活、高效、低成本的數據分析挖掘服務,避免企業(yè)為滿足具體某部門某種數據分析需求而投放大量高成本、重復性的數據開發(fā)成本。
④數據中臺是指通過數據技術,對海量數據進行采集、計算、存儲、加工,同時統(tǒng)一標準和口徑。數據中臺把數據統(tǒng)一之后,會形成標準數據,再進行存儲,形成大數據資產層,進而為客戶提供高效服務。
⑤數據中臺,包括平臺、工具、數據、組織、流程、規(guī)范等一切與企業(yè)數據資產如何用起來所相關的。
以上概念是從互聯(lián)網上搜索并拷貝出來的,總的來說中臺也好,數據中臺也好,還缺乏一個標準的定義,僅從字面上理解,數據中臺是解決如何用好數據的問題。
既然是概念,數據中臺也被賦予了很多擴大的外延,也上升到了數據的采集、計算、存儲、加工和數據治理等方面,這就和傳統(tǒng)的大數據平臺在功能和作用上產生了很大的重疊。
而大數據平臺又是從數據倉庫發(fā)展起來的。那到底這三者的關系是怎么樣的呢?
本人從事斷斷續(xù)續(xù)從事數據倉庫行業(yè)約有五六年經驗,完整的負責大數據平臺的整體設計架構和項目實施也有四五年經驗,見證了從傳統(tǒng)數據倉庫轉型到大數據平臺的全歷程。
包括第一個 MPP 數據集市、第一個 Hadoop 集群項目、第一個流式數據處理項目,第一個完整的大數據平臺的融合和構建,混搭式大數據平臺的融合構建,大數據平臺的遷移等等。
我所經歷的大數據平臺從規(guī)模說大不大說小不小,每天處理數據量將近 20T(實時處理月 10T 左右),總集群約 300 臺(其中 Hadoop 節(jié)點約 200 臺),總容量約 8P,實際使用容量約 5P。
包括了從數據倉庫到大數據平臺數據模型的重構,數據模型的拓展;也包括了大數據平臺提供各種對內應用的規(guī)劃,和向外提供大數據應用。
因此對數據倉庫和大數據平臺的優(yōu)缺點、各自存在的問題、疑惑、發(fā)展方向,也算有一定的認知,包括對新生的數據中臺的發(fā)展方向,結合自己過往的經驗,談談自己的一些想法。
按照傳統(tǒng)的定義,數據倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數據集合,用于支持管理決策。
從數據角度,數據倉庫更適合傳統(tǒng)的數據庫,離線采集,數據一般為結構化的,每天處理數據量不易超過 TB 集,數據倉庫一般在數十 T 到幾百 T 以內。
數據倉庫一般為滿足內生的應用,滿足內部決策支持分析需求,當然隨著數據倉庫數據采集的要求越來越高,數據倉庫本身也在不斷的改進。
從單機的 ETL 到集群的 ETL,從傳統(tǒng)的小機+DB,向 PC 服務器+分布式 DB 拓展。
數據治理也逐漸增強,從元數據管理到數據質量管理,再到數據運維管控和數據安全管控。
但其實數據倉庫給企業(yè)留下的最大財富是企業(yè)數據模型,這些模型隨著前端業(yè)務系統(tǒng)的發(fā)展變化,不斷變革,不斷追加,不斷豐富和完善。
即使系統(tǒng)不再了,也可以在短期內快速重建起來,這也是大數據平臺能夠快速建設起來的一個重要原因。
大數據平臺則是指以處理海量數據存儲、計算及流數據實時計算等場景為主的一套基礎設施,包括了統(tǒng)一的數據采集中心、數據計算和存儲中心、數據治理中心、運維管控中心、開放共享中心和應用中心。
大數據平臺之所以能夠建設起來,不外乎內因和外因:
- 外因是棱鏡門事件帶來的去 IOE 要求、外部硬件的變革和分布式開源技術的涌現。
- 內因是非結構化、實時數據和海量數據的計算和存儲壓力,企業(yè)也寄希望從大數據平臺除了滿足對內需求,也能夠實現一定的對外收益。
大數據平臺的建設出發(fā)點是節(jié)約投資降低成本,但實際上無論從硬件投資還是從軟件開發(fā)上都遠遠超過數據倉庫的建設。
大量的硬件和各種開源技術的組合,增加了研發(fā)的難度、調測部署的周期、運維的復雜度,人力上的投入已是最初的幾倍。
還有很多技術上的困難也非一朝一夕能夠突破,但無論如何大數據平臺還是建設起來了,人員能力也在不斷成長。
大數據平臺解決了海量數據、實時數據的計算和存儲,也基于原來的企業(yè)數據模型實現了重構,但也面臨著一系列的問題。
首先是數據的應用問題,無論是數據倉庫還是大數據平臺,里面包含了接口層數據、存儲層數據、輕度匯總層、重度匯總層、模型層數據、報表層數據等等。
各種各樣的表有成千上萬,這些表有的是中間處理過程,有些是一次性的報表,不同表之間的數據一致性和口徑也會不同,而且不同的表不同的字段對數據安全要求級別也不同。
此外還要考慮多租戶的資源安全管理,如何讓內部開發(fā)者快速獲取所需的數據資產目錄,如何閱讀相關數據的來龍去脈,如何快速的實現開發(fā),這些在大數據平臺建設初期沒有考慮周全。
另外一個問題是對外應用,隨著大數據平臺的應用建設,每一個對外應用都采用單一的數據庫加單一應用建設模式,獨立考慮網絡安全、數據安全、共享安全,逐漸又走向了煙囪似的開發(fā)道路。
數據倉庫實現了企業(yè)數據模型的構建,大數據平臺解決了海量、實時數據的計算和存儲問題,數據中臺要解決什么呢?
數據如何安全的、快速的、最小權限的、且能夠溯源的被探測和快速應用的問題。
數據中臺不應該被過度的承載平臺的計算、存儲、加工任務,而是應該放在解決企業(yè)邏輯模型的搭建和存儲、數據標準的建立、數據目錄的梳理、數據安全的界定、數據資產的開放,知識圖譜的構建。
通過一系列工具、組織、流程、規(guī)范,實現數據前臺和后臺的連接,突破數據局限,為企業(yè)提供更靈活、高效、低成本的數據分析挖掘服務,避免企業(yè)為滿足具體某部門某種數據分析需求而投放大量高成本、重復性的數據開發(fā)成本。
厚平臺,大中臺,小前臺;沒有基礎厚實笨重的大數據平臺,是不可能構建數據能力強大、功能強大的數據中臺的;沒有大數據中臺,要迅速搭建小快靈的小前臺也只是理想化的。
我想這才是數據中臺的初衷。
該建數倉、大數據平臺還是數據中臺?
下文是對數據倉庫、大數據平臺、數據中臺的一些總結性的架構材料,也是對自己這些年來的一些匯總和思考,看懂了前面的文字,后面的各種架構圖也就無需贅述了。
數據倉庫硬件架構圖
數據倉庫功能架構圖
數據倉庫技術架構
第一個 Hadoop 平臺硬件架構
主要是為了解決海量離線數據的計算和存儲,在 Hadoop 集群中實現明細數據、匯總數據存儲,在 MySQL 中實現報表數據存儲。
第一個流式處理平臺硬件架構
主要是為了解決海量實時數據的流式采集和計算,在 Hadoop 集群中實現明細數據、匯總數據存儲,在 MySQL 中實現報表數據存儲;并通過實時事件處理集群實現流式事件的匹配。
對于大數據平臺各種軟硬件各種組件的規(guī)劃,如下圖:
大數據平臺系統(tǒng)規(guī)劃
大數據平臺系統(tǒng)定位
大數據平臺邏輯部署架構
大數據平臺功能視圖
大數據平臺數據流向
大數據平臺對內硬件架構
大數據平臺整體硬件架構
數據中臺整體架構
作者:王保強
編輯:陶家龍
出處:轉載自微信公眾號追夢 IT 人(ID:baoqiangwang2020)