成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

大數(shù)據(jù)
本文我們探討了實(shí)時(shí)數(shù)據(jù)平臺(tái)RTDP的相關(guān)概念背景和架構(gòu)設(shè)計(jì)方案。在架構(gòu)設(shè)計(jì)方案中,我們尤其著重講了RTDP的定位和目標(biāo),整體設(shè)計(jì)架構(gòu),以及涉及到的具體問題和考量思路。

本文將會(huì)分上下兩篇對(duì)一個(gè)重要且常見的大數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)展開討論,即“實(shí)時(shí)數(shù)據(jù)平臺(tái)”。在上篇設(shè)計(jì)篇中,我們首先從兩個(gè)維度介紹實(shí)時(shí)數(shù)據(jù)平臺(tái):從現(xiàn)代數(shù)倉架構(gòu)角度看待實(shí)時(shí)數(shù)據(jù)平臺(tái),從典型數(shù)據(jù)處理角度看待實(shí)時(shí)數(shù)據(jù)處理;接著我們會(huì)探討實(shí)時(shí)數(shù)據(jù)平臺(tái)整體設(shè)計(jì)架構(gòu)、對(duì)具體問題的考量以及解決思路。在下篇技術(shù)篇中,我們會(huì)進(jìn)一步給出實(shí)時(shí)數(shù)據(jù)平臺(tái)的技術(shù)選型和相關(guān)組件介紹,并探討不同模式適用哪些應(yīng)用場(chǎng)景。希望通過對(duì)本文的討論,讀者可以得到一個(gè)有章可循、可實(shí)際落地的實(shí)時(shí)數(shù)據(jù)平臺(tái)構(gòu)建方案。

一、相關(guān)概念背景

1從現(xiàn)代數(shù)倉架構(gòu)角度看實(shí)時(shí)數(shù)據(jù)平臺(tái)

現(xiàn)代數(shù)倉由傳統(tǒng)數(shù)倉發(fā)展而來,對(duì)比傳統(tǒng)數(shù)倉,現(xiàn)代數(shù)倉既有與其相同之處,也有諸多發(fā)展點(diǎn)。首先我們看一下傳統(tǒng)數(shù)倉(圖1)和現(xiàn)代數(shù)倉(圖2)的模塊架構(gòu):

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖1 傳統(tǒng)數(shù)倉

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖2 現(xiàn)代數(shù)倉

傳統(tǒng)數(shù)倉大家都很熟悉,這里不做過多介紹,一般來說,傳統(tǒng)數(shù)倉只能支持T+1天時(shí)效延遲的數(shù)據(jù)處理,數(shù)據(jù)處理過程以ETL為主,最終產(chǎn)出以報(bào)表為主。

現(xiàn)代數(shù)倉建立在傳統(tǒng)數(shù)倉之上,同時(shí)增加了更多樣化數(shù)據(jù)源的導(dǎo)入存儲(chǔ),更多樣化數(shù)據(jù)處理方式和時(shí)效(支持T+0天時(shí)效),更多樣化數(shù)據(jù)使用方式和更多樣化數(shù)據(jù)終端服務(wù)。

現(xiàn)代數(shù)倉是個(gè)很大的話題,在此我們以概念模塊的方式來展現(xiàn)其新的特性能力。

首先我們先看一下圖3中Melissa Coates的整理總結(jié):

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖3

在圖3 Melissa Coates的總結(jié)中我們可以得出,現(xiàn)代數(shù)倉之所以“現(xiàn)代”,是因?yàn)樗卸嗥脚_(tái)架構(gòu)、數(shù)據(jù)虛擬化、數(shù)據(jù)的近實(shí)時(shí)分析、敏捷交付方式等等一系列特性。

在借鑒Melissa Coates關(guān)于現(xiàn)代數(shù)倉總結(jié)的基礎(chǔ)上,加以自己的理解,我們也在此總結(jié)提取了現(xiàn)代數(shù)倉的幾個(gè)重要能力,分別是:

  • 數(shù)據(jù)實(shí)時(shí)化(實(shí)時(shí)同步和流式處理能力)
  • 數(shù)據(jù)虛擬化(虛擬混算和統(tǒng)一服務(wù)能力)
  • 數(shù)據(jù)平民化(可視化和自助配置能力)
  • 數(shù)據(jù)協(xié)作化(多租戶和分工協(xié)作能力)

(1)數(shù)據(jù)實(shí)時(shí)化(實(shí)時(shí)同步和流式處理能力)

數(shù)據(jù)實(shí)時(shí)化,是指數(shù)據(jù)從產(chǎn)生(更新至業(yè)務(wù)數(shù)據(jù)庫或日志)到最終消費(fèi)(數(shù)據(jù)報(bào)表、儀表板、分析、挖掘、數(shù)據(jù)應(yīng)用等),支持毫秒級(jí)/秒級(jí)/分鐘級(jí)延遲(嚴(yán)格來說,秒級(jí)/分鐘級(jí)屬于準(zhǔn)實(shí)時(shí),這里統(tǒng)一稱為實(shí)時(shí))。這里涉及到如何將數(shù)據(jù)實(shí)時(shí)的從數(shù)據(jù)源中抽取出來;如何實(shí)時(shí)流轉(zhuǎn);為了提高時(shí)效性,降低端到端延遲,還需要有能力支持在流轉(zhuǎn)過程中進(jìn)行計(jì)算處理;如何實(shí)時(shí)落庫;如何實(shí)時(shí)提供后續(xù)消費(fèi)使用。實(shí)時(shí)同步是指多源到多目標(biāo)的端到端同步,流式處理指在流上進(jìn)行邏輯轉(zhuǎn)換處理。

但是我們要知道,不是所有數(shù)據(jù)處理計(jì)算都可以在流上進(jìn)行,而我們的目的,是盡可能的降低端到端數(shù)據(jù)延遲,這里就需要和其他數(shù)據(jù)流轉(zhuǎn)處理方式配合進(jìn)行,后面我們會(huì)進(jìn)一步討論。

(2)數(shù)據(jù)虛擬化(虛擬混算和統(tǒng)一服務(wù)能力)

數(shù)據(jù)虛擬化,是指對(duì)于用戶或用戶程序而言,面對(duì)的是統(tǒng)一的交互方式和查詢語言,而無需關(guān)注數(shù)據(jù)實(shí)際所在的物理庫和方言及交互方式(異構(gòu)系統(tǒng)/異構(gòu)查詢語言)的一種技術(shù)。用戶的使用體驗(yàn)是面對(duì)一個(gè)單一數(shù)據(jù)庫進(jìn)行操作,但其實(shí)這是一個(gè)虛擬化的數(shù)據(jù)庫,數(shù)據(jù)本身并不存放于虛擬數(shù)據(jù)庫中。

虛擬混算指的是虛擬化技術(shù)可以支持異構(gòu)系統(tǒng)數(shù)據(jù)透明混算的能力,統(tǒng)一服務(wù)指對(duì)于用戶提供統(tǒng)一的服務(wù)接口和方式。

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖4 數(shù)據(jù)虛擬化

注:圖1-4均選自“Designing a Modern Data Warehouse + Data Lake” - Melissa Coates, Solution Architect, BlueGranite

(3)數(shù)據(jù)平民化(可視化和自助配置能力)

普通用戶(無專業(yè)大數(shù)據(jù)技術(shù)背景的數(shù)據(jù)從業(yè)人員),可以通過可視化的用戶界面,自助的通過配置和SQL方式使用數(shù)據(jù)完成自己的工作和需求,并無需關(guān)注底層技術(shù)層面問題(通過計(jì)算資源云化,數(shù)據(jù)虛擬化等技術(shù))。以上是我們對(duì)數(shù)據(jù)平民化的解讀。

對(duì)于Data Democratization的解讀,還可以參見以下鏈接:

https://www.forbes.com/sites/bernardmarr/2017/07/24/what-is-data-democratization-a-super-simple-explanation-and-the-key-pros-and-cons

文中提到技術(shù)層面如何支持?jǐn)?shù)據(jù)平民化,并給出了幾個(gè)例子:

  • Data virtualization software;
  • Data federation software;
  • Cloud storage;
  • Self-service BI applications等。

其中數(shù)據(jù)虛擬化和數(shù)據(jù)聯(lián)邦本質(zhì)上是類似技術(shù)方案,并且提到了自助BI這個(gè)概念。

(4)數(shù)據(jù)協(xié)作化(多租戶和分工協(xié)作能力)

技術(shù)人員應(yīng)該多了解業(yè)務(wù),還是業(yè)務(wù)人員應(yīng)該多了解技術(shù)?這一直是企業(yè)內(nèi)爭(zhēng)論不休的問題。而我們相信現(xiàn)代BI是一個(gè)可以深度協(xié)作的過程,技術(shù)人員和業(yè)務(wù)人員可以在同一個(gè)平臺(tái)上,發(fā)揮各自所長,分工協(xié)作完成日常BI活動(dòng)。這就對(duì)平臺(tái)的多租戶能力和分工協(xié)作能力提出了較高要求,一個(gè)好的現(xiàn)代數(shù)據(jù)平臺(tái)是可以支持更好的數(shù)據(jù)協(xié)作化能力的。

我們希望可以設(shè)計(jì)出一個(gè)現(xiàn)代實(shí)時(shí)數(shù)據(jù)平臺(tái),滿足以上提到的實(shí)時(shí)化、虛擬化、平民化、協(xié)作化等能力,成為現(xiàn)代數(shù)倉的一個(gè)非常重要且必不可少的組成部分。

2從典型數(shù)據(jù)處理角度看實(shí)時(shí)數(shù)據(jù)處理

典型的數(shù)據(jù)處理,可分為OLTP、OLAP、Streaming、Adhoc、Machine Learning等。這里給出OLTP和OLAP的定義和對(duì)比:

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖5

注:圖5選自文章“Relational Databases are not Designed for Mixed Workloads”-Matt Allen

從某種角度來說,OLTP活動(dòng)主要發(fā)生在業(yè)務(wù)交易庫端,OLAP活動(dòng)主要發(fā)生在數(shù)據(jù)分析庫端。那么,數(shù)據(jù)是如何從OLTP庫流轉(zhuǎn)到OLAP庫呢?如果這個(gè)數(shù)據(jù)流轉(zhuǎn)時(shí)效性要求很高,傳統(tǒng)的T+1批量ETL方式就無法滿足了。

我們將OLTP到OLAP的流轉(zhuǎn)過程叫Data Pipeline(數(shù)據(jù)處理管道),它是指數(shù)據(jù)的生產(chǎn)端到消費(fèi)端之間的所有流轉(zhuǎn)和處理環(huán)節(jié),包括了數(shù)據(jù)抽取、數(shù)據(jù)同步、流上處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢等。這里可能會(huì)發(fā)生很復(fù)雜的數(shù)據(jù)處理轉(zhuǎn)換(如重復(fù)語義多源異構(gòu)數(shù)據(jù)源到統(tǒng)一Star Schema的轉(zhuǎn)換,明細(xì)表到匯總表的轉(zhuǎn)換,多實(shí)體表聯(lián)合成寬表等)。如何支持實(shí)時(shí)性很高的Pipeline處理能力,就成了一個(gè)有挑戰(zhàn)性的話題,我們將這個(gè)話題描述為“在線管道處理”(OLPP, Online Pipeline Processing)問題。

因此,本文所討論的實(shí)時(shí)數(shù)據(jù)平臺(tái),希望可以從數(shù)據(jù)處理角度解決OLPP問題,成為OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失的課題的解決方案。下面,我們會(huì)探討從架構(gòu)層面,如何設(shè)計(jì)這樣一個(gè)實(shí)時(shí)數(shù)據(jù)平臺(tái)。

二、架構(gòu)設(shè)計(jì)方案

1定位和目標(biāo)

實(shí)時(shí)數(shù)據(jù)平臺(tái)(Real-time Data Platform,以下簡稱RTDP),旨在提供數(shù)據(jù)端到端實(shí)時(shí)處理能力(毫秒級(jí)/秒級(jí)/分鐘級(jí)延遲),可以對(duì)接多數(shù)據(jù)源進(jìn)行實(shí)時(shí)數(shù)據(jù)抽取,可以為多數(shù)據(jù)應(yīng)用場(chǎng)景提供實(shí)時(shí)數(shù)據(jù)消費(fèi)。作為現(xiàn)代數(shù)倉的一部分,RTDP可以支持實(shí)時(shí)化、虛擬化、平民化、協(xié)作化等能力,讓實(shí)時(shí)數(shù)據(jù)應(yīng)用開發(fā)門檻更低、迭代更快、質(zhì)量更好、運(yùn)行更穩(wěn)、運(yùn)維更簡、能力更強(qiáng)。

2整體設(shè)計(jì)架構(gòu)

概念模塊架構(gòu),是實(shí)時(shí)數(shù)據(jù)處理Pipeline的概念層的分層架構(gòu)和能力梳理,本身是具備通用性和可參考性的,更像是需求模塊。圖6給出了RTDP的整體概念模塊架構(gòu),具體每個(gè)模塊含義都可自解釋,這里不再詳述。

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖6 RTDP整體概念模塊架構(gòu)

下面我們會(huì)根據(jù)上圖做進(jìn)一步設(shè)計(jì)討論,給出從技術(shù)層面的高階設(shè)計(jì)思路。

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖7 整體設(shè)計(jì)思想

由圖7可以看出,我們針對(duì)概念模塊架構(gòu)的四個(gè)層面進(jìn)行了統(tǒng)一化抽象:

  • 統(tǒng)一數(shù)據(jù)采集平臺(tái)
  • 統(tǒng)***式處理平臺(tái)
  • 統(tǒng)一計(jì)算服務(wù)平臺(tái)
  • 統(tǒng)一數(shù)據(jù)可視化平臺(tái)

同時(shí),也對(duì)存儲(chǔ)層保持了開放的原則,意味著用戶可以選擇不同的存儲(chǔ)層以滿足具體項(xiàng)目的需要,而又不破壞整體架構(gòu)設(shè)計(jì),用戶甚至可以在Pipeline中同時(shí)選擇多個(gè)異構(gòu)存儲(chǔ)提供支持。下面分別對(duì)四個(gè)抽象層進(jìn)行解讀。

(1)統(tǒng)一數(shù)據(jù)采集平臺(tái)

統(tǒng)一數(shù)據(jù)采集平臺(tái),既可以支持不同數(shù)據(jù)源的全量抽取,也可以支持增強(qiáng)抽取。其中對(duì)于業(yè)務(wù)數(shù)據(jù)庫的增量抽取會(huì)選擇讀取數(shù)據(jù)庫日志,以減少對(duì)業(yè)務(wù)庫的讀取壓力。平臺(tái)還可以對(duì)抽取的數(shù)據(jù)進(jìn)行統(tǒng)一處理,然后以統(tǒng)一格式發(fā)布到數(shù)據(jù)總線上。這里我們選擇一種自定義的標(biāo)準(zhǔn)化統(tǒng)一消息格式UMS(Unified Message Schema)做為統(tǒng)一數(shù)據(jù)采集平臺(tái)和統(tǒng)***式處理平臺(tái)之間的數(shù)據(jù)層面協(xié)議。

UMS自帶Namespace信息和Schema信息,這是一種自定位自解釋消息協(xié)議格式,這樣做的好處是:

  • 整個(gè)架構(gòu)無需依賴外部元數(shù)據(jù)管理平臺(tái);
  • 消息和物理媒介解耦(這里物理媒介指如Kafka的Topic, Spark Streaming的Stream等),因此可以通過物理媒介支持多消息流并行,和消息流的自由漂移。
  • 平臺(tái)也支持多租戶體系,和配置化簡單處理清洗能力。

(2)統(tǒng)***式處理平臺(tái)

統(tǒng)***式處理平臺(tái),會(huì)消費(fèi)來自數(shù)據(jù)總線上的消息,可以支持UMS協(xié)議消息,也可以支持普通JSON格式消息。同時(shí),平臺(tái)還支持以下能力:

  • 支持可視化/配置化/SQL化方式降低流式邏輯開發(fā)/部署/管理門檻
  • 支持配置化方式冪等落入多個(gè)異構(gòu)目標(biāo)庫以確保數(shù)據(jù)的最終一致性
  • 支持多租戶體系,做到項(xiàng)目級(jí)的計(jì)算資源/表資源/用戶資源等隔離

(3)統(tǒng)一計(jì)算服務(wù)平臺(tái)

統(tǒng)一計(jì)算服務(wù)平臺(tái),是一種數(shù)據(jù)虛擬化/數(shù)據(jù)聯(lián)邦的實(shí)現(xiàn)。平臺(tái)對(duì)內(nèi)支持多異構(gòu)數(shù)據(jù)源的下推計(jì)算和拉取混算,也支持對(duì)外的統(tǒng)一服務(wù)接口(JDBC/REST)和統(tǒng)一查詢語言(SQL)。由于平臺(tái)可以統(tǒng)一收口服務(wù),因此可以基于平臺(tái)打造統(tǒng)一元數(shù)據(jù)管理/數(shù)據(jù)質(zhì)量管理/數(shù)據(jù)安全審計(jì)/數(shù)據(jù)安全策略等模塊。平臺(tái)也支持多租戶體系。

(4)統(tǒng)一數(shù)據(jù)可視化平臺(tái)

統(tǒng)一數(shù)據(jù)可視化平臺(tái),加上多租戶和完善的用戶體系/權(quán)限體系,可以支持跨部門數(shù)據(jù)從業(yè)人員的分工協(xié)作能力,讓用戶在可視化環(huán)境下,通過緊密合作的方式,更能發(fā)揮各自所長來完成數(shù)據(jù)平臺(tái)***十公里的應(yīng)用。

以上是基于整體模塊架構(gòu)之上,進(jìn)行了統(tǒng)一抽象設(shè)計(jì),并開放存儲(chǔ)選項(xiàng)以提高靈活性和需求適配性。這樣的RTDP平臺(tái)設(shè)計(jì),體現(xiàn)了現(xiàn)代數(shù)倉的實(shí)時(shí)化/虛擬化/平民化/協(xié)作化等能力,并且覆蓋了端到端的OLPP數(shù)據(jù)流轉(zhuǎn)鏈路。

3具體問題和考量思路

下面我們會(huì)基于RTDP的整體架構(gòu)設(shè)計(jì),分別從不同維度討論這個(gè)設(shè)計(jì)需要面對(duì)的問題考量和解決思路。

(1)功能考量

功能考量主要討論這樣一個(gè)問題:實(shí)時(shí)Pipeline能否處理所有ETL復(fù)雜邏輯?

我們知道,對(duì)于Storm/Flink這樣的流式計(jì)算引擎,是按每條處理的;對(duì)于Spark Streaming流式計(jì)算引擎,按每個(gè)mini-batch處理;而對(duì)于離線跑批任務(wù)來說,是按每天數(shù)據(jù)進(jìn)行處理的。因此處理范圍是數(shù)據(jù)的一個(gè)維度(范圍維度)。

另外,流式處理面向的是增量數(shù)據(jù),如果數(shù)據(jù)源來自關(guān)系型數(shù)據(jù)庫,那么增量數(shù)據(jù)往往指的是增量變更數(shù)據(jù)(增刪改,revision);相對(duì)的批量處理面向的則是快照數(shù)據(jù)(snapshot)。因此展現(xiàn)形式是數(shù)據(jù)的另一個(gè)維度(變更維度)。

單條數(shù)據(jù)的變更維度,是可以投射收斂成單條快照的,因此變更維度可以收斂成范圍維度。所以流式處理和批量處理的本質(zhì)區(qū)別在于,面對(duì)的數(shù)據(jù)范圍維度的不同,流式處理單位為“有限范圍”,批量處理單位為“全表范圍”。“全表范圍”數(shù)據(jù)是可以支持各種SQL算子的,而“有限范圍”數(shù)據(jù)只能支持部分SQL算子,具體支持情況如下:

join:

  • left join:支持。“限制范圍”可以left join外部lookup表(通過下推,類似hashjoin效果)
  • right join:不支持。每次從lookup拿回所有l(wèi)ookup表數(shù)據(jù),這個(gè)計(jì)算是不可行的也是不合理的
  • inter join:支持??梢赞D(zhuǎn)化為left join +filter,可以支持
  • outer join:不支持。存在right join,因此不合理
  • union:支持??梢詰?yīng)用在拉回局部范圍數(shù)據(jù)做窗口聚合操作。
  • agg:不支持。可以借助union做局部窗口聚合,但無法支持全表聚合操作。
  • filter:支持。沒有shuffle,非常適合。
  • map:支持。沒有shuffle,非常適合。
  • project:支持。沒有shuffle,非常適合。

Join往往需要shuffle操作,是最費(fèi)計(jì)算資源和時(shí)間的操作,而流上join(left join)將join操作轉(zhuǎn)化成hashjoin的隊(duì)列操作,將批量處理join的集中數(shù)據(jù)計(jì)算資源和時(shí)間平攤在數(shù)據(jù)流轉(zhuǎn)過程中,因此在流上做left join是最劃算的計(jì)算方式。

復(fù)雜的ETL并不是單一算子,經(jīng)常會(huì)是由多個(gè)算子組合而成,由上可以看出單純的流式處理并不能很好的支持所有ETL復(fù)雜邏輯。那么如何在實(shí)時(shí)Pipeline中支持更多復(fù)雜的ETL算子,并且保持時(shí)效性?這就需要“有限范圍”和“全表范圍”處理的相互轉(zhuǎn)換能力。

設(shè)想一下:流式處理平臺(tái)可以支持流上適合的處理,然后實(shí)時(shí)落不同的異構(gòu)庫,計(jì)算服務(wù)平臺(tái)可以定時(shí)批量混算多源異構(gòu)庫(時(shí)間設(shè)定可以是每隔幾分鐘或更短),并將每批計(jì)算結(jié)果發(fā)送到數(shù)據(jù)總線上繼續(xù)流轉(zhuǎn),這樣流式處理平臺(tái)和計(jì)算服務(wù)平臺(tái)就形成了計(jì)算閉環(huán),各自做擅長的算子處理,數(shù)據(jù)在不同頻率觸發(fā)流轉(zhuǎn)過程中進(jìn)行各種算子轉(zhuǎn)換,這樣的架構(gòu)模式理論上即可支持所有ETL復(fù)雜邏輯。

 

實(shí)時(shí)數(shù)據(jù)平臺(tái)設(shè)計(jì):解決從OLTP到OLAP實(shí)時(shí)流轉(zhuǎn)缺失

圖8 數(shù)據(jù)處理架構(gòu)演化

圖8給出了數(shù)據(jù)處理架構(gòu)的演化,和OLPP的一種架構(gòu)模式。其中wormhole和moonbox分別是我們開源的流式處理平臺(tái)和計(jì)算服務(wù)平臺(tái),后面會(huì)具體介紹。

(2)質(zhì)量考量

上面的圖也引出了兩個(gè)主流實(shí)時(shí)數(shù)據(jù)處理架構(gòu):Lambda架構(gòu)和Kappa架構(gòu),具體兩個(gè)架構(gòu)的介紹網(wǎng)上有很多資料,這里不再贅述。Lambda架構(gòu)和Kappa架構(gòu)各有其優(yōu)劣勢(shì),但都支持?jǐn)?shù)據(jù)的最終一致性,從某種程度上確保了數(shù)據(jù)質(zhì)量,如何在Lambda架構(gòu)和Kappa架構(gòu)中取長補(bǔ)短,形成某種融合架構(gòu),這個(gè)話題會(huì)在新起文章中詳細(xì)探討。

當(dāng)然數(shù)據(jù)質(zhì)量也是個(gè)非常大的話題,只支持重跑和回灌并不能完全解決所有數(shù)據(jù)質(zhì)量問題,只是從技術(shù)架構(gòu)層面給出了補(bǔ)數(shù)據(jù)的工程方案。關(guān)于大數(shù)據(jù)數(shù)據(jù)質(zhì)量問題,我們也會(huì)起一個(gè)新的話題討論。

(3)穩(wěn)定考量

這個(gè)話題涉及但不限于以下幾點(diǎn),這里簡單給出應(yīng)對(duì)的思路:

高可用HA

整個(gè)實(shí)時(shí)Pipeline鏈路都應(yīng)該選取高可用組件,確保理論上整體高可用;在數(shù)據(jù)關(guān)鍵鏈路上支持?jǐn)?shù)據(jù)備份和重演機(jī)制;在業(yè)務(wù)關(guān)鍵鏈路上支持雙跑融合機(jī)制

SLA保障

在確保集群和實(shí)時(shí)Pipeline高可用的前提下,支持動(dòng)態(tài)擴(kuò)容和數(shù)據(jù)處理流程自動(dòng)漂移

彈性反脆弱

基于規(guī)則和算法的資源彈性伸縮;支持事件觸發(fā)動(dòng)作引擎的失效處理。

監(jiān)控預(yù)警

集群設(shè)施層面,物理管道層面,數(shù)據(jù)邏輯層面的多方面監(jiān)控預(yù)警能力

自動(dòng)運(yùn)維

能夠捕捉并存檔缺失數(shù)據(jù)和處理異常,并具備定期自動(dòng)重試機(jī)制修復(fù)問題數(shù)據(jù)

上游元數(shù)據(jù)變更抗性

上游業(yè)務(wù)庫要求兼容性元數(shù)據(jù)變更;實(shí)時(shí)Pipeline處理顯式字段。

(4)成本考量

這個(gè)話題涉及但不限于以下幾點(diǎn),這里簡單給出應(yīng)對(duì)的思路:

人力成本

通過支持?jǐn)?shù)據(jù)應(yīng)用平民化降低人才人力成本

資源成本

通過支持動(dòng)態(tài)資源利用降低靜態(tài)資源占用造成的資源浪費(fèi)

運(yùn)維成本

通過支持自動(dòng)運(yùn)維/高可用/彈性反脆弱等機(jī)制降低運(yùn)維成本

試錯(cuò)成本

通過支持敏捷開發(fā)/快速迭代降低試錯(cuò)成本

(5)敏捷考量

敏捷大數(shù)據(jù)是一整套理論體系和方法學(xué),在前文已有所描述,從數(shù)據(jù)使用角度來看,敏捷考量意味著:配置化、SQL化、平民化。

(6)管理考量

數(shù)據(jù)管理也是一個(gè)非常大的話題,這里我們會(huì)重點(diǎn)關(guān)注兩個(gè)方面:元數(shù)據(jù)管理和數(shù)據(jù)安全管理。如果在現(xiàn)代數(shù)倉多數(shù)據(jù)存儲(chǔ)選型的環(huán)境下統(tǒng)一管理元數(shù)據(jù)和數(shù)據(jù)安全,是一個(gè)非常有挑戰(zhàn)的話題,我們會(huì)在實(shí)時(shí)Pipeline上各個(gè)環(huán)節(jié)平臺(tái)分別考慮這兩個(gè)方面問題并給出內(nèi)置支持,同時(shí)也可以支持對(duì)接外部統(tǒng)一的元數(shù)據(jù)管理平臺(tái)和統(tǒng)一數(shù)據(jù)安全策略。

本文我們探討了實(shí)時(shí)數(shù)據(jù)平臺(tái)RTDP的相關(guān)概念背景和架構(gòu)設(shè)計(jì)方案。在架構(gòu)設(shè)計(jì)方案中,我們尤其著重講了RTDP的定位和目標(biāo),整體設(shè)計(jì)架構(gòu),以及涉及到的具體問題和考量思路。有些話題很大,可以后續(xù)單獨(dú)形成文章進(jìn)行專題討論,但整體上,我們給出了一整套R(shí)TDP的設(shè)計(jì)思路和規(guī)劃。在下篇技術(shù)篇中,我們會(huì)將RTDP架構(gòu)設(shè)計(jì)具體化落地化,給出推薦的技術(shù)選型和我們的開源平臺(tái)方案,并會(huì)結(jié)合不同場(chǎng)景需求探討RTDP的不同模式應(yīng)用。

責(zé)任編輯:未麗燕 來源: DBAplus社群
相關(guān)推薦

2023-05-10 07:21:58

數(shù)據(jù)平臺(tái)架構(gòu)

2021-07-22 18:29:58

AI

2012-05-18 10:49:36

SAP大數(shù)據(jù)HANA

2020-05-29 17:10:15

數(shù)據(jù)架構(gòu)數(shù)據(jù)一切數(shù)據(jù)體系

2020-04-28 11:04:51

數(shù)據(jù)架構(gòu)互聯(lián)網(wǎng)Flink

2019-08-19 14:24:39

數(shù)據(jù)分析Spark操作

2021-08-19 11:14:57

數(shù)據(jù)流DDS業(yè)務(wù)價(jià)值

2022-09-28 07:08:25

技術(shù)實(shí)時(shí)數(shù)倉

2020-06-11 08:56:34

數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)

2020-12-01 15:06:46

KafkaFlink數(shù)據(jù)倉庫

2021-01-18 05:20:52

數(shù)倉hive架構(gòu)

2015-09-23 10:00:47

OLTPOLAP

2009-05-14 10:02:59

實(shí)時(shí)數(shù)據(jù)SQL Server商業(yè)智能

2022-03-10 11:38:06

數(shù)據(jù)管理數(shù)據(jù)

2022-03-16 10:20:57

數(shù)據(jù)智慧城市傳感器

2011-06-07 17:01:44

2021-10-12 11:21:09

物聯(lián)網(wǎng)智慧城市IoT

2023-10-13 07:25:50

2022-03-07 07:18:18

Netflix機(jī)器學(xué)習(xí)架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人久久久久 | 日韩国产在线 | 日本视频免费 | 中文字幕国产视频 | 99视频免费在线观看 | 密色视频 | 亚洲一区二区三区福利 | 久久蜜桃资源一区二区老牛 | 天天草天天射 | 性视频网 | 激情 亚洲 | 一级免费视频 | 国产精品色婷婷久久58 | 亚洲欧美网站 | 亚洲一区二区三区在线播放 | 精品国产一区二区三区久久久蜜月 | 久久久久久国产精品免费免费 | 久久在看| 日韩欧美大片在线观看 | 亚洲精品黄色 | 日本啊v在线 | 久久精品国产99国产精品 | 久久人体 | 国产高清精品在线 | 久久99国产精品 | 在线观看第一区 | 99re在线视频 | 亚洲精品一二三 | 久久国产精品久久国产精品 | 中文字幕一区在线观看视频 | 天堂资源 | 色av一区二区 | 91在线观看 | 亚洲欧美日韩精品久久亚洲区 | 激情六月天| 亚洲三级视频 | 久久精点视频 | 精品国产99 | 精品国产31久久久久久 | 欧美美女被c| 国产99久久 |