DataWorks:阿里全鏈路數(shù)據(jù)治理實(shí)踐
01 阿里巴巴數(shù)據(jù)平臺(tái)發(fā)展歷史與現(xiàn)狀
1. 阿里巴巴數(shù)據(jù)平臺(tái)發(fā)展的四個(gè)階段
- 第一階段:2012年
?
阿里巴巴數(shù)據(jù)平臺(tái)發(fā)展的四個(gè)階段中的第一個(gè)階段大概在2012年。構(gòu)建數(shù)據(jù)中臺(tái),一個(gè)強(qiáng)大的數(shù)據(jù)平臺(tái)必不可少,數(shù)據(jù)平臺(tái)也可稱為數(shù)據(jù)中臺(tái)的數(shù)據(jù)底座。阿里巴巴數(shù)據(jù)平臺(tái)發(fā)展的四個(gè)階段代表著阿里數(shù)據(jù)中臺(tái)發(fā)展的四個(gè)階段,這四個(gè)階段可以看到阿里對(duì)整個(gè)數(shù)據(jù)系統(tǒng)的不斷變革以及對(duì)數(shù)據(jù)高效應(yīng)用的思路。
在第一個(gè)階段,阿里的電商業(yè)務(wù)進(jìn)入了一個(gè)爆發(fā)期,淘寶、1688等多個(gè)團(tuán)隊(duì)都是基于數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)架構(gòu)基本都基于IOT架構(gòu),核心系統(tǒng)都在Oracle上。2年時(shí)間內(nèi)阿里已經(jīng)建設(shè)了全亞洲最大的Oracle集群,但到2010年時(shí)Oracle已經(jīng)無法滿足公司業(yè)務(wù)計(jì)算的需求,不斷出現(xiàn)數(shù)據(jù)延遲和計(jì)算錯(cuò)誤,而且Oracle計(jì)算的成本很高,無法支撐業(yè)務(wù)發(fā)展,為此阿里計(jì)劃構(gòu)建下一代的數(shù)據(jù)平臺(tái),同時(shí)啟動(dòng)了云梯1和云梯2兩個(gè)項(xiàng)目。
云梯1基于開源Hadoop的技術(shù)體系搭建,多個(gè)業(yè)務(wù)部門分別構(gòu)建了自己的Hadoop集群,集群規(guī)模一度達(dá)4000臺(tái),那時(shí)候阿里巴巴也搭建了自己的一個(gè)數(shù)據(jù)同步引擎,也就是現(xiàn)在的DataX,以及第一代的任務(wù)調(diào)度引擎“天網(wǎng)”,這兩個(gè)引擎構(gòu)建了現(xiàn)在的DataWorks的基礎(chǔ)服務(wù),那時(shí)的DataWorks還沒有UI,只是個(gè)命令行工具。
云梯2是基于阿里巴巴自研的一個(gè)大數(shù)據(jù)計(jì)算服務(wù),也就是現(xiàn)在的MaxCompute,當(dāng)時(shí)集群規(guī)模達(dá)到了1200臺(tái)。這兩個(gè)項(xiàng)目當(dāng)時(shí)在阿里內(nèi)部是競爭關(guān)系,并在內(nèi)部引起了一場廣泛的關(guān)于開源和自研的爭議。
- 第二階段:2015年
?
2012至2015年阿里電商業(yè)務(wù)飛速發(fā)展,同時(shí)也涌現(xiàn)出菜鳥、高德、釘釘?shù)榷鄠€(gè)新興業(yè)務(wù),阿里內(nèi)部也形成了多個(gè)不同架構(gòu)的平臺(tái)系統(tǒng),然后導(dǎo)致數(shù)據(jù)孤島現(xiàn)象的日益加劇,數(shù)據(jù)成本飆升。
2013年,云梯1和云梯2兩個(gè)集群的規(guī)模達(dá)到瓶頸,很多業(yè)務(wù)因此無法繼續(xù)開展,阿里集團(tuán)已經(jīng)沒有辦法同時(shí)去支撐兩套技術(shù)路線的同時(shí)發(fā)展,此時(shí)需要做出一個(gè)抉擇。當(dāng)時(shí)云梯1的Hadoop集群遇到了無法突破5000臺(tái)瓶頸,在業(yè)界也無先例,同時(shí)數(shù)據(jù)安全也是一個(gè)問題。最終阿里選擇自研的云梯2,并通過“5K”項(xiàng)目突破了5000臺(tái)集群的物理極限。
5K項(xiàng)目成功后阿里啟動(dòng)了“登月計(jì)劃”,將云梯1的Hadoop集群全面切換到MaxCompute集群。這期間DataWorks也推出了在線IDE,讓數(shù)據(jù)開發(fā)從“命令行+本地IDE”時(shí)代進(jìn)入WebIDE時(shí)代。
2015年,阿里云數(shù)加平臺(tái)發(fā)布,其核心產(chǎn)品正是MaxCompute和DataWorks。作為數(shù)據(jù)開發(fā)平臺(tái),面臨既要支持集團(tuán)內(nèi)部數(shù)據(jù)的建設(shè),又要支持阿里云上的公共云、專有云上的客戶,阿里集團(tuán)內(nèi)部涌現(xiàn)多套的數(shù)據(jù)平臺(tái),包含對(duì)內(nèi)支撐和對(duì)外服務(wù)。最終阿里巴巴面對(duì)數(shù)據(jù)平臺(tái)的分與合,選擇了建設(shè)集團(tuán)統(tǒng)一數(shù)據(jù)開發(fā)平臺(tái),即將所有數(shù)據(jù)開發(fā)類工具整合到DataWorks。
- 第三階段:2018年
?
2015年到2018年,數(shù)據(jù)中臺(tái)方法論開始逐步建立,拉開了數(shù)據(jù)中臺(tái)建設(shè)的大幕。2015年阿里宣布了數(shù)據(jù)中臺(tái)建設(shè)戰(zhàn)略,開始構(gòu)建符合DT時(shí)代的“大中臺(tái)、小前臺(tái)”組織機(jī)制和業(yè)務(wù)機(jī)制,進(jìn)行從業(yè)務(wù)數(shù)據(jù)化到數(shù)據(jù)業(yè)務(wù)化的轉(zhuǎn)變。
隨著計(jì)算和數(shù)據(jù)的不斷增長,數(shù)據(jù)治理問題凸顯,阿里巴巴開始思考如何將數(shù)據(jù)中臺(tái)的方法論落地平臺(tái)層,讓平臺(tái)可以更好的支持中臺(tái)的建設(shè)。在數(shù)據(jù)平臺(tái)側(cè),MaxCompute 達(dá)到了10萬臺(tái)集群規(guī)模,DataWorks構(gòu)建大規(guī)模協(xié)同數(shù)據(jù)開發(fā)與治理的一站式能力,服務(wù)100+阿里集團(tuán)BU、20萬+阿里員工的取數(shù)用數(shù)需求。
- 第四階段:2021年
?
2018年至2021年我們稱之為云上數(shù)據(jù)中臺(tái)與業(yè)務(wù)伴生的階段,2018年后阿里的數(shù)據(jù)平臺(tái)業(yè)務(wù)已經(jīng)很成熟了,數(shù)據(jù)中臺(tái)達(dá)到了一個(gè)正循環(huán),可視為數(shù)據(jù)中臺(tái)建設(shè)成功的標(biāo)志。DataWorks支撐建設(shè)的數(shù)據(jù)中臺(tái)全面服務(wù)業(yè)務(wù)、支持集團(tuán)內(nèi)300+數(shù)據(jù)應(yīng)用、MaxCompute智能數(shù)倉讓雙11成為日常,目前已能夠以一個(gè)比較低的成本實(shí)現(xiàn)支持業(yè)務(wù)的快速增長。
2. 阿里巴巴數(shù)據(jù)平臺(tái)發(fā)展現(xiàn)狀
- “數(shù)據(jù)效率”成為核心指標(biāo)
?
企業(yè)數(shù)據(jù)中臺(tái)建設(shè)的成功與否核心指標(biāo)就是“數(shù)據(jù)效率”,阿里從數(shù)據(jù)規(guī)模與彈性、數(shù)據(jù)的成本、數(shù)據(jù)的正確性與可維護(hù)性、數(shù)據(jù)利用率四個(gè)方面來衡量數(shù)據(jù)效率,數(shù)據(jù)治理逐漸被提上日程。
02
阿里巴巴數(shù)據(jù)治理的實(shí)踐
?
阿里巴巴數(shù)據(jù)治理分為四個(gè)階段,也是伴隨著數(shù)據(jù)平臺(tái)的發(fā)展階段。
(1)第一階段:數(shù)據(jù)穩(wěn)定性治理
第一階段,也是首要要保障的問題,即數(shù)據(jù)穩(wěn)定性。阿里巴巴通過以下幾個(gè)方面來保障數(shù)據(jù)生產(chǎn)的穩(wěn)定性。
① 穩(wěn)定可靠的調(diào)度服務(wù):通過阿里自研的天網(wǎng)調(diào)度系統(tǒng)能很好地支撐每日千萬級(jí)別的任務(wù)量,并且成功了解決復(fù)雜依賴問題。
② 規(guī)范化數(shù)據(jù)開發(fā)運(yùn)維:數(shù)據(jù)開發(fā)、生產(chǎn)環(huán)境隔離,確保線上生產(chǎn)的穩(wěn)定性,任務(wù)發(fā)布也進(jìn)行了獨(dú)立管控,支持變更卡點(diǎn)和審批。
③ 基線監(jiān)控:從業(yè)務(wù)視角定義任務(wù)優(yōu)先級(jí),實(shí)現(xiàn)資源管控。
④ 快速恢復(fù):任務(wù)出錯(cuò)自愈,自動(dòng)生成工單保證快速響應(yīng),任務(wù)診斷幫助定位原因,批量重刷數(shù)據(jù)以快速恢復(fù)。
⑤ 大促保障:全網(wǎng)強(qiáng)管控,問題節(jié)點(diǎn)治理,任務(wù)降級(jí)能力,分時(shí)調(diào)度等。
(2)第二階段:數(shù)據(jù)規(guī)范治理
?
第二階段為數(shù)據(jù)規(guī)范治理。阿里巴巴通過數(shù)倉規(guī)范設(shè)計(jì)和開發(fā)來預(yù)防問題的發(fā)生,通過核心公共層來減少數(shù)據(jù)重復(fù)建設(shè)和確保口徑一致性。基本思路是構(gòu)建一個(gè)指標(biāo)體系、設(shè)計(jì)數(shù)據(jù)模型、數(shù)據(jù)處理任務(wù)開發(fā)、數(shù)據(jù)服務(wù)開放。數(shù)倉中的核心公共層定義了一條門檻線,進(jìn)入核心公共層的數(shù)據(jù)納入強(qiáng)管控以確保數(shù)據(jù)的規(guī)范性。
(3)第三階段:數(shù)據(jù)安全治理
?
第三個(gè)階段,數(shù)據(jù)安全治理。當(dāng)前,數(shù)據(jù)安全已被提高到國家和社會(huì)的層面。數(shù)據(jù)安全治理主要從數(shù)據(jù)分類分級(jí)與權(quán)限控制、敏感數(shù)據(jù)發(fā)現(xiàn)與脫敏、數(shù)據(jù)風(fēng)險(xiǎn)審計(jì)、可信計(jì)算環(huán)境四個(gè)方面進(jìn)行。這里主要提一下數(shù)據(jù)分類分級(jí),我們支持?jǐn)?shù)據(jù)自動(dòng)打標(biāo)(如通過血緣關(guān)系等),特殊的數(shù)據(jù)可由人工打標(biāo)調(diào)整,然后基于不同標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行更合理管控和使用。
(4)第四階段:數(shù)據(jù)成本治理
第四個(gè)階段,數(shù)據(jù)成本治理,這也是阿里巴巴近幾年在持續(xù)做的事情。阿里做成本治理為四個(gè)步驟,即設(shè)定組織成本目標(biāo)、培養(yǎng)個(gè)人成本意識(shí)(有工具督促)、計(jì)算存儲(chǔ)成本并管控、成本治理評(píng)估與運(yùn)營。阿里巴巴2020年成本治理成效顯著,以10%的數(shù)據(jù)成本增長支撐了65%的業(yè)務(wù)增速。
(5) 數(shù)據(jù)治理總結(jié)
?
阿里巴巴的數(shù)據(jù)治理主要從組織體系、數(shù)據(jù)資產(chǎn)治理方法論、平臺(tái)工具支撐&運(yùn)營三個(gè)方面保障。其中平臺(tái)工具是基礎(chǔ),主要包含了DataWorks、 MaxCompute這兩個(gè)平臺(tái)的應(yīng)用,皆在以上四個(gè)數(shù)據(jù)治理階段發(fā)揮了重要作用,接下來將繼續(xù)為大家解析DataWorks的核心能力。
03 基于阿里云DataWorks的全鏈路數(shù)據(jù)治理平臺(tái)能力
1. 阿里云大數(shù)據(jù)平臺(tái)業(yè)務(wù)全景圖
?
阿里云自研大數(shù)據(jù)產(chǎn)品體系主要涵蓋了DataWorks、MaxCompute、Hologres、Datahub等產(chǎn)品,它集中存儲(chǔ)和管理企業(yè)數(shù)據(jù)資產(chǎn),面向數(shù)據(jù)應(yīng)用處理和分析數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)洞察。通過與阿里云內(nèi)、外部服務(wù)靈活組合,可構(gòu)建豐富的數(shù)據(jù)應(yīng)用。全托管的數(shù)據(jù)與分析解決方案,可簡化平臺(tái)運(yùn)維、管理投入,提升面向業(yè)務(wù)的服務(wù)能力,加速數(shù)據(jù)價(jià)值實(shí)現(xiàn)。
2. DataWorks產(chǎn)品架構(gòu)
DataWorks作為一站式數(shù)據(jù)開發(fā)和治理平臺(tái),包含了數(shù)據(jù)集成、規(guī)范設(shè)計(jì)、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)、開放平臺(tái)等產(chǎn)品服務(wù),覆蓋了大數(shù)據(jù)研發(fā)和治理的全流程和全生命周期。在大數(shù)據(jù)引擎支持方面,DataWorks可以支持MaxCompute、實(shí)時(shí)數(shù)倉Hologres、開源大數(shù)據(jù)平臺(tái)EMR和CDH/CDP,可以很好的適配市場上的主流大數(shù)據(jù)平臺(tái)服務(wù)。
3. DataWorks 數(shù)據(jù)治理產(chǎn)品能力
上述的阿里巴巴數(shù)據(jù)治理的四個(gè)階段,DataWorks都提供了相應(yīng)的產(chǎn)品工具能力支撐。
① DataWorks任務(wù)調(diào)度與運(yùn)維
?
DataWorks提供了超大規(guī)模任務(wù)調(diào)度能力、可視化工作流編排、復(fù)雜調(diào)度邏輯控制、離線&實(shí)時(shí)任務(wù)運(yùn)維、可視化任務(wù)運(yùn)維操作、任務(wù)智能運(yùn)維診斷等功能。DataWorks的任務(wù)調(diào)度系統(tǒng)伴隨著阿里巴巴10多年數(shù)倉發(fā)展和“雙11”的考驗(yàn),性能與穩(wěn)定性業(yè)界領(lǐng)先,是保障數(shù)據(jù)生產(chǎn)穩(wěn)定產(chǎn)出的基礎(chǔ)。
② DataWorks數(shù)據(jù)質(zhì)量管理
DataWorks數(shù)據(jù)質(zhì)量管理提供了對(duì)數(shù)據(jù)完整性、有效性、準(zhǔn)確性、唯一性、一致性和合理性的全面評(píng)估和保障能力。支持靈活的質(zhì)量規(guī)則定義,包含37種內(nèi)置模板規(guī)則和自定義規(guī)則,提供智能規(guī)則自動(dòng)推薦、動(dòng)態(tài)閾值智能預(yù)測,通過機(jī)器學(xué)習(xí)來智能確定規(guī)則的合理上下限值,減少數(shù)據(jù)探查的成本,提高質(zhì)量規(guī)則配置效率。同時(shí)支持選擇是否阻塞下游任務(wù)運(yùn)行以避免臟數(shù)據(jù)污染。
③ DataWorks數(shù)倉規(guī)范設(shè)計(jì)(數(shù)據(jù)建模)
?
DataWorks數(shù)據(jù)建模產(chǎn)品體系包含了數(shù)倉規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn),維度建模和數(shù)據(jù)指標(biāo)。提供了多種建模交互方式,包含可視化數(shù)據(jù)建模,導(dǎo)入Excel數(shù)據(jù)模型文檔,通過FML(Fast Modeling Language,一種由DataWorks開源的類SQL數(shù)據(jù)建模語言)語義化數(shù)據(jù)建模,并且能夠自動(dòng)生成ETL偽代碼,實(shí)現(xiàn)數(shù)據(jù)建模與數(shù)據(jù)開發(fā)的無縫銜接。DataWorks數(shù)據(jù)建模支撐了阿里集團(tuán)數(shù)倉的核心公共層建設(shè),是OneData方法論的產(chǎn)品化實(shí)現(xiàn)。
④ DataWorks元數(shù)據(jù)管理(數(shù)據(jù)地圖)
?
元數(shù)據(jù)管理可以說是數(shù)據(jù)管理和數(shù)據(jù)治理的基礎(chǔ)。DataWorks數(shù)據(jù)地圖提供了數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)類目、數(shù)據(jù)檢索、數(shù)據(jù)詳情、數(shù)據(jù)預(yù)覽與探查、數(shù)據(jù)血緣與影響分析功能。支持異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)自動(dòng)采集并自動(dòng)構(gòu)建數(shù)據(jù)目錄,支持表級(jí)及字段級(jí)數(shù)據(jù)血緣,并基于數(shù)據(jù)血緣進(jìn)行影響分析,從而推斷數(shù)據(jù)變更可能造成的影響范圍,以此來指導(dǎo)數(shù)據(jù)開發(fā)人員進(jìn)行數(shù)據(jù)變更影響評(píng)估。
⑤ DataWorks數(shù)據(jù)安全管控
?
DataWorks與MaxCompute提供了金融級(jí)數(shù)據(jù)安全管控能力,包含細(xì)粒度數(shù)據(jù)權(quán)限控制、數(shù)據(jù)分類分級(jí)、敏感數(shù)據(jù)發(fā)現(xiàn)與脫敏、數(shù)據(jù)審計(jì)等,覆蓋了數(shù)據(jù)傳輸安全、數(shù)據(jù)存儲(chǔ)安全、數(shù)據(jù)處理安全和數(shù)據(jù)交換安全的全鏈路數(shù)據(jù)安全服務(wù)。
⑥ DataWorks主動(dòng)式與可持續(xù)數(shù)據(jù)治理
?
DataWorks在過去多年發(fā)展迭代中,沉淀了非常多的數(shù)據(jù)治理產(chǎn)品工具,但要把這些工具用好,依然依賴于人的經(jīng)驗(yàn)?zāi)芰Α:芏嗥髽I(yè)在數(shù)據(jù)治理的過程中,也面臨數(shù)據(jù)治理的成效不易評(píng)估,治理團(tuán)隊(duì)業(yè)績不好衡量,從而導(dǎo)致數(shù)據(jù)治理過程往往淪為項(xiàng)目制、運(yùn)動(dòng)式,不可持續(xù)。為解決這樣的問題,DataWorks全新推出了數(shù)據(jù)治理中心產(chǎn)品,通過問題驅(qū)動(dòng)的方式,幫助企業(yè)主動(dòng)發(fā)現(xiàn)待治理問題,然后引導(dǎo)用戶優(yōu)化和解決問題,再提供數(shù)據(jù)治理成效的評(píng)分模型,幫助企業(yè)定量評(píng)估數(shù)據(jù)治理的健康度,從而實(shí)現(xiàn)有效的、可持續(xù)運(yùn)營的數(shù)據(jù)治理過程。
DataWorks數(shù)據(jù)治理中心產(chǎn)品提供了五個(gè)維度的待治理問題的發(fā)現(xiàn)能力,包含研發(fā)規(guī)范、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、計(jì)算資源和存儲(chǔ)資源。針對(duì)這五個(gè)維度,產(chǎn)品內(nèi)置了非常豐富的治理項(xiàng)掃描機(jī)制,能夠在事后識(shí)別出問題。同時(shí),產(chǎn)品也內(nèi)置了檢查項(xiàng)攔截機(jī)制,在事前和事中提前發(fā)現(xiàn)和攔截問題。
針對(duì)這五個(gè)維度,DataWorks結(jié)合在阿里巴巴內(nèi)部的實(shí)踐,設(shè)計(jì)了一套健康分評(píng)估模型,可以有效地定量衡量數(shù)據(jù)治理的成效。企業(yè)可以通過數(shù)據(jù)治理健康分,快速識(shí)別自身短板,然后針對(duì)性進(jìn)行治理,并通過健康分實(shí)現(xiàn)評(píng)比和考核,從而達(dá)到可持續(xù)可運(yùn)營的數(shù)據(jù)治理,讓數(shù)據(jù)治理過程有的放矢,不再無從下手。
4. DataWorks 開放平臺(tái)助力企業(yè)實(shí)現(xiàn)個(gè)性化數(shù)據(jù)治理
?
企業(yè)的數(shù)據(jù)治理過程并非標(biāo)準(zhǔn)化的,DataWorks數(shù)據(jù)治理中心提供的產(chǎn)品能力必然也無法完全滿足企業(yè)數(shù)據(jù)治理中的所有需求。因此一套完善的數(shù)據(jù)治理平臺(tái)必須要支持插件化機(jī)制,允許企業(yè)自定義數(shù)據(jù)治理插件。
DataWorks全新升級(jí)了開放平臺(tái),在原有OpenAPI基礎(chǔ)之上,新增了開放事件(Open Event)、擴(kuò)展點(diǎn)(Hook)和擴(kuò)展程序(Extensions)能力。您可以訂閱DataWorks平臺(tái)中開放的事件消息。DataWorks對(duì)核心流程中的事件提供了擴(kuò)展點(diǎn)機(jī)制(Hook),當(dāng)事件發(fā)生時(shí),系統(tǒng)會(huì)自動(dòng)中斷流程,同時(shí)等待您接收到事件消息并對(duì)事件消息進(jìn)行自定義處理,最后通過OpenAPI將您的處理結(jié)果回調(diào)給DataWorks,DataWorks將根據(jù)您的自定義處理結(jié)果選擇執(zhí)行或者阻斷后續(xù)流程,從而實(shí)現(xiàn)您對(duì)DataWorks處理流程的自定義控制。您訂閱事件、處理事件和回調(diào)事件處理結(jié)果的程序服務(wù)稱之為擴(kuò)展程序,即插件。通過這種方式,您可以實(shí)現(xiàn)各式各樣的自定義數(shù)據(jù)治理插件,例如任務(wù)發(fā)布檢查插件、計(jì)算費(fèi)用消耗檢查插件等。
04 下一代數(shù)據(jù)平臺(tái)的智能進(jìn)化方向
?
數(shù)據(jù)湖是一個(gè)寬進(jìn)寬出,相對(duì)協(xié)同比較松耦合的系統(tǒng)。數(shù)據(jù)倉庫是一個(gè)嚴(yán)進(jìn)嚴(yán)出,比較嚴(yán)格緊耦合的系統(tǒng)。數(shù)據(jù)湖是數(shù)據(jù)先進(jìn)來,然后再開始用,所以是屬于事后建模,可以存儲(chǔ)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉庫是一個(gè)嚴(yán)格的系統(tǒng),所以需要事前建模,數(shù)據(jù)經(jīng)過轉(zhuǎn)化清洗進(jìn)到倉里面,存儲(chǔ)類型變?yōu)榻Y(jié)構(gòu)化或者半結(jié)構(gòu)化。數(shù)據(jù)湖是提供了一套標(biāo)準(zhǔn)的開放接口,來支持更多的引擎,像插拔式的插到這個(gè)體系里面,所以它是向所有的引擎開放。數(shù)據(jù)倉庫向特定引擎開放,但是恰恰因?yàn)閿?shù)據(jù)倉庫是一個(gè)自閉環(huán)系統(tǒng),它的計(jì)算引擎、存儲(chǔ)引擎、元數(shù)據(jù)之間是可以做到非常深度、垂直的優(yōu)化,可以獲得一個(gè)非常好的性能。整體上來講,數(shù)據(jù)湖更偏靈活性,數(shù)據(jù)倉庫更偏企業(yè)級(jí)能力。
既然數(shù)據(jù)湖和數(shù)據(jù)倉庫在企業(yè)發(fā)展的不同階段均發(fā)揮著關(guān)鍵的作用,那么有沒有一種技術(shù)或者架構(gòu)可以同時(shí)發(fā)揮兩者的優(yōu)勢(shì)?通過我們對(duì)業(yè)界的洞察以及阿里云自身的實(shí)踐,我們認(rèn)為湖和倉正在發(fā)生融合,湖倉一體新的數(shù)據(jù)管理架構(gòu)可以很好的解決這個(gè)問題。湖倉一體作為下一代數(shù)據(jù)平臺(tái)架構(gòu),是滿足復(fù)雜現(xiàn)狀下架構(gòu)的靈活升級(jí)。
MaxCompute湖倉一體支持連接Hadoop數(shù)據(jù)湖和OSS數(shù)據(jù)湖,DataWorks提供了湖倉一體化的開發(fā)和管理的升級(jí),支持分鐘級(jí)自助打通湖和倉,屏蔽了很多底層的配置細(xì)節(jié),從而實(shí)現(xiàn)快速的業(yè)務(wù)洞察。
今天的分享就到這里,謝謝大家。