Snowflake 如日中天是否代表 Hadoop 已死？大數(shù)據(jù)體系到底是什么？

作者：關(guān)濤、王璀 2021-08-05 15:32:18

大數(shù)據(jù)平臺(tái)的數(shù)倉(cāng)體系最初由數(shù)據(jù)庫(kù)發(fā)展而來，Shared-Nothing（也稱MPP）架構(gòu)在很長(zhǎng)一段時(shí)間成為主流。隨云原生能力增強(qiáng)，Snowflake為代表的Shared-Data逐漸發(fā)展起來。而基于DFS和MapReduce原理的大數(shù)據(jù)體系，設(shè)計(jì)之初就是Shared-Everything架構(gòu)。

任何一種技術(shù)都會(huì)經(jīng)歷從陽春白雪到下里巴人的過程，就像我們對(duì)計(jì)算機(jī)的理解從“戴著鞋套才能進(jìn)的機(jī)房”變成了隨處可見的智能手機(jī)。在前面20年中，大數(shù)據(jù)技術(shù)也經(jīng)歷了這樣的過程，從曾經(jīng)高高在上的 “火箭科技（rocket science）”，成為了人人普惠的技術(shù)。

回首來看，大數(shù)據(jù)發(fā)展初期涌現(xiàn)了非常多開源和自研系統(tǒng)，并在同一個(gè)領(lǐng)域展開了相當(dāng)長(zhǎng)的一段“紅海”競(jìng)爭(zhēng)期，例如Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming VS Apex、Impala VS Presto VS Clickhouse等等。經(jīng)歷激烈競(jìng)爭(zhēng)和淘汰后，勝出的產(chǎn)品逐漸規(guī)模化，并開始占領(lǐng)市場(chǎng)和開發(fā)者。

事實(shí)上，近幾年，大數(shù)據(jù)領(lǐng)域已經(jīng)沒有再誕生新的明星開源引擎（Clickhouse@2016年開源，PyTorch@2018年開源），以Apache Mesos等項(xiàng)目停止維護(hù)為代表，大數(shù)據(jù)領(lǐng)域進(jìn)入“后紅海”時(shí)代：技術(shù)開始逐步收斂，進(jìn)入技術(shù)普惠和業(yè)務(wù)大規(guī)模應(yīng)用的階段。

本文作者關(guān)濤是大數(shù)據(jù)系統(tǒng)領(lǐng)域的資深專家，在微軟（互聯(lián)網(wǎng)/Azure云事業(yè)群）和阿里巴巴（阿里云）經(jīng)歷了大數(shù)據(jù)發(fā)展20年過程中的后15年。本文試從系統(tǒng)架構(gòu)的角度，就大數(shù)據(jù)架構(gòu)熱點(diǎn)，每條技術(shù)線的發(fā)展脈絡(luò)，以及技術(shù)趨勢(shì)和未解問題等方面做一概述。

值得一提的是，大數(shù)據(jù)領(lǐng)域仍然處于發(fā)展期，部分技術(shù)收斂，但新方向和新領(lǐng)域?qū)映霾桓F。本文內(nèi)容和個(gè)人經(jīng)歷相關(guān)，是個(gè)人的視角，難免有缺失或者偏頗，同時(shí)限于篇幅，也很難全面。僅作拋磚引玉，希望和同業(yè)共同探討。

一、當(dāng)下的大數(shù)據(jù)體系熱點(diǎn)

BigData概念在上世紀(jì)90年代被提出，隨Google的3篇經(jīng)典論文（GFS，BigTable，MapReduce）奠基，已經(jīng)發(fā)展了將近20年。這20年中，誕生了包括Google大數(shù)據(jù)體系，微軟Cosmos體系，阿里云的飛天系統(tǒng)，開源Hadoop體系等優(yōu)秀的系統(tǒng)。這些系統(tǒng)一步步推動(dòng)業(yè)界進(jìn)入“數(shù)字化“和之后的“AI化”的時(shí)代。

海量的數(shù)據(jù)以及其蘊(yùn)含的價(jià)值，吸引了大量投入，極大的推動(dòng)大數(shù)據(jù)領(lǐng)域技術(shù)。云（Cloud）的興起又使得大數(shù)據(jù)技術(shù)對(duì)于中小企業(yè)唾手可得。可以說，大數(shù)據(jù)技術(shù)發(fā)展正當(dāng)時(shí)。

從體系架構(gòu)的角度看，“Shared-Everything”架構(gòu)演進(jìn)、湖倉(cāng)技術(shù)的一體化融合、云原生帶來的基礎(chǔ)設(shè)計(jì)升級(jí)、以及更好的AI支持，是當(dāng)下平臺(tái)技術(shù)的四個(gè)熱點(diǎn)。

1.1 系統(tǒng)架構(gòu)角度，平臺(tái)整體向Shared-Everything架構(gòu)演進(jìn)

泛數(shù)據(jù)領(lǐng)域的系統(tǒng)架構(gòu)，從傳統(tǒng)數(shù)據(jù)庫(kù)的Scale-up向大數(shù)據(jù)的Scale-out發(fā)展。從分布式系統(tǒng)的角度，整體架構(gòu)可以按照Shared-Nothing（也稱MPP）, Shared-Data, Shared-Everything 三種架構(gòu)。

Shared-Everything架構(gòu)代表是GoogleBigQuery和阿里云MaxCompute。從架構(gòu)角度，Shared-Everything架構(gòu)具備更好的靈活性和潛力，會(huì)是未來發(fā)展的方向。

（圖：三種大數(shù)據(jù)體系架構(gòu)）

1.2 數(shù)據(jù)管理角度，數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)融合，形成湖倉(cāng)一體

數(shù)據(jù)倉(cāng)庫(kù)的高性能與管理能力，與數(shù)據(jù)湖的靈活性，倉(cāng)和湖的兩套體系在相互借鑒與融合。在2020年各個(gè)廠商分別提出湖倉(cāng)一體架構(gòu)，成為當(dāng)下架構(gòu)演進(jìn)最熱的趨勢(shì)。但湖倉(cāng)一體架構(gòu)有多種形態(tài)，不同形態(tài)尚在演進(jìn)和爭(zhēng)論中。

(圖：數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)借鑒融合)

1.3 云架構(gòu)角度，云原生與托管化成為主流

隨著大數(shù)據(jù)平臺(tái)技術(shù)進(jìn)入深水區(qū)，用戶也開始分流，越來越多的中小用戶不再自研或自建數(shù)據(jù)平臺(tái)，開始擁抱全托管型（通常也是云原生）的數(shù)據(jù)產(chǎn)品。Snowflake作為這一領(lǐng)域的典型產(chǎn)品，得到普遍認(rèn)可。面向未來，后續(xù)僅會(huì)有少量超大規(guī)模頭部公司采用自建（開源+改進(jìn)）的模式。

(圖：snowflake的云原生架構(gòu)）

1.4 計(jì)算模式角度，AI逐漸成為主流，形成BI+AI雙模式

BI作為統(tǒng)計(jì)分析類計(jì)算，主要是面向過去的總結(jié)；AI類計(jì)算則具備越來越好的預(yù)測(cè)未來的能力。在過去五年中，算法類的負(fù)載從不到數(shù)據(jù)中心總?cè)萘康?%，提升到30%。AI已經(jīng)成為大數(shù)據(jù)領(lǐng)域的一等公民。

二、大數(shù)據(jù)體系的領(lǐng)域架構(gòu)

在前文(#1.1)介紹的Shared-Nothing、Shared-Data、Shared-Everything 三種架構(gòu)中，筆者經(jīng)歷過的兩套體系（微軟Cosmos/Scope體系，和阿里云MaxCompute）均為Shared-Everything架構(gòu)，因此筆者主要從Shared-Everything架構(gòu)角度，將大數(shù)據(jù)領(lǐng)域分成6個(gè)疊加的子領(lǐng)域、3個(gè)橫向領(lǐng)域，共9個(gè)領(lǐng)域，具體如下圖。

(圖：基于 Shared-Everything 大數(shù)據(jù)體系下的領(lǐng)域架構(gòu))

經(jīng)過多年的發(fā)展，每個(gè)領(lǐng)域都有一定的進(jìn)展和沉淀，下面各個(gè)章節(jié)將概述每個(gè)子領(lǐng)域的演進(jìn)歷史、背后驅(qū)動(dòng)力、以及發(fā)展方向。

2.1 分布式存儲(chǔ)向多層智能化演進(jìn)

分布式存儲(chǔ)，本文特指通用大數(shù)據(jù)海量分布式存儲(chǔ)，是個(gè)典型的帶狀態(tài)（Stateful）分布式系統(tǒng)，高吞吐、低成本、容災(zāi)、高可用是核心優(yōu)化方向。（注：下述分代僅為了闡述方便，不代表嚴(yán)格的架構(gòu)演進(jìn)。）

第一代，分布式存儲(chǔ)的典型代表是谷歌的GFS和Apache Hadoop的HDFS，均為支持多備份的Append-only文件系統(tǒng)。因HDFS早期NameNode在擴(kuò)展性和容災(zāi)方面的短板不能充分滿足用戶對(duì)數(shù)據(jù)高可用的要求，很多大型公司都有自研的存儲(chǔ)系統(tǒng)，如微軟的Cosmos（后來演進(jìn)成Azure Blob Storage），以及阿里巴巴的Pangu系統(tǒng)。HDFS作為開源存儲(chǔ)的奠基，其接口成為事實(shí)標(biāo)準(zhǔn)，同時(shí)HDFS又具備支持其他系統(tǒng)作為背后存儲(chǔ)系統(tǒng)的插件化能力。

第二代，基于上述底盤，隨海量對(duì)象存儲(chǔ)需求激增（例如海量的照片），通用的Append-only文件系統(tǒng)之上，封裝一層支持海量小對(duì)象的元數(shù)據(jù)服務(wù)層，形成對(duì)象存儲(chǔ)（Object-based Storage），典型的代表包括AWS S3，阿里云OSS。值得一提的是，S3與OSS均可作為標(biāo)準(zhǔn)插件，成為HDFS的事實(shí)存儲(chǔ)后端。

第三代，以數(shù)據(jù)湖為代表。隨云計(jì)算技術(shù)的發(fā)展，以及（2015年之后）網(wǎng)絡(luò)技術(shù)的進(jìn)步，存儲(chǔ)計(jì)算一體的架構(gòu)逐漸被云原生存儲(chǔ)（存儲(chǔ)托管化）+ 存儲(chǔ)計(jì)算分離的新架構(gòu)取代。這也是數(shù)據(jù)湖體系的起點(diǎn)。同時(shí)因存儲(chǔ)計(jì)算分離帶來的帶寬性能問題并未完全解決，在這個(gè)細(xì)分領(lǐng)域誕生了Alluxio等緩存服務(wù)。

第四代，也是當(dāng)下的趨勢(shì)，隨存儲(chǔ)云托管化，底層實(shí)現(xiàn)對(duì)用戶透明，因此存儲(chǔ)系統(tǒng)有機(jī)會(huì)向更復(fù)雜的設(shè)計(jì)方向發(fā)展，從而開始向多層一體化存儲(chǔ)系統(tǒng)演進(jìn)。由單一的基于SATA磁盤的系統(tǒng)，向Mem/SSD+SATA (3X備份)+SATA (1.375X為代表的EC備份)+冰存儲(chǔ)（典型代表AWS Glacier）等多層系統(tǒng)演進(jìn)。

如何智能/透明的將數(shù)據(jù)存儲(chǔ)分層，找到成本與性能的Trade-off，是多層存儲(chǔ)系統(tǒng)的關(guān)鍵挑戰(zhàn)。這領(lǐng)域起步不久，開源領(lǐng)域沒有顯著好的產(chǎn)品，最好的水平由幾個(gè)大廠的自研數(shù)倉(cāng)存儲(chǔ)系統(tǒng)引領(lǐng)。

(圖：阿里巴巴 MaxCompute 的多層一體化存儲(chǔ)體系)

在上述系統(tǒng)之上，有一層文件存儲(chǔ)格式層（File Format layer），與存儲(chǔ)系統(tǒng)本身正交。

存儲(chǔ)格式第一代，包含文件格式、壓縮和編碼技術(shù)、以及Index支持等。目前主流兩類的存儲(chǔ)格式是Apache Parquet和Apache ORC，分別來自Spark和Hive生態(tài)。兩者均為適應(yīng)大數(shù)據(jù)的列式存儲(chǔ)格式，ORC在壓縮編碼上有特長(zhǎng)，Parquet在半結(jié)構(gòu)支持上更優(yōu)。此外另有一種內(nèi)存格式Apache Arrow，設(shè)計(jì)體系也屬于format，但主要為內(nèi)存交換優(yōu)化。

存儲(chǔ)格式第二代 - 以 Apache Hudi/Delta Lake 為代表的近實(shí)時(shí)化存儲(chǔ)格式。存儲(chǔ)格式早期，是大文件列存儲(chǔ)模式，面向吞吐率優(yōu)化（而非latency）。隨著實(shí)時(shí)化的趨勢(shì)，上述主流的兩個(gè)存儲(chǔ)模式均向支持實(shí)時(shí)化演進(jìn)，Databricks推出了Delta Lake，支持Apache Spark進(jìn)行近實(shí)時(shí)的數(shù)據(jù)ACID操作；Uber推出了Apache Hudi，支持近實(shí)時(shí)的數(shù)據(jù)Upsert能力。

盡管二者在細(xì)節(jié)處理上稍有不同（例如Merge on Read or Write），但整體方式都是通過支持增量文件的方式，將數(shù)據(jù)更新的周期降低到更短（避免傳統(tǒng)Parquet/ORC上的針對(duì)更新的無差別FullMerge操作），進(jìn)而實(shí)現(xiàn)近實(shí)時(shí)化存儲(chǔ)。因?yàn)榻鼘?shí)時(shí)方向，通常涉及更頻繁的文件Merge以及細(xì)粒度元數(shù)據(jù)支持，接口也更復(fù)雜，Delta/Hudi均不是單純的format、而是一套服務(wù)。

存儲(chǔ)格式再向?qū)崟r(shí)更新支持方向演進(jìn)，會(huì)與實(shí)時(shí)索引結(jié)合，不再單單作為文件存儲(chǔ)格式，而是與內(nèi)存結(jié)構(gòu)融合形成整體方案。主流的是實(shí)時(shí)更新實(shí)現(xiàn)是基于LogStructuredMergeTree（幾乎所有的實(shí)時(shí)數(shù)倉(cāng)）或者Lucene Index（Elastic Search的格式）的方式。

從存儲(chǔ)系統(tǒng)的接口/內(nèi)部功能看，越簡(jiǎn)單的接口和功能對(duì)應(yīng)更開放的能力（例如GFS/HDFS），更復(fù)雜更高效的功能通常意味著更封閉，并逐步退化成存算一體的系統(tǒng)（例如AWS當(dāng)家數(shù)倉(cāng)產(chǎn)品RedShift），兩個(gè)方向的技術(shù)在融合。

展望未來，我們看到可能的發(fā)展方向/趨勢(shì)主要有：

1）平臺(tái)層面，存儲(chǔ)計(jì)算分離會(huì)在兩三年內(nèi)成為標(biāo)準(zhǔn)，平臺(tái)向托管化和云原生的方向發(fā)展。平臺(tái)內(nèi)部，精細(xì)化的分層成為平衡性能和成本的關(guān)鍵手段（這方面，當(dāng)前數(shù)據(jù)湖產(chǎn)品還做得遠(yuǎn)遠(yuǎn)不夠），AI在分層算法上發(fā)揮更大的作用。

2）Format層面，會(huì)繼續(xù)演進(jìn)，但大的突破和換代很可能取決于新硬件的演進(jìn)（編碼和壓縮在通用處理器上的優(yōu)化空間有限）。

3）數(shù)據(jù)湖和數(shù)倉(cāng)進(jìn)一步融合，使得存儲(chǔ)不僅僅是文件系統(tǒng)。存儲(chǔ)層做的多厚，與計(jì)算的邊界是什么，仍然是個(gè)關(guān)鍵問題。

2.2 分布式調(diào)度，基于云原生，向統(tǒng)一框架和算法多元化發(fā)展

計(jì)算資源管理是分布式計(jì)算的核心能力，本質(zhì)是解決不同種類的負(fù)載與資源最優(yōu)匹配的問題。在“后紅海時(shí)代”，Google的Borg系統(tǒng)，開源Apache Yarn 依舊是這個(gè)領(lǐng)域的關(guān)鍵產(chǎn)品，K8S在大數(shù)據(jù)計(jì)算調(diào)度方向上仍在起步追趕。

常見的集群調(diào)度架構(gòu)有：

中心化調(diào)度架構(gòu)：早期的Hadoop1.0的MapReduce、后續(xù)發(fā)展的Borg、和Kubernetes都是中心化設(shè)計(jì)的調(diào)度框架，由單一的調(diào)度器負(fù)責(zé)將任務(wù)指派給集群內(nèi)的機(jī)器。特別的，中心調(diào)度器中，大多數(shù)系統(tǒng)采用兩級(jí)調(diào)度框架通過將資源調(diào)度和作業(yè)調(diào)度分開的方式，允許根據(jù)特定的應(yīng)用來定做不同的作業(yè)調(diào)度邏輯，并同時(shí)保留了不同作業(yè)之間共享集群資源的特性。Yarn、Mesos都是這種架構(gòu)。
共享狀態(tài)調(diào)度架構(gòu)：半分布式的模式。應(yīng)用層的每個(gè)調(diào)度器都擁有一份集群狀態(tài)的副本，并且調(diào)度器會(huì)獨(dú)立地對(duì)集群狀態(tài)副本進(jìn)行更新。如Google的Omega、Microsoft的Apollo，都是這種架構(gòu)。
全分布式調(diào)度架構(gòu)：從Sparrow論文開始提出的全分布式架構(gòu)則更加去中心化。調(diào)度器之間沒有任何的協(xié)調(diào)，并且使用很多各自獨(dú)立的調(diào)度器來處理不同的負(fù)載。
混合式調(diào)度架構(gòu)：這種架構(gòu)結(jié)合了中心化調(diào)度和共享狀態(tài)的設(shè)計(jì)。一般有兩條調(diào)度路徑，分別為為部分負(fù)載設(shè)計(jì)的分布式調(diào)度，和來處理剩下的負(fù)載的中心式作業(yè)調(diào)度。

(圖：The evolution of cluster scheduler architectures by Malte Schwarzkopf)

無論大數(shù)據(jù)系統(tǒng)的調(diào)度系統(tǒng)是基于哪種架構(gòu)，在海量數(shù)據(jù)處理流程中，都需要具備以下幾個(gè)維度的調(diào)度能力：

數(shù)據(jù)調(diào)度：多機(jī)房跨區(qū)域的系統(tǒng)服務(wù)帶來全域數(shù)據(jù)排布問題，需要最優(yōu)化使用存儲(chǔ)空間與網(wǎng)絡(luò)帶寬。
資源調(diào)度：IT基礎(chǔ)設(shè)施整體云化的趨勢(shì)，對(duì)資源的調(diào)度和隔離都帶來更大的技術(shù)挑戰(zhàn)；同時(shí)物理集群規(guī)模的進(jìn)一步擴(kuò)大，去中心化的調(diào)度架構(gòu)成為趨勢(shì)。
計(jì)算調(diào)度：經(jīng)典的MapReduce計(jì)算框架逐漸演化到支持動(dòng)態(tài)調(diào)整、數(shù)據(jù)Shuffle的全局優(yōu)化、充分利用內(nèi)存網(wǎng)絡(luò)等硬件資源的精細(xì)化調(diào)度時(shí)代。
單機(jī)調(diào)度：資源高壓力下的SLA保障一直以來是學(xué)術(shù)界和工業(yè)界發(fā)力的方向。Borg等開源探索都假設(shè)在資源沖突時(shí)無條件向在線業(yè)務(wù)傾斜；但是離線業(yè)務(wù)也有強(qiáng)SLA需求，不能隨意犧牲。

展望未來，我們看到可能的發(fā)展方向/趨勢(shì)主要有：

1.K8S統(tǒng)一調(diào)度框架：Google Borg很早就證明了統(tǒng)一的資源管理有利于最優(yōu)匹配和削峰填谷，盡管K8S在“非在線服務(wù)”調(diào)度上仍然有挑戰(zhàn)，K8S準(zhǔn)確的定位和靈活的插件式設(shè)計(jì)應(yīng)該可以成為最終的贏家。大數(shù)據(jù)調(diào)度器（比如KubeBatch）是目前投資的一個(gè)熱點(diǎn)。

2.調(diào)度算法多元化和智能化：隨各種資源的解耦（例如，存儲(chǔ)計(jì)算分離），調(diào)度算法可以在單一維度做更深度的優(yōu)化，AI優(yōu)化是關(guān)鍵方向（實(shí)際上，很多年前Google Borg就已經(jīng)采用蒙特卡洛Simulation做新任務(wù)資源需求的預(yù)測(cè)了）。

3.面向異構(gòu)硬件的調(diào)度支持：眾核架構(gòu)的ARM成為通用計(jì)算領(lǐng)域的熱點(diǎn)，GPU/TPU等AI加速芯片也成為主流，調(diào)度系統(tǒng)需要更好支持多種異構(gòu)硬件，并抽象簡(jiǎn)單的接口，這方面K8S插件式設(shè)計(jì)有明顯的優(yōu)勢(shì)。

2.3 元數(shù)據(jù)服務(wù)統(tǒng)一化

元數(shù)據(jù)服務(wù)支撐了大數(shù)據(jù)平臺(tái)及其之上的各個(gè)計(jì)算引擎及框架的運(yùn)行，元數(shù)據(jù)服務(wù)是在線服務(wù)，具有高頻、高吞吐的特性，需要具備提供高可用性、高穩(wěn)定性的服務(wù)能力，需要具備持續(xù)兼容、熱升級(jí)、多集群（副本）管理等能力。主要包括以下三方面的功能：

DDL/DML的業(yè)務(wù)邏輯，保障ACID特性，保障數(shù)據(jù)完整性和一致性
授權(quán)與鑒權(quán)能力，保證數(shù)據(jù)訪問的安全性
Meta(元數(shù)據(jù)) 的高可用存儲(chǔ)和查詢能力，保障作業(yè)的穩(wěn)定性

第一代數(shù)據(jù)平臺(tái)的元數(shù)據(jù)系統(tǒng)，是Hive的Hive MetaStore（HMS）。在早期版本中HMS元數(shù)據(jù)服務(wù)是Hive的內(nèi)置服務(wù)，元數(shù)據(jù)更新（DDL)以及DML作業(yè)數(shù)據(jù)讀寫的一致性和Hive的引擎強(qiáng)耦合，元數(shù)據(jù)的存儲(chǔ)通常托管在MySQL等關(guān)系數(shù)據(jù)庫(kù)引擎。

隨著客戶對(duì)數(shù)據(jù)加工處理的一致性（ACID），開放性（多引擎，多數(shù)據(jù)源），實(shí)時(shí)性，以及大規(guī)模擴(kuò)展能力的要求越來越高，傳統(tǒng)的HMS逐步局限于單集群，單租戶，Hive為主的單個(gè)企業(yè)內(nèi)部使用，為保障數(shù)據(jù)的安全可靠，運(yùn)維成本居高不下。這些缺點(diǎn)在大規(guī)模生產(chǎn)環(huán)境逐步暴露出來。

第二代元數(shù)據(jù)系統(tǒng)的代表，有開源體系的Apache IceBerg，和云原生體系的阿里巴巴大數(shù)據(jù)平臺(tái)MaxCompute的元數(shù)據(jù)系統(tǒng)。

IceBerg是開源大數(shù)據(jù)平臺(tái)最近兩年出現(xiàn)的獨(dú)立于引擎和存儲(chǔ)的“元數(shù)據(jù)系統(tǒng)”，其要解決的核心問題是大數(shù)據(jù)處理的ACID，以及表和分區(qū)的元數(shù)據(jù)的規(guī)模化之后性能瓶頸。在實(shí)現(xiàn)方法上IceBerg的ACID依托了文件系統(tǒng)POSIX的語義，分區(qū)的元數(shù)據(jù)采用了文件方式存儲(chǔ)，同時(shí)，IceBerg的Table Format獨(dú)立于Hive MetaStore的元數(shù)據(jù)接口，因此在引擎的adoption上成本很高，需要各個(gè)引擎改造。

基于未來的熱點(diǎn)和趨勢(shì)的分析，開放的，托管的統(tǒng)一元數(shù)據(jù)服務(wù)越來越重要，多家云廠商，都開始提供了DataCatalog服務(wù)，支持多引擎對(duì)湖和倉(cāng)數(shù)據(jù)存儲(chǔ)層的訪問。

對(duì)比第一代與第二代元數(shù)據(jù)系統(tǒng)：

展望未來，我們看到可能的發(fā)展方向/趨勢(shì)主要有：

1.趨勢(shì)一：湖倉(cāng)一體進(jìn)一步發(fā)展下，元數(shù)據(jù)的統(tǒng)一化，以及對(duì)湖上元數(shù)據(jù)和數(shù)據(jù)的訪問能力建設(shè)。如基于一套賬號(hào)體系的統(tǒng)一的元數(shù)據(jù)接口，支持湖和倉(cāng)的元數(shù)據(jù)的訪問能力。以及多種表格式的ACID的能力的融合，這個(gè)在湖上數(shù)據(jù)寫入場(chǎng)景越來越豐富時(shí)，支持Delta，Hudi，IceBerg表格式會(huì)是平臺(tái)型產(chǎn)品的一個(gè)挑戰(zhàn)。

2.趨勢(shì)二：元數(shù)據(jù)的權(quán)限體系轉(zhuǎn)向企業(yè)租戶身份及權(quán)限體系，不再局限于單個(gè)引擎的限制。

3.趨勢(shì)三：元數(shù)據(jù)模型開始突破關(guān)系范式的結(jié)構(gòu)化模型，提供更豐富的元數(shù)據(jù)模型，支持標(biāo)簽，分類以及自定義類型和元數(shù)據(jù)格式的表達(dá)能力，支持AI計(jì)算引擎等等。

本文詳細(xì)闡述了后紅海時(shí)代，當(dāng)下大數(shù)據(jù)體系的演進(jìn)熱點(diǎn)是什么，以及大數(shù)據(jù)體系下部分子領(lǐng)域架構(gòu)的技術(shù)解讀。

責(zé)任編輯：梁菲來源：阿里云云棲號(hào)