成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

有了數(shù)據(jù)湖,距離數(shù)據(jù)倉庫消失還有幾年?

大數(shù)據(jù) 數(shù)據(jù)倉庫 數(shù)據(jù)湖
很多人跟我一樣,對(duì)于數(shù)據(jù)湖充滿好奇,也許還讀了不少數(shù)據(jù)湖文章,但無論別人怎么說,你還是會(huì)覺得難以把握數(shù)據(jù)湖的本質(zhì)。

很多人跟我一樣,對(duì)于數(shù)據(jù)湖充滿好奇,也許還讀了不少數(shù)據(jù)湖文章,但無論別人怎么說,你還是會(huì)覺得難以把握數(shù)據(jù)湖的本質(zhì)。

有些人會(huì)望文生義說,數(shù)據(jù)湖嘛,就是什么東西都可以往里面扔,特別是對(duì)非結(jié)構(gòu)數(shù)據(jù)的處理比較方便。

是這樣嗎?

有案例才有鑒別,有的人找了數(shù)據(jù)湖的作者AWS來說明數(shù)據(jù)湖是什么東西,比如下圖:

不懂?dāng)?shù)據(jù)的人也許會(huì)覺得數(shù)據(jù)湖很厲害,而懂?dāng)?shù)據(jù)的人也許會(huì)覺得僅是一堆數(shù)據(jù)倉庫技術(shù)的堆砌包裝而已,你看上面那張框架圖,哪個(gè)專業(yè)詞匯數(shù)據(jù)人士會(huì)不懂?憑什么數(shù)據(jù)湖被炒作成了一個(gè)新概念?

有比較才有鑒別,因此很多文章對(duì)數(shù)據(jù)湖與數(shù)據(jù)倉庫做了比較,下面是網(wǎng)上流傳的一些說法:

這種比較似乎能找到點(diǎn)區(qū)別,又會(huì)覺得隔靴搔癢,難道結(jié)構(gòu)化與非結(jié)構(gòu)化就成了數(shù)據(jù)倉庫和數(shù)據(jù)湖的一個(gè)主要區(qū)別?BI和機(jī)器學(xué)習(xí)成為了主要區(qū)別?

事實(shí)上,這種比較有較大邏輯漏洞:即是從結(jié)果出發(fā)來看差異,然后又用這個(gè)差異來說明區(qū)別,顛倒了因果,因此受到了不少專業(yè)人士的鄙視。比如AWS的數(shù)據(jù)湖能夠處理非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉庫無法處理非結(jié)構(gòu)化數(shù)據(jù),就認(rèn)為這是數(shù)據(jù)湖與數(shù)據(jù)倉庫的本質(zhì)區(qū)別之一。

筆者這次較了一下真,來跟大家聊聊我所理解的數(shù)據(jù)湖的本質(zhì),對(duì)于一種新事物不了解本質(zhì),你就很難駕馭它,更別說實(shí)踐它了,下面這張圖道盡了一切。

下面我用一篇文章來具體說明數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別,更多的是給出why,知其所以然是我理解事物的一個(gè)原則。

數(shù)據(jù)倉庫和數(shù)據(jù)湖的處理流程可以用下圖來示意,其中用紅圈標(biāo)出了5個(gè)對(duì)標(biāo)的流程節(jié)點(diǎn)。

 

可以看到,數(shù)據(jù)湖并不比數(shù)據(jù)倉庫在處理流程上多出了什么內(nèi)容,更多的在于結(jié)構(gòu)性的變化,下面就從數(shù)據(jù)存儲(chǔ)、模型設(shè)計(jì)、加工工具、開發(fā)人員和消費(fèi)人員五個(gè)方面來進(jìn)行比較。

(1)數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)倉庫采集、處理過程中存儲(chǔ)下來的數(shù)據(jù)一般是以結(jié)構(gòu)化的形式存在的,即使原始數(shù)據(jù)是非結(jié)構(gòu)化的,但這些非結(jié)構(gòu)化數(shù)據(jù)也只是在源頭暫存一下,它通過結(jié)構(gòu)化數(shù)據(jù)的形式進(jìn)入數(shù)據(jù)倉庫,成了數(shù)據(jù)倉庫的基本存儲(chǔ)格式,這個(gè)跟數(shù)據(jù)倉庫的模型(維度或關(guān)系建模)都是建立在關(guān)系型數(shù)據(jù)基礎(chǔ)上的特點(diǎn)有關(guān)。

事實(shí)上,是傳統(tǒng)的數(shù)據(jù)建模負(fù)擔(dān)讓數(shù)據(jù)倉庫只處理結(jié)構(gòu)化數(shù)據(jù),其實(shí)誰都沒規(guī)定過數(shù)據(jù)倉庫只處理和存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)湖包羅萬象,輕裝上陣,結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)都成為了數(shù)據(jù)湖本身的一部分,這體現(xiàn)了數(shù)據(jù)湖中“湖”這個(gè)概念。因?yàn)闆]有數(shù)據(jù)倉庫建模的限制,當(dāng)然什么東西都可以往里面扔,但這為其變成數(shù)據(jù)沼澤埋下了伏筆。

看了這段肯定無法讓人信服,不要急,接著往下看。

(2)模型設(shè)計(jì)

數(shù)據(jù)倉庫中所有的Schema(比如表結(jié)構(gòu))都是預(yù)先設(shè)計(jì)并生成好的,數(shù)據(jù)倉庫建設(shè)最重要的工作就是建模,其通過封裝好的、穩(wěn)定的模型對(duì)外提供有限的、標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù),模型能否設(shè)計(jì)的高內(nèi)聚、松耦合成了評(píng)估數(shù)據(jù)倉庫好壞的一個(gè)標(biāo)準(zhǔn),就好比數(shù)據(jù)中臺(tái)非常強(qiáng)調(diào)數(shù)據(jù)服務(wù)的復(fù)用性一樣。

你會(huì)發(fā)現(xiàn),數(shù)據(jù)倉庫很像數(shù)據(jù)領(lǐng)域的計(jì)劃經(jīng)濟(jì),所有的產(chǎn)品(模型)都是預(yù)先生成好的,模型可以變更,但相當(dāng)緩慢。

數(shù)據(jù)湖的模型不是預(yù)先生成的,而是隨著每個(gè)應(yīng)用的需要即時(shí)設(shè)計(jì)生成的,其更像是市場經(jīng)濟(jì)的產(chǎn)物,犧牲了復(fù)用性卻帶來了靈活性,這也是為什么數(shù)據(jù)湖的應(yīng)用更多強(qiáng)調(diào)探索分析的原因。

(3)加工工具

數(shù)據(jù)倉庫的采集、處理工具一般是比較封閉的,很多采取代碼的方式暴力實(shí)現(xiàn),大多只向集中的專業(yè)開發(fā)人員開放,主要的目的是實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一采集和建模,它不為消費(fèi)者(應(yīng)用方)服務(wù),也沒這個(gè)必要。

數(shù)據(jù)湖的采集和處理工具是完全開放的,因?yàn)榈?2)點(diǎn)提到過:數(shù)據(jù)湖的模型是由應(yīng)用即席設(shè)計(jì)生成的,意味著應(yīng)用必須具備針對(duì)數(shù)據(jù)湖數(shù)據(jù)的直接ETL能力和加工能力才能完成定制化模型的建設(shè),否則就沒有落地的可能,更無靈活性可言。

工具能否開放、體驗(yàn)是否足夠好是數(shù)據(jù)湖能夠成功的一個(gè)前提,顯然傳統(tǒng)數(shù)據(jù)倉庫的一些采集和開發(fā)工具是不行的,它們往往非常丑陋,不可能向普通大眾開放。

(4)開發(fā)人員

數(shù)據(jù)倉庫集中開發(fā)人員處理數(shù)據(jù)涵蓋了數(shù)據(jù)采集、存儲(chǔ)、加工等各個(gè)階段,其不僅要管理數(shù)據(jù)流,也要打造工具流。

由于數(shù)據(jù)流最終要為應(yīng)用服務(wù),因此其特別關(guān)注數(shù)據(jù)模型的質(zhì)量,而工具流只要具備基本的功能、滿足性能要求就可以了,反正是數(shù)據(jù)倉庫團(tuán)隊(duì)人員自己用,導(dǎo)致的后果是害苦了運(yùn)營人員。

數(shù)據(jù)湖完全不一樣,集中開發(fā)人員在數(shù)據(jù)流階段只負(fù)責(zé)把原始數(shù)據(jù)扔到數(shù)據(jù)湖,更多的精力花在對(duì)工具流的改造上,因?yàn)檫@些工具是直接面向最終使用者的,假如不好用,數(shù)據(jù)湖就死了。

(5)應(yīng)用人員

數(shù)據(jù)倉庫對(duì)于應(yīng)用人員暴露的所有東西就是建好的數(shù)據(jù)模型,應(yīng)用方的所有角色只能在數(shù)據(jù)倉庫限定好的數(shù)據(jù)模型范圍內(nèi)倒騰,這在一定程度上限制了應(yīng)用方的創(chuàng)新能力。比如原始數(shù)據(jù)有個(gè)字段很有價(jià)值,但數(shù)據(jù)倉庫集中開發(fā)人員卻把它過濾了。

這種問題在數(shù)據(jù)倉庫中很常見,很多取數(shù)人員只會(huì)取寬表,對(duì)于源端數(shù)據(jù)完全不清楚,成了井底之蛙,這是數(shù)據(jù)倉庫集中開發(fā)人員造的“孽”,所謂成也數(shù)據(jù)倉庫,敗也數(shù)據(jù)倉庫。

數(shù)據(jù)湖的應(yīng)用方則可以利用數(shù)據(jù)湖提供的工具流接觸到最生鮮的原始數(shù)據(jù),涵蓋了從數(shù)據(jù)采集、抽取、存儲(chǔ)、加工的各個(gè)階段,其可以基于對(duì)業(yè)務(wù)的理解,壓榨出原始數(shù)據(jù)的最大價(jià)值。

可以看到,數(shù)據(jù)倉庫和數(shù)據(jù)湖,代表著兩種數(shù)據(jù)處理模式和服務(wù)模式,是數(shù)據(jù)技術(shù)領(lǐng)域的一次輪回。

早在ORACLE的DBLINK時(shí)代,我們就有了第一代的數(shù)據(jù)湖,因?yàn)槟莻€(gè)時(shí)候ORACLE一統(tǒng)天下,ORALCE的DBLINK讓直接探索原始數(shù)據(jù)有了可能。

隨著數(shù)據(jù)量的增長和數(shù)據(jù)類型的不斷豐富,我們不得不搞出一種新的“數(shù)據(jù)庫”來集成各種數(shù)據(jù)。

但那個(gè)時(shí)候搞出的為什么是數(shù)據(jù)倉庫而不是數(shù)據(jù)湖呢?

主要還是應(yīng)用驅(qū)動(dòng)力的問題。

因?yàn)槟莻€(gè)時(shí)候大家關(guān)注的是報(bào)表,而報(bào)表最核心的要求就是準(zhǔn)確性和一致性,標(biāo)準(zhǔn)化、規(guī)范化的維度和關(guān)系建模正好適應(yīng)了這一點(diǎn),集中化的數(shù)據(jù)倉庫支撐模式就是一種變相的計(jì)劃經(jīng)濟(jì)。

隨著大數(shù)據(jù)時(shí)代到來和數(shù)字化的發(fā)展,很多企業(yè)發(fā)現(xiàn),原始數(shù)據(jù)的非結(jié)構(gòu)化比例越來越高,前端應(yīng)用響應(yīng)的要求越來越高,海量數(shù)據(jù)挖掘的要求越來越對(duì),報(bào)表取數(shù)已經(jīng)滿足不了數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的要求了。

一方面企業(yè)需要深挖各種數(shù)據(jù),從展示數(shù)據(jù)為主(報(bào)表)逐步向挖掘數(shù)據(jù)(探索預(yù)測)轉(zhuǎn)變,另一方面企業(yè)也需要從按部就班的支撐模式向快速靈活的方向轉(zhuǎn)變,要求數(shù)據(jù)倉庫能夠開放更多的靈活性給應(yīng)用方,這個(gè)時(shí)候數(shù)據(jù)倉庫就有點(diǎn)撐不住了。

數(shù)據(jù)湖就是在這種背景下誕生的。

其實(shí)早在數(shù)據(jù)湖出來之前,很多企業(yè)就在做類似數(shù)據(jù)湖的工作了,比如我們5年前重構(gòu)hadoop大數(shù)據(jù)平臺(tái)的時(shí)候,就已經(jīng)要求源端能將各種格式的數(shù)據(jù)直接扔過來,然后用不同的引擎處理,非結(jié)構(gòu)化的就自己做一個(gè)定制化的ETL工具,只是沒有統(tǒng)一進(jìn)行整合而已。

ETL之所以不開放,主要是驅(qū)動(dòng)力不夠,其實(shí)我們沒有那么多類型的數(shù)據(jù)要定制化抽取,也許后續(xù)會(huì)需要吧。

而可視化開發(fā)平臺(tái)使用比較廣泛,只是因?yàn)槭袌鲇X得IT做的太慢了,需要一個(gè)可視化平臺(tái)來直接操作。

很多企業(yè)不搞可視化開發(fā)平臺(tái)也是容易理解的,報(bào)表就能活得很好,干嘛業(yè)務(wù)人員要自己開發(fā)和挖掘。現(xiàn)在數(shù)據(jù)湖叫的歡的,大多是互聯(lián)網(wǎng)公司,比如亞馬遜,這是很正常的。

數(shù)據(jù)湖和數(shù)據(jù)倉庫,不能說誰更好誰更差,大家都有可取之處,阿里最近一篇文章提到的數(shù)湖一體是很好的概念,可以實(shí)現(xiàn)雙方的優(yōu)勢互補(bǔ),我這里畫一張圖,方便你的理解:

 

何謂湖倉一體?

  • 湖和倉的數(shù)據(jù)/元數(shù)據(jù)無縫打通,互相補(bǔ)充,數(shù)據(jù)倉庫的模型反哺到數(shù)據(jù)湖(成為原始數(shù)據(jù)一部分),湖的結(jié)構(gòu)化應(yīng)用知識(shí)沉淀到數(shù)據(jù)倉庫
  • 湖和倉有統(tǒng)一的開發(fā)體驗(yàn),存儲(chǔ)在不同系統(tǒng)的數(shù)據(jù),可以通過一個(gè)統(tǒng)一的開發(fā)/管理平臺(tái)操作
  • 數(shù)據(jù)湖與數(shù)據(jù)倉庫的數(shù)據(jù),系統(tǒng)可以根據(jù)自動(dòng)的規(guī)則決定哪些數(shù)據(jù)放在數(shù)倉,哪些保留在數(shù)據(jù)湖,進(jìn)而形成一體化

至于理解的對(duì)不對(duì),你怎么看?

 

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2022-11-29 17:16:57

2024-09-05 16:08:52

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2022-10-21 16:38:57

數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)庫

2023-12-13 07:26:24

數(shù)據(jù)湖倉數(shù)據(jù)倉庫性能

2025-05-12 09:34:39

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2022-05-11 08:00:00

Lakehouse存儲(chǔ)數(shù)據(jù)湖

2022-10-18 10:10:52

數(shù)據(jù)技術(shù)

2020-01-08 21:53:06

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2017-01-22 15:43:47

數(shù)據(jù)架構(gòu)演進(jìn)

2023-11-27 16:35:28

數(shù)據(jù)湖數(shù)據(jù)倉庫

2020-12-02 17:20:58

數(shù)據(jù)倉庫阿里云數(shù)據(jù)湖

2023-05-05 18:53:23

數(shù)據(jù)湖數(shù)據(jù)倉庫

2025-04-03 11:00:52

數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)湖

2019-10-09 16:38:50

數(shù)據(jù)平臺(tái)架構(gòu)

2021-06-07 10:45:16

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2021-05-28 09:23:07

數(shù)據(jù)倉庫數(shù)據(jù)湖
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲看片| 亚洲综合五月天婷婷 | 久久av一区 | 日本黄色免费视频 | 99re免费| 黄色网址免费在线观看 | 国产精品日韩一区二区 | 成人午夜精品 | 亚洲播放一区 | 一区二区三区四区在线播放 | 国产视频综合 | 青草福利| 一级a爱片久久毛片 | 草在线| 久久久av| 国产欧美在线 | 国产成人一区二区 | 日韩在线中文字幕 | 国产一区二 | 亚洲精品电影网在线观看 | 性一交一乱一透一a级 | 精品国产一区二区三区久久久四川 | 国产精品久久久久久久久免费樱桃 | 日韩视频在线免费观看 | 国产伦精品一区二区三区精品视频 | 日日操日日舔 | 96av麻豆蜜桃一区二区 | 成人欧美一区二区三区黑人孕妇 | 久久婷婷色 | 在线免费看黄 | 国产精品美女www爽爽爽 | 手机看片在线播放 | 欧美日韩电影一区二区 | 国产精品久久久亚洲 | 亚洲在线一区二区三区 | 国产精品久久久久久中文字 | 中文字幕国产视频 | 日本偷偷操 | 日韩欧美专区 | 成人在线中文字幕 | 91精品久久久久久久99 |