成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

混合數(shù)據(jù)湖的好處

大數(shù)據(jù) 數(shù)據(jù)湖
本文介紹了如何使用混合數(shù)據(jù)湖。數(shù)據(jù)湖使您的公司能夠靈活地以數(shù)據(jù)形式捕獲業(yè)務(wù)運營的各個方面,同時保持傳統(tǒng)數(shù)據(jù)倉庫的生命周期。

在存儲大數(shù)據(jù)時,數(shù)據(jù)湖和數(shù)據(jù)倉庫都是既定術(shù)語,但是這兩個術(shù)語不是同義詞。數(shù)據(jù)湖是尚未確定用途的大量原始數(shù)據(jù)。另一方面,數(shù)據(jù)倉庫是用于特定目的的結(jié)構(gòu)化過濾數(shù)據(jù)的存儲庫。

[[376190]]

共同點

數(shù)據(jù)倉庫和數(shù)據(jù)湖代表了一個中央數(shù)據(jù)庫系統(tǒng),可以在公司中用于分析目的。該系統(tǒng)從各種異構(gòu)數(shù)據(jù)源中提取,收集和保存相關(guān)數(shù)據(jù),并提供給下游系統(tǒng)。

數(shù)據(jù)倉庫可以分為四個子過程:

  • 數(shù)據(jù)獲取:從各種數(shù)據(jù)存儲庫中獲取和提取數(shù)據(jù)。
  • 數(shù)據(jù)存儲:包括長期歸檔在內(nèi)的數(shù)據(jù)倉庫中的數(shù)據(jù)存儲。
  • 數(shù)據(jù)提供:向下游系統(tǒng)提供所需的數(shù)據(jù),提供數(shù)據(jù)集市。
  • 數(shù)據(jù)評估:對數(shù)據(jù)庫存的分析和評估。

差異性

數(shù)據(jù)倉庫將經(jīng)典的ETL流程與關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)結(jié)合使用,而數(shù)據(jù)湖則使用諸如ELT的范式和讀取模式以及經(jīng)常使用的非結(jié)構(gòu)化數(shù)據(jù)[2]。

> Differences Data Warehouse vs. Lake

在上方,您可以看到主要區(qū)別。您使用的技術(shù)也完全不同。對于數(shù)據(jù)倉庫,您將使用SQL和關(guān)系數(shù)據(jù)庫,而對于數(shù)據(jù)湖,您可能將使用NoSQL或兩者的混合。

將兩者結(jié)合在混合數(shù)據(jù)湖中

那么如何將這兩個概念結(jié)合起來?在下圖中,您可以從高角度查看架構(gòu)。

該過程是將非結(jié)構(gòu)化和未轉(zhuǎn)換的數(shù)據(jù)加載到數(shù)據(jù)湖中。從這里,一方面可以將數(shù)據(jù)用于ML和Data Science任務(wù)。另一方面,數(shù)據(jù)也可以轉(zhuǎn)換為結(jié)構(gòu)化形式并加載到數(shù)據(jù)倉庫中。從這里,可以實現(xiàn)通過數(shù)據(jù)集市和(自助服務(wù))BI工具進(jìn)行的經(jīng)典數(shù)據(jù)倉庫分發(fā)。

> Hybrid Data Lake Concept — Image from Author

可以用于此體系結(jié)構(gòu)的主要技術(shù)例如:

  • 通過talend,Google Dataflow,AWS Data Pipeline進(jìn)行ELT / ETL流程
  • 通過Data Lake-HDFS,AWS Athena和S3,Google Cloud Storage
  • 數(shù)據(jù)倉庫通過-Google BigQuery,AWS Redshift,Snowflake

注意:諸如Google的BiqQuery或AWS Redshift之類的技術(shù)通常被視為數(shù)據(jù)倉庫技術(shù)與數(shù)據(jù)湖技術(shù)之間的混合體,因為它們通常已經(jīng)具有NoSQL的某些特征。

結(jié)論

本文介紹了如何使用混合數(shù)據(jù)湖。數(shù)據(jù)湖使您的公司能夠靈活地以數(shù)據(jù)形式捕獲業(yè)務(wù)運營的各個方面,同時保持傳統(tǒng)數(shù)據(jù)倉庫的生命周期。

原文鏈接:https://towardsdatascience.com/what-is-a-hybrid-data-lake-b7ef2c3cce0c

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2016-02-18 10:27:39

數(shù)據(jù)

2013-05-14 09:20:56

現(xiàn)代基礎(chǔ)架構(gòu)混合數(shù)據(jù)中心公有云

2011-03-15 09:20:37

混合數(shù)據(jù)庫

2022-06-28 12:02:11

ClouderaCDP混合數(shù)據(jù)

2017-06-13 16:03:35

混合云容器編排引擎

2017-11-30 11:36:15

混合數(shù)據(jù)中心環(huán)境

2022-09-26 11:01:11

ClouderaCDP數(shù)據(jù)編織

2019-05-20 11:41:59

混合云云計算云計算提供商

2015-11-18 16:52:29

多備份

2020-08-04 14:20:20

數(shù)據(jù)湖Hadoop數(shù)據(jù)倉庫

2022-11-09 16:30:12

2015-06-16 10:36:31

2021-09-23 13:02:55

Check Point數(shù)據(jù)中心

2017-03-09 15:01:41

混合云企業(yè)好處

2021-11-10 23:31:21

混合云云計算數(shù)據(jù)

2020-09-15 12:56:00

數(shù)據(jù)湖架構(gòu)

2017-12-26 08:44:06

數(shù)據(jù)中心趨勢優(yōu)化

2022-08-18 11:12:51

Cloudera?數(shù)據(jù)湖倉SaaS

2024-11-13 08:43:47

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精产国产伦理一二三区 | 在线视频 欧美日韩 | 成人高潮片免费视频欧美 | 91影院| 97伊人| 国产一级一级毛片 | 国产一区二区免费 | 激情久久av一区av二区av三区 | 色久伊人| 亚洲成人中文字幕 | 中文无吗 | 亚洲精品一区二区 | 成人av免费播放 | 日韩在线小视频 | 欧美一区二区在线观看 | av网站推荐 | 精品国产乱码久久久久久蜜柚 | 国产区在线免费观看 | 中文字幕精品一区二区三区精品 | 欧美精品一区三区 | 亚洲精品91 | 精品国产欧美在线 | 一区二区三区精品视频 | 午夜精品一区二区三区在线观看 | 亚洲精品久久久一区二区三区 | 2019中文字幕视频 | 欧美乱人伦视频 | 亚洲第一区久久 | 久久久成 | 爱爱爱av| 一级二级三级在线观看 | 亚洲日本免费 | 国产一区二区三区四区五区3d | 一区二区三区四区在线 | 国产免费色| 亚洲国产精品99久久久久久久久 | 久久久新视频 | h在线播放 | 欧美.com| 日韩中文一区 | 国产精品久久国产精品久久 |