從數據庫思維到數據湖思維的轉變

作者：聞數起舞 2021-05-07 05:54:43

在這篇文章中，讓我們來確定數據庫和數據湖的一些差異，這些差異在第一眼看到時可能并不直觀，特別是對于具有強大關系型數據庫背景的人來說。

在數據庫和數據湖的工作中，有幾個關鍵的概念性差異。

在這篇文章中，讓我們來確定其中的一些差異，這些差異在第一眼看到時可能并不直觀，特別是對于具有強大關系型數據庫背景的人來說。

服務器是一次性的。數據在云中。

解耦存儲和計算。在談論數據湖時，這是一個典型的問題。

在傳統的數據庫系統(以及最初的基于Hadoop的數據湖)中，存儲與計算服務器緊密結合。服務器要么有內置的存儲，要么直接連接到存儲。

在現代基于云的數據湖架構中，數據存儲和計算是獨立的。數據被保存在云對象存儲(例如：AWS S3、Azure Storage)中，通常是以一種開放的格式，如parquet，而計算服務器是無狀態的，它們可以在必要時啟動/關閉。

擁有一個解耦的存儲和計算使。

RAW數據才是王道!策劃的數據只是衍生的。

在數據庫范式中，來自源系統的數據被轉化并加載到數據庫表中后，它就不再有用了。在數據湖范式中，RAW數據被保留為真理的源泉，最終永遠保留，因為它是真正的資產。

然而，RAW數據通常不適合商業用戶的消費，因此它要經過一個策劃過程，以提高其質量，提供結構并方便消費。經過整理的數據最終被儲存起來，供數據科學團隊、數據倉庫、報告系統以及業務用戶的一般消費使用。

數據湖整理(來源：作者的圖片

典型的數據湖消費者只看到策劃過的數據，因此他們對策劃過的數據的重視程度遠遠超過產生這些數據的RAW數據。

然而，數據湖的真正資產是RAW數據(連同策展管道)，從某種意義上說，策展的數據類似于一個可以隨時刷新的物化視圖。

主要收獲：

今天做出的模式決定不會制約未來的需求

通常情況下，信息需求會發生變化，一些原先沒有從源頭/運營系統中收集的信息需要被分析。

在一個典型的情況下，如果原始的RAW數據沒有被存儲，歷史數據就會永遠丟失。

然而，在數據湖架構中，今天決定不把某個字段加載到策劃的模式中，以后可以推翻，因為所有的詳細信息都安全地存儲在數據湖的RAW區域，歷史策劃的數據可以用額外的字段重新創建。

策劃的模式演變(圖片由作者提供

主要收獲：

數據湖不是數據庫的替代品，每種工具都有它的優勢和致命弱點。

將數據湖用于OLTP可能是一個壞主意，就像使用數據庫來存儲數千兆字節的非結構化數據一樣。

我希望這篇文章有助于闡明兩個系統之間的一些關鍵設計差異。

責任編輯：趙寧寧來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看