成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

談?wù)剶?shù)據(jù)湖和數(shù)據(jù)倉庫

大數(shù)據(jù)
數(shù)據(jù)湖是近十年來出現(xiàn)的一個術(shù)語,用于描述大數(shù)據(jù)世界中數(shù)據(jù)分析管道的重要組成部分 。

數(shù)據(jù)湖是近十年來出現(xiàn)的一個術(shù)語,用于描述大數(shù)據(jù)世界中數(shù)據(jù)分析管道的重要組成部分 。這個想法是為組織中的任何人可能需要分析的所有原始數(shù)據(jù)建立一個單一的存儲區(qū)。人們通常使用 Hadoop 來處理湖中的數(shù)據(jù),但這個概念比 Hadoop 更廣泛。

當(dāng)提到一個單一的點可以將一個組織想要分析的所有數(shù)據(jù)集中在一起時,我立即想到了數(shù)據(jù)倉庫和數(shù)據(jù)集市的概念。但是數(shù)據(jù)湖和數(shù)據(jù)倉庫之間有一個重要的區(qū)別。數(shù)據(jù)湖以數(shù)據(jù)源提供的任何形式存儲原始數(shù)據(jù)。沒有關(guān)于數(shù)據(jù)模式的假設(shè),每個數(shù)據(jù)源都可以使用它喜歡的任何模式。數(shù)據(jù)的使用者需要根據(jù)自己的目的來理解這些數(shù)據(jù)。

圖片

許多數(shù)據(jù)倉庫由于模式問題而沒有取得太大進(jìn)展。數(shù)據(jù)倉庫傾向于采用單一模式的概念來滿足所有分析需求,但單一的統(tǒng)一數(shù)據(jù)模型對于除最小組織之外的任何組織都是不切實際的。即使要為稍微復(fù)雜的域建模,也需要多個有界上下文,每個都有自己的數(shù)據(jù)模型。在分析方面,需要每個分析用戶使用對他們正在進(jìn)行的分析有意義的模型。通過轉(zhuǎn)向僅存儲原始數(shù)據(jù),這將責(zé)任推給了數(shù)據(jù)分析師。

數(shù)據(jù)倉庫的另一個問題是確保數(shù)據(jù)質(zhì)量。試圖獲得權(quán)威的單一數(shù)據(jù)源需要對不同系統(tǒng)如何獲取和使用數(shù)據(jù)進(jìn)行大量分析。系統(tǒng) A 可能適用于某些數(shù)據(jù),而系統(tǒng) B 可能適用于其他數(shù)據(jù)。這便會遇到一些規(guī)則,系統(tǒng) A 更適合最近的訂單,而系統(tǒng) B 更適合一個月或更早以前的訂單,除非涉及退貨。最重要的是,數(shù)據(jù)質(zhì)量往往是一個主觀問題,不同的分析對數(shù)據(jù)質(zhì)量問題的容忍度不同,甚至對什么是好質(zhì)量的概念也不同。

這導(dǎo)致了對數(shù)據(jù)湖的批判——它只是質(zhì)量參差不齊的數(shù)據(jù)的垃圾場,更確切地說是數(shù)據(jù)沼澤。批評既有道理又無關(guān)緊要。新分析的熱門標(biāo)題是“數(shù)據(jù)科學(xué)家”。盡管這是一個經(jīng)常被濫用的頭銜,但這些人中的許多人確實擁有扎實的科學(xué)背景。任何嚴(yán)肅的科學(xué)家都知道數(shù)據(jù)質(zhì)量問題。試想一下隨時間分析溫度讀數(shù)的簡單問題,必須考慮到某些氣象站的重新定位可能會微妙地影響讀數(shù)、設(shè)備問題導(dǎo)致的異常、傳感器不工作時的缺失時段數(shù)據(jù)。許多復(fù)雜的統(tǒng)計技術(shù)都是為了解決數(shù)據(jù)質(zhì)量問題而創(chuàng)建的。科學(xué)家總是對數(shù)據(jù)質(zhì)量持懷疑態(tài)度,習(xí)慣于處理有問題的數(shù)據(jù)。所以對他們來說,湖泊很重要,因為他們可以使用原始數(shù)據(jù),并且可以慎重地應(yīng)用技術(shù)來理解它,而不是一些可能弊大于利的不透明數(shù)據(jù)清理機制。

數(shù)據(jù)倉庫通常不僅會清理數(shù)據(jù),還會將數(shù)據(jù)聚合成一種更易于分析的形式。但科學(xué)家們也傾向于反對這一點,因為聚合意味著丟棄數(shù)據(jù)。數(shù)據(jù)湖應(yīng)該包含所有數(shù)據(jù),因為不知道人們會發(fā)現(xiàn)什么有價值,無論是今天還是幾年后。

它們正在被一些月末處理報告修改。所以簡而言之,數(shù)據(jù)倉庫中的這些值是無用的;科學(xué)家擔(dān)心無法進(jìn)行這種比較。經(jīng)過更多挖掘,發(fā)現(xiàn)這些報告已被存儲,因此可以提取當(dāng)時所做的真實預(yù)測。這種原始數(shù)據(jù)的復(fù)雜性意味著有空間將數(shù)據(jù)整理成更易于管理的結(jié)構(gòu)以及減少相當(dāng)大的數(shù)據(jù)量。不應(yīng)該直接訪問數(shù)據(jù)湖。因為數(shù)據(jù)是原始數(shù)據(jù),所以需要很多技巧才能理解它。在數(shù)據(jù)湖中工作的人相對較少,因為他們發(fā)現(xiàn)了湖中通常有用的數(shù)據(jù)視圖,他們可以創(chuàng)建許多數(shù)據(jù)集市,每個數(shù)據(jù)集市都有一個針對單個有界上下文的特定模型。然后,更多的下游用戶可以將這些集市視為該上下文的權(quán)威來源。

圖片


現(xiàn)在,很多時候我們已經(jīng)將數(shù)據(jù)湖視為跨企業(yè)集成數(shù)據(jù)的單一點,但應(yīng)該指出,這并不是它最初的意圖。這個詞是 James Dixon 在 2010 年創(chuàng)造的,當(dāng)時他打算將數(shù)據(jù)湖用于單個數(shù)據(jù)源,多個數(shù)據(jù)源將形成一個“水上花園”。盡管有最初的表述,但現(xiàn)在普遍的用法是將數(shù)據(jù)湖視為整合了許多來源。

我們應(yīng)該將數(shù)據(jù)湖用于分析目的,而不是用于業(yè)務(wù)系統(tǒng)之間的協(xié)作。當(dāng)業(yè)務(wù)系統(tǒng)協(xié)作時,它們應(yīng)該通過為此目的設(shè)計的服務(wù)來實現(xiàn),例如 RESTful HTTP 調(diào)用或異步消息傳遞。

重要的是,所有放入湖中的數(shù)據(jù)都應(yīng)該有明確的時間和地點來源。每個數(shù)據(jù)項都應(yīng)該清楚地跟蹤它來自哪個系統(tǒng)以及何時生成數(shù)據(jù)。因此,數(shù)據(jù)湖包含歷史記錄。這可能來自將業(yè)務(wù)系統(tǒng)事件饋送到湖中,也可能來自定期將當(dāng)前狀態(tài)轉(zhuǎn)儲到湖中的系統(tǒng)——當(dāng)源系統(tǒng)沒有任何時間能力但想要對其數(shù)據(jù)進(jìn)行時間分析時,這種方法很有價值。

數(shù)據(jù)湖是無模式的,由源系統(tǒng)決定使用什么模式,并由消費者決定如何處理由此產(chǎn)生的混亂。此外,源系統(tǒng)可以隨意更改其流入數(shù)據(jù)模式,而消費者也必須應(yīng)對。顯然,我們更希望此類更改的破壞性盡可能小,但科學(xué)家更喜歡全面的數(shù)據(jù)而不是缺失數(shù)據(jù)。

數(shù)據(jù)湖將變得非常大,并且大部分存儲都圍繞著大型無模式結(jié)構(gòu)的概念——這就是為什么 Hadoop 和 HDFS 通常是人們用于數(shù)據(jù)湖的技術(shù)。數(shù)據(jù)湖中集市的一項重要任務(wù)是減少需要處理的數(shù)據(jù)量,這樣大數(shù)據(jù)分析就不必處理大量數(shù)據(jù)。

數(shù)據(jù)湖對大量原始數(shù)據(jù)的存儲引發(fā)了有關(guān)隱私和安全的尷尬問題。數(shù)據(jù)湖對黑客來說是一個誘人的目標(biāo),他們可能喜歡把選擇的數(shù)據(jù)塊吸進(jìn)公共海洋。限制小型數(shù)據(jù)科學(xué)組織直接訪問數(shù)據(jù)湖可能會減少這種威脅,但無法避免該組織如何對其獲取的數(shù)據(jù)的隱私負(fù)責(zé)的問題。

責(zé)任編輯:華軒 來源: 數(shù)據(jù)驅(qū)動智能
相關(guān)推薦

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2019-10-09 16:38:50

數(shù)據(jù)平臺架構(gòu)

2024-09-05 16:08:52

2023-08-14 16:56:53

2021-06-07 10:45:16

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2022-08-09 11:12:02

數(shù)據(jù)倉庫數(shù)據(jù)挖掘數(shù)據(jù)集

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2011-07-15 10:28:18

OLTP數(shù)據(jù)倉庫

2024-03-21 08:00:00

GenAI數(shù)據(jù)治理數(shù)據(jù)倉庫

2023-10-08 16:26:23

數(shù)據(jù)倉庫

2019-05-24 11:51:18

BI數(shù)據(jù)倉庫數(shù)據(jù)分析

2009-01-19 15:52:20

OracleOSFA數(shù)據(jù)倉庫

2020-10-20 18:59:40

數(shù)據(jù)湖數(shù)據(jù)倉庫采集

2022-10-21 16:38:57

數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)庫

2023-12-13 07:26:24

數(shù)據(jù)湖倉數(shù)據(jù)倉庫性能

2025-05-12 09:34:39

2022-05-11 08:00:00

Lakehouse存儲數(shù)據(jù)湖

2017-01-22 15:43:47

數(shù)據(jù)架構(gòu)演進(jìn)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 综合久久av | 看a网站 | 成年人视频免费在线观看 | 日本精品一区二区三区在线观看视频 | 一级毛片视频在线 | 久久久精彩视频 | 亚洲 欧美 日韩在线 | 91精品久久久久久久久久小网站 | 欧美日一区 | 少妇特黄a一区二区三区88av | 国内久久 | 国产欧美一区二区三区国产幕精品 | 日本色婷婷 | 亚洲九九 | 亚洲成人播放器 | 国产影音先锋 | 九九综合九九 | 九九久久久 | 天天看夜夜 | 91看片免费版 | 亚洲一区亚洲二区 | 亚洲精品久久久久久下一站 | 亚洲国产精品一区二区三区 | 国产精品海角社区在线观看 | 国产96在线 | 中文在线a在线 | 午夜影院在线观看 | 久久av一区二区三区 | 久久一区二区三区四区 | 亚洲精品久久久一区二区三区 | 久久久新视频 | 草草草影院 | 国产精品国产三级国产播12软件 | 中文字幕亚洲视频 | 国产三区四区 | 色婷婷av一区二区三区软件 | 日日干夜夜操 | 超碰欧美 | 欧美国产精品一区二区三区 | 国产日韩一区二区三区 | 国产a区|