成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

必備數據知識:數據倉庫之數據存儲

存儲 存儲軟件 數據倉庫
為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以后再用幾個數據集市組成一個完整的數據倉庫。

元數據

描述數據及其環境的數據。兩方面用途:

首先,元數據能提供基于用戶的信息,如記錄數據項的業務描述信息的元數據能幫助用戶使用數據。

其次,元數據能支持系統對數據的管理和維護,如關于數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。

元數據機制主要支持以下五類系統管理功能:

(1)描述哪些數據在數據倉庫中;

(2)定義要進入數據倉庫中的數據和從數據倉庫中產生的數據;

(3)記錄根據業務事件發生而隨之進行的數據抽取工作時間安排;

(4)記錄并檢測系統數據一致性的要求和執行情況;

(5)衡量數據質量。

[[223041]]

ODSOperational Data Store

ODS為企業提供即時的,操作型的,集成的數據集合,具有面向主題性,集成性,動態性,即時性,明細性等特點

ODS作為數據庫到數據倉庫的一種過渡形式,與數據倉庫在物理結構上不同,能提供高性能的響應時間,ODS設計采用混合設計方式。

ODS中的數據是"實時值",而數據倉庫的數據卻是"歷史值",一般ODS中儲存的數據不超過一個月,而數據倉庫為10年或更多.

Data Mart

為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以后再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是在實施不同的數據集市時,同一含義的字段定義一定要相容,這樣再以后實施數據倉庫時才不會造成大麻煩。

DDS決策支持系統:

用于支持管理決策的系統。通常,DSS包括以啟發的方式對大量的數據單元進行的分析,通常不涉及數據更新。

OLAP

聯機分析處理,On-Line Analysis Processing 即從數據倉庫中抽取詳細數據的一個子集并經過必要的聚集,存儲到OLAP存儲器中供前端分析工具讀取。

OLAP系統按照數據存儲格式可以分為關系OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HybridOLAP,簡稱HOLAP)三種類型。

ROLAP將分析要用的多維數據存儲在關系數據庫中,并根據應用的需要有選擇的定義一批實視圖也存儲在關系數據庫中。MOLAP將OLAP分析所要用到的多維數據物理上存儲為多維數組的形式,形成“立方體”的結構。HOLAP能把MOLAP和ROLAP兩種結構的優點有機的結合起來,能滿足用戶各種復雜的分析請求。

事實表

事實表是包含大量數據值的一種結構。事實數據表可能代表某次銀行交易,包含一個顧客的來訪次數,并且這些數字信息可以匯總,以提供給有關單位作為歷史的數據。

每個數據倉庫都包含一個或者多個事實數據表。事實數據表只能包含數字度量字段和使事實表與維度表中對應項的相關索引字段.,該索引包含作為外鍵的所有相關性維度表的主鍵。

事實數據表中的“度量值”有兩中:一種是可以累計的度量值,另一種是非累計的度量值。用戶可以通過累計度量值獲得匯總信息。

維度表

用來描述事實表的某個重要方面,維度表中包含事實表中事實記錄的特性:有些特性提供描述性信息,有些特性指定如何匯總事實數據表數據,以便為分析者提供有用的信息,維度表包含幫助匯總數據的特性的層次結構

緩慢變化維

在實際情況下,維度的屬性并不是靜態的,它會隨著時間的流失發生緩慢的變化。處理方法:

1.新信息直接覆蓋舊信息

2.保存多條記錄,并添加字段加以區分(用y,n;0,1,2或用時間來區別新舊記錄)

3.保存多條記錄,并添加字段加以區分

4.另外建表保存歷史記錄.

5.混合模式

退化維

一般來說事實表中的外鍵都對應一個維表,維的信息主要存放在維表中。但是退化維僅僅是事實表中的一列,這個維的相關信息都在這一列中,沒有維表與之相關聯。比如:發票號,序列號等等。

那么退化維有什么作用呢?

1.退化維具有普通維的各種操作,比如:上卷,切片,切塊等

2.(上卷匯總,下鉆明細;切片,切塊:對二維數據進行切片,三維數據進行切塊,,可得到所需要的數據)

3.如果存在退化維,那么在ETL的過程將會變得容易。它可以讓group by等操作變得更快

粒度:(granularity)

是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別,細化程度越高,粒度就越小。

鉆取:

首先從某一個匯總數據出發,查看組成該數據的各個成員數據。

星形模型與雪花模型的區別?

1.星星的中心是一個大的事實表,發散出來的是維度表,每一個維度表用一個PK-FK連接到事實表,維度表之間彼此并不關聯。一個事實表又包括一些度量值和維度。

2.雪花模型通過規范維度表來減少冗余度,也就是說,維度表數據已經被分組成一個個的表而不是使用一個大表。例如產品表被分成了產品大類和產品小類兩個表。盡管這樣做可以節省了空間,但是卻增加了維度表的數量和關聯的外鍵的個數。這就導致了更復雜的查詢并降低了數據庫的效率

維度建模(dimensional modeling):

是數據倉庫建設中的一種數據建模方法。按照事實表,維表來構建數據倉庫,數據集市。這種方法最被人廣泛知曉的名字就是星型模式(Star-schema)。

什么叫查找表,為什么使用替代鍵?(其實目的和上面一樣,從基礎表到緩慢維度表的過程中的一種實現途徑)

替代鍵(alternate key)可以是數據表內不作為主鍵的其他任何列,只要該鍵對該數據表唯一即可。換句話說,在唯一列內不允許出現數據重復的現象。

數據倉庫項目最重要或需要注意的是什么,以及如何處理?

數據質量,主要是數據源數據質量分析,數據清洗轉換,當然也可以定量分析

數據倉庫有兩個重要目的,一是數據集成,二是服務BI

數據準確性是數據倉庫的基本要求,而效率是項目事實的前提,數據質量、運行效率和擴展性是數據倉庫項目設計、實施高明與否的三大標志;

代理鍵:

在關系型數據庫設計中,是在當資料表中的候選鍵都不適合當主鍵時,例如資料太長,或是意義層面太多,就會用一個attribute來當代理主鍵,此主鍵可能是用流水號,來代替可辨識唯一值的主鍵

在數據倉庫領域有一個概念叫Surrogate key,中文一般翻譯為“代理關鍵字”。代理關鍵字一般是指維度表中使用順序分配的整數值作為主鍵,也稱為“代理鍵”。代理關鍵字用于維度表和事實表的連接。可以避免通過主鍵的值就可以了解一些業務信息。

另一種來源:

1. (Dimension)

維度是用來反映業務的一類屬性,這類屬性的集合構成一個維度。如、地理位置或產品,

2.粒度

粒度將直接決定所構建倉庫能夠提供決策支持的細節級別。粒度越高表示倉庫中的較粗,反之,較細。粒度是與具體指標相關的,具體表現在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。

3. 指標(Measure)

指標也稱關鍵性能指標、事實或關鍵事務指標,是沿維度衡量商務信息的。每一個指標代表了業務對象所固有的一個可供分析的屬性。指標是典型的數量、容量或將通過同標準的比較查明的款項。這些數據點可用于商務性能的定量的比較。

4. 指標組(Relation Measures)

實際上每一組用于分析的業務對象會有若干相互關聯的指標,如營業額、納稅額。這些指標之間存在計算關系,往往是作為一個整體用于分析的,這個整體稱之為指標組。

5. 元數據(Metadata)

關于數據的數據。元數據用于描述中的數據的結構、內容和。

6. 元(Metadata Repository)

一種提供數據詳細情況的詞典。這些詳細的信息包括數據源的目錄和它們相關的標準。該數據目錄描述的是數據捕捉和數據兩種環境中可用的數據。該目錄還應說明數據最后一次更新的時間和計劃將要更新的時間—最起碼,要說明數據維護的調度。數據目錄還應說明數據的物理屬性;也就是說,數據是如何存儲的。數據目錄幫助數據弄清楚“從哪里”可獲得“什么樣”的數據。

7. 中央數據庫(Center Database)

數據倉庫中用于存儲原始數據的存儲介質。此處的原始數據指從業務系統中采集后經過清洗、轉換的數據。

8. 指標數據庫(Indicator Databases)

數據倉庫中用于存放指標數據的存儲介質。指標數據庫根據數據倉庫系統的使用對象劃分,通常分成多個。

9. 星形圖(Star-Schema)

是數據倉庫應用程序的最佳模式。它的命名是因其在物理上表現為中心實體,典型內容包括指標數據、輻射數據,通常是有助于瀏覽和聚集指標數據的維度。星形圖得到的結果常常是查詢式數據結構,能夠為快速響應用戶的查詢要求提供最優的數據結構。星形圖還常常產生一種包含維度數據和指標數據的兩層模型。

10.雪花圖(Snowflake-Schema)

指一種擴展的星形圖。星形圖通常生成一個兩層結構,即只有維度和指標,雪花圖生成了附加層。實際數據倉庫系統建設過程中,通常只擴展三層:維度(維度實體)、指標(指標實體)和相關的描述數據(類目細節實體)超過三層的雪花圖模型在數據倉庫系統中應該避免。因為它們開始像更傾向于支持OLTP 應用程序的規格化結構,而不是為數據倉庫和OLAP應用程序而優化的非格式化結構。

責任編輯:武曉燕 來源: 中國統計網
相關推薦

2018-07-24 09:28:18

存儲數據倉庫

2020-01-03 09:40:13

大數據數據倉庫分層

2009-01-18 15:48:31

數據倉庫數據存儲OLTP

2021-04-16 10:21:50

數據庫數據湖數據

2022-02-18 09:02:04

數據倉庫治理

2021-10-27 11:33:31

數據倉庫架構

2018-07-13 16:10:21

數據倉庫數據存儲

2019-06-06 14:08:37

數據倉庫數據分析數據報表

2018-03-15 08:50:46

Hive-數據存儲

2021-09-01 10:03:44

數據倉庫云數據倉庫數據庫

2013-03-20 16:23:53

數據清洗

2022-11-29 17:16:57

2021-11-30 08:11:19

數據倉庫經驗

2022-05-11 08:00:00

Lakehouse存儲數據湖

2017-06-27 10:08:29

數據倉庫模型

2024-09-05 16:08:52

2017-02-28 09:21:56

HadoopHive數據倉庫

2024-03-19 13:45:27

數據倉庫數據湖大數據

2023-08-14 16:56:53

2021-05-27 09:22:41

云計算數據科技
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区亚洲 | 一级毛片中国 | 一区二区三区在线观看视频 | 久久国产综合 | 日本三级在线网站 | 日本国产一区二区 | 国产综合久久久 | 91精品国产91久久久久久最新 | 先锋资源网站 | 久久草在线视频 | 日本精品免费在线观看 | 欧美a级成人淫片免费看 | 日本一区二区电影 | 欧美1区2区 | 欧美日本韩国一区二区 | 一区二区三区四区国产 | 婷婷激情综合 | 国产精品a久久久久 | 99re在线免费视频 | 日韩二区| 日韩福利在线 | 99亚洲精品 | 日韩五月天 | 亚洲精品在线国产 | 国产欧美一区二区三区国产幕精品 | 欧美久久久久久久久中文字幕 | 国产精品久久久久久吹潮 | 久久高清免费视频 | 日日久 | 羞羞的视频免费在线观看 | 在线观看成人精品 | 大陆一级毛片免费视频观看 | 色综合中文 | 欧美乱淫视频 | 亚洲国产高清免费 | 午夜精品一区二区三区在线视频 | 香蕉91| 亚洲激情一区二区三区 | 91社区在线观看 | 欧美精品久久久 | 夜夜操天天干 |