成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據工程要從全局性數據架構考慮

大數據
說到數據工程,給人的感覺往往是空間數據的采集、核查、規整、入庫等過程。這些過程,距離主流IT所說的“數據工程”還是有些差異的。

說到數據工程,給人的感覺往往是空間數據的采集、核查、規整、入庫等過程。這些過程,距離主流IT所說的“數據工程”還是有些差異的。

主流IT對“數據工程”的定義是:“以工程化作為基本出發點的數據處理、分析和應用方法與技術,是計算機科學與技術學科的重要內容、核心與趨勢”。

在這個定義中,特別強調了“工程”兩個字。“工程”是以解決問題、實現價值為導向的,往往受限于具體業務場景,通常需要綜合權衡考慮,并具有實踐性較強的、需要與用戶反復交互的“服務”方式,而不是以市場為導向的“產品”模式。

 

[[274758]]

一、需不需要全局性數據架構?

很多人會說,“我們只是做數據處理、數據遷移等,不需要數據架構”、“我們只是做數據分析展現,其他事情不需要考慮那么多”……

如果站在項目實施的某個局部角度,只需考慮某項數據處理工作的局部范圍和具體要求的話,確實可以這么說。但是,如果站在項目全局的角度,或項目規模較大,就不得不從全局視角統籌考慮數據工程了。否則,就會出現各種各樣的問題。比如,產生“數據孤島”、數據之間無法關聯、數據統計結果是否真實可信等問題。

二、在什么階段考慮全局性數據架構?

還有一種觀點比較常見:“我們只是做業務系統,暫時不考慮分析類應用,在以后搭建商務智能(BI)、數據倉庫應用時,我們再來考慮數據架構”。

如果只有少數幾個業務系統,是否有獨立的數據架構,影響可能不大。但是,如果業務系統累積到五個以上時,這種“重系統輕數據”、“重流程輕分析”的導向,會帶來很多問題。沒有統一的數據架構和數據治理機制,多個系統之間會出現數據標準不統一,數據內容不一致,數據同名不同義和同義不同名等現象,數據質量無法保證,數據集成非常困難,必然影響業務應用系統效能的正常發揮。如果業務系統本身數據質量就有問題,即使數據抽取處理、數據分析展現系統做得再好,也是枉然。所以,對于大型的、復雜的業務應用系統,必須考慮全局的數據架構;至于數據分析型應用,沒有數據架構和數據治理機制,將寸步難行。

三、全局性數據架構怎么做?

做全局性數據架構,就是要回答用戶的問題:用戶的數據資產應該如何組織,才能管得住、用得好?針對這個問題,可以從數據資源目錄、數據標準、數據模型、數據分布等多個維度加以考慮。在具體落地時,還要考慮元數據管理、數據集成、數據共享等要素。下圖是我們在某個具體項目中的全局性數據架構設計考慮。

 

數據工程要從全局性數據架構考慮
某項目的全局數據架構邏輯圖

從全局整體角度,把數據按照應用方向,劃分幾個庫:

1、業務庫

在“業務應用域”,主要面向的是“業務辦理人員”。從數據角度,一個庫里有多個數據域,與其相對的,一個平臺多個應用,即一個業務平臺上面承載多個業務應用,整個“業務應用域”就是一個系統一個庫,從根本上解決以前十幾個系統十幾個庫而導致的“煙囪系統”的問題。另外,這個業務庫的數據組織形式,是以“辦理事項”進行數據建模組織的,數據操作主要是數據增、刪、改、查,屬于典型的事務性數據庫(OLTP)。

2、分析庫

在“數據分析域”中,主要面向的是“分析決策人員”。因此,需要建立數據倉庫。數據倉庫根據不同應用場景分層,包括:操作性數倉(ODS)、核心數倉(DW)、數據集市(DM)等,同樣與之相對,搭建相應的“數據應用平臺”和一系列的數據應用。分析庫按照“分析主題”組織數據。所謂“分析主題”,就是針對某種業務對象或者某個事項的分析需求,比如建設項目情況分析、房源籌集和分配情況分析等。

3、治理庫

顧名思義,“數據治理域”主要面向“數據治理人員”。通過數據治理,管理好全局的所有數據。其中,“主數據”是按照“核心業務對象”組織的數據,它提供可共享的核心數據底板,具有統一、完整、準確、及時的特點。比如,在公共住房領域,房源就是一種主數據。“元數據”則用來對數據進行描述的數據,包括數據的類型、關系、流動、變化(血緣)和業務含義等。“參考數據”是指一些重要的數據字典,比如,在公共住房領域,租賃狀態、出冊原因、交租方式、房屋狀態等,都需要采用字典來描述。

4、其他庫

除以上核心庫外,還有一些其他數據。包括:用于內外數據交換的交換數據,用于空間定位和空間分析的空間數據,以及各種文檔材料、電子檔案等非結構化數據等。

全局性數據邏輯架構的最大價值在于:從全局上搞清楚有哪些數據?數據和系統之間、不同類型的數據之間,存在什么關系?各種不同數據是怎么存儲管理的?除此之外,數據架構還包括:數據模型,它從靜態視角,描述數據之間的具體關系,指導后續數據庫的邏輯設計、物理設計;數據分布,它從動態視角,描述數據在業務應用系統上的分布、數據流動的全景視圖等。由于篇幅所限,在此不一一列舉。

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2010-12-20 13:36:45

2010-05-20 17:12:23

IIS安全

2022-11-22 10:52:49

數據中心

2013-07-17 18:25:42

數據中心網絡架構因素

2012-01-05 09:45:31

微軟云數據庫SQL Azure

2020-08-14 11:31:05

人工智能

2024-01-18 15:47:37

數字化轉型數據治理

2011-10-25 10:28:55

數據中心基礎架構服務器

2023-06-15 14:53:59

大數據

2012-08-24 09:01:02

IBMdW

2020-06-19 11:43:09

戴爾

2019-12-09 10:53:10

數據庫選型運維

2022-02-07 18:28:06

數據網格數據發現數據

2017-09-08 08:47:26

HPC數據中心高性能計算

2014-09-29 10:41:07

MDMMIM企業移動安全

2021-07-02 10:35:09

數據庫互聯網架構

2021-01-29 15:13:08

數據中心云計算綠色數據中心

2023-07-10 15:47:05

2010-04-08 10:44:28

Oracle數據庫

2017-05-25 09:23:18

大數據架構Hadoop
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成年影院 | 欧美激情va永久在线播放 | 91原创视频在线观看 | 久久国产精品网 | 99久久久久 | 国产黄色在线观看 | www狠狠爱com | 亚洲高清视频一区二区 | 久久国产三级 | 爱综合 | 91网站在线播放 | 韩日av在线 | 成人免费一区二区三区牛牛 | 国产精品一区二区在线 | 伊人网综合在线 | 精品一区av | 精品亚洲国产成av人片传媒 | 免费久久视频 | 看av在线| tube国产| japanhdxxxx裸体| 老司机免费视频 | 久久综合入口 | 中日韩av | 亚洲欧美综合 | av三级 | 在线免费观看视频你懂的 | 免费三级av| 四虎网站在线观看 | 精品一区二区三区在线观看国产 | 午夜理伦三级理论三级在线观看 | av看看| 亚洲一区二区三区在线视频 | 欧美日韩久久 | 天天插天天搞 | 日韩精品一区二区三区视频播放 | 成人妇女免费播放久久久 | 欧美一级www片免费观看 | 国产精品无码永久免费888 | 91精品国产综合久久婷婷香蕉 | 久久se精品一区精品二区 |