成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

分布式及高可用元數(shù)據(jù)采集原理

數(shù)據(jù)庫 分布式
元數(shù)據(jù)采集是元數(shù)據(jù)產(chǎn)品的核心部分,如何提升采集效率是需要仔細斟酌的事情,既要保持穩(wěn)定性也要保持跟上主流技術(shù)的發(fā)展趨勢。元數(shù)據(jù)產(chǎn)品從最初集中式WEB應(yīng)用系統(tǒng)到現(xiàn)在流行的分布式、微服務(wù)這種系統(tǒng)架構(gòu),原有元數(shù)據(jù)采集效率已不能滿足應(yīng)用的需求了。

引言:

元數(shù)據(jù)采集是元數(shù)據(jù)產(chǎn)品的核心部分,如何提升采集效率是需要仔細斟酌的事情,既要保持穩(wěn)定性也要保持跟上主流技術(shù)的發(fā)展趨勢。元數(shù)據(jù)產(chǎn)品從最初集中式WEB應(yīng)用系統(tǒng)到現(xiàn)在流行的分布式、微服務(wù)這種系統(tǒng)架構(gòu),原有元數(shù)據(jù)采集效率已不能滿足應(yīng)用的需求了。

[[279335]]

目錄:

1.元數(shù)據(jù)采集原理

2.分布式采集策略

3.分布式采集策略的應(yīng)用

1.元數(shù)據(jù)采集原理

我們要想采集元數(shù)據(jù)首先得明白,什么是元數(shù)據(jù),元數(shù)據(jù)都存在哪里,為什么采集元數(shù)據(jù)?

元數(shù)據(jù)MetaData通俗的解釋是用來描述數(shù)據(jù)的數(shù)據(jù),實際來看,除了業(yè)務(wù)邏輯直接讀寫處理的那些業(yè)務(wù)數(shù)據(jù),所有其它用來維持整個系統(tǒng)運轉(zhuǎn)所需的信息/數(shù)據(jù)都可以叫作元數(shù)據(jù)。比如數(shù)據(jù)庫的Schema、Table、Column信息,任務(wù)的血緣關(guān)系,用戶和腳本/任務(wù)的權(quán)限映射關(guān)系信息等等。

以大數(shù)據(jù)平臺為例,元數(shù)據(jù)貫穿大數(shù)據(jù)平臺數(shù)據(jù)流動的全過程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過程元數(shù)據(jù)、數(shù)據(jù)主題庫專題庫元數(shù)據(jù)、服務(wù)層元數(shù)據(jù)、應(yīng)用層元數(shù)據(jù)等。

數(shù)據(jù)治理關(guān)鍵就是收集信息,很明顯,沒有數(shù)據(jù)就無從分析,也就無法有效的對平臺的數(shù)據(jù)鏈路進行管理和改進。所以元數(shù)據(jù)管理平臺很重要的一個功能就是信息的收集,至于收集哪些信息,取決于業(yè)務(wù)的需求和我們需要解決的目標問題。

如何采集元數(shù)據(jù)?

元數(shù)據(jù)采集是指獲取數(shù)據(jù)生命周期中的元數(shù)據(jù),對元數(shù)據(jù)進行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫中的過程。

分布式及高可用元數(shù)據(jù)采集原理

不同來源的元數(shù)據(jù)獲取獲取方式也不大相同,在采集方式上有使用包括數(shù)據(jù)庫直連、接口、日志文件等技術(shù)手段,對結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)字典、非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)信息、業(yè)務(wù)指標、代碼、數(shù)據(jù)加工過程等元數(shù)據(jù)信息進行自動化和手動采集,元數(shù)據(jù)采集完成后,被組織成符合CWM模型的結(jié)構(gòu),存儲在關(guān)系型數(shù)據(jù)庫中。

分布式及高可用元數(shù)據(jù)采集原理

2.分布式采集架構(gòu)

現(xiàn)在人們對元數(shù)據(jù)管理工具采集的元數(shù)據(jù)時效性越來越高,我們元數(shù)據(jù)管理工具會管理很多來源的元數(shù)據(jù),配置很多采集任務(wù)定時去采集,如何高效的完成采集任務(wù),影響著元數(shù)據(jù)管理工具存儲的元數(shù)據(jù)時效性。我們原先采集任務(wù)策略是單一采集程序串行執(zhí)行采集任務(wù),這樣的策略采集效率是很低的,為了提高采集效率,我們就采用多個采集程序并發(fā)執(zhí)行采集任務(wù)。

常見的元數(shù)據(jù)管理工具架構(gòu)是傳統(tǒng)的集中式WEB應(yīng)用架構(gòu),所有的功能模塊都集中在一個應(yīng)用程序中。

分布式及高可用元數(shù)據(jù)采集原理

3.分布式采集架構(gòu)的應(yīng)用

我們在某一證券公司做數(shù)據(jù)治理時,發(fā)現(xiàn)該客戶的網(wǎng)絡(luò)架構(gòu)比較復雜,它的網(wǎng)絡(luò)架構(gòu)大概分為三層業(yè)務(wù)系統(tǒng)層、數(shù)據(jù)采集層和數(shù)據(jù)存儲層。

業(yè)務(wù)系統(tǒng)分布業(yè)務(wù)系統(tǒng)層的不同地域,比如A業(yè)務(wù)系統(tǒng)在北京,B業(yè)務(wù)系統(tǒng)在上海,C業(yè)務(wù)系統(tǒng)在廣州等。我們要想訪問個各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫只能通過數(shù)據(jù)采集層的代理IP去訪問,不同地域的業(yè)務(wù)系統(tǒng)代理的IP地址網(wǎng)段也是不同的,數(shù)據(jù)采集層各個網(wǎng)段之間不能連通,數(shù)據(jù)存儲層是可以和數(shù)據(jù)采集層的所有網(wǎng)段直接連通的。

分布式及高可用元數(shù)據(jù)采集原理

我們現(xiàn)在元數(shù)據(jù)的架構(gòu)是分為應(yīng)用程序和采集服務(wù)兩部分,應(yīng)用程序和采集程序是一對一的關(guān)系,針對這種網(wǎng)絡(luò)情況,我們要對元數(shù)據(jù)產(chǎn)品的架構(gòu)做調(diào)整。

分布式及高可用元數(shù)據(jù)采集原理

一、將元數(shù)據(jù)的應(yīng)用程序與采集服務(wù)改為一對多模式,這樣我們得需要一個采集服務(wù)管理模塊,可以對采集服務(wù)的信息(IP,端口)進行維護(增刪改),采集的目標數(shù)據(jù)源與采集程序服務(wù)進行映射,一個目標數(shù)據(jù)源可以配置主備采集服務(wù),主采集服務(wù)發(fā)生故障后,可以通過備采集服務(wù)繼續(xù)采集工作。

采集服務(wù)管理模塊要考慮易操作性和適用性,如:查看采集服務(wù)運行情況、設(shè)置默認采集服務(wù)等等。

二、元數(shù)據(jù)采集任務(wù)調(diào)整為并行執(zhí)行,現(xiàn)在采集元數(shù)據(jù)步驟為獲取元數(shù)據(jù)>入臨時表>與正式表比對,更新元數(shù)據(jù)ID,得到元數(shù)據(jù)的變更信息>將元數(shù)據(jù)和變更信息入正式表。

采集任務(wù)調(diào)整為并行執(zhí)行的主要的難點是如何取消臨時表,因為臨時表在元數(shù)據(jù)存儲數(shù)據(jù)庫中只有一份,只有等待當前采集任務(wù)執(zhí)行完畢,清空臨時表后,才能執(zhí)行下一次采集任務(wù)。

臨時表的作用是:

更新元數(shù)據(jù)ID和找出新增、修改和刪除的元數(shù)據(jù),采集元數(shù)據(jù)時,都會給每一個元數(shù)據(jù)生成隨機的UUID當作元數(shù)據(jù)ID,與正式表作比對時,如果某一元數(shù)據(jù)之前已經(jīng)入庫,需要將該元數(shù)據(jù)的臨時表里的ID更新成正式表里的ID。

取消臨時表的舉措:

1、我們選擇將元數(shù)據(jù)編碼+元數(shù)據(jù)類型+元數(shù)據(jù)父級路徑這三項數(shù)據(jù)進行MD5加密生成的字符串作為元數(shù)據(jù)的ID,這樣元數(shù)據(jù)的ID也就固定了,不需要和正式表里做比對了。

2、通過元數(shù)據(jù)ID去正式表里查詢就可得出哪些元數(shù)據(jù)是新增和刪除的。

我們將元數(shù)據(jù)的所有屬性值進行MD5加密生成的字符串作為元數(shù)據(jù)的屬性ID,這樣通過比對元數(shù)據(jù)的屬性ID就可得知該元數(shù)據(jù)是否修改了。

這樣我們就可以取消臨時表,在采集服務(wù)程序中就可以將元數(shù)據(jù)和正式表數(shù)據(jù)作比對,得到變化的元數(shù)據(jù),將元數(shù)據(jù)記錄直接寫入到數(shù)據(jù)庫中的正式表,元數(shù)據(jù)采集任務(wù)也就可以并行執(zhí)行了。

分布式及高可用元數(shù)據(jù)采集原理

我們在數(shù)據(jù)采集層各個網(wǎng)段都部署采集服務(wù),這樣就實現(xiàn)了高并發(fā)元數(shù)據(jù)采集,這種分布式采集策略優(yōu)點是:

1、采集元數(shù)據(jù)效率快

2、可以并行執(zhí)行采集任務(wù)

3、可以適應(yīng)復雜網(wǎng)絡(luò)環(huán)境的元數(shù)據(jù)采集。

責任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2022-05-11 13:55:18

高可用性分布式彈性

2018-10-29 12:51:35

分布式存儲元數(shù)據(jù)

2023-09-14 15:44:46

分布式事務(wù)數(shù)據(jù)存儲

2020-11-26 09:38:19

分布式架構(gòu)系統(tǒng)

2021-09-23 12:14:50

Redis分布式優(yōu)化

2023-08-22 13:16:00

分布式數(shù)據(jù)庫架構(gòu)數(shù)據(jù)存儲

2013-06-14 14:17:36

分布式Hbase管理和監(jiān)控

2025-04-01 01:04:00

Redis集群緩存

2022-10-24 09:56:09

seleniumGrid分布式

2014-07-10 09:28:57

光纖

2015-05-13 09:34:46

分布式存儲元數(shù)據(jù)設(shè)計公有云

2018-03-12 08:17:27

分布式存儲

2017-04-17 09:54:34

分布式數(shù)據(jù)庫PhxSQL

2022-06-21 08:27:22

Seata分布式事務(wù)

2022-01-10 19:45:40

微服務(wù)GO系統(tǒng)

2022-05-11 22:10:05

分布式云云計算公共云

2021-08-26 00:23:14

分布式存儲高可用

2015-04-03 12:43:45

Redis分布式

2024-11-28 15:11:28

2020-04-14 11:14:02

PostgreSQL分布式數(shù)據(jù)庫
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲精品大全 | 中文字幕1区2区 | 国产精品一区一区 | 国产一二区在线 | 在线免费av观看 | 亚洲欧美一区二区三区1000 | 久久久久久久一级 | 男女污污网站 | 欧美激情区 | 国产激情视频在线观看 | 黄色电影在线免费观看 | 中文字幕在线一区 | 免费观看国产视频在线 | 成人免费观看视频 | 日韩一区二区三区在线看 | 91精品国产91久久久久久丝袜 | 久久精品在线 | 在线亚洲精品 | 精品日韩一区 | 午夜影院在线观看免费 | 国产精品视频久久久 | 欧美99久久精品乱码影视 | 精品1区| 请别相信他免费喜剧电影在线观看 | 亚洲欧美视频一区 | 91精品久久久久久久久 | 亚洲精品无 | 秋霞电影一区二区 | 九色网址| 一区在线观看 | 超碰成人免费 | 日韩欧美国产一区二区三区 | 久久精品久久久久久 | 欧美一级黄视频 | 9porny九色视频自拍 | 免费一级毛片 | 欧美午夜一区二区三区免费大片 | 国产在线97 | 成人午夜毛片 | 91影院 | 一区二区三区视频在线 |