成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何對大數(shù)據(jù)進(jìn)行高效存儲、管理與應(yīng)用?

數(shù)據(jù)庫 新聞
本文整理了京東在數(shù)據(jù)分布式存儲和分層存儲上的最新探索和實踐經(jīng)驗。

如何管理海量數(shù)據(jù),是很多企業(yè)都需要解決的問題。要高效管理數(shù)據(jù)并充分發(fā)揮數(shù)據(jù)信息應(yīng)有的價值,前提是要對大數(shù)據(jù)進(jìn)行有效存儲。

京東大數(shù)據(jù)存儲跨域及分層實踐

下圖是京東數(shù)據(jù)平臺架構(gòu)圖。

圖片

京東數(shù)據(jù)平臺的整體架構(gòu)主要由六部分組成,其中數(shù)據(jù)存儲作為計算存儲層的底層組件支撐著上游的計算引擎調(diào)度,以及更高層的工具層、服務(wù)層和應(yīng)用層。在整個數(shù)據(jù)平臺架構(gòu)中,底層數(shù)據(jù)存儲起到了基建的作用,是整個大數(shù)據(jù)平臺的基礎(chǔ)。

1. 跨域存儲面臨的問題與解決方案

在跨域存儲架構(gòu)應(yīng)用之前,跨機(jī)房數(shù)據(jù)的同步主要通過業(yè)務(wù)方在不同機(jī)房之間進(jìn)行Distcp實現(xiàn),這種方式便會存在一些隱患問題:

第一個問題:元數(shù)據(jù)一致性由業(yè)務(wù)方保證,數(shù)據(jù)遷移需要業(yè)務(wù)介入,成本高時間長。

第二個問題:跨機(jī)房的流量不受控,影響同步任務(wù),需要借助外部調(diào)度系統(tǒng)和存儲。 

第三個問題:產(chǎn)生多份冗余數(shù)據(jù),數(shù)據(jù)共享和同步成本高,比如在不同機(jī)房不同數(shù)據(jù)節(jié)點間載入了多份相同數(shù)據(jù),導(dǎo)致冗余。

第四個問題:不具備多機(jī)房集群的容災(zāi)系統(tǒng),未充分利用多機(jī)房優(yōu)勢。

(1)跨越存儲的架構(gòu)

圖片

基于以上,京東大數(shù)據(jù)平臺在底層存儲模塊設(shè)計了一個跨域數(shù)據(jù)同步功能來解決歷史數(shù)據(jù)存儲同步帶來的問題。選擇在底層解決該問題不僅可以把控跨域數(shù)據(jù)的一致性,還提供了業(yè)務(wù)無感知的跨域數(shù)據(jù)同步與分享功能,以減少業(yè)務(wù)方重復(fù)工作,使存儲系統(tǒng)具備跨域遷移和跨域容災(zāi)的能力。

京東該跨域存儲架構(gòu)的主要思路是通過“全量存儲+全網(wǎng)拓?fù)洹?/strong>,實現(xiàn)跨機(jī)房故障域,最終實現(xiàn)大數(shù)據(jù)關(guān)鍵數(shù)據(jù)異地容災(zāi)及跨機(jī)房存儲能力。

(2)跨域存儲——跨域數(shù)據(jù)流

在實現(xiàn)跨域存儲過程中,采用了兩種數(shù)據(jù)流方式:

  • 異步數(shù)據(jù)流

將數(shù)據(jù)先寫到本地機(jī)房,再通過namenode(NN)自動進(jìn)行跨域同步。該數(shù)據(jù)傳輸方式寫入性能與現(xiàn)有未跨域場景一致,同步時延優(yōu)于 distcp 方案。

  • 同步數(shù)據(jù)流

建立pipeline數(shù)據(jù)管道,串聯(lián)機(jī)房全部datanode(DN),一次將數(shù)據(jù)同步。該種傳輸方式針對數(shù)據(jù)一致性和可靠性要求高的業(yè)務(wù)。

(3)跨域存儲——拓?fù)渑c機(jī)房感知

拓?fù)渑c機(jī)房感知是解決“節(jié)點定位”這一跨域存儲核心問題的關(guān)鍵模塊。基于該模塊可控制數(shù)據(jù)塊分布和控制客戶端流量。該模塊主要從兩個方面解決問題:

  • 拓?fù)涔芾?/strong>?

通過改造節(jié)點的拓?fù)浞绞剑谕負(fù)涔芾碇性黾右粋€機(jī)房維度,同時選塊邏輯要基于全網(wǎng)拓?fù)淠K進(jìn)行適配,以兼容多機(jī)房。

  • 機(jī)房感知?

針對跨域版本的客戶端,可通過在RPC頭部攜帶機(jī)房信息,以便識別和檢索;針對不支持跨域版本的客戶端,可通過京東網(wǎng)絡(luò)服務(wù)團(tuán)隊提供的ip映射到機(jī)房的服務(wù), 實現(xiàn)客戶端對應(yīng)機(jī)房的檢索和查詢。

(4)跨域存儲——跨域標(biāo)識

跨域標(biāo)識模塊是解決“數(shù)據(jù)跨機(jī)房存放”問題的關(guān)鍵設(shè)計,我們采用一個支持副本和EC的屬性標(biāo)簽來描述數(shù)據(jù)的跨域?qū)傩浴C包含數(shù)據(jù)塊和校驗塊兩種類型,相對于副本模式其跨域同步的支持更加復(fù)雜,需要支持在同機(jī)房內(nèi)的數(shù)據(jù)重構(gòu)和重構(gòu)條件不具備時的跨域數(shù)據(jù)拷貝,以減少 EC 數(shù)據(jù)在跨域場景下的跨域同步流量。

加快整體跨域數(shù)據(jù)處理的速度,采用了三種方法:

  • 將元數(shù)據(jù)固化在XATTR上
  • 在內(nèi)存上構(gòu)建了Inode Proto
  • 在每個數(shù)據(jù)塊上,創(chuàng)建塊屬性標(biāo)識

(5)跨域存儲——跨域補(bǔ)塊及流控

針對跨域補(bǔ)塊和流控,采用了三種方法保證了性能:

  • 在處理跨域補(bǔ)塊時遵從的原理是跨域處理與原有流程隔離,保證新增的跨域處理流程不影響原先同機(jī)房的補(bǔ)塊處理,在遇到機(jī)房網(wǎng)絡(luò)中斷等極端情況可以保障單機(jī)房元數(shù)據(jù)服務(wù)可用。
  • 新增異步跨域更新器,結(jié)合跨域標(biāo)簽屬性,實現(xiàn)HA切換接續(xù)補(bǔ)塊,解決存量數(shù)據(jù)問題。
  • 采用CR-Checker程序替代原有的DistCopy任務(wù),可以將原先的跨集群同步任務(wù)平滑升級成跨域同步任務(wù),最大限度減少跨域架構(gòu)升級對原有存量任務(wù)的沖擊。

2. 分層存儲面臨的問題與解決方案

京東的數(shù)據(jù)分層存儲是為了解決原有框架所存在的問題,主要是:冷熱數(shù)據(jù)未區(qū)分對待的問題、不同硬件類型未區(qū)分對待的問題,以及數(shù)據(jù)治理工作推進(jìn)困難的問題。

(1)分層存儲的架構(gòu)

圖片

京東分層存儲的架構(gòu),整個框架主要是在NN內(nèi)部實現(xiàn)的:

  • 分層策略配置:提供外部API下發(fā)及內(nèi)部配置。
  • 分層配置API:提供分層策略下發(fā)接口,外部可通過離線數(shù)據(jù)分析及業(yè)務(wù)側(cè)下發(fā)分層邏輯。
  • 內(nèi)置分層策略:可配置和動態(tài)刷新的分層策略,默認(rèn)通過訪問監(jiān)控器統(tǒng)計數(shù)據(jù)進(jìn)行LRU分層策略配置。
  • 標(biāo)簽管理器:實現(xiàn)目錄標(biāo)簽和節(jié)點標(biāo)簽管理,指導(dǎo)選塊模塊及分布校驗器等模塊進(jìn)行數(shù)據(jù)遷移。
  • 數(shù)據(jù)分布校驗器:實現(xiàn)對新增數(shù)據(jù)的分布校驗,指導(dǎo)數(shù)據(jù)按照標(biāo)簽進(jìn)行分布。
  • 存量數(shù)據(jù)滿足器:對存量數(shù)據(jù)進(jìn)行掃描驗證,指導(dǎo)存量數(shù)據(jù)塊遷移;實現(xiàn)數(shù)據(jù)生命周期管理功能。

?(2)分層存儲——核心設(shè)計

圖片

分層存儲的核心設(shè)計,可以分為兩個模塊,一個是元數(shù)據(jù)上根據(jù)目錄樹進(jìn)行標(biāo)簽管理,對數(shù)據(jù)進(jìn)行冷熱數(shù)據(jù)分配;另一塊是節(jié)點拓?fù)錁洌捎锰摂M多拓?fù)錁湓谶壿嬌蠈⒉煌瑯?biāo)簽的節(jié)點進(jìn)行區(qū)分,不同標(biāo)簽類型會有自己獨立的拓?fù)錁洌瑢崿F(xiàn)更高效的選節(jié)點性能。虛擬拓?fù)錁溆袃煞N更新方式,分別為根據(jù)節(jié)點權(quán)重進(jìn)行異步更新和上下線數(shù)據(jù)進(jìn)行同步更新。

圖片

?增量數(shù)據(jù)和存量數(shù)據(jù)在處理流程上有以下差異:

  • 增量數(shù)據(jù):對于寫入請求,先判斷標(biāo)簽,然后根據(jù)匹配對應(yīng)節(jié)點,寫入數(shù)據(jù)。
  • 存量數(shù)據(jù):后臺數(shù)據(jù)分布校驗會掃描數(shù)據(jù)的標(biāo)簽,基于虛擬拓?fù)錁淦ヅ鋵?yīng)的節(jié)點,然后完成數(shù)據(jù)遷移或轉(zhuǎn)換。

以上內(nèi)容節(jié)選自吳維偉老師的《京東大數(shù)據(jù)存儲跨域及分層實踐》。

責(zé)任編輯:張燕妮 來源: DataFunTalk
相關(guān)推薦

2020-10-26 10:48:30

人工智能大數(shù)據(jù)存儲管理效率

2020-12-08 14:20:43

人工智能數(shù)據(jù)存儲

2017-11-01 14:29:38

2024-05-10 13:01:49

2018-09-06 18:29:39

2016-12-12 16:17:22

華為

2015-09-11 15:16:21

APM數(shù)據(jù)

2018-03-20 10:37:33

存儲大數(shù)據(jù)管理

2013-05-24 09:25:27

2019-09-27 12:44:03

數(shù)據(jù)建模企業(yè)數(shù)據(jù)存儲

2018-01-18 22:09:06

數(shù)據(jù)分析數(shù)據(jù)處理企業(yè)

2016-10-17 16:05:13

數(shù)據(jù)煤炭開采

2021-06-10 19:10:32

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用大數(shù)據(jù)技術(shù)

2010-06-04 13:50:24

MySQL存儲過程

2018-07-05 22:38:23

大數(shù)據(jù)搜索引擎SEO

2020-12-21 15:11:06

大數(shù)據(jù)數(shù)據(jù)開發(fā)

2020-09-08 06:28:42

大數(shù)據(jù)應(yīng)用

2013-01-28 11:43:06

2014-11-27 10:07:43

IT運維

2016-11-01 11:53:48

醫(yī)療 大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 拍真实国产伦偷精品 | 亚洲成人动漫在线观看 | 国产视频二区 | 日韩在线精品视频 | 91免费视频观看 | 中文字幕人成乱码在线观看 | 中文字幕一区二区三区四区五区 | 天堂色网 | 国产剧情一区 | 日韩成人免费视频 | 日韩在线精品 | 一本色道精品久久一区二区三区 | 99久久久99久久国产片鸭王 | 国产精品69毛片高清亚洲 | 亚洲欧美另类在线 | av天天操| 欧美日本在线观看 | 日韩中文字幕在线播放 | 国产精品一码二码三码在线 | 亚洲天堂一区二区 | 亚洲一区二区综合 | 亚洲视频中文字幕 | 日韩中文在线观看 | 一级毛片成人免费看a | 午夜日韩 | 日操操夜操操 | 久久精品中文 | 婷婷综合五月天 | 性xxxxx | 国产日韩欧美二区 | 日日夜夜天天干 | 91豆花视频 | 91在线看| 欧美成人一区二区三区 | 黄色大片网站 | 国产精品久久久久无码av | 91一区二区三区 | 日韩欧美在线不卡 | 亚洲一区电影 | 午夜性色a√在线视频观看9 | 噜久寡妇噜噜久久寡妇 |