成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于Hadoop生態(tài)系統(tǒng)的一種高性能數(shù)據(jù)存儲格式CarbonData(基礎(chǔ)篇)

存儲 存儲軟件 Hadoop
隨著數(shù)據(jù)的與日俱增,業(yè)務(wù)驅(qū)動下的數(shù)據(jù)分析靈活性要求越來越高,不同場景的數(shù)據(jù)分不同業(yè)務(wù)系統(tǒng)而構(gòu)建,導(dǎo)致存儲冗余嚴(yán)重,缺乏高效、統(tǒng)一的融合數(shù)據(jù)分析。

背景

大數(shù)據(jù)時代,企業(yè)數(shù)據(jù)爆發(fā)式增長,如國內(nèi)某企業(yè)平均每天有300億筆業(yè)務(wù),業(yè)務(wù)高峰期間每天可達(dá)600億筆業(yè)務(wù)。隨著數(shù)據(jù)的與日俱增,業(yè)務(wù)驅(qū)動下的數(shù)據(jù)分析靈活性要求越來越高,不同場景的數(shù)據(jù)分不同業(yè)務(wù)系統(tǒng)而構(gòu)建,導(dǎo)致存儲冗余嚴(yán)重,缺乏高效、統(tǒng)一的融合數(shù)據(jù)分析。

業(yè)界大數(shù)據(jù)分析方案,每種技術(shù)都只能解決某種場景下的訴求,不能同時滿足多場景的應(yīng)用,例如:MPP數(shù)據(jù)庫,SQL語法支持好,小數(shù)據(jù)量下通過并行計(jì)算性能高,但支持萬億數(shù)據(jù)規(guī)模困難,不能有效與Hadoop生態(tài)集成,數(shù)據(jù)不能與其他大數(shù)據(jù)組件共享存儲;搜索類技術(shù)提升了性能,但是數(shù)據(jù)膨脹很大,不支持標(biāo)準(zhǔn)的SQL,不兼容老業(yè)務(wù)。

[[234872]]

Apache CarbonData是一種高性能大數(shù)據(jù)存儲方案,與Hadoop、Spark等大數(shù)據(jù)生態(tài)組件無縫集成。針對當(dāng)前大數(shù)據(jù)領(lǐng)域分析場景需求各異而導(dǎo)致的存儲冗余問題,CarbonData提供了一種新的融合數(shù)據(jù)存儲方案,以一份數(shù)據(jù)同時支持多種應(yīng)用場景,并通過多級索引、字典編碼、預(yù)聚合、動態(tài)Partition、準(zhǔn)實(shí)時數(shù)據(jù)查詢等特性提升了IO掃描和計(jì)算性能,實(shí)現(xiàn)萬億數(shù)據(jù)分析秒級響應(yīng)。

1.架構(gòu)原理

設(shè)計(jì)思路:

  1. 往下生態(tài):與Hadoop HDFS(Hadoop是當(dāng)前大數(shù)據(jù)生態(tài)的代名詞)無縫集成,一個CarbonData文件就是一個HDFS數(shù)據(jù)塊,充分利用HDFS的分布式,三份數(shù)據(jù)備份的可靠性等。
  2. 往上生態(tài):與Spark做深度集成,充分利用Spark生態(tài)(當(dāng)前業(yè)界***的計(jì)算引擎),支持標(biāo)準(zhǔn)SQL查詢,Dataframe數(shù)據(jù)分析,支持機(jī)器學(xué)習(xí)等。隨著CarbonData的用戶越來越多,為了增強(qiáng)CarbonData的生態(tài)連接性,后續(xù)陸續(xù)支持了與Presto、Hive集成(Alpha特性)。
  3. 如何做到一份數(shù)據(jù)快速查詢:利用多種索引(MDK,MinMax,倒排),快速找到目標(biāo)數(shù)據(jù),具體原理如下圖:

首先找到符合查詢條件的CarbonData文件;如上圖,***了2個文件,則啟動兩個Spark Task去讀數(shù)據(jù)塊(即 文件),在CarbonData文件里進(jìn)一步細(xì)分成多個Blocklet,在Blocklet里又進(jìn)一步細(xì)分成Page。

數(shù)據(jù)格式:

  • 數(shù)據(jù)布局:

Block:一個hdfs文件,默認(rèn)1G,可配置

Blocklet:文件內(nèi)的列存數(shù)據(jù)塊,是最小的IO讀取單元

Column Chunk:在一個Blocklet中一列/列組的數(shù)據(jù)

Pages:Column Chunk內(nèi)的數(shù)據(jù)頁,是最小的解碼單元

  • 元數(shù)據(jù)信息:

Header:Version,Schema

Footer:BlockletOffset,Index & 文件級統(tǒng)計(jì)信息

  • 內(nèi)置索引和統(tǒng)計(jì)信息:

Blocklet索引:B Tree startKey, endKey

Blocklet級和Page級統(tǒng)計(jì)信息:min,max等

上圖為CarbonData內(nèi)部的文件格式,有File-header、有File-footer、有記錄元數(shù)據(jù)中心,包括schema數(shù)據(jù)、偏移量數(shù)據(jù)等。我們重點(diǎn)看一下中間的Blocklet內(nèi)容。Blocklet是數(shù)據(jù)文件內(nèi)的一個列存數(shù)據(jù)塊。Blocklet內(nèi)部按列存儲,比如說有column1_chunk、colume2_chunk,每一列數(shù)據(jù)又分為Page,Page是最小的解碼單元。另外一個特點(diǎn)是除了元數(shù)據(jù)信息以外,還有索引信息。索引信息被統(tǒng)一存在File-footer內(nèi),它包括了Blocklet的索引,即主索引,它是一棵B樹,里面包含了start_key和end_key之間的范圍值。同時也包括 Blocklet級和Page級統(tǒng)計(jì)信息,這些統(tǒng)計(jì)信息是非常有用的,通過這些信息可以跳過 Blocklet和Page,避免不必要的 IO 和解碼。

2.安裝部署

CarbonData安裝部署非常簡單,可以參考社區(qū)文檔:

https://github.com/apache/carbondata/blob/master/docs/quick-start-guide.md

https://github.com/apache/carbondata/blob/master/docs/installation-guide.md

 

 

責(zé)任編輯:武曉燕 來源: Linux寶庫
相關(guān)推薦

2019-05-08 14:18:40

Hadoop存儲CarbonData

2016-12-20 16:40:13

CarbonData數(shù)據(jù)存儲大數(shù)據(jù)

2017-01-05 09:48:51

大數(shù)據(jù)數(shù)據(jù)格式生態(tài)

2013-11-04 16:57:21

Hadoop大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)

2022-01-06 18:21:00

Hadoop生態(tài)系統(tǒng)

2017-06-15 10:21:30

Apache Hado存儲引擎性能

2011-04-26 10:08:47

Linux存儲生態(tài)環(huán)境

2011-12-09 11:02:52

NoSQL

2021-11-23 20:54:34

AI 生態(tài)系統(tǒng)

2023-03-29 11:11:42

2015-06-08 12:44:58

大數(shù)據(jù)InterlAMPCamp

2013-05-27 10:01:33

HadoopHadoop系統(tǒng)

2018-03-19 15:17:37

Hadoop大數(shù)據(jù)數(shù)據(jù)

2019-01-13 15:00:52

區(qū)塊鏈生態(tài)系統(tǒng)

2009-12-25 14:49:55

2011-05-19 15:15:39

Oracle生態(tài)系統(tǒng)

2015-04-01 11:23:23

2012-04-25 10:52:30

生態(tài)系統(tǒng)AppleGoogle

2010-05-12 11:16:00

SAP

2017-06-23 21:07:15

大數(shù)據(jù)HadoopHBase
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 先锋资源站 | 久久免费视频2 | 欧美中文字幕在线观看 | 亚洲国产成人av好男人在线观看 | 在线观看国产三级 | 中文字幕第三页 | 精品久久久久久18免费网站 | 久久久久久久电影 | 成人在线视频免费播放 | 欧美日韩一区不卡 | 亚洲国产中文字幕 | 亚洲精品国产第一综合99久久 | 免费三级av | 99久热在线精品视频观看 | 久久久久久免费观看 | 国产三区视频在线观看 | 黄色成人av | 香蕉视频久久久 | 国产精品国产 | av毛片| 日本精品在线播放 | 国内久久 | 狠狠爱综合 | 日韩视频一区 | 欧美色图综合网 | 欧美专区在线 | 老外黄色一级片 | 久久精品 | 中文字幕日本一区二区 | 偷拍亚洲色图 | 久久成人免费 | 国产精品免费高清 | 亚洲一区二区三区在线播放 | 欧美精品乱码久久久久久按摩 | 国产第二页 | 久久精品国产亚洲一区二区 | 亚洲精品第一页 | 99tv| 国产精品黄色 | 国产 亚洲 网红 主播 | 一级黄色毛片 |