成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于Hadoop的數據分析平臺搭建

大數據 Hadoop
隨著越來越多的企業開始使用Hadoop平臺,也為Hadoop平臺引入了許多的技術,如Hive、Spark SQL、Kafka等,豐富的組件使得用Hadoop構建數據分析平臺代替傳統數據分析平臺成為可能。

企業發展到一定規模都會搭建單獨的BI平臺來做數據分析,即OLAP(聯機分析處理),一般都是基于數據庫技術來構建,基本都是單機產品。除了業務數據的相關分析外,互聯網企業還會對用戶行為進行分析,進一步挖掘潛在價值,這時數據就會膨脹得很厲害,一天的數據量可能會成千萬或上億,對基于數據庫的傳統數據分析平臺的數據存儲和分析計算帶來了很大挑戰。

為了應對隨著數據量的增長、數據處理性能的可擴展性,許多企業紛紛轉向Hadoop平臺來搭建數據分析平臺。Hadoop平臺具有分布式存儲及并行計算的特性,因此可輕松擴展存儲結點和計算結點,解決數據增長帶來的性能瓶頸。

隨著越來越多的企業開始使用Hadoop平臺,也為Hadoop平臺引入了許多的技術,如Hive、Spark SQL、Kafka等,豐富的組件使得用Hadoop構建數據分析平臺代替傳統數據分析平臺成為可能。

一、數據分析平臺架構原理

基于Hadoop的數據分析平臺搭建

從概念上講,我們可以把數據分析平臺分為接入層(Landing)、整合層(Integration)、表現層(Persentation)、語義層(Semantic)、終端用戶應用(End-user applications)、元數據(Metadata)。基于Hadoop和數據庫的分析平臺基本概念和邏輯架構是通用的,只是技術選型的不同:

  1. 接入層(Landing):以和源系統相同的結構暫存原始數據,有時被稱為“貼源層”或ODS;
  2. 整合層(Integration):持久存儲整合后的企業數據,針對企業信息實體和業務事件建模,代表組織的“***真相來源”,有時被稱為“數據倉庫”;
  3. 表現層(Presentation):為滿足最終用戶的需求提供可消費的數據,針對商業智能和查詢性能建模,有時被稱為“數據集市”;
  4. 語義層(Semantic):提供數據的呈現形式和訪問控制,例如某種報表工具;
  5. 終端用戶應用(End-user applications):使用語義層的工具,將表現層數據最終呈現給用戶,包括儀表板、報表、圖表等多種形式;
  6. 元數據(Metadata):記錄各層數據項的定義(Definitions)、血緣(Genealogy)、處理過程(Processing)。

來自不同數據源的“生”數據(接入層),和經過中間處理之后得到的整合層、表現層的數據模型,都會存儲在數據湖里備用。

數據湖的實現通常建立在Hadoop生態上,可能直接存儲在HDFS上,也可能存儲在HBase或Hive上,也有用關系型數據庫作為數據湖存儲的可能性存在。

基于Hadoop的數據分析平臺搭建

下圖說明了數據分析平臺的數據處理流程:

基于Hadoop的數據分析平臺搭建

數據分析基本都是單獨的系統,會將其他數據源的數據(即外部數據)同步到數據平臺的存儲體系來(即數據湖),一般數據先進入到接入層,這一層只簡單的將外部數據同步到數據分析平臺,沒有做其他處理,這樣同步出錯后重試即可,有定時同步和流式同步兩種:

  • 定時同步即我們設定在指定時間觸發同步動作;
  • 流式同步即外部數據通過Kafka或MQ發送數據修改通知及內容。

數據分析平臺執行對應操作修改數據。

接入層數據需要經過ETL處理步驟才會進入數據倉庫,數據分析人員都是基于數據倉庫的數據來做分析計算,數據倉庫可以看作數據分析的***來源,ETL會將接入層的數據做數據清洗、轉換,再加載到數據倉庫,過濾或處理不合法、不完整的數據,并使用統一的維度來表示數據狀態。有的系統會在這一層就將數據倉庫構建成數據立方體、將維度信息構建成雪花或星型模式;也有的系統這一層只是統一了所有數據信息,沒有做數據立方體,留在數據集市做。

數據集市是基于數據倉庫數據對業務關心的信息做計算提取后得到的進一步信息,是業務人員直接面對的信息,是數據倉庫的進一步計算和深入分析的結果,一般都會構建數據立方體。系統開發人員一般會開發頁面來向用戶展示數據集市的數據。

二、基于Hadoop構建數據分析平臺

基于Hadoop構建的數據分析平臺建構理論與數據處理流程與前面講的相同。傳統分析平臺使用數據庫套件構建,這里我們使用Hadoop平臺的組件。

基于Hadoop的數據分析平臺搭建

上面這張圖是我們使用到的Hadoop平臺的組件,數據從下到上流動,數據處理流程和上面說的一致。

任務調度負責將數據處理的流程串聯起來,這里我選擇使用的是Oozie,也有很多其它選擇。

1、數據存儲

基于Hadoop的數據湖主要用到了HDFS、Hive和HBase,HDFS是Hadoop平臺的文件存儲系統,我們直接操縱文件是比較復雜的,所以可以使用分布式數據庫Hive或HBase用來做數據湖,存儲接入層、數據倉庫、數據集市的數據。

Hive和HBase各有優勢:HBase是一個NoSQL數據庫,隨機查詢性能和可擴展性都比較好;而Hive是一個基于HDFS的數據庫,數據文件都以HDFS文件(夾)形式存放,存儲了表的存儲位置(即在HDFS中的位置)、存儲格式等元數據,Hive支持SQL查詢,可將查詢解析成Map/Reduce執行,這對傳統的數據分析平臺開發人員更友好。

Hive數據格式可選擇文本格式或二進制格式,文本格式有csv、json或自定義分隔,二進制格式有orc或parquet,他們都基于行列式存儲,在查詢時性能更好。同時可選擇分區(partition),這樣在查詢時可通過條件過濾進一步減少數據量。接入層一般選擇csv或json等文本格式,也不做分區,以盡量簡化數據同步。數據倉庫則選擇orc或parquet,以提升數據離線計算性能。

數據集市這塊可以選擇將數據灌回傳統數據庫(RDBMS),也可以停留在數據分析平臺,使用NoSQL提供數據查詢或用Apache Kylin來構建數據立方體,提供SQL查詢接口。

2、數據同步

我們通過數據同步功能使得數據到達接入層,使用到了Sqoop和Kafka。數據同步可以分為全量同步和增量同步,對于小表可以采用全量同步,對于大表全量同步是比較耗時的,一般都采用增量同步,將變動同步到數據平臺執行,以達到兩邊數據一致的目的。

全量同步使用Sqoop來完成,增量同步如果考慮定時執行,也可以用Sqoop來完成。或者,也可以通過Kafka等MQ流式同步數據,前提是外部數據源會將變動發送到MQ。

3、ETL及離線計算

我們使用Yarn來統一管理和調度計算資源。相較Map/Reduce,Spark SQL及Spark RDD對開發人員更友好,基于內存計算效率也更高,所以我們使用Spark on Yarn作為分析平臺的計算選型。

ETL可以通過Spark SQL或Hive SQL來完成,Hive在2.0以后支持存儲過程,使用起來更方便。當然,出于性能考慮Saprk SQL還是不錯的選擇。

講師介紹

[[233131]]

鄭治明

ThoughtWorks系統架構師

擔任多年系統架構師工作,目前在NoSQL、微服務、大數據及前端等多個技術方向都有架構實踐。現任ThoughtWorks高級咨詢師。

責任編輯:未麗燕 來源: DBAplus社群
相關推薦

2015-07-01 13:51:12

HadoopMapReduce數據分析

2017-09-27 14:29:41

SupersetPython數據分析

2019-04-23 15:35:53

Hadoop大數據數據處理

2017-07-22 00:41:27

大數據數據存儲

2017-09-18 17:59:23

Hadoop數據分析

2019-07-24 09:31:28

2019-06-19 16:01:14

Spark數據分析SparkSQL

2024-11-01 08:16:54

2020-07-21 10:09:01

數據分析技術IT

2013-10-11 10:10:18

惠普HP HAVEn

2018-01-31 21:26:48

HadoopSparkStream大數據

2011-09-02 10:59:02

大數據數據分析Hadoop

2013-12-17 09:52:13

pythonhadoopmapreduce

2016-12-22 09:52:13

Hadoop大數據分析

2011-08-12 11:14:42

大數據數據分析平臺架構

2013-01-18 10:04:33

大數據分析

2023-05-15 12:56:32

運營數據分析

2013-04-27 10:07:04

大數據全球技術峰會阿里淘寶

2012-05-30 11:29:14

Hadoop大數據

2013-04-28 10:01:28

HDInsightWindows AzuHadoop
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 蜜臀av日日欢夜夜爽一区 | 亚洲精品一区二区三区丝袜 | 亚洲一区二区精品视频 | h在线免费观看 | 成人在线精品视频 | 日韩免费一区二区 | 国产一二三区免费视频 | 国产一区二区欧美 | 黄色大片在线免费观看 | 欧洲在线视频 | 欧美激情一区二区三级高清视频 | 久一精品 | av电影一区二区 | 亚洲欧美第一视频 | 一区二区影院 | 国产精品一区二区电影 | 91视频在线 | 亚洲欧美成人影院 | 成人av免费 | 国产精品久久久久一区二区 | 国产综合第一页 | 欧美自拍视频 | 爱爱免费视频 | 久久国产精品久久久久 | 91精品一区二区 | 欧美白人做受xxxx视频 | 欧美黑人体内she精在线观看 | 国产一区二区在线观看视频 | 亚洲国产成人在线视频 | 精品三级 | 国产网站在线播放 | 国产精品欧美一区二区 | 久久久久久久久久久久亚洲 | 日韩欧美二区 | 欧美综合一区二区三区 | 视频在线一区二区 | 国产视频在线观看一区二区三区 | 精品久久久久久 | 精品国产乱码一区二区三区a | 国产乱码精品一品二品 | 国产精品一区二区不卡 |