成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你的數據倉庫還在為企業業務拖后腿嗎?

原創
大數據 數據庫 數據倉庫
數據倉庫系統長期以來一直是企業IT架構的重要組成部分。隨著開源技術的不斷發展以及云端部署方式的不斷深入,傳統數據倉庫的局限性日益凸顯,難以適應新技術帶來的市場變革,如何面向大數據技術進行數據倉庫的優化、轉型是企業IT管理者面臨的重要挑戰。處于不同階段的企業如何應用大數據技術?如何面向大數據技術進行數據倉庫轉型?如何對現有數據倉庫進行優化?如何在Hadoop中進行性能優化?這些已成為困擾IT管理者的主要問題。

【51CTO.com原創稿件】

——傳統數據倉庫向大數據的漸進式轉型

數據倉庫系統長期以來一直是企業IT架構的重要組成部分。隨著開源技術的不斷發展以及云端部署方式的不斷深入,傳統數據倉庫的局限性日益凸顯,難以適應新技術帶來的市場變革,如何面向大數據技術進行數據倉庫的優化、轉型是企業IT管理者面臨的重要挑戰。處于不同階段的企業如何應用大數據技術?如何面向大數據技術進行數據倉庫轉型?如何對現有數據倉庫進行優化?如何在Hadoop中進行性能優化?這些已成為困擾IT管理者的主要問題。

帶著諸多疑問,51CTO記者采訪了Cloudera售前技術經理、資深解決方案顧問徐峰先生,徐峰擁有14年數據倉庫的項目實施經驗,曾作為首席架構師參與過多個大型數據倉庫項目的架構設計和項目規劃工作。徐峰表示,數字化時代,隨著企業內部數據的快速增長,以及外部數據采集成本的不斷降低,傳統數倉在數據存儲和分析應用上都面臨著巨大的挑戰。

現有的數倉環境

傳統數倉面臨以下局限性:

  • 存儲成本較高,在線保留全量、海量數據的目標難以實現;
  • 元數據定義僵化,難以靈活集成多種數據源、支持即席查詢;
  • 集群管理復雜、計算資源有限,缺乏統一的管理接口及水平擴展能力;
  • 隨著數據規模、用戶規模的不斷增加,實時分析(例如:欺詐行為識別)SLA無法滿足;
  • 常用的數據分析挖掘工具處理全量數據時間過長。

數據倉庫呈現三大發展趨勢

  1. 數據倉庫要處理更多類型的全量數據:企業必須能夠有效地存儲、加工和分析數據,包括結構化數據、半結構化數據和非結構數據。
  2. 數據倉庫要提供更加廣泛的數據訪問:數據倉庫的訪問不再只限于IT部門,所有部門的用戶都會要求自助訪問全真的數據,甚至希望無需IT部門的協助便可以自行進行數據準備,當然,這個過程中的高訪問延遲也是不被接受的。
  3. 數據倉庫要采取更加實時的業務決策:流式數據為理解和調整當前的業務決策創造了新的可能,但前提是我們要具備對流式數據進行實時處理的能力。實時計算需要新的技術架構,不僅要將數據流與現有數據體系進行對接,還要能夠對其進行快速的分析。

企業該如何進行技術選擇?

針對這一問題,徐峰認為,企業應根據所處的不同階段進行選擇:

  • 起始階段:處于這一階段的大多數企業已采購MPP硬件搭建數據倉庫。為了保證業務延續性,對于起始階段的企業建議以傳統技術為主,以大數據技術為輔。例如:ETL處理仍然放在MPP平臺,只是利用HDFS做歷史數據歸檔,利用Spark Streaming做小批量數據的實時處理。
  • 發展階段:這一階段的企業用戶已經掌握了大數據的核心技能,發展階段建議以大數據技術為主,以傳統技術為輔。例如:將ETL處理全部轉移到Hadoop平臺,而只將處理邏輯簡單的固定報表部分放在MPP上。
  • 成熟階段:建議使用Hadoop平臺作為整體架構,將大數據技術應用到更好水平。

將數據倉庫規劃在Hadoop之上?

“企業可以選擇從一開始就將整個數據倉庫規劃在Hadoop之上。傳統數據倉庫架構的主要創始人Ralph Kimball博士在2015年發表專題演講時證實了Hadoop是可以完全取代MPP來建立數據倉庫的。”徐峰提到,“在全球范圍內,也確實有很多企業已經將他們的數據倉庫完全建立在Hadoop之上。”

但是從技術的角度,有一些數據倉庫技術或工具與Hadoop相比已非常成熟,可能已有數十年的歷史,對于這些長期應用的數據庫技術,Hadoop并不具備其中所有的功能或性能。但即便如此,很多用戶仍然選擇把他們的數據倉庫構建在Hadoop架構之上,這是為了能夠實現更加優越的可擴展性、更高的性價比,以及更好的靈活性。在實際應用中,即使是規模只有5個節點的小集群,企業使用Hadoop與其他技術選項相比,也能夠取得更好的產出、帶來更多的業務價值與競爭力。

Cloudera分析型數據庫全面升級

針對當前企業級數據倉庫(EDW)面臨的ETL批量作業運行緩慢、BI報表不能按時生成、業務用戶提交的查詢遲遲顯示不了結果等壓力,結合當前數倉發展的趨勢,以及企業的云化需求,Cloudera分析型數據庫版本進行了全面升級,于2018年8月正式推出了Cloudera數據倉庫版本。

徐峰介紹,Cloudera分析型數據庫已經在全球900多家組織機構里運行,是一款經歷過實戰打磨的產品。升級后的Cloudera數據倉庫版本提供了企業級混合云解決方案,包含了混合計算、混合存儲、混合控制三大關鍵因素,專為實惠經濟、強大可擴展的自助服務分析而構建。這款產品覆蓋了數據倉庫的整個生命周期,包括數據接入、存儲、管理、查詢、運行狀況檢查等等。

Cloudera數據倉庫版本適用于以下三場景

ETL卸載:將ETL任務從EDW遷移到Cloudera大數據平臺,極大的釋放EDW處理能力。基于Hadoop大規模分布式的處理能力,ETL任務將以更快的速度運行,并為包括EDW在內的下游系統提供服務,使得之前錯過的SLA成為歷史。

自助BI和探索性分析:全面開放數據,所有部門的用戶在其安全策略范圍內都能自助訪問全真數據。借助Read on Schema的靈活性和支持高并發的查詢能力,開發人員和分析人員能夠實現自助化數據探索,擺脫對IT部門的依賴,能最快的速度解決新問題。

EDW優化:通過Cloudera大數據平臺釋放EDW處理能力,您可以將EDW系統用于更加復雜的報表生成和熱數據處理,在相當長的一段時間內都無需增加EDW存儲或計算資源。 EDW和Cloudera大數據平臺的混搭結構可以降低數據存儲成本,提高數據處理和分析能力,充分發揮兩套系統各自的技術優勢。

Cloudera數據倉庫版本的四大優勢

數據規模和靈活性:Cloudera提供單一、可擴展的平臺,可以處理不同來源、不同類型的全量數據,以推動新的業務洞察。該版本專為Read on Schema功能而設計,可以快速訪問貼源的全真數據,甚至支持實時更新。

高性能和高并發支持:Cloudera的平臺提供高性能的SQL查詢工具,支持大數據量高并發訪問,因此所有部門的用戶都可以對數據進行探索性分析。而且,通過與第三方BI工具集成,可以沿用業務用戶的既有技能。

內置安全管控和數據治理模塊:開放的數據永遠不會以犧牲安全為代價,因此敏感數據的安全至關重要。 Cloudera是通過PCI安全認證的Hadoop平臺,內置安全管控和數據治理模塊。無論用戶采取何種方式訪問數據,只要利用Cloudera安全技術對用戶預設置權限,或者對數據預設置監管策略,您都可以繼續數據探索之旅,而不用擔心數據泄密或越權訪問。

采用開源技術,可在任何環境中移植:無論是本地部署,云端還是混合部署都完全適用,避免了技術鎖定的問題。

如何面向大數據技術進行數據倉庫轉型?

Cloudera大數據平臺為企業用戶提供了強大的技術保障:

首先,在數據加工方面,Hive具有大規模的數據處理能力以及用戶熟悉的SQL支持能力。 Hive-on-Spark利用Apache Spark的內存處理引擎,可以帶來更快的處理速度。Impala作為支持高并發性查詢的類MPP引擎,支持SQL開發人員和分析人員提交交互式查詢。開發人員也可以使用Hue作為開箱即用的SQL編輯器,為BI終端用戶提供更好的自助式服務。終端用戶也可以選擇通過第三方BI工具和平臺進行集成,通過Impala查詢接口以實現不間斷的分析。Kudu也建議與Impala配合在一起使用,這種新型存儲引擎通過流式計算或不斷更新的數據處理實現自助式BI和探索性分析,獲得近乎實時的洞察力,從而更好地推動業務決策。

其次,在數據安全方面,Cloudera將多層次的安全策略構建到平臺核心,企業可以充分利用Hadoop的靈活性和可訪問性,而不會對其數據安全造成風險。大量的并發用戶使用不同的工具訪問大規模的用戶數據,往往意味著安全夢魘,特別是處于高度監管或者包含敏感信息的數據。對于用戶本身,Apache Sentry允許安全管理員根據用戶的角色輕松設置權限,訪問權限會自動保留在整個平臺上。對于數據本身,Cloudera提供企業級加密和密鑰管理功能,借助底層芯片優化技術,Cloudera Navigator Encrypt可讓您加密所有的數據,包括元數據、日志等,而不會影響上層分析的性能。Navigator Key Trustee確保您的加密密鑰更加安全而獨立。

再次,在數據治理方面,只有Cloudera能在整個Hadoop平臺上提供全面的治理,包括支持集中審計,字段級血緣分析和數據生命周期管理。數據治理不僅對安全合規至關重要,而且在用戶行為驗證和置信方面也發揮著關鍵作用。一方面,企業的安全團隊可以全面了解誰在訪問數據以及他們正在訪問哪些數據;另一方面,數據管理員可以自動管理從數據導入到數據清理的整個流程;并且,業務用戶也能更好地了解數據,探索數據之間的關系,并驗證最終的分析結果。

另外,在負載管理方面,借助Cloudera Manager的資源池工具,管理員可以確保每個部門都擁有滿足其SLA所需的適當資源,并實現更佳的性能。借助Workload XM,管理員可以根據用戶需求和當前使用狀態輕松監控和調節資源,診斷和排查有問題的查詢。與Cloudera Director一起配合使用,資源管理甚至可以擴展到云端部署環境,并能夠根據用戶需求進行彈性擴展。

現代數倉環境

現有數據倉庫的優化可分為四個步驟

  1. 建議先從歷史數據和日志數據的處理開始做技術驗證,利用大數據技術處理“海量”的混合結構數據,同時支持實時、在線和離線處理。
  2. 逐步從客戶體驗、營銷為切入點,突出業務價值。利用大數據技術提供實時分析能力。
  3. 逐步把傳統數倉和大數據架構進行完全融合,讓全量數據“可用+可視”, 為業務人員提供自助式數據服務,培養數據思維。
  4. 從數據角度重構現有價值鏈,從“用數據”到“養數據”,再到“數據經濟”,利用大數據技術建立企業數據資產。

Hadoop性能優化工具

針對Hadoop性能優化的問題,Cloudera提供專為現代數據倉庫設計的智能的工作負載管理云服務——Cloudera Workload XM。與傳統的性能管理工具不同,Workload XM提供引導式自助服務性能分析,以便在整個生命周期內對工作負載提供可見性和有效控制。Cloudera Workload XM可以在不升級或安裝任何軟件的情況下工作,這意味著用戶可以跳過軟件安裝部署的步驟立即使用。

徐峰在此舉了一個實例:

某個用戶想利用WXM診斷當前數據倉庫的性能瓶頸。首先,用戶通過Cloudera Manager收集大數據平臺的日志診斷包,然后單擊“開始上傳”,WXM頁面顯示針對該診斷包的后臺分析大約需要30分鐘。

待后臺分析結束后,該用戶登錄WXM儀表盤,從首頁上查看到(8月13日 - 9月1日),總共有676043個查詢,失敗查詢占比為4.9%。儀表盤還會顯示其他信息:

  • 每天不同類型的查詢總數
  • 所有查詢按持續時間,查詢類型,DDL類型的分類匯總情況
  • 租戶資源消耗排名
  • 需要重點關注的查詢(包括運行時間最長的10大查詢;消耗CPU /內存最多的10大查詢;由Alanizer規則標記的10大查詢;耗資源最多的10大租戶等。)

該用戶比較關心跑得非常慢的查詢。他單擊“持續時間> 5s的查詢分布圖”,得到以下摘要信息:

  • 超過5秒的查詢總數和失敗的查詢總數
  • 所選查詢按持續時間,查詢類型,DDL類型的分類匯總
  • 失敗查詢分布情況(個數和占比%)(語法錯誤,權限驗證失敗,漫長的等待時間,Alanizer標志)
  • 熱門的查詢用戶

該用戶發現大多數慢查詢都是元數據查詢,因此他增加元數據標識過濾,同時調整時間范圍,以便在每小時窗口中查看詳細的查詢信息。由于元數據查詢基本上是管理員提交的,因此再將管理員用戶添加到過濾器中。

通過以上操作,該用戶最終得出結論:大多數慢查詢并非業務查詢,而是收集增量統計信息的查詢。

某城商行大數據應用案例

傳統數倉向大數據技術轉型是一項高難度工程,因此借鑒有價值的應用案例是很多企業管理者的共同選擇。徐峰例舉了國內某大型城市商業銀行的大數據技術應用案例,該城商行于2013年購買了Teradata企業數據倉庫平臺6650C(20TB),通過建立全行級的邏輯數據模型,集合和整合所有內部數據,建立全行統一的單一業務視圖。但是,隨著業務量的不斷增長,原有數據倉庫方案架構封閉、性價比低、應用面窄、廠商依賴等諸多問題日益突出。

為了避免每年花費大量經費來擴展Teradata基礎設施,該城商行改用運行在X86標準硬件上的Cloudera大數據平臺逐步替代Teradata。

該城商行通過采用Hive,Impala,Spark,HBase等各類技術來處理不同類型的數據,滿足了批量、實時交互以及流式數據多種不同的數據計算需要,同時借助Sentry實現了多部門訪問的數據安全控制。因為Hadoop平臺能存儲更多的數據,而且Impala查詢性能提升明顯,該城商行正在基于這些大量的歷史數據挖掘新的價值,如客戶畫像,精準營銷,風險管控等。

據了解,目前該城商行已經將大部分的Teradata數據倉庫應用遷移到Cloudera大數據平臺,包括CRM、監管報送、自助化分析、取數以及風險合規相關應用。同時,也基于大數據平臺新建了一些應用,例如:實時營銷和欺詐監控、在線明細查詢等等。

數倉遷移過程中的問題及解決方案

在數倉遷移過程中,該城商行也遇到了一些技術上的挑戰,通過攻關研發,并結合之前的數倉開發實踐,逐漸摸索出了相應的解決方案:

1、SQL引擎問題:解決了Teradata SQL遷移的三大問題,使其滿足數據倉庫應用開發的基礎要求:

  • 構建基于Python的運行框架,增加SQL解析層,解決SQL兼容性問題;
  • 封裝整合代碼模版,解決各種運行狀態跟蹤以及后續回滾處理,實現類存儲過程的效果;
  • 開發上百個自定義函數,涵蓋日常使用,提升應用開發效率。

2、數據模型改造:傳統數倉的數據模型存在以下問題:

  • 模型過于范式化
  • 模型開發流程繁瑣
  • 過于抽象,業務理解困難
  • 無法滿足SLA

新模型改造方法:

  • 模型語義精細,體現業務規則;
  • 簡化模型層次,提升訪問效率;
  • 弱化粒度拆分,減少維護成本;
  • 去范式化操作,以空間換時間。

3、數據質量管理:通過建設數據質量檢測平臺來加強大數據平臺上的數據倉庫日常數據質量管理的工作。該平臺結合行內數據標準定義,支持技術和業務規則批量配置。目前已經配置了1000+檢查規則,為大數據平臺之上的數據倉庫數據質量問題提供了快速定位和流程化解決方案。

Cloudera助力企業進行傳統數倉轉型

徐峰補充道,Cloudera能夠通過以下三個方面助力企業進行數據倉庫轉型:

一是企業版增強功能。Cloudera推出了針對企業應用進行優化并包含相應工具和售后服務的數據倉庫軟件版本。相較于免費版本,企業用戶可以獲得源碼級的技術支持服務,保障系統持續穩定運行;申請主動掃描集群服務,提前發現潛在的風險和問題;使用包含增強功能的管理和維護工具集,簡化系統運維和數據治理。

二是大數據咨詢和專業服務。Cloudera擁有一支極富Hadoop實踐經驗的資深專家團隊,該團隊專門為數據倉庫項目提供現場服務,包括:提供解決方案架構、應用實現、產品使用、系統優化方面的咨詢服務,提供集群定期健康檢查、集群故障時的緊急救援服務,以及基于客戶需求進行定制化開發工作等等。

三是人才培訓。Cloudera大學是培訓和認證的機構,提供業界最廣泛的Apache Hadoop培訓和認證。除了面向管理員、程序員、數據分析師和數據科學家不同角色的商業性培訓之外,還有公益性、學術性的培訓和交流。Cloudera也與清華大學達成了戰略合作,該項目旨在通過提供Hadoop平臺上的課程、軟件及技術培訓來培養更多專業領域的人才。

結語

傳統數據倉庫很難適應新時代的發展需求,面向云和大數據進行數據倉庫轉型已迫在眉睫,吸取前人經驗,對現有數倉進行優化,從而面向大數據技術進行平穩的數倉轉型,是企業的優秀實踐路徑。顯然,Cloudera在長期的技術和客戶服務過程中總結出了一條切實可行的實踐之道,并且在數據倉庫產品、咨詢、服務、工具和人才培養等方面已經得到了經久的打磨和鍛煉,想要進行數倉升級來滿足全新業務需求的企業,不妨一試。

附:嘉賓簡介

徐峰,現任Cloudera售前技術經理,資深解決方案顧問,主要負責金融行業Hadoop項目的整體架構設計實施,以及關鍵技術的研究工作。在此之前徐峰曾供職于Teradata專業服務部門,擁有14年數據倉庫項目實施經驗,長期從事數據存儲、處理、分析等相關工作,曾作為首席架構師參與過多個大型數據倉庫項目的架構設計和項目規劃工作,包括浦發銀行數據倉庫項目、興業銀行數據倉庫項目、上海農商銀行數據倉庫項目、交通銀行數據倉庫數據、東方航空數據倉庫項目等等。

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

 

責任編輯:查士加 來源: 51CTO
相關推薦

2016-08-21 14:45:41

數據倉庫自助型數據準備工具

2016-11-09 09:59:01

大數據產業奪冠

2020-01-20 14:30:39

HTTP概念標頭

2015-12-29 13:53:14

BeeCloud云計算支付

2019-05-24 11:51:18

BI數據倉庫數據分析

2022-02-24 07:03:13

JavaScrip語言

2017-10-18 12:05:40

云應用云備份數據

2017-08-17 15:52:38

企業數據倉庫

2018-08-21 21:33:14

薪資職位技術

2015-01-21 15:01:32

手游開發中小開發者

2018-09-04 05:05:29

2015-09-16 09:21:12

移動云技術數據管理

2015-07-09 11:32:26

AWSIaaS云計算

2014-06-19 10:31:14

團隊項目

2019-09-19 11:58:19

程序員月薪跳槽

2015-06-11 10:08:57

網絡延遲應用性能網絡監控

2014-08-28 09:55:19

中文郵箱郵箱賬號

2020-06-22 17:26:36

數據倉庫數據數據庫

2021-05-27 11:26:46

nodesassCSS

2021-09-01 10:03:44

數據倉庫云數據倉庫數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产91| 超碰97免费在线 | 国产欧美在线视频 | 国户精品久久久久久久久久久不卡 | 日韩在线免费视频 | 久久九九99 | 日本一区二区三区四区 | 中文字幕一区二区三区四区 | 少妇精品亚洲一区二区成人 | 亚洲精品欧美一区二区三区 | 欧美日韩国产一区二区三区 | 国产福利在线看 | 午夜精品久久久久久久星辰影院 | 精品国产一区二区三区免费 | 日韩在线播放一区 | 久久久久久av | 久久tv在线观看 | 男女羞羞视频在线看 | 国产精品久久精品 | 精品久久一区 | 在线看国产 | 亚洲视频一区二区三区 | 欧美xxxⅹ性欧美大片 | 男人的天堂视频网站 | 国产黄色在线 | 91在线精品视频 | 亚洲欧美另类在线观看 | 欧美激情视频一区二区三区在线播放 | 久久精品一区二区 | 天天拍天天插 | 日韩电影中文字幕在线观看 | 色www精品视频在线观看 | 亚洲精品九九 | 欧美日韩高清在线观看 | 国产小视频在线 | 欧美综合一区二区 | 国产一区二区精品在线 | 日韩免费一级 | 91精品国产乱码久久久久久久久 | 国精产品一区一区三区免费完 | 亚洲视频一区二区三区 |