Hadoop和企業(yè)信息管理:利用大數(shù)據(jù)的解決方案
過去幾年,大數(shù)據(jù)在全球商業(yè)環(huán)境中的重要性已得到堅定的確認。2017年看起來是 Apache Hadoo pimplementation (在開源開發(fā)和更多的商業(yè)選擇方面)在企業(yè)層面上,由于企業(yè)信息管理(EIM)仍然需要更多改進的大數(shù)據(jù)解決方案。
數(shù)據(jù)倉庫現(xiàn)代化、Hadoop項目級的采用和數(shù)據(jù)湖泊的使用的早期(和持續(xù))趨勢可能會繼續(xù)以更快的速度向前發(fā)展。在版本1和2之間,Hadoop已經(jīng)從一個主要面向批處理的處理器發(fā)展為一個強大的、實時的數(shù)據(jù)處理器,它可以處理企業(yè)級的大數(shù)據(jù)應用程序以及更傳統(tǒng)的遺留數(shù)據(jù)集。
今天,Hadoop可以提供一個能容納大型復雜的業(yè)務應用程序數(shù)據(jù)處理基礎設施。以大數(shù)據(jù)為處理模型的核心,運行在Hadoop上的典型業(yè)務系統(tǒng)包括三個不同的層:基礎結構層、數(shù)據(jù)層和分析層。因此,諸如MapR或Cloudera這樣的商業(yè)平臺供應商可能會發(fā)現(xiàn)很容易將Hadoop架構定位為滿足大多數(shù)企業(yè)需求的全方位實用平臺。
現(xiàn)代企業(yè)中的數(shù)據(jù)爆炸
“福布斯”的一篇標題為Hadoop為企業(yè)黃金時段做好準備的5個原因的博文,解釋了數(shù)據(jù)爆炸如何迫使組織通過第三方來擴展他們的業(yè)務應用程序,而不需要進行大量投資。在托管服務場景中,企業(yè)不必擔心基礎設施、內(nèi)部數(shù)據(jù)中心或專家人力--從而將全部時間和精力用于加快交付速度。
***的“錦上添花”是Hadoop的開源解決方案的穩(wěn)定供應,它將這個獨特的數(shù)據(jù)平臺的功能和能力擴展了幾倍。對于供應鏈系統(tǒng),這個故事有點不同。Hadoop是什么?它對供應鏈管理意味著什么?一文認為,作為供應鏈的基礎,風險評估應用程序是大量的“非結構化數(shù)據(jù)”,“Hadoop與MapReduce和HDFS為供應鏈項目中的風險評估和緩解提供了一個強大的組合。
面向企業(yè)信息管理的Hadoop
商業(yè)數(shù)據(jù)集已經(jīng)超越了數(shù)據(jù)庫,擴展到了網(wǎng)絡軌跡、GPS數(shù)據(jù)、傳感器數(shù)據(jù)和社會數(shù)據(jù)。新的“數(shù)據(jù)環(huán)境”需要先進的技術和工具來利用大量的多結構數(shù)據(jù),如果使用正確的工具處理,就能產(chǎn)生有利可圖的智能和視覺效果。文章還強調(diào),龐大的數(shù)據(jù)量使我們有必要找到節(jié)省成本的技術解決方案來存儲和處理這些數(shù)據(jù)。Hadoop是支持大數(shù)據(jù)的技術的極好解決方案,可以為業(yè)務用戶提供真正的好處。
Seed分析小組探索EIM面臨的大數(shù)據(jù)挑戰(zhàn),在那里,大數(shù)據(jù)分析被證明是在激烈競爭中取得成功的核心區(qū)別因素。像LinkedIn這樣的公司已經(jīng)利用“大數(shù)據(jù)分析”領先于競爭。有趣的觀察是,許多領先的軟件供應商已經(jīng)將Hadoop作為他們***的大數(shù)據(jù)應用程序平臺。
在全球范圍內(nèi),鼓勵企業(yè)開始規(guī)劃Hadoop上的大數(shù)據(jù)和大數(shù)據(jù)分析,如果它們還沒有這樣做的話。在這里,企業(yè)數(shù)據(jù)框架已經(jīng)被明確地定義為四個連續(xù)的步驟:數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)處理和智能收集。一篇題為“大數(shù)據(jù)分析時代企業(yè)數(shù)據(jù)倉庫的角色演變”的行業(yè)白皮書試圖解釋大數(shù)據(jù)技術需要適應傳統(tǒng)的進入企業(yè)信息管理模式。
“數(shù)據(jù)庫趨勢與應用”雜志報道了2017年數(shù)據(jù)和信息管理中的趨勢設定產(chǎn)品,最近,云已經(jīng)成為組織間一個***的數(shù)據(jù)存儲平臺。參加本次2016年DBTA調(diào)查的大多數(shù)組織有超過100TB數(shù)據(jù)。
Hadoop上的大數(shù)據(jù)
Apache的Hadoop***的開源版本需要高級的技術技能,而訂閱Hadoop -as-a- service可以減輕客戶機的維護負擔。HP與HortonWorks合作,在Hadoop和它自己的大數(shù)據(jù)技術之間建立了一個堅實的技術聯(lián)盟。
在這一廣譜的另一端,IBM提供了在云中的基于前提和托管的Hadoop版本。到目前為止,許多想要管理多結構的大數(shù)據(jù)的組織可能會依賴Hadoop來交付理想的結果。真正的挑戰(zhàn)在于為Hadoop數(shù)據(jù)庫和它們的內(nèi)部應用程序選擇合適的分析解決方案。
數(shù)據(jù)湖:獨特的Hadoop倉庫
數(shù)據(jù)湖有能力以不同的格式攝取原始數(shù)據(jù),并且可以很容易地擴展到pb級。在數(shù)據(jù)湖中存儲原始數(shù)據(jù)的***好處是,數(shù)據(jù)可以反復地重新定義業(yè)務需求和需求。這允許以最靈活的格式保存數(shù)據(jù)以適應任何新的應用程序。
在Hadoop上構建大數(shù)據(jù)用例
構建Hadoop基礎設施的一個有效方法是通過大數(shù)據(jù)用例。為了建立***用例,組織首先需要人力——一組能干的數(shù)據(jù)架構師和能夠根據(jù)現(xiàn)有數(shù)據(jù)可視化和構建解決方案的數(shù)據(jù)科學家。與這些專家一起,組織還需要數(shù)據(jù)分析師和商業(yè)情報專家從數(shù)據(jù)中提取洞見。在理想的情況下,這是一個多努力的練習,需要廣泛的技能和經(jīng)驗。
2017年的數(shù)據(jù)管理趨勢表明,Hadoop存儲設備的巨大成本優(yōu)勢使其成為現(xiàn)代企業(yè)數(shù)據(jù)存儲的***。DataLake保存原始格式數(shù)據(jù)的強大功能使其能夠在不同的應用程序中重復使用該數(shù)據(jù)。
Gartner發(fā)布了一張有用的信息圖表,以幫助理解Hadoop為什么能夠提供企業(yè)信息管理系統(tǒng)提出的大部分數(shù)據(jù)需求,這就需要適當?shù)卣项I域、路線圖、流程、工作流程,并充分關注數(shù)據(jù)治理,從而推動所希望的結果。
這張圖還試圖描述***數(shù)據(jù)官的作用,他***能領導大型企業(yè)信息網(wǎng)絡中的數(shù)據(jù)治理和數(shù)據(jù)管理工作。
展望未來
隨著企業(yè)數(shù)據(jù)量在戰(zhàn)略上的重要性不斷提高,傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫將繼續(xù)演化為更大更復雜的數(shù)據(jù)架構。從高層管理人員到車間經(jīng)理,每一個商業(yè)用戶都可能開始利用大數(shù)據(jù)應用程序來審查、分析和報告日常業(yè)務操作中的關鍵任務信息。
此外,如機器學習和深度學習等先進技術包含在企業(yè)大數(shù)據(jù)應用程序中,用于預測建模、針對客戶、產(chǎn)品定價或建議,像Hadoop這樣的開源平臺可能是成本高效的企業(yè)信息管理解決方案的***答案。這些趨勢將持續(xù)到2017年(及以后),并將通過Hadoop的sql化以及物聯(lián)網(wǎng)(物聯(lián)網(wǎng))的增長而得到加強。