數據湖:大數據游泳的安全方式?
自從Pentaho公司***技術官詹姆斯•狄克遜創造了“數據湖”這個詞,至今已有五年多的時間。他當時提出這個建議,“如果你認為數據集市是一個經過清洗,方便消費的瓶裝水商店的‘數據湖’,那么數據湖則是一個更自然狀態的水體。”這個比喻很簡單。但根據專家的經驗,許多最終用戶對這個的概念還有很多困惑。在這篇文章中,專家想澄清數據池是什么,組織是否會考慮使用數據湖,以及他們使用數據湖所面臨的挑戰,并概述了一些支持數據湖軟件工具的發展。
數據湖提供了一個處理大數據的方法。數據湖結合任何格式和任何類型的數據的海量存儲能力,以及改造和分析數據處理能力。通常,數據湖使用Hadoop技術實現。來自不同來源的詳細原始的數據被加載到一個單一的綜合信息庫,可以看到提供給用戶分析的任何數據。要理解為什么數據湖已成為流行的這種方法與企業數據倉庫的對比是很有幫助的(EDW)。在某些方面,一個企業級數據倉庫就類似于一個數據湖,可以作為整個組織的信息的集中存儲庫。然而,數據加載到一個企業級數據倉庫一般概括為結構化數據。工程數據倉庫系統是典型的基于關系數據庫的技術,其目的是為了處理結構化信息。雖然已經在關系數據庫的可擴展性有了一些進步,他們一般沒有Hadoop那樣的可擴展性。由于這些技術是不可擴展的,存儲到組織中的所有原始數據,采用它是不實際的。因此,有必要總結。與之形成對比的是,一個數據湖包含了組織中產生的最詳盡的數據。所述的數據可能是結構化的信息,如銷售交易數據,或非結構化信息,例如在客戶服務交互中交換的電子郵件。
Hadoop經常使用數據湖
Hadoop可以存儲和管理大量后續分析處理的結構化和非結構化數據。Hadoop的出現使其存儲大容量信息更加實惠和可行,并且組織開始收集和存儲整個組織不同系統的原始細節。Hadoop也成為非結構化信息的存儲庫,如社交媒體和諸如日志文件的半結構化數據。事實上,人們的基準研究顯示,社會化媒體數據是第二個最重要的來源,也在大數據分析中使用的外部信息。
除了處理更大的卷和更多種類的信息以外,數據湖能夠更快地獲得信息。由于數據是以原始形式聚集,不需要預處理。因此,一旦產生和收集,其信息可以被立即添加到數據湖。這種方法已經引起了一些爭議,許多行業分析師甚至廠商都在擔心數據湖會變成數據沼澤。一般情況下,圍繞數據源缺乏治理的數據成為數據湖的焦點,這是一個適當的話題。這些數據集應該像組織內的任何其他信息資產一樣被管理。所面臨的挑戰是,大多數的治理的工具和技術已經為關系數據庫和EDWs開發。從本質上說,數據湖泊所使用的大數據技術已經超過了自己所需,而沒有提供為企業部署所需的所有功能。
另外,也許圍繞術語有一些輕微的爭議。專家提出這個問題,這樣,無論供應商選擇的術語如何,人們可以識別數據湖和意識到的挑戰。Cloudera的企業數據中心使用的術語來表示與數據湖本質上相同的概念。Hortonworks也包含數據湖的術語。IBM公司承認數據湖的價值以及其在這個崗位的挑戰,但IBM公司的大數據傳播者吉姆•庫比拉斯說,質疑最近在LinkedIn所提到的職位的術語,“數據湖”術語并不是IBM網站上的突出特色。
盡管面臨著爭議和挑戰,數據湖繼續增長受到廣泛歡迎。它們提供了數據科學的重要功能。首先,它們包含進行預測分析的必要的詳細數據。其次,他們允許非結構化數據的有效訪問,如社交媒體或客戶交互等文字。對企業來說,該信息可建立客戶和他們行為的一個更完整的輪廓。數據湖也比傳統的EDW可用架構提供更快的數據。而通過云計算的基準研究數據和分析顯示,五分之一(21%)的組織實時了他們的數據。該研究還表明,這些組織通常對整合他們的數據都比較滿意,并在他們的結果方面更加自信。誠然,數據湖包含原始信息,它可能需要更多的分析和操作,因為數據還沒有清洗掉,但時間就是金錢,速度更快的訪問往往會導致新的收入機會。在參與基準研究預測分析的一半參與者表示,他們的分析已經創造了新的收入機會。
由于認識到缺乏治理和管理工具,一些機構毫不猶豫地采用數據湖,而其他公司也在采用。在這個領域的供應商在此期間已經顯現出他們的能力。有些公司,例如Informatica公司為了數據湖泊獲得世界EDW數據治理能力。專家***發布了一篇關于Informatica的大數據功能,稱之為智能數據湖。其他廠商正在提高自己的EDW能力。InformationBuilders公司和Teradata公司在今年春天都公布了數據湖。此外,新興的供應商特別專注于數據湖泊。PodiumData表示,其提供了一個“企業數據湖管理平臺。”
那么采用數據湖安全嗎?好了,就像你不知道如何游泳就不應該跳進湖中一樣,如果你沒有管理其信息的計劃就不應該采用數據湖。數據湖可以充分利用大數據,并創建新的收入機會。而組織采用合適的工具和培訓之后,那么數據湖可能值得一試。