Gartner預警:千萬別把數據湖與數據倉庫混為一談
譯文【51CTO.com快譯】炒作過后就是幻滅,***有價值的東西才會出現。
2014年年中,市場研究機構Gartner的兩位分析師對于炒作越來越猛的數據湖(data lake)概念進行了一番尖銳的批評。
Gartner的研究主管Nick Heudecker說:“數據湖方面的基本問題是,它對于信息使用者做了某些假設。”
“它假設使用者認識或了解關于采集如何數據的上下文偏見(contextual bias),假設他們知道如何合并和協調不同的數據源,而沒有‘先驗知識’;假設他們了解數據集的不完整性,不管是什么樣的數據結構。”
一年半后,Gartner的擔憂似乎并沒有得到緩解。雖然確實有成功的項目,但是也有失敗案例,而關鍵成功因素似乎是深入了解數據湖和數據倉庫各自扮演的不同角色。
Heudecker表示,數據湖常常被廠商說成是應對大數據挑戰的一種手段,它其實有助于你搞清楚針對你的數據提出的新問題,“前提是你得有相應技能。”
“如果這是你想要做的,我倒不太關心數據湖的具體實施。但是如果你的場景是把原先針對數據倉庫的服務級別協議(SLA)重新實施于數據湖,風險就很高了。”
Heudecker表示,數據湖通常針對不同的使用場合、并發性和多租戶水平進行優化。
“換句話說,別頭腦發熱將數據湖用于數據倉庫。”
他表示,需要兩者完全合情合理,因為各自針對不同的服務級別協議、用戶和技能進行了優化。
籠統地說,數據湖是面向整個企業的平臺,用于分析采用原生格式的不同數據源,以消除數據攝取的成本和數據轉換復雜性。而這里就面臨挑戰:數據湖缺乏語義一致性和經過治理的元數據,因而將分析方面的許多責任推到熟練用戶的身上。
Heudecker表示,大家的認識有所提高,但是數據湖炒作仍然很普遍。
由于實施數據湖的技術選擇繼續在迅速變化,這項技術的成熟度更難掌控。
Heudecker說:“比如說,Spark是一種流行的數據處理框架,它平均每隔43天就推出新版本。”
他表示,數據湖項目的成功因素歸結為元數據管理、是否具備技能以及執行相應級別的治理機制。
“我接觸過這樣的公司:建立起了數據湖,往里面放入一堆數據,卻根本找不到任何有價值的信息。另一些公司根本不知道哪些數據集不準確、哪些數據集高品質。與IT行業的其他領域一樣,這方面同樣沒有妙方高招。”
他表示,數據湖是個架構概念,而不是一種特定的實施方法。
“就像任何新的概念或技術一樣,總是會出現炒作期,然后是幻滅期,***才成為一種廣為人知的實踐。
數據湖會繼續是使用它們的數據科學家的真實反映。
這項技術可能會改變和改善,可能會充分發揮GPU或FPGA之類技術的優勢,但總的目標是,發掘數據的新用途和新機會。”
原文:Data lakes, don't confuse them with data warehouses, warns Gartner
【51CTO.com獨家譯稿,合作站點轉載請注明來源】