大數據來襲 傳統IT廠商緊握Hadoop機遇
大數據時代已經來臨,并悄悄的影響著我們的生活。根據IDC最近一項研究顯示,在Facebook上每20分鐘就有100萬個新鏈接被分享,1000萬條用戶評論被發布。Facebook和其他所有互聯網網站、互聯網應用,已經逐漸變成了整個數據采集、分析、處理、增值的數據架構。
在中國,社交網絡同樣如火如荼。新浪副總裁王高飛就曾表示,新浪微博的注冊用戶已超過3億,用戶平均每天發布超過1億條微博內容,相當于每10個中國人里面,就會有一人每天發布一條微博。每位用戶的平均在線時長為60分鐘,活躍用戶中有60%通過移動終端登錄,所有來自移動終端的原創內容中,有40%的微博分享照片。在社交網絡的影響下,用戶通過移動設備能夠在任何時間、任何地點、任何狀態下消費和創造數據。
社交網絡和移動互聯網的發展催生出大量的非結構化數據,這是一種有別于傳統結構化的一種數據類型,常見的圖像、視頻、音樂、辦公文檔、Web頁面、微博、即時通信和傳感器產生的數據等都屬于非結構化數據。據英特爾亞太研發有限公司總經理、軟件與服務事業部中國區總經理何京翔博士介紹,當前每48小時產生的數據量相當于人類文明到2003年產生的數據量總和,未來隨著物聯網和智能城市的發展,這一數字將更加驚人,且多為傳感器等數據采集裝置所產生的非結構化數據。
除此之外,傳統企業同樣面臨大數據的挑戰。據Gartner預測,企業數據將在五年內增加800%,其中80%是非結構化的。來自團體、社區,以及社交網絡的非業務數據會成為這種趨勢中的大部分。非結構化數據的爆炸式增長,使傳統數據庫面臨巨大挑戰,Hadoop逐漸成為全球IT產業的寵兒。
Hadoop是一個100%的分布式文件系統,被稱為繼Linux以來最成功的開源軟件,其最大的優勢就是存儲和計算非結構化數據。Hadoop可以利用高性價比的X86服務器組成高性能集群,當數據量增加到無法負荷的時候,只需增加相應節點即可滿足計算需求,價格低廉的存儲和計算是大數據的推動力。#p#
傳統數據庫的Hadoop夢想
與Hadoop不同,數據庫自誕生之日起,就承載了企業中結構化數據的日常管理。數據庫的發展經歷了人工管理、文件系統和數據庫系統三個階段,在市場趨勢的影響下,數據庫朝著新的方向不斷變革。據IDC統計,2011年全球數據總量已經達到了1.8ZB,2020年將達到35ZB,這意味著全球數據將進入大爆炸的時代。傳統數據庫廠商紛紛推出各自的大數據解決方案,這些解決方案有一個共同的關鍵詞——Hadoop。
Hadoop分布式系統基礎架構,主要由HDFS、MapReduce和HBase組成,是一個能夠便捷的開發和運行處理大數據的軟件平臺。Hadoop不等于數據庫,它們之間最大的區別就在于,數據庫擅長處理結構化數據,而Hadoop擅長處理非結構化數據,數據類型多樣化則是大數據的特征之一。Hadoop對數據庫廠商而言,既是威脅,也是機遇,如果能夠讓Hadoop為數據庫所用,將為數據庫打造一片新的天空。下面筆者將對支持Hadoop的數據庫進行盤點,并對其大數據策略簡要分析。
·Oracle:甲骨文公司在數據庫領域一直處于領先地位,其旗下的Oracle數據庫是一款最受歡迎的關系型數據庫產品。甲骨文公司全球副總裁、大中華區技術總經理喻思成曾表示,甲骨文公司更專注的是結構化的工具和RDBMS平臺,但在過去的一年中,甲骨文公司也開始走進大數據時代。事實也的確如此,甲骨文公司意識到Hadoop在大數據處理方面的潛力,推出以Hadoop為基礎的大數據機(Big Data Application),其中包括開源Apache Hadoop、Oracle NoSQL數據庫、Oracle數據集成Hadoop應用適配器、Oracle Hadoop裝載器以及開源R,并與Cloudera公司合作提供Apache Hadoop系列軟件。
·IBM DB2:IBM是關系型數據庫的創造者,對數據庫的誕生和發展舉足輕重,然而處在大數據的新時期,老牌關系型數據庫也需要不斷創新、迎接挑戰。IBM中國研究院院士、首席技術官王云曾在2012中國數據庫技術大會上表示,大數據不能用傳統方法處理,傳統關系型數據庫起源于OLTP功能,能夠保證數據準確記錄;而大數據是新的應用,是OLAP的體現,這也是關系型數據庫不能滿足大數據的原因。IBM推出的大數據平臺包括Hadoop和Stream Computing兩個組件,通過新的路徑解決大數據分析處理。
·SQL Server:微軟作為全球知名的軟件公司,在數據庫領域的地位不容小覷。微軟SQL Server 2012引入Hadoop,幫助客戶無縫存儲和處理所有類型的數據,包括結構化、非結構化和實時數據。除此之外,微軟還將同時在Windows Azure平臺和Windows Server上提供 Hadoop,形成完整的大數據解決方案。正如微軟亞太研發集團首席技術官孫博凱所說,微軟與Hadoop是一個強強組合,能夠把Hadoop的高性能、高可擴展與微軟產品易用、易部署的傳統優勢融合到一起。
·SAP:SAP公司是全球知名的企業管理軟件供應商,自2010年SAP收購Sybase以來,開始成為數據庫界一顆冉冉升起的新星。SAP將數據庫技術作為2012年重點發展領域之一,形成了以SAP HANA為核心,以SAP Sybase數據庫為基礎的大數據戰略。在這一戰略中,特別重要的一環就是Hadoop。通過SAP HANA和SAP Sybase IQ與Hadoop的集成,增強對Hadoop等大數據源的獲取能力,并提供深度集成的預處理基礎架構。
·EMC Greenplum:EMC是全球知名信息存儲服務提供商,與SAP相似,在2010年收購了Greenplum,開始發展其數據庫市場。目前Greenplum的數據庫產品包括傳統的Greenplum Database和Greenplum HD(Hadoop),前者用來應對企業結構化數據,后者可以將非結構化數據導入Greenplum中進行存儲和分析。EMC在中國的市場戰略,以“大數據推動業務轉型”為核心,EMC數據計算產品部大中華區總經理劉偉光曾對筆者表示,EMC之所以會推出Greenplum Hadoop版本,是對Hadoop的未來發展前景充滿信心。
除了以上提到的五款主流數據庫,仍有越來越多的傳統數據庫廠商正在加入Hadoop陣營,這其中還包括Teradata、Informatica、Pentaho、Talend等數據庫、數據倉庫及商業智能服務提供商。此外,Hadoop還是NoSQL數據庫的主要架構之一。