Cloudera和Hortonworks宣布合并:對Hadoop的一記重創(chuàng)!
近日,大數(shù)據(jù)領域的兩大巨頭公司Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收購Hortonworks,Cloudera股東最終獲得合并公司60%的股份。 這筆交易意味著Hadoop市場再也無法維持兩大競爭對手對峙的狀態(tài)了。
在Hadoop的世界中,規(guī)模最大、知名度最高的公司就是Cloudera。Cloudera努力為開源Hadoop提供支持,同時將數(shù)據(jù)處理框架延伸到一個全面的“企業(yè)數(shù)據(jù)中心”范疇。Hortonworks也是企業(yè)級全球數(shù)據(jù)管理平臺,同時也是服務和解決方案的領先供應商,為100強企業(yè)中的一多半提供‘任何類型數(shù)據(jù)’的可操作信息。此次最大的兩家數(shù)據(jù)服務商Cloudera和Hortonworks宣布合并,表示要創(chuàng)建世界領先的數(shù)據(jù)平臺。
本次交易要點:
1、創(chuàng)建世界領先的數(shù)據(jù)平臺,增加規(guī)模和資源,提供業(yè)界第一個企業(yè)級數(shù)據(jù)云,提高公共云的易用性和靈活性;
2、制定清晰的行業(yè)標準;
3、加速市場發(fā)展,推動物聯(lián)網(wǎng)、流媒體、數(shù)據(jù)倉庫、混合云、機器學習、人工智能等領域的創(chuàng)新
4、利用補充產品擴大市場機會,包括Hortonworks DataFlow和Cloudera Data Science Workbench
5、加強與公共云供應商和系統(tǒng)集成商的伙伴關系
6、預計將產生重大的經(jīng)濟利益并改善利潤率:
收入約為7.2億美元
超過2,500名客戶
800多名客戶超過$ 100,000 ARR
超過120家客戶的ARR超過100萬美元
超過1.25億美元的年度成本協(xié)同增效
CY20的現(xiàn)金流超過1.5億美元
超過5億美元的現(xiàn)金,沒有債務

顧問、管理層以及董事會等動向
交易完成后,Cloudera的首席執(zhí)行官Tom Reilly將擔任首席執(zhí)行官;Hortonworks的首席運營官Scott Davidson將擔任首席運營官;Hortonworks的首席產品官Arun C.Murthy將擔任合并后公司的首席產品官;Cloudera的首席財務官Jim Frankola將擔任合并后公司的首席財務官。Hortonworks的首席執(zhí)行官RobBearden將加入董事會?,F(xiàn)任Cloudera董事會成員MartyCole將擔任董事會主席。

新成立公司的董事會最初將由九名董事組成。包括Bearden先生在內的四位董事將來自Hortonworks現(xiàn)有的董事會。包括Reilly先生在內的五位董事將來自Cloudera現(xiàn)有的董事會。合并后的董事會將選出第十名董事。
其中,Morgan Stanley&Co.LLC擔任Cloudera的財務顧問,F(xiàn)enwick&West.LLP擔任其法律顧問。Qatalyst Partners擔任Hortonworks的財務顧問,Latham&Watkins.LLP擔任其法律顧問。
Hadoop多年來一直是大數(shù)據(jù)的代名詞,但市場和客戶需求已經(jīng)發(fā)生了變化,此次兩大公司合并無疑會是對Hadoop的一記重創(chuàng)。在幾大趨勢的推動下,Hadoop的影響正在逐漸降低!
公有云浪潮正在上升
第一個大趨勢是企業(yè)向公有云的轉變。各種規(guī)模的公司都在增加對AWS、Azure和Google Cloud服務的采用,而犧牲了內部部署基礎架構和軟件。根據(jù)IDC和Gartner的報告,企業(yè)服務器收入連續(xù)下降。前三大云提供商(占云市場份額的90%)提供自己的托管Hadoop/Spark服務,例如亞馬遜的Elastic Map Reduce(EMR)。這些都是完全集成的產品,具有較低的購置成本并且更便宜。 如果企業(yè)正在轉向云計算,那么選擇這類將Hadoop產品視為其中一部分的云平臺既省時又省力,這幾乎是一個很自然的決策。并且,具有諷刺意味的是,Cloudera并沒有加入云時代,這個在Hadoop上優(yōu)勢明顯的公司并未發(fā)掘這一先機。
存儲成本 降低
第二大趨勢是什么?云存儲的經(jīng)濟性正在碾壓Hadoop的存儲成本。 在2005年推出時,Hadoop分布式文件系統(tǒng)(HDFS)是革命性的一大改進,它將服務器與普通硬盤驅動器結合,并將它們轉變?yōu)槟軌蛴蒍ava應用程序兼容并行IO的分布式存儲系統(tǒng)。當時,我們沒有類似的東西可以選擇,它就是一個關鍵組件,允許并行處理不適合單個機器運行的大規(guī)模數(shù)據(jù)集。但那是13年前的事了, 如今有許多便宜得多的替代品,主要是對象存儲服務,如AWS S3,Azure Blob存儲和Google云端存儲。 一個TB的云對象存儲成本約每月20美元,而HDFS每月約100美元(不包括運營成本)。 例如,谷歌的HDFS服務僅僅是將HDFS操作轉換為對象存儲操作,但價格卻便宜了5倍。
更快,更好,更便宜的云數(shù)據(jù)庫
Hadoop的問題并不止于此,因為它不僅受到云供應商Hadoop/Spark服務和對象存儲服務的直接競爭。第三大趨勢是“無服務器”,它的出現(xiàn)完全消除了運行Hadoop或Spark的需要。Spark的一個常見用例是為用戶處理ad-hoc分布式SQL查詢。谷歌率先在2011年推出了名為BigQuery的革命性服務,以完全不同的方式解決了同樣的問題。它允許對存儲在其對象存儲服務中的任何數(shù)據(jù)量運行即席查詢(無需將其加載到HDFS等特殊存儲中),用戶只需為計算時間付費:如果需要1,000個core,只需3.5秒即可運行查詢,這就是所支付的全部費用。企業(yè)無需配置服務器、安裝操作系統(tǒng)、安裝軟件、配置所有內容以將集群擴展到1,000個節(jié)點,以及像Hadoop/Spark一樣提供和關注集群。谷歌做了所有這些繁瑣的工作,因此這個名字叫“無服務器”。有些銀行運行著2000個節(jié)點的Hadoop/Spark集群,由數(shù)十名IT人員操作和維護,無法與BigQuery的靈活性、速度和規(guī)模相匹敵,還必須支付所有硬件、軟件和人員費用才能運行和維護Hadoop。
BigQuery就是一個例子。 其他云數(shù)據(jù)庫服務同樣具有大規(guī)模,高度靈活,全球分布等特點。初創(chuàng)公司Snowflake,Google Big Table,AWS Aurora和Microsoft Cosmos等,他們所提供的服務比安裝Hadoop/Spark更容易使用,用戶可以在5分鐘內啟動并運行,整個過程只需要數(shù)十美元,不需要50萬美元的采購訂單和數(shù)周的安裝、配置和培訓。
容器、Kubernetes和機器學習
第四大趨勢是容器和Kubernetes。 Hadoop / Spark不僅僅是一個存儲環(huán)境,也是一個計算環(huán)境。同樣,早在2005年,Hadoop的另一個革命性產品誕生,這就是MapReduce,Map-Reduce方法為Java應用程序的并行計算提供了框架。但Cloudera和Hortonworks基礎設施以Java為中心(以Scala為中心的Spark)與今天的數(shù)據(jù)科學家在Python和R中進行機器學習是不一致的。企業(yè)需要不斷迭代和改進機器學習模型并讓其學習生產數(shù)據(jù),這就意味著Python和R模型是本地部署所必需的,如果你希望借助機器學習的能力。
容器和Kubernetes與Python和R一樣,為分布式計算提供了更加靈活和強大框架。無論如何,這些都是軟件開發(fā)團隊的目標,他們或許并不打算在Hadoop/Spark之上分發(fā)新的微服務應用程序,因為這過于復雜和有所限制。
經(jīng)過了近10年,Cloudera和Hortonworks才得以成為大數(shù)據(jù)世界的中心,然而,如今大數(shù)據(jù)的重心已經(jīng)轉移到其他地方。領先的云計算公司沒有像Cloudera和Hortonworks一樣運行大型Hadoop/Spark集群,他們更喜歡在容器等之上運行分布式云數(shù)據(jù)庫和應用程序。他們使用Python,R和其他非Java語言進行機器學習。越來越多的企業(yè)正在轉向類似的方法,因為他們希望獲得相同的速度和規(guī)模效益。
本文作者
Mathew Lodge是Anaconda的產品和營銷高級副總裁。他在云計算和產品方面擁有20多年的豐富經(jīng)驗。在加入Anaconda之前,他曾擔任Weaveworks的首席運營官,Weaveworks是容器和微服務網(wǎng)絡和管理初創(chuàng)公司; 他曾擔任VMware云服務部門的副總裁,并共同創(chuàng)立了VMware的vCloud Air IaaS服務。