VMworld 2012:Hadoop離虛擬化還有多遠?
如果軟件應用能夠超越一切基礎架構的差異性,企業(yè)IT將會少掉多少煩惱?本周舉行的VMworld 2012大會上,VMWare重申了該公司的重大圖謀:將所有物理資源虛擬化,實現(xiàn)全面池化以快速調(diào)配和部署,即軟件定義型數(shù)據(jù)中心(SDDC)。在應用層,這家虛擬化巨頭正在努力將Hadoop搬進虛機之中,以應對“大數(shù)據(jù)”。
大數(shù)據(jù)是時下業(yè)界熱議的話題,走向宏圖的路上,VMware自然無法對其視而不見,但要實現(xiàn)Hadoop的虛擬化,VMware能否一帆風順呢?
情定Hadoop,情有可原
站在大數(shù)據(jù)時代的邊上,Apache Hadoop由于其低成本、可擴展性等優(yōu)勢,成為IT廠商們的大數(shù)據(jù)處理策略的事實標準。因此,VMware對Hadoop青眼有加,也是意料之中的事,何況VMware的母公司EMC早已推出過Hadoop發(fā)行版,且EMC大數(shù)據(jù)分析平臺GreenPlum也是實現(xiàn)了Hadoop處理。
VMware首席技術官 Steve Herrod博士
VMworld 2012上,VMware首席技術官 Steve Herrod博士在演講中表示,Vmware的開源項目Serengeti,將支持企業(yè)能夠在虛擬和云環(huán)境中快速部署、管理和擴展Hadoop。
此前,VMware宣布了其大數(shù)據(jù)策略:在統(tǒng)一的vSphere云架構和HDFS文件系統(tǒng)之上,提供GemFire實時處理、GreenPlum交互處理及Hadoop批處理三種模式。另外,VMware收購的云端大數(shù)據(jù)分析工具Cetas,也是提供在Hadoop平臺上的分析服務的。(詳見:《三路出擊 VMware云平臺搶灘大數(shù)據(jù)》)

VMware大數(shù)據(jù)策略
從這個架構中我們也可以看出,Hadoop在虛擬環(huán)境中的成熟程度,對VMware的大數(shù)據(jù)策略至關重要。
#p#
先天不足,Serengeti補之
只是Hadoop既非萬能,也受限于環(huán)境。首先,作為開源項目,Hadoop存在部署和運營的復雜性、特定的硬件需求、安全上的顧慮和服務水平保障等障礙,讓企業(yè)很難充分發(fā)揮其威力,這也是各種Hadoop發(fā)行版誕生的直接原因。
對VMware來說,更為關鍵的是,根據(jù)Apache的Virtual Hadoop wiki文檔給出的結論,You can bring up Hadoop in cloud infrastructures, and sometimes it makes sense, for development and production. For production use, be aware that the differences between physical and virtual infrastructures can threaten your data integrity and security - and you must plan for that.(可以將Hadoop帶到云基礎架構上,但物理和虛擬基礎設施之間的差異可能危及數(shù)據(jù)完整性和安全性。)
在針對大數(shù)據(jù)項目的風險的探討中,許多業(yè)界專家都指出數(shù)據(jù)的完整性的重要性,所以這個問題必須解決,Serengeti應運而生。
Steve Herrod博士稱,Serngeti的作用就是可以快速在虛擬化環(huán)境中部署Hadoop,并進行有效的監(jiān)測和管理,實現(xiàn)Hadoop集群的高彈性。當然,VMware還提到過,虛擬化還讓Hadoop適用于多租戶環(huán)境,讓Hadoop安全性提高(這里指VMware虛擬化在不同集群之間產(chǎn)生強隔離)。
此外,VMware也致力于同Hadoop合作伙伴共同改變Hadoop分布式文件系統(tǒng)和Hadoop MapReduce開發(fā)。Spring for Apache Hadoop(2012年2月首次發(fā)布的開源項目)的更新,讓企業(yè)開發(fā)者能夠輕松利用Apache Hadoop開發(fā)分布式處理解決方案。
Serngeti開源項目
但還是有問題。虛擬化做得再好,性能損耗是很難避免的。微軟亞太研發(fā)集團首席技術官孫博凱(Prakash Sundaresan)坦言,Windows Azure的主要功能是提供池化的IT資源與服務,從每個節(jié)點看,虛擬層會造成每節(jié)點10%左右的性能損耗。
不過,VMware方面表示,Hadoop在物理和虛擬化環(huán)境下的運行性能的測試表明,兩者相差不超過10%,甚至是在一個物理機上運行兩個虛擬機的時候,虛擬環(huán)境下運行的性能還要稍微的優(yōu)于物理環(huán)境。

在相同的環(huán)境下,Hadoop在物理和虛擬化環(huán)境下的運行性能測試,橫軸是Hadoop的各個評測項目基準點,縱軸是在一個評測項目下面,Hadoop集群在虛擬化環(huán)境下運行的時間和在物理化環(huán)境下運行時間的比值。如果為1就表明是相同的,如果大于1,則表示物理環(huán)境下的性能更優(yōu),反之則表示虛擬化的環(huán)境下更優(yōu)。
當然這個結果是有爭議的:只代表EMC存儲對VMware的支持好, 計算性能方面,x86服務器的虛擬化Hypervisor做得再好也不可能提供超出物理資源的性能。
#p#
因緣際會,云領未來
擱置性能疑慮,我們知道,在虛擬化和云計算時代,數(shù)據(jù)中心的虛擬化程度已經(jīng)越來越高。保羅·馬瑞茲(Paul Maritz),這位即將卸任VMware CEO(鏈接:《ESG分析師王叢:看VMware CEO 的交替》)表示,從2008年至今,數(shù)據(jù)中心的虛擬化程度將從25%增長了60%,未來會增長到90%。
VMware 即將卸任的CEO 保羅•馬瑞茲
因此,如何在虛擬環(huán)境中更好地得到大數(shù)據(jù)的價值,這是企業(yè)必須面對的問題。如果企業(yè)的數(shù)據(jù)已經(jīng)在亞馬遜S3上,這個問題就更加緊迫。
對于企業(yè)來說,既然選擇了云或者虛擬化,只要TCO是下降的,部分的性能損失也是被允許的。這就是Hadoop運行于虛擬環(huán)境的機遇,VMware的機遇。
VMware唯一需要的,就是進一步的改進,解決存儲、網(wǎng)絡方面的瓶頸。這方面,作為SDDC戰(zhàn)略的一部分,以12.6億美元收購面向軟件定義網(wǎng)絡的Nicira,體現(xiàn)了VMware的努力。而VMware即將上任的CEO帕特•基辛格(Pat Gelsinger) 在他的演講中,對VMware為轉(zhuǎn)移網(wǎng)絡容量、存儲和處理能力的所提供的工具做了一系列的詮釋。
基辛格說,“當前的數(shù)據(jù)中心已經(jīng)過時,是時候轉(zhuǎn)向云端了。”
遭遇微軟,步步驚心?
既然說大勢所趨,就不難理解,看上虛擬化Hadoop的不只是VMware。我們知道,VMware在虛擬化領域的老對手微軟也是心有戚戚焉。
對于Hadoop與虛擬化的結合,孫博凱說,從整個Windows Azure資源池的角度看,架設在其上的Hadoop架構足以能夠滿足客戶的需要;同時,微軟也滿足部署客戶私有云平臺上的Hadoop架構的需求。
孫博凱表示,微軟的Hadoop并非把Hadoop簡單遷移到微軟平臺上,相對開源版本做了包括高可用性、安全性和可靠性的改進,并和微軟管理工具體系整合。例如基于Windows Azure的Hadoop架構,就意味著Hadoop都架設在一個高可用的超大規(guī)模虛擬集群上。
微軟亞太研發(fā)集團首席技術官孫博凱
從整體上看二者的服務器虛擬化競爭,一個精彩的評價是,微軟要拼命證明Hyper-V在技術方面已經(jīng)可以與VMware抗衡,VMware則極力證明其解決方案并非比微軟昂貴。
但馬瑞茲表示,VMware與微軟的競爭不會是價格的競爭:微軟說Hyper-V已經(jīng)夠好,但虛擬化的競爭早就不是簡單的Hypervisor的競爭,而是相關工具以及整個生態(tài)系統(tǒng)的競爭。所以,“VMware與微軟根本就不在一個層次上”。
事實上呢,我們看到,在VMware 2012上,基辛格正式宣布,根據(jù)針對1萬3千名客戶的調(diào)查結果,取消了復雜的vRAM付費方式,全部產(chǎn)品改回按處理器付費的授權方式。這個問題,現(xiàn)場上萬名觀眾雷動的掌聲說明了一切。(鏈接:《VMware取消vRAM改回按處理器付費》)
EMC現(xiàn)任COO、VMware未來CEO帕特•基辛格
說到生態(tài)系統(tǒng),VMware長期耕耘于虛擬化,并且EMC刻意保留其獨立性,自然是有利于其生態(tài)系統(tǒng)的建設。但從另一方面說,微軟在云計算時代來勢洶洶的Windows Server 2012,也不是吃素的。更為重要的是,微軟已經(jīng)學會了與開源協(xié)作。孫博凱說,微軟不僅是把Hadoop融合到Windows平臺上,同樣也會堅持開源的原則,將Hadoop上的研發(fā)成果,回饋給整個開源社區(qū)。
值得一提的還有思科。VMware在用于管理電腦網(wǎng)絡和存儲設備的軟件領域的擴張,無疑要讓思科重新審視兩者之間的戰(zhàn)略合作關系。
另外,選擇VMware,就意味著必須虛擬化;選擇微軟,則可以商量——孫博凱用羅素的名言“參差多態(tài),乃幸福之源”說明,微軟一直向客戶提供多種選擇,而選擇權在客戶手里。雖然說目標是虛擬化,但微軟的策略顯然可以獲得客戶更多的心理分數(shù)。
領袖方面,微軟的鮑爾默這幾年來與“最差CEO”、“拖后腿”、“下課”這樣的詞語結下了不解之緣,而馬瑞茲和基辛格則被是為喬圖斯優(yōu)秀的接班人,但這既不意味著VMware都不會出錯——vRAM就是一個例子,也不意味著微軟真的已到末日——微軟截至6月30日的2012 年第四財季財報顯示,企業(yè)級市場仍然是其主要收入來源,服務器和開發(fā)工具部門營收同比增長13%。
結語
當云計算和大數(shù)據(jù)讓企業(yè)避無可避,我們即使不向往SDDC,也必須考慮到虛擬環(huán)境中的大數(shù)據(jù)處理。也許我們可以選擇Hadoop之外的解決方案,但良好地運行于虛擬環(huán)境的Hadoop平臺,無疑可以讓我們事半功倍。現(xiàn)在,VMware和微軟等廠商的努力、競爭與僵持,可以讓我們距離這個結果更加接近。當然,企業(yè)必須明白,選擇什么樣的大數(shù)據(jù)解決方案,取決于企業(yè)的實際情況。