阿里巴巴唐洪:阿里云,公共的云計算
原創作者:老門
2009年,阿里集團成立阿里云計算公司,為集團公司提供云計算服務。云梯1和云梯2就是阿里集團處理海量數據存儲與計算的系統,前者底層為Hadoop,后者底層為阿里云自主研發的ODPS和飛天。事實上2008年開始,阿里巴巴就組建了飛天項目。
10月25日,第三屆阿里云開發者大會在杭州云計算產業園舉行,此次大會的主題是“云計算的蝴蝶效應”。云計算的話題已經談論了五六年,云計算技術也慢慢成熟,不僅在國際,中國的云計算產業也正在慢慢形成。
2009年,阿里集團成立阿里云計算公司,為集團公司提供云計算服務。云梯1和云梯2就是阿里集團處理海量數據存儲與計算的系統,前者底層為Hadoop,后者底層為阿里云自主研發的ODPS和飛天。事實上2008年開始,阿里巴巴就組建了飛天項目。
從2008年以來的五年,云梯1完成了空間優化與跨機房集群擴展,云梯2單集群規模從1500臺升級到5000臺,而這1500到5000僅僅只用了四個月的時間。目前世界范圍內,集群規模按照5000來劃分的,國際上包括谷歌在內的2-3家公司有這樣的能力,國內只有阿里集團。
來自阿里集團的壓力
阿里云計算公司成立也不過四年,何以在如此短的時間內建立如此大集群的云服務?阿里云“飛天”項目負責人唐洪在接受記者采訪時表示,擴容到5000節點的初衷是因為集團的需求。據悉,今年上半年,云梯遭遇了機房容量的限制,如果再不擴容將無法繼續支持集團離線計算業務。因此,為了突破集群存儲的瓶頸,實現了單集群超越5000臺、多集群跨機房計算,并完成集群業務的大騰挪。
阿里云“飛天”項目負責人唐洪
唐洪表示,目前,差不多每個阿里巴巴集團數據中心里面都部署了飛天的集群,而且集團使用飛天云平臺的比例越來越重,基本上所有阿里集團重量級的應用都會用到阿里云。
飛天5K的挑戰
對于云梯這樣的大規模分布式離線存儲和計算集群來說,擴展性一直是其生命線。但是云梯2從1500臺擴容到5000臺是個不小的挑戰。從架構設計、網絡通訊、調度、存儲性能、容錯性、可運維性、穩定性、數據正確性甚至硬件能力都是很大的挑戰。而對于阿里集團來說,挑戰遠不止這些。唐洪表示,把一個服務從企業內部應用的人群變成一個互聯網人群,首先要考慮安全問題,在計算能力的開放上,***的問題就在于安全。其次是,企業用戶和互聯網用戶的量級是不同的,企業用戶數以百計,互聯網用戶數以千計、數以萬計,在整個架構、用戶管理上大有不同,因此阿里云面對的挑戰是巨大的。面對這些問題,唐洪說:“這都是我們解決的問題,我們只有解決了,才可以給外面的人去用。這也是我們之前為什么會走一個自主研發的路。”
飛天5K雕塑
阿里云服務的保障
用戶在選擇云計算服務的時候就是變相地選擇了機房。對于云計算服務提供商來說來說,所有的機房,所有的數據中心只是給客戶提供服務的載體,但是對于客戶來說,在云端的數據相當于企業的生命,因此阿里云平臺的各方面綜合因素直接影響到企業的未來。
唐洪表示,在阿里巴巴,維護淘寶總站和維護阿里云的是同一支團隊。從硬件防斷電的角度來說,阿里云設有幾級保護措施,比如在每一個機房會有柴油發電機,斷電之后,柴油發電機可以切換進來,確保72小時的臨時供電,維護人員收到報警受,將關閉一些非關鍵性業務,以延長整個數據中心的使用時間。從軟件備份層面,阿里云服務器提供異地架構的方案,用戶可以在不同的數據中心購買云服務器,發生故障時,可以切換到另一個服務器中。
應急能力也是運維工作的一部分,對于龐大的機房以及數據中心,運維自動化的重要性不言而喻。唐洪表示:“運維自動化是非常重要的,首先你需要機房的配置是標準化的,運維流程是標準化的,因為人要做線性動作的話,在動作上會有瓶頸的限制。因此,甚至包括整個機房的設施部署都要標準化。”
阿里云,公共的云計算
此次阿里云開發者大會上,飛天項目實體標志正式在杭州云計算產業園揭牌,飛天5K的到來對云計算產業來說是一個有重要意義的事件。當提及飛天5K的影響力時,唐洪說:“我認為,這是一個技術的東西,單單技術實現到一個東西是沒有影響力的,但是我們提供了一個公共的云計算能力,這些事情是谷歌和facebook都沒有做到過的。”對于谷歌和facebook的云計算業務,唐洪表示,他們的本質并不是要把計算能力提供給公眾使用,他們本質并不是云服務公司。
今年7月,阿里云開始對外提供云服務,這對于中國的云計算產業是個很大的補充。在阿里人看來,這是真正的屬于中國的公共云計算。
責任編輯:鳶瑋
來源:
51cto.com