阿里巴巴通用計(jì)算平臺(tái)負(fù)責(zé)人關(guān)濤:企業(yè)級(jí)大數(shù)據(jù)計(jì)算平臺(tái)的演進(jìn)
計(jì)算的價(jià)值絕不止于計(jì)算本身,而是帶來更多的洞察和更強(qiáng)的驅(qū)動(dòng)。
在2018杭州云棲大會(huì)主論壇上,阿里巴巴通用計(jì)算平臺(tái)負(fù)責(zé)人關(guān)濤表示,“最初我們希望數(shù)字化阿里巴巴,后來,希望把數(shù)字化普惠到企業(yè)層面,現(xiàn)在開始數(shù)字化一個(gè)城市。”同時(shí),他還從計(jì)算力、聯(lián)合計(jì)算、智能化、企業(yè)級(jí)服務(wù)能力四個(gè)方面介紹了阿里巴巴統(tǒng)一大數(shù)據(jù)計(jì)算平臺(tái)的探索與實(shí)踐。
數(shù)字化城市背后的計(jì)算能力
MaxCompute是阿里巴巴9年前做飛天系統(tǒng)的三大件之分布式計(jì)算部分。9年后的今天,它已經(jīng)成為可以承載EB級(jí)的數(shù)據(jù)存儲(chǔ)能力,百PB級(jí)的單日計(jì)算能力,公共云覆蓋國內(nèi)外十幾個(gè)國家和地區(qū),專有云包含城市大腦在內(nèi)部署了超過100+套。
ET城市大腦作為杭州城市背后的數(shù)據(jù)支撐系統(tǒng),無疑是對(duì)數(shù)字和計(jì)算的一個(gè)***要求。要想做到算得起,算的快,算的準(zhǔn),必須有一個(gè)強(qiáng)大的計(jì)算平臺(tái)。
從系統(tǒng)架構(gòu)上看,MaxCompute底層包含異構(gòu)的計(jì)算集群,通過統(tǒng)一的元數(shù)據(jù)管理和調(diào)度系統(tǒng)聯(lián)動(dòng)在一起。向上提供包括批計(jì)算、流計(jì)算、內(nèi)存計(jì)算、機(jī)器學(xué)習(xí)、迭代等一系列計(jì)算能力。
計(jì)算平臺(tái):計(jì)算力是最核心的指標(biāo)
2015年GraySort 競賽中,MaxCompute用377秒完成了100TB數(shù)據(jù)排序,獲得世界冠軍。2016年拿下CloudSort***成績,這表明不僅算得快,而且算得便宜。
2017年挑戰(zhàn)TPCX-Bigbench 100TB的30個(gè)query指標(biāo),成為***個(gè)測試通過的計(jì)算引擎。2018年在同樣100TB規(guī)模上,性能指標(biāo)提升了一倍。另外在超小型10TB規(guī)模的指標(biāo)上,性能超過其他開源競品3倍。
“通過對(duì)計(jì)算力的持續(xù)升級(jí),使得計(jì)算力更便宜,智能化更普惠。”
計(jì)算下推比數(shù)據(jù)上移更高效
通常用戶上云,數(shù)據(jù)不會(huì)在一個(gè)系統(tǒng)里。對(duì)于在線服務(wù),數(shù)據(jù)通常會(huì)在數(shù)據(jù)庫里支撐前臺(tái)業(yè)務(wù),對(duì)于半結(jié)構(gòu)化log和非結(jié)構(gòu)化的音視圖等數(shù)據(jù)通常存儲(chǔ)在數(shù)據(jù)湖里。前端數(shù)據(jù)庫的數(shù)據(jù)有非常豐富的index的支持,可以算的非常高效,后端是超大規(guī)模存儲(chǔ),中間是一個(gè)大數(shù)據(jù)體系,把結(jié)構(gòu)化數(shù)據(jù)以列式的方式存儲(chǔ)下來,支撐超大規(guī)模的數(shù)據(jù)計(jì)算。
但這樣會(huì)面臨的一個(gè)挑戰(zhàn)就是用戶如何把所有數(shù)據(jù)放在一起來算,得到一個(gè)***的結(jié)果?面對(duì)這種挑戰(zhàn),通常有兩種解法,一種是數(shù)據(jù)上移概念,就是把所有數(shù)據(jù)上移到同一系統(tǒng)中,上傳同步后進(jìn)行計(jì)算。而此時(shí)會(huì)有三個(gè)問題,一是出現(xiàn)數(shù)據(jù)冗余,相當(dāng)于把同樣數(shù)據(jù)備份了一到兩份;二是同步存在延遲,在延遲里無法進(jìn)行計(jì)算;三是實(shí)時(shí)性會(huì)受到影響。
“基于此提出了聯(lián)合計(jì)算的概念,我們認(rèn)為計(jì)算下推比數(shù)據(jù)上移更高效。”
什么是聯(lián)合計(jì)算呢?就是不需要數(shù)據(jù)同步,通過在大數(shù)據(jù)系統(tǒng)中的一個(gè)作業(yè),可以聯(lián)動(dòng)其它系統(tǒng)。每一部分都依賴于當(dāng)時(shí)系統(tǒng)***的優(yōu)化,做***的決策,在這個(gè)層面上實(shí)現(xiàn)數(shù)據(jù)之間的聯(lián)動(dòng)和打通。
Auto Data Warehouse讓大數(shù)據(jù)自動(dòng)駕駛
五年前阿里巴巴正面對(duì)數(shù)據(jù)爆發(fā)式增長的巨大挑戰(zhàn),以人的理解力,無法理解這些數(shù)據(jù)之間的關(guān)系和作業(yè)之間的關(guān)系,因?yàn)樗^于復(fù)雜。數(shù)據(jù)有沒有冗余?計(jì)算是不是可以復(fù)用?如果某個(gè)作業(yè)失敗了,某個(gè)數(shù)據(jù)出了問題,到底影響面有多大?
所以五年前,從最基本的數(shù)據(jù)可發(fā)現(xiàn)開始,然后做數(shù)據(jù)血緣,找到數(shù)據(jù)間的關(guān)系,看數(shù)據(jù)冷熱之間分離能力,再看數(shù)據(jù)自動(dòng)優(yōu)化。***,當(dāng)有一張新數(shù)據(jù)表進(jìn)來時(shí),可以自動(dòng)去找關(guān)聯(lián)關(guān)系,這就是Auto Data Warehouse數(shù)據(jù)自動(dòng)駕駛系統(tǒng)。這套系統(tǒng)在阿里巴巴內(nèi)部實(shí)現(xiàn)了在計(jì)算優(yōu)化上提升了35%,在數(shù)據(jù)冗余去重層面降低了20%的存儲(chǔ)能力,在資源規(guī)劃上,提升了超過75%的計(jì)算效率。
MaxCompute是面向企業(yè)的完整服務(wù),不只是單一引擎
杭州城市大腦除了對(duì)系統(tǒng)計(jì)算力的要求之外,還包含穩(wěn)定性,容災(zāi)能力,可恢復(fù)能力,以及彈性能力等。當(dāng)遇到突發(fā)情況時(shí)要有預(yù)警能力和自恢復(fù)能力。所有能力總結(jié)成一個(gè)詞就是“企業(yè)化的能力。” MaxCompute不止是計(jì)算引擎,而是一套完整的企業(yè)化服務(wù)。
除計(jì)算外,MaxCompute還包含賬號(hào)、項(xiàng)目管理、數(shù)據(jù)安全、監(jiān)控、金融性容災(zāi)等系統(tǒng)等。今年新推出了DQC數(shù)據(jù)正確性驗(yàn)證系統(tǒng),并全新升級(jí)了DataWorks開發(fā)和調(diào)試平臺(tái),具備數(shù)據(jù)集成,作業(yè)pipline管理系統(tǒng),可實(shí)現(xiàn)與機(jī)器學(xué)習(xí)、數(shù)據(jù)分析和BI平臺(tái)的聯(lián)動(dòng)。
“計(jì)算力,聯(lián)合計(jì)算,智能化和企業(yè)級(jí)服務(wù)能力,構(gòu)成完整的面向企業(yè)的大數(shù)據(jù)平臺(tái),阿里巴巴用整套大數(shù)據(jù)計(jì)算能力,持續(xù)驅(qū)動(dòng)數(shù)字中國。”






