突破流計(jì)算極限挑戰(zhàn)的阿里,將發(fā)力圖計(jì)算及大規(guī)模機(jī)器學(xué)習(xí)
近日,體系結(jié)構(gòu)***會(huì)議ASPLOS***在中國(guó)舉辦,阿里巴巴副總裁、阿里云***科學(xué)家周靖人發(fā)表主旨演講,介紹了阿里巴巴云的大數(shù)據(jù)和AI計(jì)算平臺(tái),以及其中廣泛的產(chǎn)品和服務(wù)。同時(shí)透露阿里接下來(lái)將在圖計(jì)算和大規(guī)模機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)一步發(fā)力。
圖為周靖人演講現(xiàn)場(chǎng)
阿里在流計(jì)算方面突破
隨著物聯(lián)網(wǎng)傳感器、移動(dòng)應(yīng)用和在線服務(wù)的普及和廣泛應(yīng)用,越來(lái)越多的數(shù)據(jù)以流的形式源源不斷的產(chǎn)生。基于數(shù)據(jù)流的實(shí)時(shí)分析變得越來(lái)越重要,例如實(shí)時(shí)化的商業(yè)決策依賴高時(shí)效性的報(bào)表,在線服務(wù)優(yōu)化需要?jiǎng)討B(tài)捕捉用戶行為等。這一系列應(yīng)用的背后離不開(kāi)大規(guī)模流計(jì)算平臺(tái)的支撐。從系統(tǒng)架構(gòu)角度,海量數(shù)據(jù)流輸入需要大規(guī)模集群,7x24不間斷地連續(xù)計(jì)算,同時(shí)滿足高吞吐和低延時(shí)。大規(guī)模集群中各種軟、硬件故障和網(wǎng)絡(luò)異常,以及輸入流量和數(shù)據(jù)的動(dòng)態(tài)變化等,都會(huì)給流計(jì)算帶來(lái)極大的挑戰(zhàn)。阿里大數(shù)據(jù)平臺(tái)在2016年雙十一支撐了每秒近1億日志事件的計(jì)算峰值,在6小時(shí)內(nèi)成功處理了100PB的數(shù)據(jù),在這一方面經(jīng)驗(yàn)頗豐。
阿里在流計(jì)算方面突破
演講中,周靖人以容錯(cuò)為例介紹了阿里系統(tǒng)設(shè)計(jì)中的一些關(guān)鍵技術(shù)。所謂容錯(cuò),就是當(dāng)計(jì)算結(jié)點(diǎn)發(fā)生故障時(shí),由于數(shù)據(jù)流的連續(xù)性,對(duì)上下游都會(huì)產(chǎn)生影響,同時(shí)計(jì)算狀態(tài)也會(huì)丟失。相比離線計(jì)算,復(fù)雜的系統(tǒng)依賴使得如何自動(dòng)恢復(fù)流計(jì)算過(guò)程中的錯(cuò)誤,成為關(guān)鍵挑戰(zhàn)。
周靖人介紹說(shuō),業(yè)界和開(kāi)源的流計(jì)算系統(tǒng),往往以單一容錯(cuò)策略為基礎(chǔ)來(lái)設(shè)計(jì)系統(tǒng),如輸入重算、全局快照和mini-batch。而真實(shí)場(chǎng)景中的大規(guī)模流計(jì)算應(yīng)用,往往由多個(gè)相互關(guān)聯(lián)但對(duì)計(jì)算吞吐和延時(shí)要求不盡相同的部分組合而成。例如某個(gè)高吞吐的輸入流和按小時(shí)更新的數(shù)據(jù)集合之間的關(guān)聯(lián)計(jì)算。由此對(duì)不同部分的容錯(cuò)需求就需要相應(yīng)采用不同的策略,而如何在同一系統(tǒng)設(shè)計(jì)中允許組合不同的策略,是問(wèn)題的關(guān)鍵。阿里在這方面做了很多創(chuàng)新的工作,例如在上下游之間建立虛擬管道抽象,將容錯(cuò)設(shè)計(jì)和正確性分析與系統(tǒng)實(shí)現(xiàn)、優(yōu)化機(jī)制解耦。不但降低了系統(tǒng)的復(fù)雜性,還允許系統(tǒng)根據(jù)場(chǎng)景,靈活實(shí)現(xiàn)和組合多種策略,應(yīng)對(duì)大規(guī)模集群中各種復(fù)雜情況。
圖計(jì)算3大挑戰(zhàn)
據(jù)周靖人介紹,圖計(jì)算是阿里關(guān)注的重要技術(shù)之一,可以將電商平臺(tái)、用戶產(chǎn)品、支付寶賬戶等大量信息作為節(jié)點(diǎn)來(lái)建模處理,基于此可以產(chǎn)生很豐富的分析場(chǎng)景,當(dāng)前圖計(jì)算已經(jīng)在阿里搜索推薦、反作弊、知識(shí)圖譜等領(lǐng)域大規(guī)模應(yīng)用。
靖人指出,由于實(shí)體模型中,存在許多關(guān)系以及數(shù)十億的結(jié)點(diǎn)和邊,并且以很快的速度動(dòng)態(tài)更新,實(shí)時(shí)并發(fā)更新圖數(shù)據(jù)的同時(shí)進(jìn)行復(fù)雜的圖分析是留給工業(yè)界和學(xué)術(shù)界的課題。具體來(lái)說(shuō)存在3個(gè)方向的挑戰(zhàn)。
挑戰(zhàn)1:圖可視化,即如何有效地將圖背后的特征和信息展現(xiàn)出來(lái),更好地與人交互,輔助推理、分析和決策。
挑戰(zhàn)2:模式匹配,根據(jù)業(yè)務(wù)的特征,在復(fù)雜關(guān)系網(wǎng)絡(luò)中定義并識(shí)別核心模式,并在大規(guī)模圖中實(shí)現(xiàn)快速匹配。常用的場(chǎng)景有反欺詐、風(fēng)險(xiǎn)控制和ID映射等等。
挑戰(zhàn)3:處理快速變化的圖,也就是當(dāng)圖節(jié)點(diǎn)和邊動(dòng)態(tài)更新下的圖計(jì)算問(wèn)題。
此外,如何將圖計(jì)算和機(jī)器學(xué)習(xí)結(jié)合,利用人的在線行為模式來(lái)進(jìn)一步提高推薦、搜索等效果,也是阿里技術(shù)人員正在解決的難題。
周靖人認(rèn)為,阿里機(jī)器學(xué)習(xí)的優(yōu)勢(shì)來(lái)源于對(duì)億萬(wàn)數(shù)據(jù)樣本和特征的高效利用,阿里的服務(wù)器架構(gòu)就是為了處理如此龐大的模型和數(shù)以億計(jì)的參數(shù)而開(kāi)發(fā)的。“目前阿里大規(guī)模機(jī)器學(xué)習(xí)平臺(tái),可以統(tǒng)一支持深度學(xué)習(xí)模型訓(xùn)練以及模型更新,此外我們也建設(shè)了CPU、GPU、FPGA異構(gòu)計(jì)算平臺(tái),可以針對(duì)不同業(yè)務(wù)特點(diǎn)做機(jī)器學(xué)習(xí)的計(jì)算優(yōu)化”。
據(jù)知情人士透露,阿里正在和知名高校在圖計(jì)算和大規(guī)模機(jī)器學(xué)習(xí)領(lǐng)域搭建合作平臺(tái),希望和學(xué)界一起推動(dòng)這些領(lǐng)域研究的快速發(fā)展。外界分析,這也是阿里此前公布的“NASA”計(jì)劃中的重要技術(shù)布局之一。