華為Universe大數(shù)據(jù)平臺(tái)以及華為的開發(fā)案例——潘慶寶
大家好,我是華為Universe平臺(tái)的潘慶寶。下面由我來給大家講解一下華為Universe大數(shù)據(jù)平臺(tái)以及我們的開發(fā)案例。這是我要演講的內(nèi)容:***是Universe大數(shù)據(jù)平臺(tái);第二是案例講解;***是我們的合作案例。
首先介紹一下華為Universe大數(shù)據(jù)平臺(tái)的整體架構(gòu)。最下面是基礎(chǔ)設(shè)施部分,我們Universe平臺(tái)可以運(yùn)行在很多主流Hadoop平臺(tái)之上。我們有四個(gè)統(tǒng)一和一個(gè)洞察。四個(gè)統(tǒng)一是:統(tǒng)一分析運(yùn)行平臺(tái)、統(tǒng)一運(yùn)行開放平臺(tái),統(tǒng)一運(yùn)行開發(fā)平臺(tái),統(tǒng)一治理數(shù)據(jù)平臺(tái);一個(gè)洞察是我們的客戶洞察,上面是我們的分析應(yīng)用,主要包含營銷管理系統(tǒng)。這是華為Universe平臺(tái)的整體架構(gòu),大家可以對(duì)我們平臺(tái)有一個(gè)了解。
下面介紹一下我們的主要技術(shù)組件,讓大家對(duì)我們的平臺(tái)功能有進(jìn)一步的了解。我們的平臺(tái)技術(shù)組件主要有這么多,給大家簡要介紹一下。
***個(gè)是BDI,數(shù)據(jù)集成,用于批量數(shù)據(jù)采集處理和統(tǒng)一調(diào)度。第二是數(shù)據(jù)挖掘,提供分布式數(shù)據(jù)挖掘以及常用挖掘算法。第三是流式處理,實(shí)時(shí)數(shù)據(jù)采集處理和實(shí)時(shí)分析。第四是客戶知識(shí)管理,包括客戶畫像、客戶群、屬性和標(biāo)簽。第五是知識(shí)庫、知識(shí)發(fā)現(xiàn),互聯(lián)網(wǎng)數(shù)據(jù)爬蟲和客戶上網(wǎng)行為標(biāo)注。第六是營銷管理,提供一站式營銷管理,實(shí)時(shí)營銷、精準(zhǔn)營銷都可以配置。第七是統(tǒng)一門戶,也就是Universe的訪問入口。第八是策略中心,提供實(shí)時(shí)決策。第九是數(shù)據(jù)資產(chǎn)管理。第十是ISA多維報(bào)表分析,后面的AS是面向業(yè)務(wù)人員的自助分析。我們基本上涵蓋了主要的功能。
什么是客戶洞察?主要分兩個(gè)組件,***個(gè)是Corpus,第二個(gè)是Persona。Corpus是知識(shí)庫,Persona是客戶管理系統(tǒng),包括客戶畫像和客戶標(biāo)簽,創(chuàng)建和訂閱客戶標(biāo)簽、查詢客戶畫像,快速分析客戶特征,通過客戶畫像可以更好的了解客戶全貌,洞察客戶需求。下面這個(gè)圖,就是我們抽象的客戶畫像以及系統(tǒng)展示的過程。我們有一個(gè)位置和互聯(lián)網(wǎng)數(shù)據(jù)客戶,隨著標(biāo)簽越來越細(xì)致,就形成了人物畫像。有了位置和客戶畫像,我們就可以做我們的案例了。舉個(gè)例子,中間的這個(gè)王小小的標(biāo)簽是非常豐富的,基本上把整個(gè)人物畫像已經(jīng)刻畫好了,她是高工資,單身,喜歡逛國貿(mào)商圈,這都是她的標(biāo)簽,這么多標(biāo)簽組合在一起就可以完整客戶的畫像,可以分析客戶的全貌,洞察他的需求。這個(gè)數(shù)據(jù)可以提供給上層業(yè)務(wù)做分析使用。
實(shí)時(shí)客戶畫像之后肯定有實(shí)時(shí)數(shù)據(jù)處理,接下來介紹一下流計(jì)算處理架構(gòu)。我們的流計(jì)算是這樣的,實(shí)時(shí)數(shù)據(jù)通過流采集進(jìn)入到我們這里面,通過加工得到時(shí)實(shí)處理結(jié)果,比如說實(shí)時(shí)決策和實(shí)時(shí)營銷都需要實(shí)時(shí)數(shù)據(jù)支撐的。
下面結(jié)合我們的案例,給大家講解一下我們系統(tǒng)是怎么做到的。我們的實(shí)時(shí)客戶畫像,以前對(duì)客戶畫像分析是基于歷史數(shù)據(jù)的,隨著對(duì)業(yè)務(wù)要求越來越高,實(shí)時(shí)性也就被提到很重要的位置。這就要求我們對(duì)實(shí)時(shí)人流進(jìn)行客戶畫像,這是我們實(shí)時(shí)人流客戶畫像的整體架構(gòu)。數(shù)據(jù)員是O域數(shù)據(jù),包含互聯(lián)網(wǎng)位置和上網(wǎng)數(shù)據(jù)。通過我們的實(shí)時(shí)采集進(jìn)入了我們的系統(tǒng)。這個(gè)實(shí)時(shí)數(shù)據(jù)一方面供實(shí)時(shí)流使用,實(shí)時(shí)流經(jīng)過我們的處理,就可以生成實(shí)時(shí)位置數(shù)據(jù),也就是我們說的實(shí)時(shí)人流。另一方面,實(shí)時(shí)數(shù)據(jù)會(huì)通過數(shù)據(jù)集成、數(shù)據(jù)庫和畫像服務(wù)就形成了客戶畫像,我們可以通過Streaming的聚合匯總就可以提供實(shí)時(shí)客戶畫像。我們的結(jié)果輸出是輸出到Oracle。這是我們的整體架構(gòu)。
下面介紹一下這個(gè)通過我們系統(tǒng)是怎么實(shí)現(xiàn)的。剛才說我們Universe有一個(gè)登錄界面,有好多功能都可以在這里配置出來。這是我們的登錄界面,輸入用戶名和密碼就可以登錄了。登錄之后,我們會(huì)看到一個(gè)數(shù)據(jù)治理和實(shí)時(shí)采集的功能。因?yàn)槭谴髷?shù)據(jù),肯定要有數(shù)據(jù),所以數(shù)據(jù)采集是我們的***步。我們的Universe數(shù)據(jù)實(shí)時(shí)采集已經(jīng)實(shí)現(xiàn)了可配置無碼化。我們實(shí)時(shí)采集的這些都是非常豐富的,我們實(shí)時(shí)采集的是Sdtp source,根據(jù)移動(dòng)集團(tuán)規(guī)范我們自主開發(fā)的實(shí)時(shí)采集系統(tǒng)。Sdtp規(guī)范是移動(dòng)集團(tuán)的統(tǒng)一DPI技術(shù)規(guī)范,也是統(tǒng)一合成接口規(guī)范,大家如果想了解也可以線下了解一下。通過我們的sdtp sourse可以把O域等等實(shí)時(shí)接進(jìn)來。包括我們還有過濾等好多處理,可以同時(shí)形成卡夫卡(音)和SDVS(音)。這就是我們的數(shù)據(jù)采集,有了數(shù)據(jù)之后就可以做下一步,下一步就是客戶畫像了。
客戶畫像的***步是必須要有標(biāo)簽,所以我們的***步就是配置標(biāo)簽。配置標(biāo)簽肯定要有規(guī)則,比如說什么時(shí)間、什么地點(diǎn)、做了什么事情的人,這就是規(guī)則。我們這里有一個(gè)標(biāo)簽的匹配規(guī)則。這個(gè)規(guī)則是什么呢?我們有一個(gè)組合匹配規(guī)則,就是多個(gè)規(guī)則會(huì)聚在一起,我們定義的組合匹配規(guī)則就是什么時(shí)間、什么地點(diǎn)、用什么、做了什么事情,這就是我們的組合匹配規(guī)則。
大家可以看一下我們組合規(guī)則的配置頁面,比如說15點(diǎn)到17點(diǎn)的時(shí)候,在火車站附近使用了iPad,訪問了起點(diǎn)APP,訪問起點(diǎn)中文網(wǎng),行為是瀏覽,閱讀的主題是穿越的小說。這里有時(shí)間、有位置、有終端,還有行為,包括做了什么事情。這就是一個(gè)組合規(guī)則,通過組合規(guī)則可以生成對(duì)應(yīng)的標(biāo)簽,有了標(biāo)簽之后才能對(duì)客戶進(jìn)行客戶畫像,這是一個(gè)整體的流程。APP網(wǎng)站、行為是怎么來的?包括起點(diǎn)、美團(tuán)這些怎么來的?我們通過波測(cè)得到原始數(shù)據(jù),通過分析構(gòu)建最終形成了一個(gè)知識(shí)庫。
我們定義好組合規(guī)則是不是有標(biāo)簽了?不是,定義好規(guī)則之后,點(diǎn)了提交之后,后臺(tái)會(huì)自動(dòng)生成兩個(gè)流程,一個(gè)是數(shù)據(jù)流,一個(gè)是控制流,大家可以看到。什么是數(shù)據(jù)流,什么是控制流呢?數(shù)據(jù)流就是大家現(xiàn)在看到的界面,點(diǎn)開數(shù)據(jù)流之后會(huì)生成這樣一個(gè)流程。數(shù)據(jù)流是我們對(duì)哪一些數(shù)據(jù)做分析處理,處理完之后,最終放到什么地方去,比如說我對(duì)剛剛采集的數(shù)據(jù)做處理,根據(jù)我們配置的標(biāo)簽組合規(guī)則,處理完之后就會(huì)生成我們定義的標(biāo)簽,這就是我們的數(shù)據(jù)流。這個(gè)數(shù)據(jù)流什么時(shí)候執(zhí)行呢?是由我們剛才說的控制流來控制。大家可以看一下我們的控制流,控制流可以設(shè)置執(zhí)行時(shí)間,主要是兩個(gè)時(shí)間,***個(gè)是數(shù)據(jù)什么時(shí)候執(zhí)行;第二個(gè)是執(zhí)行什么時(shí)候的數(shù)據(jù)。比如說我定義今天下午15點(diǎn)執(zhí)行分析昨天的數(shù)據(jù),在這里就可以配置。配置好之后,15點(diǎn)的時(shí)候就會(huì)自動(dòng)執(zhí)行我的數(shù)據(jù)流。當(dāng)我的數(shù)據(jù)流執(zhí)行完之后,我們的標(biāo)簽就生成了。標(biāo)簽生成之后就可以進(jìn)行客戶畫像了。這是我們的客戶畫像界面,我們可以新建客戶畫像。客戶畫像肯定要用標(biāo)簽,客戶畫像這里可以選擇多個(gè)標(biāo)簽。當(dāng)這個(gè)人物的客戶畫像完成之后,就可以根據(jù)手機(jī)號(hào)去搜索,搜索了之后可以展現(xiàn)出這個(gè)人物的客戶畫像。這是我們客戶畫像整個(gè)的系統(tǒng)設(shè)計(jì),從數(shù)據(jù)采集到客戶畫像標(biāo)簽的整體流程。
下面講一下獲得數(shù)據(jù)的數(shù)據(jù)流程。首先,我們采集到的數(shù)據(jù)是什么樣的?這是我們的模擬數(shù)據(jù),主要包含幾個(gè)信息,***個(gè)是手機(jī)號(hào),標(biāo)識(shí)是唯一的一個(gè)人。第二個(gè)是經(jīng)緯度,主要是標(biāo)識(shí)客戶的位置。第三個(gè)是互聯(lián)網(wǎng)訪問,這是構(gòu)造客戶畫像。
我們的位置信息是怎么來的呢?大家知道我們上網(wǎng)的基站的工程施工表可以知道確定位置,有了位置可以確定手機(jī)號(hào),出現(xiàn)在基站的是哪個(gè)人,可以確定一個(gè)位置,當(dāng)然這是一個(gè)位置范圍。有了位置之后,我們就能得到實(shí)時(shí)人流了,然后就有了可取畫像。實(shí)時(shí)人流+客戶畫像,組合在一起,那就是實(shí)時(shí)人流客戶畫像。下面是結(jié)果輸出,比如說哪個(gè)位置閱讀了全程的流程,根據(jù)我們的標(biāo)簽配置規(guī)則,有幾個(gè)人也可以統(tǒng)計(jì)出來。
這是我們的案例,給大家講案例的目的是展示一下平臺(tái)的能力,主要是云計(jì)算和客戶畫像這一部分。希望大家能夠?qū)ξ覀兊腢niverse平臺(tái)有一個(gè)大概的了解。
接下來講一下我們的合作案例,講一下用我們Universe已經(jīng)做了一些什么,包括已經(jīng)做好的成果。這是我們與海捷科技合作的一個(gè)基于電信數(shù)據(jù)的旅游分析應(yīng)用。這個(gè)界面是分析當(dāng)前入島人數(shù)。這個(gè)是利用我們Universe平臺(tái)的采集和實(shí)時(shí)處理、客戶畫像等能力做的一個(gè)分析。大家可以看到,這個(gè)界面可以實(shí)時(shí)統(tǒng)計(jì)當(dāng)前的入島人數(shù),比如說廣東、上海這個(gè)時(shí)間點(diǎn)累計(jì)有多少人入島。右邊展示的是***0的省份,比如說廣東人最多,上海第二。另外,我們還可以對(duì)入島人的性別和年齡做實(shí)時(shí)分析,所以可以用到客戶畫像和數(shù)據(jù)庫等內(nèi)容。
下一個(gè)案例是熱點(diǎn)地區(qū)的實(shí)時(shí)人流,這就展示了海南島每個(gè)區(qū)域的實(shí)時(shí)人流情況。這是怎么做的呢?我們根據(jù)電信領(lǐng)域的實(shí)時(shí)數(shù)據(jù),通過我們的Streaming的實(shí)時(shí)采集,再經(jīng)過我們Universe的處理,然后就得到了每個(gè)區(qū)域的實(shí)時(shí)人流數(shù)據(jù)。以前一般都是對(duì)歷史數(shù)據(jù)做分析,實(shí)時(shí)性是遠(yuǎn)遠(yuǎn)不夠的,現(xiàn)在可以對(duì)實(shí)時(shí)數(shù)據(jù)做分析,從數(shù)據(jù)采集到分析完出結(jié)果,我們是秒級(jí)別的,一般30秒以內(nèi)可以從實(shí)時(shí)數(shù)據(jù)到結(jié)果輸出。這是海南島每個(gè)區(qū)的實(shí)時(shí)人流,包括熱門景點(diǎn)的具體人流數(shù),包括這個(gè)***0。
***這個(gè)是海南島的輿情分析,用了Universe的知識(shí)庫、知識(shí)發(fā)現(xiàn)和互聯(lián)網(wǎng)爬蟲等功能。第二個(gè)是輿情的TOP5,包括輿情趨勢(shì)。
上面介紹了Universe的功能、架構(gòu)和主要能力,包括我們的案例,***也介紹了合作樣例,希望大家能對(duì)Universe大數(shù)據(jù)有一個(gè)整體的理解,也歡迎大家報(bào)名參加華為Universe大數(shù)據(jù)的賽題。