阿里云周衛天:數據智能與阿里巴巴和我們
原創【51CTO.com原創稿件】2016年11月25日,由51CTO.com主辦的WOT2016大數據技術峰會在北京粵財JW萬豪酒店召開,50多位來自阿里、騰訊、百度、京東、小米等知名企業的大數據領域資深技術專家齊聚大會現場,將在兩天的時間里與逾千名一線IT技術人員直面交流,分享經驗。
在WOT2016大數據技術峰會的主會場,阿里云數據架構部總架構師周衛天做了主題為《數據智能與阿里巴巴和我們》的演講。以下是他的演講實錄:
2009年到2010年的時候,馬云就開始講阿里巴巴是一家數據公司,同時2009年、2010年的時候,如果大家去留意一些阿里出版物,馬總反復強調阿里要做云計算。今天的云市場其實已經是阿里云占了一定的比例,成為國內云計算不容置疑的老大. 同時也有很多國內其他的廠商,騰訊、百度也都在做云。大數據也是,09年馬總講阿里數據公司的時候, 大洋彼岸2011年Hortonworks才剛剛成立,2009年Cloudera也才有Doug Cutting的加盟。但是回到6、7年前,這就是外星人馬總的遠見,也就是造就了今天阿里云在國內的一個領導地位。
再看一下數據創業,阿里的微貸沒有零員工的介入,一秒鐘獲貸,單筆交易的成本是兩元。在這背后就是阿里云大數據的處理和關聯分析的強大能力。剛剛過去的雙十一,大家在網上也都看到了雙十一的數據,支付寶的一天總交易10.5萬筆, 那是每個中國人在雙11人均刷了0.8筆。峰值時候每秒交易12萬筆。還有一個非常有意思的數據,是在第一個小時,今年的支付寶交易的總筆數超過了2013年的全天交易量1.88億筆。每秒12萬筆是什么概念呢?2013年14年阿里的主要競爭對手美妙處理月1200-1500筆/秒; 今天也不過是2-3萬筆每秒, 阿里支付平臺的強大處理能力和客戶的喜愛和選擇數據已經說明了一切。
在2009年的時候我也幫忙做淘寶的數據性能優化,但是阿里后面的數據庫種類也不一樣有Oracle,有GP,還有開源Hadoop,管理成本、運營成本、技術路線,不同技術路線之間內部大家技術人員之間的協調,度非常化時間,大家都是做技術的,很驕傲。
第二個,也是各種各樣的應用都沒有打通,本身這些庫在不同的集群當中,甚至就是應用數用之間也沒有共享。到最后說數據的重復建設,怎么將同一個數據源拖到其他業務部門去用,后面我們會用一個案例來看看阿里怎么解決這個事情。
到2010、2011年的時候,我們阿里考慮我們要到幾十PB,或者幾百PB的時候,怎么解決計算能力的問題?能不能解決? 今天來講,這后面的幾百萬張數據庫表怎么來維護?我們知道傳統數據倉庫,我們去一個企業,一般是幾萬張,再大一點的,甚至銀行,大一點的行,十幾、二十幾萬張的表。但是幾百萬張表的數倉怎么去維護?這么大的數據量一旦集中到一個平臺上, 數據安全怎么來保證?如果一旦有人把這個數據拿出去之后,怎么去解決?
阿里的數據智能平臺,就是大數據的核心引擎,無非在阿里來說,跟所有大數據一樣,有離線分析,有準時分析,有實時流分析,還有存儲。左下方有一些開發的套件和工具,我們怎么樣來協調不同的部門,尤其當你開發人員有幾千個,甚至上萬個開發人員的時候怎么協調?有一個統一的IDE開發環境。
從我來看,以前一直做大數據和今天阿里這個數據智能平臺不一樣的地方,下面我就講這三點。 第一塊是阿里數據治理這一套方法理論體系和從大項目和百萬張表里走出來的實踐經驗。為什么要講體系治理?這個治非常好,三點水,就像水一樣無所不在。 這涉及到阿里在數據治理方面對它的標簽體系、數據質量管理、數據安全,數據計量以及數據資產管理這五個方面, 阿里是怎么來做到今天的整個這么多的業務在統一的一個數據體系內, 有一份數據質量高的數據問題。
今天的幾百萬張表,傳統的數倉眾所周知,一般都是有一個業務的需求,然后會有7到8個業務域, 財務、營銷銷售、人力資源、事件、供應鏈等等,然后我們再去根據這來設計我們的數據結構,還有會把表與表之間的關系,等等所有的這些去做好Shema和業務涉及。就是我們講的傳統數倉是根據業務來進行統計分析挖掘,相對比較靜態。
互聯網因為發展變化太快,第一是說業務的驅動,野蠻的增長,快速的生長,快速的迭代,不可能這么做。尤其到了百萬級這個數據表體量的時候,對阿里來說就是業務需求來快速建一張表,建完表以后,關鍵的注釋需要,重要字段標示標注。在阿里每天在一天結束了,大概有幾十臺機器就會做一個批處理的分析,把這個表格的一些設計,主要字段和現有大的倉庫去比較,相當于阿里是對這幾百萬張表也有一個數據倉庫和數據引擎來進行管理, 來看看今天新增的怎么去分析?這是一個元數據管理采用大數據后臺統計分析。
第二,阿里今天來講,對元數據里面主要的表, 主要的字段都是有一個標識體系,就是把數據根據業務的重要度和技術的統計,來標4321,4是最最核心最最重要的業務驅動,這個會涉及到后面數據質量的管理。今天來說,阿里數據質量管理是把數據生產的流程完全融合了數據質量監控的實時流程。
這是一個什么概念呢?就是我這個數據一旦一個流程生產出來, 系統后臺我用數據來進行分析,比如講一個同學交的稅,交了三年,前面每年交五千到八千之間,我今年生產出來一個數據,如果一下子一萬五了,我們可能就會有個預警,說這個數據分析以后,這個數據質量是不是有問題?啟動一個流程進行驗證,跟蹤和比對。
根據前面的標,就會對這個來進行追蹤。我們內部的體系一般叫黃線和紅線,數據質量如果是黃線的話,就要持續的追蹤和分析, 直到提升。如果是紅線,我們講一個數據生產可能都會有幾個主要的檢驗點,假如有123對前面講的標識是4級的數據,最最關鍵的數據,那就會要涉及一些自動和半自動的流程來進行實時監控。一旦觸及紅線,數據的生產執行會被強迫停止,這就是數據質量的一個保證技術手段, 很有效。
前面還提到,數據的計量,今天來說,我們為了簡單化,假如后面我們有一百張表,在阿里來說,第一張表到第十張對應到一個責任人,第11到第20張表對應到第二個責任人,對每張表數據的質量都會考核這些責任人。 曾經在2012年,我跟一位老同學聊的時候,也涉及到這樣的問題,如果因為后臺的數據觸發了前面的某些報表統計不準確的時候, 這些表的責任人就會受一定的制度的考核,甚至是懲罰,這是技術工具和安全體系結合的典范。
今天在阿里開發的主管每周都會收到一份成本單,這個成本單就是說我開發的所有后面基于大數據都是我們的一個工作,都會有計算,你寫了SQL腳本或者MR工作,都折算成人均成本。按照人均成本這個禮拜, 你這個組項目成本都會被統計出來。所以阿里本身大數據治理方面是,大家可以看到,所以當有人問到大數據管理還是治理?我說再阿里一定是治理。很多的工具, 尤其從元數據這個層面,數據引擎搜索和自動統計分析,用數據來管理數據這就是阿里大數據的玄妙所在。
第二個,在這個平臺之上,今天阿里在人工智能方面的一些領先工作, 視覺智能、語音智能,后面會有詳細的例子講,再到數據智能 相關的一個要點就是數據的關聯打通。我們在G20做的一些工作,就是我們把虛擬網絡的,如網上的微博ID,微信Open_ID, 包括各種虛擬網絡上帳號的ID怎么跟我實際的手機號碼,身份證號碼打通?因為數據的關聯碰撞才能激發出火花,激發出創新和創造的火花。
最后還有一塊更有意思的就是說天池眾智平臺, 是我們這個數據智能體系上的一個夜明珠。我們在這平臺之上,我們背后有四萬多科學家,但是我們拿到的問題, 其實阿里內部本身有很多的科學家,是對這個問題本身的重新定義和梳理、挖掘,分析總結項目目標和特征; 這個也非常非常重要。
包括最近我們做了一些大交通的事,通過視頻,通過高德地圖實時的數據,把它結合起來,怎么樣在南方的某個城市,使交通擁堵率減少了20%幾; 這是互聯網+信號燈的創新,已經申請國家專利。
今天來講阿里數據智能的體系主要在這三塊,數據治理、數據實踐這是第一塊。第二個,大家后面會看到一些例子,視覺智能、語音智能和數據智能這一塊。第三個就是基于眾智平臺對現在交通,大公安做的一些貢獻。
數據地圖簡單講一下,這跟數據資產管理有關。第一個我們要把所有的數據進行規范,數據質量的規范,第二個更主要的是說,讓阿里內部的技術人員和業務人員,對數據資產的使用要特別方便,可查詢,可追溯。而且要易查詢,我們不是說經常用命令行才去找到數據資產,這一塊非常重要。說一下數據地圖,大家做技術的同學都會碰到數據血緣這個關系,今天阿里內部對數據血緣的溯源,因為對源頭和數據末端,最終這個數據處理的這個數據質量和數據標簽,阿里也做了非常非常多的工作。SQL側面已經往前血緣追溯到前面的7/8層,非常強大。
還有一個數據治理有一個數據加速器,其實是說,基于阿里的數據智能平臺,怎么樣我用一套體系,用一個全新的模型來快速實現業務。總體來講,基于這個大數據我們做了一個標簽體系,在某些行業,比如說在公安,就是根據這個標簽體系,可以大家理解為一個戰法庫。根據不同的品種,我們去做一個戰法庫,針對技偵、針對情報、針對網安,這標簽體系的靈活和快速使用,和它的歸納總結都不一樣。也類似于我們傳統基于數據之上的服務和中間件層的一個抽象。
數據安全。數據安全今天來講,阿里來講,其實我們自己現在講的是5A2P,所謂5A比較簡單,我們今天對數據安全,如果能做到5A是一個非常好的事,就是認證鑒權Authentication和Authorization,后面是Access數據控制。用戶鑒權到了服務器層, 最后在阿里來說到伏羲盤古,到底層把你基于所有內容的讀、寫,主要字段的讀、寫,都會分工得很清楚。 第4個Audit是審計,可追溯,可追蹤。第5個A, Assurance就是數據的漂白,數據的加密這些都是。這個今天在阿里來講數據安全首先做到5A。
兩個P,第一個P是Predict, 就是說我們今天對阿里云的平臺和阿里大數據已經從兩三年前開始用數據來預測和分析對我網站的主要攻擊。我們講現在對安全問題的一個態勢感知,怎么來預防、預測,這是一塊很重要的事情。同時還有一個P, Policy,就是我們經常會碰到的,安全的這個策略、政策。這在阿里有四個字,”最小夠用“原則。在我們內部的同學和在做項目的過程當中,就是最小夠用原則。加上一個時間戳,我們申請數據權限的時候,比如我今天要出來跟伙伴一起分析一些我們的數據,我們申請權限的時候都要有一個時間的限制。比如我這個是一個月,專門有數據生成的安全部門會來對這個進行審查。這個規則甚至是說我這個數據的出口需要有限制,我從哪一個IP地址才能出去你申請的時候會有限制,對出口的統一管控。所以簡單來講,阿里今天對于大數據和云平臺的安全其實就是這個5個A和兩個P,這當中的內容涉及得非常多。
阿里登月工程的第一個體會是說,新系統和老系統對接的時候,大家有沒有決心花至少三分之一以上的時間來做這個數據質量工作,數據基礎平臺和服務層的準備工作,實戰當中,幾乎所有的客戶做不到。這也是說,今天其實阿里的業務其實很大了,所有業務在一套大數據平臺系統上跑的。有沒有這個決心,是說我這個兩年又幾個個月的一個登月浩瀚工程,我能下定決心花11到12個月的時間,來做號數據的準備工作,做一個數據平臺服務層。首先來花幾個月的時間,把要進入新系統當中所有原來的數據指標體系規范,源數據的表當中的標識來重新定義。這是值得我們思考的一件事情,也非常有意思的事情。我覺得這個事情其實是說,甚至超過了我們架構的一個范圍了。當然還有一些實操性的經驗也簡單,其實在阿里云梯1到云梯2就兩句話,”業務說了算”,”數據統計說了算”。
業務說了算就是說我業務來決定了我后面這個表當中哪個字段是最重要的, 老系統當中也有很多統計分析數據,我這個數據字段,經常被引用的頻率是多少?更新的頻率是多少?我們根據折2者的權重來進行一個判斷。
還有一點啟示,新老系統的對接,其實我們技術上都不是問題,只是一個成本的問題。我們怎么融合呢?就算阿里來把云梯全部替代的過程,怎么講呢,是一個要在新系統當中,就是在做這件事情的時候降維。前面提到了把這遷移的過程分成登月的多個項目,最終從這多個項目縮減到兩到三個項目。第一個是支付寶,就是說我在做任何新系統的時候,我一定一開始做得小一點,可控一點, 但是一定要讓我的技術人員和相關的業務部門,一定要進來把這個新的系統玩轉,把新的技術玩熟,把這新的技術和平臺跟老系統之間的差異和不同對比清楚。比如說我在這看到的元數據的管理體系,其實完全不一樣的,就是數倉,傳統數倉跟我這平臺是完全不一樣的,這是我們得到的第一個啟示。
還有一點非常有意思的啟示,這很快提一下,也是實操當中的寶貴經驗,在遷移多個項目當中,我相信大家也都看到了,無非就是根據業務的重要性,當時阿里選擇這樣做,比如業務分成1、2、3級,根據技術對接的難易程度分成兩級,綜合考慮著兩個維度的因素, 我們再根據系統的難易程度和系統的重要性選出更少的項目先做,把它做好,這是一個實操的動作和寶貴經驗。
最后還有一點,開幕式、閉幕式,在做這個兩年多的項目過程當中,前面一開始的兩三個月的準備工作非常非常重要。第二就是說就算內部阿里自己把項目新老系統切割之后,一定一定要有兩到三個月的并行過程,同時技術團隊隨時隨地的伺候,這非常非常重要,這個也是給我們的一點啟示。
簡單回顧一下阿里的數據智能之路,其實我們就講了三點,因為對于這個數據的計算能力,運算能力的強大:其一,還是我強調的數據治理的這一套體系框架以及工具。其二,就是涉及到智能圖像,圖像識別,語音,語音識別的一些智能,以及眾智平臺圍繞阿里之聲的數據做的一些事情。
前面講了阿里這么多在內部的一些實踐,我們阿里大家知道也開始了一個成長的對外輸出的過程。當然其實外面其實有各種各樣的聲音在阿里輸出的過程當中,我坦率地說,我碰到了很多同學說阿里會做2C不會做2B。阿里在數據智能方面,2B和2C領域有一些自己積累的案例、經驗和戰略思考。
第一個是G20峰會的安全保障,這里我們給G20做了一個反恐系數,用大數據。簡單講,比如我拿浙江省大概8700萬人,從杭州本地,就是接電話、打電話的2200萬這么一個規模,跟一些特定地區,500多萬的人群進行碰撞。這個概念大概涉及到幾萬億條的數據,碰撞一秒鐘不到,這里就講了我們的這個計算能力了,我們大概第一次碰撞出來100多萬人。化時間幾秒鐘。
經驗規則是公安提供的,我們再打一個標簽,用VPN的,VPN的大概有30多萬人。跟前面碰撞出的135萬人快速分析交叉,我得出來大概1.1萬人。 好,根據經驗規則,這個1.1萬人當中,我再加幾標簽,某某籍貫不好說具體的,某某籍,男性,25到35歲,在杭州有個地方,某一個地方的落腳點,這又是一個標簽。 然后是跟敘利亞、土耳其最近的一個月有過通話記錄的,五個標簽一組合,快速運算出來從1.1萬到十幾個人。這是一種模式。你可以看到我是分了幾個層次。快速運算出來的。
我們也可以把這六個標簽一下子老綜合考慮,什么籍?男性,25到35,最近一個月,有跟敘利亞、土耳其通話,杭州某地轉塘,以及用了VPN的,我對前面講的幾萬億條的數據量,我們在G20這個項目之前做不到十秒,大概8到9秒就能把這最后十幾個人分析出來。 隨著不斷的調優,到了實戰我們花5秒左右的時間把這個做出來。大家可以看到利用大數據的強大的分析能力,對我安全的保障,同樣我反恐系數也可以相類比的利用這個標簽系統分析能力去做一個系數,這是國計民生第一個應用案例。
第二個,給某省交通廳做危化車輛的運輸,我只要車上裝一些GPS,把這個數據通過3G4G網絡快速傳到中控中心,有一個數據的接收器。如果這個危化車輛到了重點場所、居民區,500米、1000米的時候,進行黃色、紅色預警,這個也是對微化車輛預警。
第三個,比較有意思,風電設備,因為往往環境比較惡劣。我們也是通過搜集傳感區的數據來進行風電設備的一個老化的檢測。其實不僅是風電設備了,稍微發散一下,我們高鐵的發動機,其實還有大型鉆井的風機,幾年前,西門子啊,德美的一些公司如GE更多的是用特征工程來做的。像風機五年左右會出現衰減的曲線,就是到了5年,相當于一個拋物線的頂部出現故障的頻率比較高了,然后再趨于平緩。
那我們能不能結合大數據?甚至只用大數據做特征工程不能做的事情,來預測我設備的故障,我實現狀態修,我不是故障修,而且我這個預測一定要準,我5年的時間會出問題,我最好4.8年的時候預測出這個問題。
還有我們正在給風機塔的建設,去收集風機塔的高度,周圍500米到300米的湖泊,以及兩公里以內的湖泊,主風向等等這些參數,你可以用所有這些參數歷史數據,做了數據準備之后。分析出來的結果可以決定風機塔的建設參考,有時候跟我們的經驗工程師是不一樣的。有不少的時候,其實我們的經驗也不能想到的,甚至沒有發現的,這是非常有意思的一些事情。
高速逃費也是,我們給浙江的一個高速站,現在正在做的幾個案例,就是根據你這個車輛,車牌, 第二是車輛的形狀、顏色,因為我們逃費是有大車會拿一個小車的牌子過來就少交錢,有這種逃費的過程, 比較容易通過圖片識別快速鎖定ETC逃費車輛并實現實時跟蹤。 其實根據車輛車牌的形狀,很容易做這個車輛逃費,浙江省一年逃費損失大概十個億。
還有地下的停車中心,我們前面講到的都是對人,其實你所有的車牌,大家想想也都是作為一個唯一的ID。我們進了地下的時候,這個車牌就識別,車牌關聯到車主,關聯到人,我如果是這個大型商場的VIP客戶的話,你一進來就發現了楊先生,你是我們尊貴的VIP客戶,我現在建議你往右拐,再前面左拐到達了VIP的停車位。這個VIP的停車位一定跟商場的門口很近。這是車牌識別之后,關聯到人等等一系列的應用。
如果隨著我后面車輛庫、車牌庫的數據搜集越來越多,我們ETC卡也不用了,之需要車牌的實時識別,大家想一下這個影響還是蠻大的。還有現在已經在做的一些POS系統,我不知道大家去超市購物的時候,有沒有看到,一個是雙面的POS系統對吧?一般那一面面對著就是收銀員,這一面給你看到你購物的一個清單。但是你如果已經是會員了,根據你會員購買的歷史,在列清單的時候,我們是不是能做精準交叉營銷呢?在右上角是來顯示你的這個購物清單,其他三分之二的這個視頻上面,給你推薦了產品。
對會員且不說了,如果對一個進商店的,目前還不是會員,隨著后面我們這個庫的數據越來越大,我通過,其實今天人臉識別已經很厲害了。人臉識別之后,把你所有網上的一些信息,網上我們上網的日志,基本上有一個禮拜,兩個禮拜的日志,對你的收入、教育,所有這些5、6個字段鎖定還是挺準的。
那把所有這些數據拿上來之后,新一代的收銀系統也很有意思,數據智能的客戶中心就更有意思了。其實我自己就深有感受,目前來說還是比較苦悶的,我記性不大好,經常會忘。比如你到了招商銀行信用卡,查詢密碼忘掉了,一次兩次三次,可能就被鎖定了。你沒辦法,就打95555,你打95555這個客服進來了,他都是1干什么?2干什么?不行再返回主菜單。我在想我已經因為在那個一分鐘前,30秒前輸了5次或者3次查詢密碼。當我們把這些數據交叉之后,現在講的多渠道,綜合數據管理,就是我們在信息化做得非常領先的招商銀行,其實還有沒有做到?如果有銀行的不要介意。我打這個電話進去的時候,他根據我一分鐘前輸了幾次密碼,至少第一個選擇是說你要重設查詢密碼, 然后再是下面的主菜單, 這個是說新一代的智能客服中心中的一個例子。這是與我們生活已經息息相關了。
以上用了40分鐘跟大家分享一下阿里云這個大數據智能,我們稱之為數據智能平臺怎么來支撐今天支付寶、螞蟻金服、菜鳥等等這一系列應用,我這個平臺上。最最本質的一點是說我有一個高質量的、統計的、一套的數據在已經打通了的平臺上去運行。同時我們不僅是說用這套數據智能平臺服務自己阿里集團,今天除了給2C這些,淘寶、天貓不說了,我們其實已經在2B領域跟我們的合作伙伴做非常非常有意思的東西。
最后用30秒時間講一下,我們做的還是基于這個平臺和強大的計算能力,數據治理的實戰經驗,以及圖像識別、語音智能方面的數據智能大平臺。最后的5公里、1公里的應用、服務,我們是和我們的生態一起去提供給我們的企業客戶。
好,最后謝謝大家!
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】