CTO訓練營郭江亮:百度私有云和開放云中的大數(shù)據(jù)平臺
原創(chuàng)百度開放云大數(shù)據(jù)平臺研發(fā)經(jīng)理郭江亮在由51CTO高招主辦的“CTO訓練營第四課百度技術(shù)專場”做了主題為“百度私有云和開放云中的大數(shù)據(jù)平臺”的分享。其內(nèi)容主要介紹百度私有云中的大規(guī)模分布式計算技術(shù)和百度開放云中的大數(shù)據(jù)產(chǎn)品、技術(shù)架構(gòu)以及當前百度對開放云+大數(shù)據(jù)+行業(yè)的一些思考。
目前,百度在云計算和大數(shù)據(jù),金融和醫(yī)療的結(jié)合中均有一些產(chǎn)品思路和經(jīng)驗積累。百度的前幾年是做分布式存儲,近幾年在做分布式計算,比較新興的像Hadoop。從14年開始,百度推出了在往外孵化出的公有云業(yè)務,是類似于阿里云、AWS這樣的企業(yè)級服務的開放云,公有云是以前百度做內(nèi)部的風控架構(gòu)后來擴展做對外的企業(yè)服務。
私有云的分布式計算
私有云分布式計算技術(shù)棧
在Matrix的資源調(diào)度之上,做分布式計算。分布式計算和底層資源相當于是適配器,這兩個結(jié)合起來和社區(qū)里的對應。往上,是各種計算引擎,離線計算還有實時的。底層資源的兩個是實時計算平臺。中間是DCE,是一個類似于Hadoop的計算引擎。旁邊有ELF的一個平臺,最右邊是spark。
百度所有機器都已經(jīng)資源化,把所有的資源管理起來,然后離線,離線是全部已經(jīng)保存下來。現(xiàn)在百度在逐步做一些在線的業(yè)務,因為在線業(yè)務和離線業(yè)務還是不一樣的,所以百度的機房也是在線機房和離線機房分開的。
為什么以前百度都是自研呢?因為百度內(nèi)部有一些自己的訴求,同時也涉及一些其他問題。百度本身是一個做搜索的大數(shù)據(jù)公司,它不僅僅是一個數(shù)據(jù)公司。其所面臨的數(shù)據(jù)挑戰(zhàn)非常巨大,超過社區(qū)所面對的問題。所以百度一開始也有參考社區(qū)的一些思路,但是后面由于需求量又大又快,社區(qū)的思路完全跟不上,才開始走上自研的道路。這個相當于是百度整個的技術(shù)站。
除了谷歌之外,百度的應該是全球***的一個離線計算集群了,或者離線計算平臺。一開始是從Hadoop出來,中間做了很多C++的擴展,因為它要解決很多性能問題。
百度離線計算
- 為百度提供高吞吐的離線計算服務
- 10W+臺服務器, 20+個集群,單機群***規(guī)模1.3w臺
- 日均吞吐百PB級,日均作業(yè)數(shù)50w+
百度實時計算
- 為百度提供高時效性的計算服務,毫秒級延遲
- 集群規(guī)模近1W、應用產(chǎn)品線80+
- 提供通用流式Join解決方案
另一個思路,搭建這些平臺還需要相應的技術(shù)專家,還需要一些集群資源等網(wǎng)絡,以及成本,成本是比較高昂的。但是如果是不想建的話,可以選擇公有云,比如說百度開放云。
開放云和大數(shù)據(jù)的平臺
百度開放云,可以做數(shù)據(jù)應用,支撐R+的用戶數(shù)據(jù),主要對象是一些APP,比如說手機百度、百度地圖這些,所有數(shù)據(jù)也是用統(tǒng)一的收集和處理,所以有多個產(chǎn)品的支撐,有專業(yè)的技術(shù)專家。
百度開放云產(chǎn)品概覽
大數(shù)據(jù)處理
如果遇到一個數(shù)據(jù)需求,會有完整的流程規(guī)劃,從數(shù)據(jù)的收集到存儲,中間可能還有一個傳輸。從收集、傳輸、存儲,一直到數(shù)據(jù)的處理變形,到最終的數(shù)據(jù)分析和應用,是一個完整的流。但是現(xiàn)在的數(shù)據(jù)和之前的不一樣,比如CRM,現(xiàn)在從互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng),數(shù)據(jù)種類越來越多,對數(shù)據(jù)的時效性,都有很高的要求。所以如何能快速的收集,并且能夠快速的傳輸,這個也是一個問題。
收集,百度面對原始數(shù)據(jù)種類多樣,格式、位置、存儲、時效性等迥異問題,采用的是從異構(gòu)數(shù)據(jù)源中收集數(shù)據(jù)并轉(zhuǎn)換成相應的格式,從而方便做處理。
存儲有多種需求,一些行業(yè)存在特殊需求,比如說基因行業(yè)、基因大數(shù)據(jù),做測序。我們一個人的基因數(shù)據(jù)要測的話,要上很多G,量比較大。還有時效性的要求。像廣電是網(wǎng)絡的需求,但是廣電又有一些網(wǎng)絡出來,都是在線的模式。另外還有一個硬盤IP,存量數(shù)據(jù)的話,硬盤就是比較好用的方式,當然里面有一些數(shù)據(jù)安全,有一些加密甚至是協(xié)議在里面。可能是硬盤快遞的方式,把存量的數(shù)據(jù)全部放上來之后,后續(xù)增量的數(shù)據(jù),先慢慢的通過公網(wǎng)以后,斷電也好,可以慢慢的持續(xù)的上升。這個是存儲。因為是大數(shù)據(jù)的處理,所以首先要把它存起來。收集好的數(shù)據(jù)需要根據(jù)成本、格式、查詢、業(yè)務邏輯等需求,存放在合適的存儲中,方便進一步分析。
變形,原始數(shù)據(jù)需要變形與增強之后才適合分析。比如網(wǎng)頁日志中吧IP地址替換成省市、傳感器數(shù)據(jù)的糾錯、用戶行為統(tǒng)計等等。
分析,通過整理好得數(shù)據(jù)分析what happened、why did it happen、what is happening和what will happen,多提些這樣的問題來幫助企業(yè)做決策。
百度開放云大數(shù)據(jù)堆棧
優(yōu)勢
依托百度技術(shù)。百度搜索收錄全世界超過萬億網(wǎng)頁、承載中國網(wǎng)民每天幾十億次的請求,大數(shù)據(jù)技術(shù)支撐20多個用戶過億產(chǎn)品以及百萬企業(yè)客戶,2013年百度建成全球***的Hadoop集群,2014年百度大數(shù)據(jù)處理能力BaiduSort獲得國際排序大賽冠軍。
開源開放。提供開源產(chǎn)品托管服務或者接口完全兼容產(chǎn)品,方便互聯(lián)網(wǎng)公司和傳統(tǒng)企業(yè)平滑遷移,用戶無需擔心被特定平臺或者技術(shù)綁定。
產(chǎn)品先進。強化開源產(chǎn)品,讓開源產(chǎn)品更穩(wěn)定、更高效、更安全,大大提高成熟度,云端托管服務,讓用戶聚焦業(yè)務而不是修復缺陷和運營,產(chǎn)品在百度內(nèi)部久經(jīng)考驗,適合企業(yè)部署生產(chǎn)環(huán)境。
BMR
BMR是Hadoop/Spark托管服務,為方便使用MapReduce、Spark、Hbase、Hive、Pig、Kafka等進行大數(shù)據(jù)處理,是國內(nèi)***完全兼容開源Hadoop的大數(shù)據(jù)服務。有著幾分鐘便可創(chuàng)建集群,無需為節(jié)點分配、部署、優(yōu)化操心;借助豐富的示例和場景教程,能夠快速上手達成業(yè)務目標。并且適用集群可大可小,支持動態(tài)伸縮,能夠有效避免資源浪費;支持計算與存儲分離,集群可以處理存放在BOS云存儲服務上。完全兼容開源社區(qū)版本的Hadoop/Spark,客戶可以使用開源標準API邊寫作業(yè),無需任何修改便可以遷移上云端。集群內(nèi)的Hadoop、Spark、Hbase等關(guān)鍵組件都支持高可用特性,確保服務可用性。
適用的業(yè)務場景有日志分析、數(shù)據(jù)整理、實時流處理。
Palo
PB級聯(lián)機分析處理(OLAP)引擎,集穩(wěn)定、高效、低成本等優(yōu)勢的在線報表和多維分析服務。業(yè)界領(lǐng)先的MPP查詢引擎、列式存儲、智能索引、向量執(zhí)行;高度兼容SQL標準,并提供庫內(nèi)分析、窗口函數(shù)等高級分析功能。數(shù)據(jù)、元數(shù)據(jù)多副本存儲,宕機期間不影響查詢服務,機器故障副本自動遷移。無須停服務即可建立物化視圖、更改表結(jié)構(gòu);支持靈活高效的數(shù)據(jù)恢復。可視化集群管理,便捷的數(shù)據(jù)導入;支持標準的SQL操作。
適用的業(yè)務場景有聯(lián)機分析、多維分析、在線報表。
BML
針對海量數(shù)據(jù)提供的云端托管的分布式機器學習平臺,助力客戶輕松使用最前沿的機器學習技術(shù)獲得大數(shù)據(jù)預測分析能力。基于百度內(nèi)部積累多年的(包括深度學習)機器學習算法庫,國內(nèi)***個機器學習服務。大同特征功能、模型訓練、模型評估和預測服務全流程,拖拽式操作。分布式、全內(nèi)存集群提供強大的計算能力,海量數(shù)據(jù)也可以輕松處理。搭載多個分類、聚類、回歸、主圖模型、推薦和深度學習算法。提供數(shù)字廣告營銷、推薦系統(tǒng)、文本分析、故障檢測等多個完善的解決方案,能夠使用戶快速的把機器學習技術(shù)應用到業(yè)務系統(tǒng)中。
適用的業(yè)務場景有數(shù)字廣告營銷、商品和商家推薦、主題和摘要提取。
現(xiàn)在很多創(chuàng)業(yè)公司做公有云大數(shù)據(jù)平臺是比較困難的,因為公有云它是一個數(shù)據(jù)和應用的結(jié)合體,服務器成本、網(wǎng)絡成本等等,技術(shù)上比較困難,基本上會屬于***批。當然體制內(nèi)的,比如政企的會有一套自己的公有云并不用BAT的。BAT體量的公司來做公有云,或者公有云大數(shù)據(jù)方面,他們成本是所有的數(shù)據(jù)。數(shù)據(jù)將來可能會越來越成為一個資產(chǎn),也可以說數(shù)據(jù)的作用會越來越大。每個人可能有每個人的數(shù)據(jù),每家小飯館,或者小公司都有自己的數(shù)據(jù),客戶數(shù)據(jù),營運數(shù)據(jù),都可以作為交換發(fā)揮價值。
郭江亮認為,公有云大數(shù)據(jù)平臺有很多潛在機會,目前百度數(shù)據(jù)、公有云也在做,但是因為百度是一個信息的集成的集市,所以在應用這方面還有所欠缺。