成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專訪淘寶明風(fēng):如何構(gòu)建高性能的數(shù)據(jù)挖掘平臺?

原創(chuàng)
系統(tǒng) 系統(tǒng)運維
淘寶是一家擁有海量數(shù)據(jù)的公司,對于數(shù)據(jù)挖掘來說,海量數(shù)據(jù)本身具有噪聲、異構(gòu)、算法復(fù)雜、技術(shù)復(fù)雜等問題,如何構(gòu)建高性能的數(shù)據(jù)挖掘平臺,對于淘寶而言非常重要。近年來,淘寶在數(shù)據(jù)實時性和大規(guī)模計算及挖掘方面積累了很多實踐經(jīng)驗,本文中,淘寶技術(shù)專家明風(fēng)在51CTO記者采訪時,也分享了很多經(jīng)驗和方法。

【51CTO專稿】淘寶是一家擁有海量數(shù)據(jù)的公司,對于數(shù)據(jù)挖掘來說,海量數(shù)據(jù)本身具有噪聲、異構(gòu)、算法復(fù)雜、技術(shù)復(fù)雜等問題,如何構(gòu)建高性能的數(shù)據(jù)挖掘平臺,對于淘寶而言非常重要。近年來,淘寶在數(shù)據(jù)實時性和大規(guī)模計算及挖掘方面積累了很多實踐經(jīng)驗,本文中,淘寶技術(shù)專家明風(fēng)在51CTO記者采訪時,也分享了很多經(jīng)驗和方法。

[[90809]]

(左:明風(fēng) 右:51CTO記者)

【嘉賓簡介】黃明,淘寶技術(shù)專家,花名:明風(fēng)。2010年加入淘寶,一直從事Hadoop相關(guān)的的數(shù)據(jù)開發(fā)和挖掘工作,見證和支持了基于云梯的數(shù)據(jù)開發(fā)平臺的發(fā)展。現(xiàn)任淘寶技術(shù)部數(shù)據(jù)挖掘與計算團隊的Leader,負責(zé)Spark計算平臺和淘寶數(shù)據(jù)推薦產(chǎn)品和業(yè)務(wù)。

淘寶的數(shù)據(jù)特點

對于淘寶的數(shù)據(jù)特點,明風(fēng)認為主要有以下幾個方面:

一、,淘寶每天的數(shù)據(jù)都是T級別的,怎樣對這些T級別的數(shù)據(jù)做很好的分析、采集、以及在做完數(shù)據(jù)清洗后,對于比較完整的行為數(shù)據(jù)進行挖掘,這是個需要解決的難題。因為數(shù)據(jù)量大的話,很多傳統(tǒng)算法很難直接應(yīng)用,需要進行并行化的改進。并行化改進之后,數(shù)據(jù)會慢下來,如何在兩者之間達到一個平衡點是非常重要的。

二、復(fù)雜,淘寶上的主體是買家、賣家和店鋪,買家的行為是一個從收藏、搜索、購買、評論等,這些行為并不是按照一定的時間順序去發(fā)生的,而是混合在一起。這些數(shù)據(jù)行為代表了消費者的購物模式,怎樣從混亂的行為中找到消費者的購物模式,是一個很復(fù)雜的過程。

三、有趣,淘寶的數(shù)據(jù)很豐富,從用戶的復(fù)雜行為可以看見買家很多活生生的特點,以及中國消費者的消費行為的心里,我們做過最簡單的數(shù)據(jù)統(tǒng)計分析,能夠了解中國各省女生需要買什么,男生需要買什么,這些數(shù)據(jù)能很好的反應(yīng)出中國消費的一個風(fēng)向標(biāo),所以說淘寶的數(shù)據(jù)是非常有意思的。

構(gòu)建高性能的數(shù)據(jù)挖掘平臺

隨著數(shù)據(jù)挖掘業(yè)務(wù)的發(fā)展,基于傳統(tǒng)的Hadoop下的MapReduce,速度和靈活度,已經(jīng)不能滿足日益復(fù)雜的挖掘算法的需求,面臨多次迭代的機器學(xué)習(xí)算法,Mahout顯得力不從心。如何讓Hadoop這頭大象插上翅膀,飛馳起來,將大數(shù)據(jù)的價值發(fā)揮到淋漓盡致?明風(fēng)談到:“基于Yarn模式的Spark,可以兩者兼顧。”這并不是說淘寶要Follow業(yè)界最新的技術(shù),是因為淘寶有實際需求的。對于淘寶數(shù)據(jù)挖掘團隊而言,一個高性能的計算框架對于在上層做數(shù)據(jù)挖掘與推薦是非常重要的,另外,在Spark上可以實現(xiàn)很多比較復(fù)雜的機器學(xué)習(xí)算法,用MLBase機器學(xué)習(xí)算法對消費者的行為進行最準(zhǔn)確的數(shù)據(jù)挖掘與分析,從而達到最好的推薦效果。

構(gòu)建過程中需要注意的問題

無論是選擇Spark還是選擇其他框架,都有一些共性的東西。明風(fēng)認為,“首先你需要明白搭建這個高性能系統(tǒng)的瓶頸在哪里,一個系統(tǒng)多快是取決于最慢的那一點,所以一定要把最慢的那一點提升到你需要的性能點,才能獲得高性能。這一點是特別值得注意的。Spark能夠在一個批量計算以及流式計算中,取得一個很好的平衡,把中間的一個點降到最低,這個是非常必要的。”

其次,明風(fēng)談到:“淘寶在做Spark過程中,由于很多東西都是很新的,所以要保持和社區(qū)良好的互動交流,將我們的改動反饋到社區(qū)里,形成一個良性循環(huán)。在淘寶,無論是Hadoop、HBase還是Spark,我們都是這樣的工作模式,才能讓我們的平臺出在最佳的狀態(tài)。”

以上便是構(gòu)建高性能數(shù)據(jù)挖掘平臺的重點內(nèi)容,更多精彩看點,請您關(guān)注以下視頻獲悉:

[[90810]]

責(zé)任編輯:黃丹 來源: 51CTO.com
相關(guān)推薦

2011-10-21 14:20:59

高性能計算HPC虛擬化

2011-10-25 13:13:35

HPC高性能計算Platform

2012-12-11 22:41:20

淘寶部署雙11

2020-11-09 17:15:08

戴爾

2020-06-05 07:20:41

測試自動化環(huán)境

2011-12-15 13:28:57

2023-08-11 08:34:40

開發(fā)工具

2011-10-24 09:43:18

高性能計算HPC云計算

2011-04-13 13:28:46

JavaScript程序員

2022-12-09 08:40:56

高性能內(nèi)存隊列

2023-10-12 09:00:00

AerospikeRedpanda高性能

2022-06-02 12:56:25

容器網(wǎng)絡(luò)云原生

2018-06-19 16:58:36

UCloud彭晶鑫存儲

2014-08-25 09:03:44

HuluSpark On Y

2019-07-23 11:41:45

數(shù)據(jù)庫SQLDocker

2009-10-29 09:11:50

Juniper高性能網(wǎng)絡(luò)

2009-06-03 14:24:12

ibmdwWebSphere

2025-06-03 08:15:00

微服務(wù)架構(gòu)異步任務(wù)隊列

2025-03-04 08:00:00

機器學(xué)習(xí)Rust開發(fā)

2013-08-04 22:14:52

DevOpsDevOps實施DevOps實踐
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美久久一区二区三区 | 日日操操 | 国产精品一区二区在线播放 | 亚洲国产视频一区二区 | 久久久久久亚洲国产精品 | 久久免费视频在线 | 欧美伦理一区 | 91正在播放 | 婷婷色婷婷 | 伊人久久伊人 | 国产一区二区精华 | 久久久久国产一区二区三区四区 | 国产精品一区久久久 | 国产免费让你躁在线视频 | 免费观看成人鲁鲁鲁鲁鲁视频 | 亚洲精品国产一区 | 一级毛片免费 | 国产精品久久久久一区二区三区 | 精品国产一区二区三区性色 | 亚洲综合色丁香婷婷六月图片 | 中文字幕在线一区 | 国产精品av久久久久久毛片 | 国产自产21区| 国产日韩精品视频 | 欧美三级电影在线播放 | 日本精品久久 | 日韩精品区 | 国产精品久久久久久久白浊 | 精品动漫一区 | 一区二区三区在线 | 欧 | 天天插天天操 | www.国产 | 久久久精品综合 | 欧洲高清转码区一二区 | 亚洲精品久久久久久宅男 | 成人国产精品久久 | 精品国产18久久久久久二百 | 久久免费大片 | 精品久久久久久久 | 国产乱肥老妇国产一区二 | 国产精品欧美一区二区 |