成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)分析的眾包平臺(tái)—Kaggle

云計(jì)算
Kaggle的工作方式如圖中右上角的流程所示。假設(shè)一個(gè)互聯(lián)網(wǎng)廣告公司收集了大量的關(guān)于用戶廣告點(diǎn)擊行為的數(shù)據(jù),想從這些數(shù)據(jù)中發(fā)現(xiàn)用戶點(diǎn)擊的規(guī)律、模式,希冀以此來(lái)優(yōu)化廣告投放、提高用戶點(diǎn)擊轉(zhuǎn)化率。

眾包(Jeff Howe,2006)是一種在互聯(lián)網(wǎng)蓬勃發(fā)展的背景下產(chǎn)生的一種創(chuàng)新的生產(chǎn)組織形式。在這樣的商業(yè)模式下,企業(yè)利用網(wǎng)絡(luò)將工作分配出去,通過(guò)讓更合適的人群參與其中來(lái)發(fā)現(xiàn)創(chuàng)意和解決技術(shù)問(wèn)題。比較成功的眾包例子有像wikipedia這樣的知識(shí)貢獻(xiàn)類平臺(tái),GitHub這樣的IT類平臺(tái),也有我們要著重介紹的大數(shù)據(jù)分析類的眾包平臺(tái)Kaggle。

Figure 1 Kaggle的工作方式。

 

 

Kaggle的工作方式如圖中右上角的流程所示。假設(shè)一個(gè)互聯(lián)網(wǎng)廣告公司收集了大量的關(guān)于用戶廣告點(diǎn)擊行為的數(shù)據(jù),想從這些數(shù)據(jù)中發(fā)現(xiàn)用戶點(diǎn)擊的規(guī)律、模式,希冀以此來(lái)優(yōu)化廣告投放、提高用戶點(diǎn)擊轉(zhuǎn)化率。一種做法是,公司雇傭一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)來(lái)洞察數(shù)據(jù),為決策提供支持。這種做法的成本可能比較高,小公司難以承受。Kaggle提供了另外一種方式。公司可以將他們的數(shù)據(jù)、問(wèn)題的描述、以及期望的指標(biāo)整理后發(fā)布到Kaggle上,通過(guò)舉辦競(jìng)賽的方式讓網(wǎng)上的數(shù)據(jù)科學(xué)家參與解決。數(shù)據(jù)分析師們或獨(dú)立、或組隊(duì)參加比賽,利用自己的專業(yè)知識(shí)和數(shù)據(jù)分析工具得到優(yōu)化模型。最后,這些結(jié)果經(jīng)過(guò)原定指標(biāo)的檢驗(yàn),被公布到排行版上;最好的結(jié)果將獲得競(jìng)賽的獎(jiǎng)金(幾百美元到幾百萬(wàn)美元不等)。而公司也能最終擁有數(shù)據(jù)分析的結(jié)果、模型等知識(shí)產(chǎn)權(quán)。圖中左表列出了Kaggle上面一個(gè)問(wèn)題的例子,這是關(guān)于Twitter對(duì)其用戶的個(gè)性分析的案例。包含了訓(xùn)練集、測(cè)試集、示例代碼和作為基準(zhǔn)的隨機(jī)森林模型。而右表則是排行版上前六位的團(tuán)隊(duì)以及他們?cè)趌oss這個(gè)指標(biāo)上的表現(xiàn)。

Kaggle的流行是由兩方面的因素決定的。首先,隨著數(shù)據(jù)量的爆炸性增長(zhǎng),尤其是互聯(lián)網(wǎng)企業(yè)掌握的數(shù)據(jù)越來(lái)越多,如何利用這些數(shù)據(jù)成為了決策者們所關(guān)心的問(wèn)題。大多數(shù)依靠互聯(lián)網(wǎng)掙錢(qián)的企業(yè)技術(shù)門(mén)檻較低,競(jìng)爭(zhēng)激勵(lì)。像2010年興起的團(tuán)購(gòu),一時(shí)間中國(guó)大地上出現(xiàn)了5000多家類似的公司,大家有著同樣的網(wǎng)站模板,相似的業(yè)務(wù),卻沒(méi)有任何差異化的東西。如何提高技術(shù)壁壘,脫穎而出,數(shù)據(jù)驅(qū)動(dòng)(data-driven)成為了大家關(guān)注的焦點(diǎn)。商家們需要收集用戶的行為數(shù)據(jù),分析不同用戶群體的行為規(guī)律,從而為商品的定向投放,精準(zhǔn)推薦提供有力支持。另一方面,數(shù)據(jù)科學(xué)家成為了21世紀(jì)最稀缺的資源。Kaggle總裁兼首席科學(xué)家Jeremy Howard認(rèn)為一個(gè)偉大的數(shù)據(jù)科學(xué)家應(yīng)具備創(chuàng)新、堅(jiān)韌、好奇、深厚技術(shù)這四項(xiàng)素質(zhì)。具備數(shù)據(jù)收集、數(shù)據(jù)改寫(xiě)、可視化、機(jī)器學(xué)習(xí)、計(jì)算機(jī)編程等技術(shù)的數(shù)據(jù)科學(xué)家使數(shù)據(jù)驅(qū)動(dòng)決策并主導(dǎo)產(chǎn)品。根據(jù)McKinsey的預(yù)測(cè),在未來(lái)6年,僅在美國(guó)本土就可能面臨缺乏14萬(wàn)至19萬(wàn)具備深入分析數(shù)據(jù)能力人才的情況,同時(shí)具備通過(guò)分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬(wàn)人的缺口。如何充分利用現(xiàn)有的數(shù)據(jù)科學(xué)家的專業(yè)知識(shí)來(lái)幫助有需要的企業(yè)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)支持,Kaggle正是基于這樣的想法,建立起了一個(gè)聯(lián)通領(lǐng)域和專業(yè)技能的橋梁。

眾包方式的大數(shù)據(jù)分析絕不僅僅只有Kaggle一家,類似的還有CrowdAnalytix和TunedIT。而最早的學(xué)術(shù)界的Kaggle可以認(rèn)為是從1997年開(kāi)始的由ACM組織的KDD CUP(知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘競(jìng)賽)。KDD每年一次,涉及的領(lǐng)域從生物、營(yíng)銷、安全、醫(yī)學(xué),一直到最近火熱的用戶行為分析和社交網(wǎng)絡(luò)分析。比如,今年(KDD2012)的分析任務(wù)就是由騰訊微博提供,通過(guò)對(duì)微博的社交分析,期望預(yù)測(cè)出最有可能的關(guān)注(Follow)關(guān)系。

現(xiàn)在已經(jīng)是“大數(shù)據(jù)”的時(shí)代,所有的人都預(yù)測(cè)在這個(gè)領(lǐng)域內(nèi)將來(lái)會(huì)產(chǎn)生一批偉大的公司。目前,在Kaggle上吸引了將近六萬(wàn)的參與者,競(jìng)賽的內(nèi)容也從單純的預(yù)測(cè)性分析拓展到所有關(guān)于數(shù)據(jù)的創(chuàng)意,比如如何實(shí)現(xiàn)工作職位網(wǎng)站上的數(shù)據(jù)可視化。可以說(shuō),聚集了如此多智慧和機(jī)會(huì)的大數(shù)據(jù)眾包平臺(tái)Kaggle一定會(huì)成為這些偉大公司的一員,讓我們拭目以待。

責(zé)任編輯:王程程 來(lái)源: 中云網(wǎng)
相關(guān)推薦

2017-07-22 00:41:27

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)

2011-08-12 11:14:42

大數(shù)據(jù)數(shù)據(jù)分析平臺(tái)架構(gòu)

2017-01-22 21:30:39

大數(shù)據(jù)Kaggle函數(shù)

2013-09-22 10:26:06

大數(shù)據(jù)大數(shù)據(jù)團(tuán)隊(duì)

2015-05-26 10:27:17

大數(shù)據(jù)分析電商平臺(tái)應(yīng)用

2019-04-23 15:35:53

Hadoop大數(shù)據(jù)數(shù)據(jù)處理

2015-08-24 13:56:10

數(shù)據(jù)分析

2015-08-14 10:28:09

大數(shù)據(jù)

2021-08-06 11:01:23

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2019-07-31 14:16:35

大數(shù)據(jù)人工智能算法

2018-06-23 07:53:31

大數(shù)據(jù)分析框架數(shù)據(jù)

2015-08-11 15:52:52

大數(shù)據(jù)數(shù)據(jù)分析

2018-08-10 15:54:43

大數(shù)據(jù)

2018-02-27 13:09:00

Hadoop數(shù)據(jù)倉(cāng)庫(kù)魔力象限

2021-10-12 15:25:08

大數(shù)據(jù)數(shù)據(jù)分析

2022-03-29 14:49:14

大數(shù)據(jù)數(shù)據(jù)分析

2015-07-23 09:34:57

大數(shù)據(jù)數(shù)據(jù)分析

2013-04-09 09:28:20

大數(shù)據(jù)大數(shù)據(jù)全球技術(shù)峰會(huì)

2013-09-02 17:42:28

大數(shù)據(jù)分析FusionInsig華為

2021-11-11 11:27:55

大數(shù)據(jù)分析系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩第一页 | 久久久精| 日韩三级精品 | 国产成人免费视频网站视频社区 | 国产精品国产三级国产aⅴ原创 | 日产精品久久久一区二区福利 | 久久91精品 | 亚洲精品乱码久久久久v最新版 | 久久人人国产 | 亚洲精品一区二 | 国产资源在线播放 | 日日操av| 亚洲成人一区二区三区 | 中文字幕一区二区三区日韩精品 | 国内精品久久久久久 | 精品一区二区三区四区 | 福利一区在线观看 | wwwsihu| 91香蕉视频在线观看 | 久久久久久蜜桃一区二区 | 日本国产精品视频 | 久久久欧洲| 成人伊人 | 在线观看视频91 | 精品一区电影 | 成人在线视频网站 | 国产乱码精品一区二区三区五月婷 | 午夜国产 | 日韩精品人成在线播放 | 国产精品极品美女在线观看免费 | 美女一级毛片 | 久久久91精品国产一区二区三区 | 99亚洲精品 | 国产精品综合一区二区 | 成人欧美一区二区三区在线观看 | 99精品一区二区 | 国产有码| 一级大黄 | 国产精品日女人 | 久久精品国产一区二区电影 | 亚洲一二三区av |