成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么Kaggle不會讓你成為一名出色的數據科學家

大數據
毫無疑問,Kaggle是非常適合學習數據科學的平臺。許多數據科學家在Kaggle上投入了大量時間。但同時,你不應該只依靠Kaggle來提高數據科學技能。

為什么Kaggle不會讓你成為一名出色的數據科學家

毫無疑問,Kaggle是非常適合學習數據科學的平臺。許多數據科學家在Kaggle上投入了大量時間。

但同時,你不應該只依靠Kaggle來提高數據科學技能。

以下就是當中的原因:

01、數據科學不僅僅是預測

Kaggle主要針對預測方面的問題。然而許多現實問題是與預測無關的。

例如,許多公司都想知道用戶流失的常見途徑。解決這類問題需要了解不同的數據類型和用戶接觸點,例如web導航、計費、客服中心交互、商店訪問等。同時還需要識別重要事件,例如超額計費或導航錯誤。在確定所有事件后,你需要應用路徑算法來了解用戶流失的常見路徑。解決這類問題不能僅靠預測算法,而需要能根據事件構建時間線的算法。

同樣,解決許多其他問題也需要預測之外的技能。能解決預測性問題是很強大的,但作為數據科學家,你需要解決多種類型的問題。因此你不能僅局限于Kaggle,還需要用其他技能解決現實的數據科學挑戰。

02、無法提高圖算法方面的技能

社交網絡分析、影響預測、社區分析、欺詐網絡分析等,這些有趣的分析問題都是數據科學家需要解決。解決這類問題需要有關圖形算法的知識,如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。

網絡或社區類型問題在Kaggle中很少見。解決圖形和網絡方面問題需要節點和鏈接相關數據,而Kaggle中大多數數據并不是這種形式的。

當然,你可以將問題轉換為使用圖算法,但這種情況很少。Kaggle上缺少這類的比賽,這也表明了與數據科學家日常需要解決問題的巨大差距。

03、無法提高算法可解釋性

算法的可解釋性越來越重要。你可以使用高大上的方法和最復雜的算法,但如果無法解釋算法是怎樣得到預測的,在企業中這將是一個大問題。這種說不清緣由的算法被稱為“黑匣子”算法。

使用黑盒算法存在一定的隱患,而且也可能造成法律方面的問題。假設,你開發了一種非常精確的算法集合來預測信用風險。在投入生產時,它將用于預測信貸風險。其中有些人的信用得分會很低,被拒絕貸款的人有權知道他們申請被拒的原因。如果算法無法提供解釋,則可能會產生法律問題。

在Kaggle比賽中,獲勝者是基于準確性,而不是基于可解釋性。這意味著比賽中數據科學家可以使用復雜的算法來保證高準確性,而不必關心可解釋性。這種方法能夠贏得比賽,但在企業的數據科學項目中就行不通了。

04、缺少投資回報率的分析環節

公司正在加大數據科學技能方面的投入。他們希望數據科學項目能夠提供投資回報率。通常,成功的分析項目需要數據科學算法與投資回報率緊密相關。

其中一個例子是預測性維護,其中能夠對設備故障進行預測。假設設備的故障率為10%,那么你需要派維護人員去進行檢查嗎?可能并不需要。但如果故障率為95%,那是肯定需要的。

然而在實際情況中,故障率通常為55%,63%等,這時就不確定了。如果公司派維護人員檢查所有這些設備,則可能產生巨大的成本。如果不派人檢查,則會有很大的設備故障風險。

那么故障率的閾值應該是多少呢?這時就需要計算投資回報率了。因此非常需要數據科學家給出當中的閾值,從而幫助公司確定相關決策。

Kaggle并不涉及這方面的分析,而只專注預測,并不考慮如何把數據科學結果應用于投資回報率。

05、不會涉及到模擬和優化問題

關于模擬和優化算法,比如系統動態仿真、基于代理模擬或蒙特卡羅模擬等應該是所有數據科學家的必備技能。金融優化、路線優化、定價等許多問題都是數據科學家需要解決的問題。

以價格預測為例,你可以使用機器學習,根據季節、日期、地點、競爭對手價格等數據來預測產品價格。但機器學習算法預測的價格是否是***價格?也許不是。為了確定***價格,你首先要確定優化目標。

優化目標可以設為利潤優化。在這種情況下,你需要確定提供***利潤的價格范圍。為了留住用戶,這樣的價格不能設太高。同時,為了保持良好的利潤率,也不應該太低。

因此,你需要通過優化算法來確定***價格范圍。如果預測價格在價格范圍內,那么機器學習的結果是可以接受的,否則應被拒絕。

在Kaggle上,通常不會給出利潤優化等優化目標。因此,當中涉及的問題仍然局限于機器學習,而并沒有探索優化方面的問題。

06、無法體驗模型部署和操作

假設你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事,這是在Kaggle上無法體驗的。

生產部署模型會涉及到docker、kubernetes等技術。雖然數據科學家并不需要成為docker和kubernetes方面的專家,但至少要能夠熟練使用。很多情況下,數據科學家需要用docker創建評分管道。

操作和部署還包括定期監控模型性能,并在必要時采取改進措施。假設有一個產品推薦模型,你在某個時間點觀察到,由于推薦而導致銷售額下降。那么問題是出在模型上嗎?還是其他方面呢?

數據科學家需要參與到模型部署環節,從而獲得獲得真實而豐富的體驗。

結語

數據科學家需要涉及算法可解釋性、投資回報率評估、優化等技能。在這一系列問題中,你將解決各種有趣的現實問題,從而更全面的提高數據科學相關技能。

對于數據科學家而言,不要僅局限于Kaggle,而是要從其他角度解決不同類型的數據科學問題。

原文鏈接:https://towardsdatascience.com/why-kaggle-will-not-make-you-a-great-data-scientist-a2c2f506a23f,作者:Pranay Dave

責任編輯:未麗燕 來源: CDA數據分析師
相關推薦

2016-10-21 19:59:43

數據科學家數據科學

2019-05-13 16:31:37

數據科學家專業人才職業

2013-04-11 10:03:55

2019-08-22 09:23:58

數據科學工程師數據處理

2018-11-05 17:33:34

數據科學家數據分析數據

2020-08-10 15:08:25

數據科學Kaggle數據集

2018-03-12 12:44:59

數據科學家人工智能數據科學

2018-11-20 14:03:17

數據科學數據分析數據科學家

2019-08-26 09:47:56

數據科學家數據分析

2018-02-28 15:03:03

數據科學家數據分析職業

2015-08-28 09:22:07

數據科學

2017-08-04 15:53:10

大數據真偽數據科學家

2019-02-18 09:12:36

數據科學家數據科學數據

2020-05-15 14:17:05

數據科學家軟件工程師

2018-05-04 15:09:25

數據科學面試數據科學家

2018-05-05 07:46:39

數據科學面試大數據

2018-01-25 14:19:32

深度學習數據科學遷移學習

2019-08-28 08:08:47

數據科學家數據工程師數據科學

2020-02-12 16:49:49

數據科學技能云計算

2019-07-30 11:47:29

數據科學云計算機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本福利视频免费观看 | 成人伊人 | 精品美女久久久 | 成人欧美一区二区三区在线播放 | 中国一级特黄真人毛片 | 精品一区二区三区91 | 爱综合 | 操一草| 亚洲综合在线网 | 亚洲国产成人精品女人久久久野战 | 欧美久久久 | 黄在线免费观看 | 欧美一区免费 | 精品久久久久久亚洲综合网站 | 韩日av片| av中文网 | 欧美日韩在线精品 | 成人亚洲性情网站www在线观看 | 99日韩 | 亚洲顶级毛片 | 岛国在线免费观看 | 色视频在线播放 | 91欧美| 黄色一级在线播放 | 日本在线播放一区二区 | 久久精品亚洲精品国产欧美 | 国产在线精品一区二区 | 日本 欧美 国产 | 欧美一区二区三区在线观看 | 国产精品视频一二三区 | 欧美色综合一区二区三区 | 久久久久久91香蕉国产 | 日日夜夜精品视频 | 在线观看免费毛片 | 欧美人妖网站 | 午夜免费福利电影 | 成人福利视频 | 亚洲一区二区在线视频 | 日本精品免费在线观看 | a看片| 欧美成人高清视频 |