成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)科學(xué)之路(上)

大數(shù)據(jù)
有些人可能會(huì)說(shuō)沒(méi)有數(shù)據(jù)科學(xué)家的時(shí)候,公司也一樣能做數(shù)據(jù),也有數(shù)據(jù)團(tuán)隊(duì),也有這些崗位啊?數(shù)據(jù)科學(xué)家又是個(gè)什么鬼?

[[174158]]

 

那哲學(xué)上一般都會(huì)講人生的三個(gè)終極問(wèn)題:

  • 我是誰(shuí)
  • 從哪里來(lái)
  • 到哪里去。

其實(shí)要想做數(shù)據(jù)科學(xué),也要關(guān)心三個(gè)問(wèn)題,

1.數(shù)據(jù)科學(xué)或者數(shù)據(jù)科學(xué)家到底是什么含義

2.怎么才能走上這條路

3.怎么才能在這條路上一直走的很好

大家可以看到目錄首先從多個(gè)方面去為大家介紹數(shù)據(jù)科學(xué)家這一崗位的方方面面,然后比較關(guān)心的是數(shù)據(jù)科學(xué)家的自我修養(yǎng),怎么被需要被認(rèn)可,怎么儲(chǔ)備知識(shí)自我提高,最后簡(jiǎn)單地為迫不及待想要轉(zhuǎn)型的IT架構(gòu)師或者數(shù)據(jù)分析師提供一些小建議,進(jìn)行數(shù)據(jù)科學(xué)家養(yǎng)成。

先來(lái)簡(jiǎn)單介紹一下這個(gè)崗位。

這個(gè)崗位在北美應(yīng)該算是很流行了,國(guó)內(nèi)一些公司我們更經(jīng)常聽(tīng)見(jiàn)的是:

  • 『數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)人』
  • 『大數(shù)據(jù)架構(gòu)師 』
  • 『算法工程師』
  • 『高級(jí)數(shù)據(jù)分析師』
  • 『數(shù)據(jù)挖掘工程師』

這樣的崗位。可以看到這些人的職能離數(shù)據(jù)都很近。

但我對(duì)數(shù)據(jù)科學(xué)家的定義集中在『獨(dú)立,垂直』。獨(dú)立就是,他們要從產(chǎn)品、業(yè)務(wù)部門獨(dú)立出來(lái),垂直的意思是,要對(duì)數(shù)據(jù)的全生命流程負(fù)責(zé),能夠用對(duì)數(shù)據(jù)的分析、挖掘,為產(chǎn)品、數(shù)據(jù)流程甚至架構(gòu) 帶來(lái)全面改進(jìn),能夠輔助決策,甚至直接創(chuàng)造價(jià)值的這么一個(gè)垂直團(tuán)隊(duì),甚至是單兵。

有些人可能會(huì)說(shuō)這是個(gè)偽命題,沒(méi)有數(shù)據(jù)科學(xué)家的時(shí)候,公司也一樣能做數(shù)據(jù),也有數(shù)據(jù)團(tuán)隊(duì),也有這些崗位啊?數(shù)據(jù)科學(xué)家又是個(gè)什么鬼?

我認(rèn)為數(shù)據(jù)科學(xué)家應(yīng)該扮演一種催化劑的作用,首先在開(kāi)辟新領(lǐng)域時(shí),要主動(dòng)承擔(dān)數(shù)據(jù)團(tuán)隊(duì)中出現(xiàn)的架構(gòu)+數(shù)據(jù)清洗一類的基礎(chǔ)性工作,達(dá)到自己在一線對(duì)數(shù)據(jù)理解、掌控的目的。然后,因?yàn)殛P(guān)心數(shù)據(jù)全生命周期流程,所以每個(gè)環(huán)節(jié)都可能是推動(dòng)數(shù)據(jù)處理流程的優(yōu)化的點(diǎn)。數(shù)據(jù)從哪兒來(lái),質(zhì)量如何?業(yè)務(wù)數(shù)據(jù)要做分析,必須經(jīng)過(guò)哪些清洗和重構(gòu)?使用什么樣的工程數(shù)學(xué)工具進(jìn)行分析?該以怎樣的形式交給業(yè)務(wù)部門或者決策者?能夠進(jìn)行哪些輔助或者直接的決策?真是有種當(dāng)?shù)之?dāng)媽的感覺(jué)。

所以我們?cè)谶@里展開(kāi)點(diǎn)講一些數(shù)據(jù)科學(xué)家的工作內(nèi)容。我們得有垂直獨(dú)立的思考模式,我們要遷就產(chǎn)品,但是決不能只用產(chǎn)品設(shè)計(jì)的思路思考數(shù)據(jù)分析。

一般來(lái)說(shuō),公司在最開(kāi)始設(shè)計(jì)產(chǎn)品邏輯或者業(yè)務(wù)邏輯的時(shí)候,之所以做的粗放,是因?yàn)闈M足數(shù)據(jù)上收的條件下,搞好業(yè)務(wù)性能和用戶體驗(yàn)就可以了。我設(shè)計(jì)一個(gè)系統(tǒng),要求0.4秒以內(nèi)返回結(jié)果,或者每秒接受上萬(wàn)次查詢(qps),幾千筆transactions,把功能點(diǎn)實(shí)現(xiàn)就好。如果在剛開(kāi)始搞產(chǎn)品這一步就想做實(shí)時(shí)分析說(shuō)查詢和交易的背后有什么內(nèi)在邏輯?那簡(jiǎn)直就是本末倒置,產(chǎn)品的生存第一位,數(shù)據(jù)都是先積累。

積累一定程度了,業(yè)務(wù)數(shù)據(jù)拿出來(lái)了之后,也根本不是說(shuō)直接跑個(gè)邏輯回歸跑個(gè)決策樹,出個(gè)報(bào)告,下班回家這么簡(jiǎn)單的。

第一點(diǎn)就是要數(shù)據(jù)清洗。俗話說(shuō)的好:做數(shù)據(jù)這一行,三分天注定,七分洗數(shù)據(jù),也就是說(shuō),本來(lái)我們分析的數(shù)據(jù)潛在包含的信息就是有限的,你再不做清洗,什么也做不好。比如說(shuō)有個(gè)字段是質(zhì)量很差的身份證號(hào)碼信息,其實(shí)身份證號(hào)足夠恢復(fù)出這個(gè)人的出生地信息,生日性別,如果足夠全的話,還能檢查出這張身份證數(shù)據(jù)是不是假的。你不做清洗、不做信息提取,一定喪失了很多能夠做預(yù)測(cè)的指標(biāo)。

再比如LinkedIn上有很多公司的數(shù)據(jù),如果本來(lái)是同一家公司,但是在系統(tǒng)里有10個(gè)uid,像高德,高德軟件,高德地圖等等等等,你不好好做人工標(biāo)注,維護(hù)字典統(tǒng)一這些名稱,就很難知道誰(shuí)和誰(shuí)有同事關(guān)系了。不僅僅是社交網(wǎng)絡(luò),跟文本相關(guān)的數(shù)據(jù)質(zhì)量,不管是爬蟲爬的還是買來(lái)的格式不好的數(shù)據(jù),都需要非常大量的數(shù)據(jù)清洗,而且不懂業(yè)務(wù)需求是什么的時(shí)候,連清洗的質(zhì)量把控、清洗的方式都不能做。數(shù)據(jù)清洗這件事重要到值得動(dòng)用你的所有武器,從最原始的正則表達(dá)式,人肉修正臟數(shù)據(jù),一直到最復(fù)雜的深度學(xué)習(xí)模型研究文本分類,再把文本中的詞匯、語(yǔ)義、詞性給提取出來(lái)變成新的feature,加入到特征庫(kù)。所有這些都是需要清洗的內(nèi)容。

第二點(diǎn)就是整合,熟悉各種SQL或者Pandas的朋友都很清楚,數(shù)據(jù)分析需要的數(shù)據(jù)跟業(yè)務(wù)數(shù)據(jù) 不僅質(zhì)量有很大不同,而且組織形式也不一樣。

比如廣告行業(yè)里面有一個(gè)重要的分析叫做點(diǎn)擊率預(yù)估,就是傳說(shuō)中的CTR預(yù)測(cè),廣告投放給一個(gè)批次的人,展示、點(diǎn)擊、注冊(cè)、付費(fèi)大量的行為隱藏在同一個(gè)日志表里面,格式就是個(gè)行為+時(shí)間戳,但是你想分析轉(zhuǎn)化漏斗,不可能不做拼接聚合。

這種問(wèn)題還算簡(jiǎn)單,因?yàn)镃TR這種問(wèn)題你全量可以做,抽樣也可以做。如果是做社群發(fā)現(xiàn)啊,PageRank,圖模型最短路徑等等類似的問(wèn)題就不一樣了。

你會(huì)發(fā)現(xiàn),首先你得維護(hù)一個(gè)社交網(wǎng)絡(luò)圖,Twitter最早用HBase存稀疏矩陣,更多的公司用三元組表示圖模型然后搞Spark GraphX或者使用Python的networkx。這種數(shù)據(jù)的重構(gòu)不允許你基于一個(gè)原來(lái)圖做抽樣,你抽樣了做,要么結(jié)果是錯(cuò)的,要么這不是一個(gè)能夠開(kāi)放給所有人的社交網(wǎng)絡(luò)服務(wù),講的low一點(diǎn),跟CTR比這更像是一個(gè)典型的『大數(shù)據(jù)問(wèn)題』。

最后就說(shuō)一下分析任務(wù)。像分類變量大家往往使用加工啞指標(biāo)、進(jìn)行one hot encoding的方式可能從業(yè)務(wù)系統(tǒng)里的幾十個(gè)指標(biāo)組合加工出上億個(gè)特征,這說(shuō)明一件事,你的業(yè)務(wù)數(shù)據(jù)可能1個(gè)節(jié)點(diǎn)數(shù)據(jù)存下了,很好啊,但是要做分析,不僅吃內(nèi)存,而且中間數(shù)據(jù)可能要用到成百上千臺(tái)的集群。

這種情況太正常了。這時(shí)有些受過(guò)正統(tǒng)統(tǒng)計(jì)學(xué)教育的人可能會(huì)認(rèn)為剛才的做法太沒(méi)有潔癖了。沒(méi)關(guān)系,為了照顧到大家的潔癖或者預(yù)算不足,我們有很多降維工具,比如直接應(yīng)用于數(shù)據(jù)列上的PCA/AutoEncoder可以留下數(shù)據(jù)中的重要信息,ISOMAP可以方便的幫我們做流形降維/ 而某些樹模型除了能幫我們建立分類、數(shù)值預(yù)測(cè)模型之外,它的非葉子節(jié)點(diǎn)在優(yōu)化多分叉的時(shí)候,也能天然的起到了降維的作用。加變量、減變量往往被稱作特征工程 Feature Engineering,套用模型Data Mining實(shí)在只是最后最后的一個(gè)小步驟。

總之,這個(gè)崗位不是過(guò)來(lái)鬧著玩的,是為了推動(dòng)業(yè)務(wù)優(yōu)化、是為了推動(dòng)決策的,是為了產(chǎn)生價(jià)值的。產(chǎn)生價(jià)值說(shuō)簡(jiǎn)單點(diǎn)不就是增加收入,節(jié)省成本嗎?然后你的利潤(rùn)就來(lái)了。每一個(gè)業(yè)務(wù)決策、業(yè)務(wù)動(dòng)作后面的成本和收益是多少?如何定義好優(yōu)化問(wèn)題?要?jiǎng)佑枚嗌偃肆ξ锪Γ惺裁礃拥募s束條件達(dá)到什么效果,這是顯性的。公司怎樣節(jié)省自己的時(shí)間,客戶的時(shí)間,帶動(dòng)產(chǎn)業(yè)發(fā)展社會(huì)進(jìn)步,這是隱性的,都要考慮。

把優(yōu)化目標(biāo)用數(shù)學(xué)的方式表達(dá)出來(lái),才能有好的結(jié)果。而且有時(shí)候我們會(huì)有多個(gè)目標(biāo)。為什么百度全家桶另人討厭?每一個(gè)部門都有自己的產(chǎn)品、自己的KPI,幾個(gè)團(tuán)隊(duì)的leader私下一商量,打包出去推廣,KPI是上去了,社會(huì)口碑一落千丈,所以不去預(yù)先協(xié)調(diào)多個(gè)目標(biāo)、多個(gè)團(tuán)隊(duì)的協(xié)作,這種短視行為只能帶來(lái)垃圾。

所以產(chǎn)生價(jià)值,這是數(shù)據(jù)科學(xué)家的內(nèi)功,真家伙,能受用一輩子。

所謂數(shù)據(jù)科學(xué)家的外功,就是接地氣,在后端能設(shè)計(jì)優(yōu)化架構(gòu),在業(yè)務(wù)端能推動(dòng)決策落地。

一個(gè)簡(jiǎn)單的分析,變不成一段系統(tǒng)中的SQL代碼、一段Python代碼,影響不了最終的決策,那就是什么都沒(méi)有。這是很多人曾經(jīng)面對(duì)或者正在面對(duì)的問(wèn)題。另外,就算這些一切都好,一個(gè)算法能火的必要非充分條件是找到了做大規(guī)模并行化的思路,沒(méi)有一個(gè)算法是只靠單機(jī)表現(xiàn)出色就能上線部署的,比如SVM 06-08年的實(shí)現(xiàn)了在線更新,比如11年隨機(jī)梯度下降實(shí)現(xiàn)了無(wú)并行鎖。 所以很多工程師、數(shù)據(jù)科學(xué)家都在研究算法的可并行性、擴(kuò)展性。論證完之后他們就會(huì)用OpenMP,用Spark,用GPU的方案來(lái)實(shí)現(xiàn)。

不僅如此,對(duì)算法熟悉了,我們更要對(duì)數(shù)據(jù)熟悉,主要就是去了解一個(gè)算法牽涉到的數(shù)據(jù)量以及計(jì)算量。前者就是所謂的空間復(fù)雜度,我們要花多大內(nèi)存或者物理存儲(chǔ)來(lái)存放中間結(jié)果和最終結(jié)果?存進(jìn)去能不能高效的讀取出來(lái)?后者就是所謂的時(shí)間復(fù)雜度,CPU/GPU的算力能不能靠指令集優(yōu)化提高?每次計(jì)算啟動(dòng)預(yù)處理和節(jié)點(diǎn)通信代價(jià)有多少?受指令集、緩存、內(nèi)存、總線、網(wǎng)絡(luò)的延遲多高?這些細(xì)節(jié)考慮和不考慮,做出來(lái)的結(jié)果天差地別。

最后的落地性就是以身作則的推進(jìn)代碼、圖標(biāo)、報(bào)告,對(duì)決策形成建議。學(xué)統(tǒng)計(jì)的人都會(huì)形成概率思維對(duì)吧,我觀測(cè)到一個(gè)樣本,屬于A類的概率80%,屬于B類的概率20%,但是決策者就不一樣了,兩條路只能選一條,壓力很大。有一句話叫選擇大于努力,而數(shù)據(jù)科學(xué)家做的事就是努力做出正確的選擇。這種選擇不僅依靠數(shù)據(jù)類的信息,也有非數(shù)據(jù)類的信息。因此,把難以數(shù)據(jù)化的信息給數(shù)據(jù)化,評(píng)估風(fēng)險(xiǎn),才是正道。大家為什么現(xiàn)在推崇量化投資?如果你沾沾自喜于單獨(dú)某一次選擇的一夜暴富,那以后仍然還會(huì)一夜暴窮。量化投資也好,數(shù)據(jù)科學(xué)也好,都是為了更好的做選擇。

綜上所述,一個(gè)數(shù)據(jù)科學(xué)家可以有多種視角,給人感覺(jué)很酷。

數(shù)據(jù)科學(xué)家崗位活躍在什么行業(yè)?

傳統(tǒng)行業(yè),肯定有,而且需求很大。

美國(guó)郵政曾經(jīng)優(yōu)化了工作日程表,本來(lái)周一到周五上班周末兩倍工資,變成了排班制度,自由選擇合適的5天上班,一下在勞動(dòng)力上節(jié)省了三億美金,這個(gè)方案現(xiàn)在日本很多打工店都在用。

這就涉及到線性規(guī)劃、整數(shù)規(guī)劃。亞馬遜至今還在做倉(cāng)庫(kù)選址和路徑調(diào)度,因?yàn)樗才艂}(cāng)庫(kù)庫(kù)存,安排送貨嘛。所以地理數(shù)據(jù)分析,選址和TSP都得做。工程方案就更多了,比如滴滴今年這個(gè)算法競(jìng)賽,顧客和車輛的供需預(yù)測(cè),所有打車、租車、代駕公司,一旦做到規(guī)模化了,都特別需要供需預(yù)測(cè),這事兒2年前e代駕就在做。

做完供需預(yù)測(cè),有的人就想我們?cè)O(shè)計(jì)一個(gè)運(yùn)力調(diào)度中心,這個(gè)區(qū)域人多,你應(yīng)該去這,另外一個(gè)區(qū)域車少,你應(yīng)該去那兒。其實(shí)從工程角度講,給司機(jī)看一個(gè)熱力圖解決了,redis存好司機(jī)實(shí)時(shí)位置和對(duì)接下來(lái)半個(gè)小時(shí)訂單的預(yù)測(cè),司機(jī)在app看到熱力圖,自己就往更容易接單的地方跑。做工程往往就特別需要這種巧勁。

互聯(lián)網(wǎng)行業(yè),是數(shù)據(jù)科學(xué)家的主戰(zhàn)場(chǎng)。

09年netflix數(shù)據(jù)競(jìng)賽可能大家都清楚,其實(shí)就是為了解決一件事,給合適的用戶在網(wǎng)上推薦合適的影片和電視劇,甚至自己主導(dǎo)往外推這些影音內(nèi)容。為什么《紙牌屋》能火?因?yàn)榇蟊娤矚g的題材、喜歡的導(dǎo)演、喜歡的Kevin Spacey都湊一塊兒了,這都是基于對(duì)用戶的深入理解才能做的。競(jìng)賽結(jié)束之后,是個(gè)人就會(huì)講協(xié)同過(guò)濾了,雖然真正實(shí)踐svd,als的人少之又少,但互聯(lián)網(wǎng)確實(shí)開(kāi)始重視算法了。很久之前看過(guò)一本入門級(jí)的《推薦系統(tǒng)實(shí)戰(zhàn)》我覺(jué)得寫的比較全面,作者項(xiàng)亮老師至今活躍在算法一線。

如果說(shuō)你開(kāi)了一家公司,不是電商、垂直巨頭這種流量+推薦的模式,你一樣可以參與到廣告行業(yè)里。這個(gè)行業(yè)國(guó)外商業(yè)模式非常成熟,廣告主,需要競(jìng)價(jià)廣告位投放;媒體流量主,需要優(yōu)化廣告位,進(jìn)行用戶行為研究,中間還有廣告聯(lián)盟,DMP這些平臺(tái),研究投放算法,采用田忌賽馬的策略,雖然每個(gè)廣告不都會(huì)投放給最適合看這個(gè)廣告的那些人,但是總收益最大。對(duì)這方面感興趣的推薦大家先看一本入門書《計(jì)算廣告學(xué)》,作者是劉鵬老師。這里面涉及了廣告行業(yè)的商業(yè)模式的架構(gòu)和算法實(shí)踐,算是個(gè)全貌性的介紹吧。

我個(gè)人有些偏見(jiàn),認(rèn)為廣告行業(yè)做算法做不透,做的半吊子,首先PC端投放轉(zhuǎn)化率千分之五,移動(dòng)端轉(zhuǎn)化率百分之五,能做到這個(gè)數(shù)字都要燒高香了,離所謂精準(zhǔn)簡(jiǎn)直差的太遠(yuǎn)。 比如你耽誤大家70秒的時(shí)間就為了一個(gè)廣告的KPI,點(diǎn)擊率千分之五,14000秒 4個(gè)小時(shí)的播放形成了1次點(diǎn)擊,謀財(cái)害命對(duì)不對(duì),也不好好學(xué)學(xué)國(guó)外怎么在廣告上互動(dòng)收集UGC,提高投放效果。

然后我是覺(jué)得相比之下,增長(zhǎng)運(yùn)營(yíng)比流量運(yùn)營(yíng)更有價(jià)值。最近有個(gè)很潮的詞叫g(shù)rowth hacking,自己做產(chǎn)品,上收數(shù)據(jù),但是呢自己做簡(jiǎn)單分析太麻煩了,要有專業(yè)化的平臺(tái)幫我們分析這些,拉動(dòng)增長(zhǎng),降低成本。基本方法論就是漏斗圖轉(zhuǎn)化率,精細(xì)化一點(diǎn)的話Cohort Vintage Analysis,再精細(xì)化一點(diǎn)用戶畫像,為用戶定制化他的核心體驗(yàn),提高留存和持續(xù)付費(fèi)。

從APP的sdk切入的Talking data,友盟都是比較老牌了,環(huán)信給app提供的多媒體社交sdk也是很棒的點(diǎn),更多的廠家是在云端數(shù)據(jù)服務(wù),光我接觸到的,國(guó)內(nèi)的百分點(diǎn),Everstring,37degree,growing.io,美國(guó)Salesforce是做的比較久了,Ayasdi在最近美國(guó)融資榜上面排第二,核心算法、高性能計(jì)算、和數(shù)據(jù)可視化做的都很好,大家可以了解一下。說(shuō)個(gè)題外話,融資榜第一的Sentient科技,是做機(jī)器人的。反正就人工智能圈子。

最后一點(diǎn),一個(gè)好的數(shù)據(jù)科學(xué)家其實(shí)是適合做偏數(shù)據(jù)類的產(chǎn)品經(jīng)理的。項(xiàng)目冷啟動(dòng)上收UGC、爬什么外部數(shù)據(jù),是需要靠大局觀,靠腦洞的,不是守著自己現(xiàn)有一點(diǎn)數(shù)據(jù)分析分析就足夠了的。產(chǎn)品迭代的過(guò)程中,算法搞不定的時(shí)候也是有的,有時(shí)候拿A/B Testing結(jié)果說(shuō)話更靠譜。

在前沿技術(shù)公司里面,很可能進(jìn)來(lái)的人都有一個(gè)較高level的算法能力了,這樣的一些橫跨學(xué)界和產(chǎn)界人湊在一起,他們的核心技術(shù)就是拓?fù)洹D論、數(shù)論、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這一套純數(shù)學(xué)工具,很高的壁壘在這,他們?cè)谝黄鹨茨軌蚪鉀Q之前解決不了的問(wèn)題,要么極大改善傳統(tǒng)方法的效果,包括數(shù)據(jù)安全、OCR,圖像識(shí)別、語(yǔ)音識(shí)別、文本理解、機(jī)器翻譯、機(jī)器人等等。很多人在博士階段就有一些專利了,然后很自然而然的就開(kāi)始開(kāi)公司。特別有名的,包括剛才提到的Ayasdi,Sentient科技,Deep Genomics等等。這種公司的核心團(tuán)隊(duì)往往不太可能和一個(gè)成長(zhǎng)中的數(shù)據(jù)科學(xué)家共同成長(zhǎng),比較多的還是走學(xué)術(shù)產(chǎn)業(yè)化的道路,其實(shí)剛剛畢業(yè)的碩士,博士如果還喜歡在一線做工程的話,是特別適合加入這些團(tuán)隊(duì)的,國(guó)內(nèi)就有幾家,科大訊飛,商湯科技,等等就不贅述了。

 

所以洋洋灑灑總結(jié)一下,什么是數(shù)據(jù)科學(xué)家?

前面懂業(yè)務(wù),中臺(tái)證明自己的故事,底層寫代碼,算法的也寫后端的也寫。如果你是首席數(shù)據(jù)科學(xué)家,你不給自己公司站臺(tái),做技術(shù)型售前,你能指望誰(shuí)能比你講清楚你們的技術(shù)實(shí)力和商業(yè)模式?你不幫公司上收最數(shù)據(jù),你想指望誰(shuí)來(lái)做?

雖然對(duì)數(shù)據(jù)科學(xué)家的要求很高,但是也要看到幾個(gè)點(diǎn)

數(shù)據(jù)科學(xué)家不是數(shù)學(xué)家。三百年前就有費(fèi)馬大定理,三百年后才證明出來(lái),形成了厚厚一本論文集,捎帶搞定了谷山志村猜想,這個(gè)猜想的證明打?qū)嵙薭lockchain的基礎(chǔ)。那你能說(shuō),我想設(shè)計(jì)個(gè)比特幣,所以直接從證明猜想開(kāi)始干嗎?這么做的人肯定腦子有病。數(shù)學(xué)家更像哲學(xué)家,而數(shù)據(jù)科學(xué)家更像工程師,還是要記住解決問(wèn)題,要把真實(shí)世界抽象成可解決的數(shù)學(xué)問(wèn)題并親自解決。

數(shù)據(jù)科學(xué)家也不像 IT 工程師,更像什么汽車工程師、飛機(jī)制造工程師。

IT工程師工作的完成,具有特別清晰的要求和標(biāo)準(zhǔn),就像發(fā)動(dòng)機(jī)制造,滿足標(biāo)準(zhǔn)就是100分,不滿足0分。但是對(duì)于數(shù)據(jù)科學(xué)家來(lái)講,就好像造汽車造飛機(jī):你把工作完成了,也不一定是及格的。如果你做的結(jié)論大家都知道,那就沒(méi)什么價(jià)值,如果你的結(jié)論是基于錯(cuò)誤的數(shù)據(jù)得到了反直覺(jué)的結(jié)論,我估計(jì)你馬上可能就被解雇了。如果你的結(jié)論很棒,算法也很棒,但是工程實(shí)現(xiàn)不行,那就是大寫的尷尬。

因此你要特別善于在大家不關(guān)心的點(diǎn)找出新的思路來(lái)分析,提高數(shù)據(jù)的價(jià)值,對(duì)主動(dòng)學(xué)習(xí)的要求非常高。就好像造電動(dòng)車,電池你得管,結(jié)構(gòu)和抗碰撞能力你得管,外觀好不好看好不好賣你得管,發(fā)動(dòng)機(jī)當(dāng)然是關(guān)鍵的一環(huán),你可以不親自去造發(fā)動(dòng)機(jī)你可以買,但是發(fā)動(dòng)機(jī)買來(lái)了帶不帶得動(dòng)整車重量,你就得背鍋。

如果公司有數(shù)據(jù)文化,并愿意維護(hù)一個(gè)做實(shí)事的數(shù)據(jù)科學(xué)家崗位,而不是打嘴炮的團(tuán)隊(duì),是相當(dāng)值得珍惜的。之所以這么說(shuō)呢,是因?yàn)椋行┕荆鼔焊鶝](méi)有數(shù)據(jù)科學(xué)家。排除掉無(wú)法看到數(shù)據(jù)價(jià)值的傳統(tǒng)行業(yè),還是有公司沒(méi)有。所以我們就面對(duì)一個(gè)新問(wèn)題……

原文>>>

責(zé)任編輯:趙寧寧 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2019-08-07 18:52:40

GPU數(shù)據(jù)科學(xué)CPU

2016-12-23 14:56:49

數(shù)據(jù)科學(xué)商業(yè)視角思維

2016-12-22 23:27:49

數(shù)據(jù)數(shù)據(jù)科學(xué)家變量

2018-12-27 15:22:33

Python數(shù)據(jù)科學(xué)簡(jiǎn)歷

2019-07-08 15:38:56

FedoraJupyter數(shù)據(jù)科學(xué)家

2021-03-31 08:38:21

數(shù)據(jù)科學(xué)數(shù)據(jù)機(jī)器學(xué)習(xí)

2018-04-16 11:11:56

2019-07-09 14:27:43

數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)數(shù)據(jù)集

2018-11-30 09:09:39

2018-12-03 21:58:13

云計(jì)算

2020-05-27 11:16:49

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)Python

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2019-04-11 18:00:40

數(shù)據(jù)數(shù)據(jù)科學(xué)項(xiàng)目

2022-11-14 10:36:55

數(shù)據(jù)科學(xué)數(shù)據(jù)分析

2019-09-30 09:10:11

Python編程語(yǔ)言數(shù)據(jù)科學(xué)

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家

2018-06-29 16:00:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)清理數(shù)據(jù)分析

2020-06-01 14:11:39

AdaBoost數(shù)據(jù)科學(xué)分類器

2023-10-16 10:25:34

數(shù)據(jù)科學(xué)大數(shù)據(jù)

2022-02-07 00:05:49

機(jī)器學(xué)習(xí)GitHub工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91久久国产综合久久91精品网站 | 黄色在线免费观看视频网站 | 毛片在线看看 | 国产在线一区二区三区 | 1区2区视频 | 午夜不卡一区二区 | 久久午夜精品 | 中文字幕亚洲欧美 | 97精品一区二区 | 国产亚洲一区二区三区在线观看 | 亚洲伊人久久综合 | 中文字幕视频在线观看 | www.日韩av.com| 久久久123| 五月婷婷在线视频 | 精品亚洲91 | 成人av观看 | 亚洲91视频| 欧美精品欧美精品系列 | 中文字幕一区二区在线观看 | 欧美白人做受xxxx视频 | 精品久久久精品 | 精品国产乱码久久久久久牛牛 | 久久天堂| 成年男女免费视频网站 | 国产精品99久久久久久www | 久久久久国产一区二区三区四区 | 天天天操天天天干 | 亚洲欧美激情精品一区二区 | 一区二区三区精品在线视频 | 91精品一区二区三区久久久久久 | 亚洲一区二区三区视频免费观看 | 欧美一区二区三区 | 毛片网站在线观看视频 | 天天宗合网 | 天天操天天拍 | 久久久久久国产精品免费免费狐狸 | 高清一区二区三区 | 蜜桃综合在线 | 国产精品一区二区福利视频 | 中文无码日韩欧 |