精英數(shù)據(jù)科學(xué)家應(yīng)該具備這些能力和特質(zhì)
數(shù)據(jù)科學(xué)家的需求仍然很高,幾乎每個行業(yè)的企業(yè)都希望從其蓬勃發(fā)展的信息資源中獲得最大價值。
“隨著企業(yè)開始充分利用內(nèi)部數(shù)據(jù)資產(chǎn),以及審視數(shù)百個第三方數(shù)據(jù)源的整合,數(shù)據(jù)科學(xué)家的作用也在變得越來越重要,”咨詢公司Protiviti總監(jiān)Greg Boyd這樣說。
“過去,負責數(shù)據(jù)的團隊只是IT部門的后臺,執(zhí)行關(guān)鍵數(shù)據(jù)庫任務(wù),確保各種公司系統(tǒng)得到數(shù)據(jù)‘燃料’的支持,這讓企業(yè)高管能夠報告運營情況并提供財務(wù)結(jié)果。”
這個角色很重要,但冉冉升起的業(yè)務(wù)明星都是那些精明的數(shù)據(jù)科學(xué)家,他們不僅能夠利用復(fù)雜的統(tǒng)計和可視化技術(shù)處理大量數(shù)據(jù),而且具有極強的敏銳度,讓他們可以從數(shù)據(jù)中得到前瞻性的洞察,這些洞察有助于預(yù)測潛在結(jié)果,并減少對企業(yè)的潛在威脅。
那么,成為數(shù)據(jù)科學(xué)家需要具備哪些條件呢?下面就是我們根據(jù)IT領(lǐng)導(dǎo)者、行業(yè)分析師、數(shù)據(jù)科學(xué)家的看法,總結(jié)出的一些重要屬性和技能。
批判性思維
數(shù)據(jù)科學(xué)家應(yīng)該是具有批判性的思想家,能夠在提出意見或作出判斷之前,針對特定主題或問題對事實進行客觀的分析。
咨詢公司普華永道負責數(shù)據(jù)分析的全球人工智能和創(chuàng)新負責人Anand Rao表示:“他們需要了解業(yè)務(wù)問題或業(yè)務(wù)決策,并能夠‘模擬’或‘抽象’解決問題的關(guān)鍵,而不是那些無關(guān)的、可以忽略的事情。這項技能比其他任何因素都更多地決定著數(shù)據(jù)科學(xué)家能否取得成功。”
數(shù)據(jù)科學(xué)家需要有經(jīng)驗,但也要能夠摒棄先見,Zeta Global公司首席信息官Jeffry Nimeroff補充說。
Nimeroff說:“這種特質(zhì)是要知道在任何領(lǐng)域工作都能有所期待,但也知道經(jīng)驗和直覺是不完美的。有經(jīng)驗是件好事,如果我們過于自滿,那風險也是存在的。這就是摒棄先見的重要性所在。”
這并不是說要以新手的視角來看待事情,而是要從多個角度重新審視,或者能夠評估問題和情況。
寫代碼
頂尖的數(shù)據(jù)科學(xué)家知道如何寫代碼,并且能夠輕松處理各種編程任務(wù)。
Rao說:“數(shù)據(jù)科學(xué)的語言選擇正在朝著Python方向傾斜,R語言也有大量追隨者。”此外,還有其他一些正在使用中的語言,例如Scala、Clojure、Java和Octave。
“要成為一名非常成功的數(shù)據(jù)科學(xué)家,編程技能就需要同時覆蓋到計算方面——處理大量數(shù)據(jù)、處理實時數(shù)據(jù)、云計算、非結(jié)構(gòu)化數(shù)據(jù)以及統(tǒng)計——和工作與統(tǒng)計模型方面——如回滾、優(yōu)化、集群、決策樹、隨機森林等。”
安全軟件公司McAfee的首席數(shù)據(jù)科學(xué)家Celeste Fralick說,大數(shù)據(jù)從20世紀90年代末開始產(chǎn)生影響力以來,就要求越來越多的數(shù)據(jù)科學(xué)家理解并能夠使用諸如Python、C ++或Java等語言進行編碼。
如果一個數(shù)據(jù)科學(xué)家不懂如何寫代碼,那么就應(yīng)該聘請一群會寫代碼的人。“把數(shù)據(jù)科學(xué)家和開發(fā)人員組成一個團隊,這被證明是非常成效的,”Fralick這樣說。
數(shù)學(xué)
對于不喜歡或不擅長數(shù)學(xué)的人來說,數(shù)據(jù)科學(xué)可能不是一個很好的職業(yè)選擇。
Boyd表示:“在我們與全球組織的合作中,我們認識了很多希望開發(fā)復(fù)雜財務(wù)或運營模式的客戶,為了使這些模型具有統(tǒng)計相關(guān)性,就需要有大量的數(shù)據(jù)。數(shù)據(jù)科學(xué)家的角色,就是利用他們在數(shù)學(xué)方面的深厚專業(yè)知識,開發(fā)出可用于開發(fā)或轉(zhuǎn)移關(guān)鍵業(yè)務(wù)戰(zhàn)略的統(tǒng)計模型。”
數(shù)據(jù)科學(xué)家應(yīng)該是擅長數(shù)學(xué)和統(tǒng)計學(xué)的,同時具備與業(yè)務(wù)線主管密切協(xié)作的能力,以確保業(yè)務(wù)可以信賴其結(jié)果和建議的方式,與業(yè)務(wù)線主管溝通在復(fù)雜的“黑盒子”中實際發(fā)生了什么。
機器學(xué)習(xí)、深度學(xué)習(xí)、人工智能
計算能力不斷提高,連接性增加,以及收集到的海量數(shù)據(jù),很多行業(yè)都在飛速的發(fā)展中。 “數(shù)據(jù)科學(xué)家需要走在研究前沿,知道在什么時候運用什么技術(shù)。很多時候,數(shù)據(jù)科學(xué)家會采用那些‘性感’而新奇的技術(shù),而他們實際要解決的問題遠沒有那么復(fù)雜。”
數(shù)據(jù)科學(xué)家需要對他們要解決的問題有著深入的了解,數(shù)據(jù)本身會告訴你需要什么。Fralick說:“意識到生態(tài)系統(tǒng)的計算成本、可解釋性、延遲、帶寬,以及其他系統(tǒng)邊界條件,還有客戶的成熟度,這可以幫助數(shù)據(jù)科學(xué)家知道他們應(yīng)該運用哪種技術(shù)。”的確如此,只要他們對這種技術(shù)是了解的。
統(tǒng)計方面的能力也是很重要的。Fralick說,大多數(shù)雇主都沒有考慮這方面的技能,因為他們輕而易舉地就能使用各種自動化工具和開源軟件。“但是,了解統(tǒng)計數(shù)據(jù)是理解這些工具和軟件所做假設(shè)的關(guān)鍵能力,”她說。
數(shù)據(jù)存儲公司Micron首席信息官Trevor Schulze說,僅僅理解機器學(xué)習(xí)算法的功能接口是不夠的。“為了選擇合適的算法,數(shù)據(jù)科學(xué)家需要了解方法中的統(tǒng)計數(shù)據(jù)以及數(shù)據(jù)準備技術(shù),以最大限度地提高任何模型的整體性能。”
Schulze說,計算機科學(xué)能力也很重要。因為數(shù)據(jù)科學(xué)的工作主要是在鍵盤上進行的,所以堅實的軟件工程基礎(chǔ)能起到幫助作用。
溝通能力
溝通技巧的重要性不言而喻。如今各種技術(shù)幾乎沒有哪些技術(shù)是在真空中使用的;系統(tǒng)、應(yīng)用、數(shù)據(jù)和人員之間總是存在著整合。數(shù)據(jù)科學(xué)也是如此,能夠利用數(shù)據(jù)與利益相關(guān)者進行交流,這是一個重要特質(zhì)。
“用數(shù)據(jù)‘講故事’的能力,是可以把數(shù)學(xué)結(jié)果轉(zhuǎn)化為可操作的洞察或者干預(yù)。作為業(yè)務(wù)、技術(shù)和數(shù)據(jù)的交叉點,數(shù)據(jù)科學(xué)家需要善于向每個利益相關(guān)者‘講故事’。”
這其中包括,向業(yè)務(wù)主管傳達數(shù)據(jù)的商業(yè)利益;技術(shù)和計算資源;數(shù)據(jù)質(zhì)量、隱私和機密性方面的挑戰(zhàn);以及該組織感興趣的其他領(lǐng)域。
Nimeroff表示,作為一名優(yōu)秀的溝通者,能夠?qū)⒕哂刑魬?zhàn)性的技術(shù)信息提煉成完整的、準確且易于呈現(xiàn)的形式。“數(shù)據(jù)科學(xué)家必須記住,他們執(zhí)行所產(chǎn)生的結(jié)果,可以并且將用于支持業(yè)務(wù)的特定行動。因此,要確保受眾理解并接受擺在他們面前的所有內(nèi)容,包括問題、數(shù)據(jù)、成功標準和結(jié)果,這是至關(guān)重要的。”
Schulze說,優(yōu)秀的數(shù)據(jù)科學(xué)家必須具有商業(yè)頭腦和好奇心,才能充分地與業(yè)務(wù)利益相關(guān)者溝通,了解問題并確定哪些數(shù)據(jù)可能是相關(guān)的。
此外,數(shù)據(jù)科學(xué)家需要能夠向業(yè)務(wù)領(lǐng)導(dǎo)者解釋算法。Schulze說:“解釋算法是如何實現(xiàn)預(yù)測的,是獲得領(lǐng)導(dǎo)者對作為業(yè)務(wù)流程一部分的預(yù)測模型的信任的關(guān)鍵技能。”
數(shù)據(jù)架構(gòu)
數(shù)據(jù)科學(xué)家必須從一開始、到模型、再到業(yè)務(wù)決策的過程中,就了解數(shù)據(jù)的所有情況。
“如果不去了解架構(gòu)可能會對樣本規(guī)模的推論和假設(shè)產(chǎn)生這樣嚴重的影響,這就會導(dǎo)致錯誤的結(jié)果和決策,”Fralick說。
更糟糕的是,架構(gòu)內(nèi)部也可能會發(fā)生變化。Fralick說,如果不了解對模型的影響是從何而起的話,數(shù)據(jù)科學(xué)家最終可能會“不得不重做模型”,或者突然遇到模型不準確的情況而不知道其中原因。
Fraclick表示,雖然Hadoop通過將代碼傳遞給數(shù)據(jù)(而不是相反)來通過提供大數(shù)據(jù),但了解數(shù)據(jù)流或數(shù)據(jù)管道的復(fù)雜性對于確保基于事實的決策制定是至關(guān)重要的。
風險分析、過程改進、系統(tǒng)工程
敏銳的數(shù)據(jù)科學(xué)家需要了解分析業(yè)務(wù)風險、改進流程以及系統(tǒng)工程等概念。
Fralick表示:“我所知的優(yōu)秀數(shù)據(jù)科學(xué)家無一不具備這些能力。他們緊密合作,對內(nèi)焦點是數(shù)據(jù)科學(xué)家,對外專注于客戶。”
對內(nèi),數(shù)據(jù)科學(xué)家應(yīng)該謹記“科學(xué)家”三個字,遵循良好的科學(xué)理論,F(xiàn)ralick這樣說。
在模型開發(fā)開始時進行風險分析可以降低風險。“表面上看,這些都是數(shù)據(jù)科學(xué)家了解客戶想要解決什么問題索要具備的技能。”
Fralick表示,將支出與流程改進聯(lián)系起來,了解固有的那些公司風險,以及可能影響數(shù)據(jù)或模型結(jié)果的其他系統(tǒng),這些可以通過數(shù)據(jù)科學(xué)家的努力實現(xiàn)更高的客戶滿意度。
解決問題的能力和良好的商業(yè)直覺
一般來說,偉大的數(shù)據(jù)科學(xué)家所展現(xiàn)的特質(zhì),與任何一個好的問題解決者都是相同的。Nimeroff表示:“”他們會從多角度看待世界,他們會在動用所有工具之前,先了解他們應(yīng)該做什么,他們以嚴謹而完整的方式工作,并且能夠順利地解釋他們的執(zhí)行結(jié)果。”
當評估數(shù)據(jù)科學(xué)家等職位的技術(shù)專業(yè)人士時,Nimeroff會尋找這些特質(zhì)。“這種方法成功的幾率要比失敗的幾率高得多,并且也確保了潛在的優(yōu)勢得以最大化,因為批判性思維已經(jīng)走到了最前沿。”
尋找一位優(yōu)秀的數(shù)據(jù)科學(xué)家,就是要尋找擁有某種矛盾性技能的人:可以應(yīng)對數(shù)據(jù)處理,并創(chuàng)建有用的模型;能直觀地理解他們正在嘗試解決的業(yè)務(wù)問題、數(shù)據(jù)的結(jié)構(gòu)和細微差別、以及模型的工作原理,商業(yè)軟件供應(yīng)商Paytronix Systems的Paytronix Data Insights主管Lee Barnes這樣說道。
“其中第一個是最容易找到的;大多數(shù)擁有良好數(shù)學(xué)能力,擁有數(shù)學(xué)統(tǒng)計學(xué)、工程學(xué)或其他科學(xué)學(xué)科學(xué)位的人,可能在這方面是非常出色的。第二個卻很難找到。令人驚訝的是,很多人建立了復(fù)雜的模型,但是當他們被問及為什么他們認為這個模型能夠奏效、或者為什么他們選擇這個方法的時候,他們卻無法給出一個很好的答案。”
這些人也許能夠解釋模型有多準確,“但是,如果不理解模型為什么以及如何工作,就很難對他們的模型抱有很大的信心。能夠?qū)τ谡谧龅氖虑橛懈钊氲牧私夂椭庇X,這樣的人才是真正的數(shù)據(jù)科學(xué)家,并且可能在這個領(lǐng)域擁有成功的職業(yè)生涯。”Barnes說。