2021年比較值得投資的7種數(shù)據(jù)科學(xué)技能
在2021年伊始,Google數(shù)據(jù)與分析主管、NVIDIA工程部高級總監(jiān) ,以及Wealthsimple數(shù)據(jù)科學(xué)與工程副總裁等全球數(shù)據(jù)領(lǐng)導(dǎo)者,分享了他們認(rèn)為的7種比較值得大家在新的一年里學(xué)習(xí)的數(shù)據(jù)科學(xué)技能。這些技能是各大公司正在廣泛使用并推崇的。
首先需要申明,這七項技能都與機器學(xué)習(xí)或深度學(xué)習(xí)無關(guān),這是因為目前,數(shù)據(jù)分析行業(yè)對建模前階段和建模后階段使用的技能有更高的要求。因此,這七個最值得學(xué)習(xí)的技能實際上與數(shù)據(jù)分析師、軟件工程師和數(shù)據(jù)工程師擁有技能重疊。
那接下來就讓我們深入探討2021年比較值得學(xué)習(xí)的七項數(shù)據(jù)科學(xué)技能吧!
1) SQL
SQL是數(shù)據(jù)世界中的通用語言。無論你是數(shù)據(jù)科學(xué)家,數(shù)據(jù)工程師還是數(shù)據(jù)分析師,你都需要了解SQL。
SQL用于從數(shù)據(jù)庫中提取數(shù)據(jù)、處理數(shù)據(jù)和創(chuàng)建數(shù)據(jù)管道。本質(zhì)上,在數(shù)據(jù)生命周期中,它對于每個預(yù)分析、預(yù)建模階段都很重要。
開發(fā)強大的SQL技能將使你能夠?qū)⒎治觥⒖梢暬徒6继岣叩揭粋€新的水平,因為你將能夠以高級方式提取和操作數(shù)據(jù)。而且,對于使用PB級數(shù)據(jù)(1PB=1024TB=2^50字節(jié))的公司而言,編寫高效且可擴展的查詢變得越來越重要。
2) 數(shù)據(jù)可視化與數(shù)據(jù)講述
如果你認(rèn)為只有數(shù)據(jù)分析師才會專注于創(chuàng)建數(shù)據(jù)可視化圖表和數(shù)據(jù)講述(storytelling)的話,那你可能想錯了。
數(shù)據(jù)可視化只是指以可視化的方式呈現(xiàn)的數(shù)據(jù)。它可以是以圖形的形式,但也可以以非常規(guī)的方式呈現(xiàn)。
數(shù)據(jù)講述(storytelling)將數(shù)據(jù)可視化提升到了一個新的層次——數(shù)據(jù)講述指的是你如何傳達(dá)你的見解。把它想象成一本圖畫書。一本好的圖畫書有很好的視覺效果,但它也有一個引人入勝的和強有力的敘述,連接視覺效果。
強化你的數(shù)據(jù)可視化和數(shù)據(jù)講述的技能是必不可少的,因為作為一個數(shù)據(jù)科學(xué)家,你總是需要推銷你的想法和模型。在與非技術(shù)人員或者跨部門溝通時(比如說服你的產(chǎn)品經(jīng)理),這一點就顯得尤為重要了。在這里給大家推薦一個Google的演講視頻,來自《Storytelling with Data》這本書的作者Cole Nussbaumer Knaflic,演講的標(biāo)題與書同名。
3) Python
在數(shù)據(jù)科學(xué)家中使用Python的比例正在逐年增高。學(xué)習(xí)Python語法很容易,但是你應(yīng)該學(xué)習(xí)編寫高效的腳本,并充分利用Python提供的各種庫和包。Python編程是諸如數(shù)據(jù)處理、構(gòu)建機器學(xué)習(xí)模型、編寫DAG文件等應(yīng)用程序的基礎(chǔ)。
4)Pandas
可以說,Pandas是Python中最重要的包,它可以用于進行數(shù)據(jù)操作和分析。作為一名數(shù)據(jù)科學(xué)家,Pandas可以說是一個會被一直用到的工具,無論是清理數(shù)據(jù)、處理數(shù)據(jù)還是展示數(shù)據(jù)它都能勝任。
Pandas之所以能夠成為如此流行的包,不僅僅因為它的功能強大,還因為DataFrame已經(jīng)成為機器學(xué)習(xí)模型中的常用的數(shù)據(jù)結(jié)構(gòu)。
5)Git/版本控制(Version Control)
Git是目前業(yè)界最流行的版本控制系統(tǒng)(Version Control System)。
如果這對你來說有點難以理解,那我來舉個例子。在高中或大學(xué)的時候,假如你需要寫一篇論文,那你的電腦里可能會隨著你的進展保存下你論文的不同版本。例如:
開個小玩笑。Git是一個分布式版控制系統(tǒng),其最大的特點是各開發(fā)者本地所復(fù)制的不僅僅是當(dāng)前最新版本的文件,而是把代碼倉庫完整地從服務(wù)器上克隆了下來。這意味著代碼文件(或代碼倉庫庫)既存儲在本地,也存儲在中央服務(wù)器中。各開發(fā)者本地?fù)碛写a倉庫所有的文件以及文件歷史和變更信息。這樣即使服務(wù)器出現(xiàn)宕機,也不影響開發(fā)者本地開發(fā),開發(fā)者也可以隨時查看文件的各歷史版本。
Git可以實現(xiàn)幾個非常重要的功能:
- 它允許恢復(fù)到舊版本的代碼
- 它允許幾個數(shù)據(jù)科學(xué)家和程序員并行工作
- 它允許你使用與他人完全相同的代碼庫,即使你正在處理的是完全不同的項目
6)Docker
Docker是一個開放源代碼軟件項目。它是一個容器化的平臺,就像機器學(xué)習(xí)模型,允許你部署和運行應(yīng)用程序。
一個越來越重要的趨勢是,數(shù)據(jù)科學(xué)家不僅需要知道如何建立模型,而且要知道如何部署它們,現(xiàn)在很多數(shù)據(jù)科學(xué)家的職位招聘都需要一些模型部署的經(jīng)驗。
因為一個模型在沒有實際集成到與之相關(guān)的流程/產(chǎn)品之前,是沒有產(chǎn)生任何商業(yè)價值的,這也是為什么學(xué)習(xí)如何部署模型如此重要的原因。
7) Airflow
Airflow是一個工作流程管理的工具,你可以自動地執(zhí)行工作流程。換句話說,Airflow可以為創(chuàng)建全自動化的工作流水線,搭建數(shù)據(jù)流通道和機器學(xué)習(xí)模型。
Airflow功能十分強大,它可以將要用于進一步分析或建模的數(shù)據(jù)表格產(chǎn)品化,同時它還是一個可用于部署機器學(xué)習(xí)模型的工具。