職業生涯十字路口:數據科學崗位眾多,到底哪種適合你?
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
2012年,《哈佛商業評論》將數據科學稱為“21世紀最性感的工作”,現在已經過去了近十年,這個領域仍然沒有失去它的魅力。互聯網上成千上萬的視頻和文章,為數據科學領域描繪了一幅美麗的圖景。這些文章和視頻告訴人們,這一行業將提供豐厚的薪水和靈活的工作時間。
他們說:“你所要做的就是學習技能A、B、C,報名參加一個訓練營,再參加幾個在線課程,就可以在數據科學領域找到工作了。“
由于這樣的宣傳,許多人對這個領域的真正本質產生了不切實際的期望。在缺乏相應研究的情況下,他們最終做出了一個可能永遠改變他們生活的職業決定。
本文的目的并不是要詆毀數據科學領域,我不想阻止任何人在這個領域追求事業。我個人認為,只要投入適當的工作量和工作時間,任何人都可以成為數據科學家。然而,人們需要享受正在從事的工作。如果在不了解自己要從事行業的情況下倉促跳槽,人可能會浪費生命中的數年時間去做不喜歡的事情。
一個有創造力,有藝術天賦的人,那這個人會選擇文科還是理科呢?我猜應該會選擇藝術專業,因為這才是他更有興趣的方向。
當面臨這個選擇的時候,我選擇了從事數據科學。然而因為過量關于數據科學的炒作,我幾乎不知道這領域真正需要什么。和數據科學課上的所有學生一樣,在選擇專業之前我幾乎沒有做過需要的研究。
但我很幸運,對我來說這個決定很棒。我恰巧很喜歡盲選的數據科學。但是人與人之間不盡相同,與我同班的很多學生后悔他們的決定,想要換專業。正如上方提到的,所有的一切都可以歸結為一件事,是否對所做的事情充滿激情。
在本文中,筆者將詳細介紹數據科學領域。筆者將解釋數據科學中可以選擇的不同職業道路,并且描述不同道路需要做些什么。如果讀者覺得這些職業道路具有吸引力,那么無論職業或教育背景如何,都可以去追求數據科學。
數據科學中的各種職業
“數據科學家”是一個涵蓋性術語,用于描述各種不同的職業。這些職業可以互換,并且可能根據所在的組織有所不同。本文只是對一些數據科學中的常見職業的簡要概述。
1. 數據工程師
不知道你之前有沒有聽過一句話,“真實世界的數據是混亂的。”這些數據來自于各種不同的渠道——如手機、閉路電視以及其他的設備。這些真實的數據是非結構化的,需要被清理、流水線化,并以一種結構化的格式儲存,方便數據科學家和分析人員進行處理。做數據工程師并不需要機器學習或數據分析的知識,他們的工作是創建一個管理大數據的基礎設施。
所需技能:數據工程師通常需要編寫非常復雜的查詢語句對大型數據集進行管理。因此需要非常了解查詢所需的語言。根據合作的公司不同,可以使用SQL或NoSQL語言。
所需工具:MySQL,MongoDB,Cassandra等。
圖源:unsplash
2. 數據分析
數據分析師是從數據工程師所清理過的數據中洞察出信息的人。分析人員在數據中尋找模式值與異常值,并得出規律,回答復雜的數據問題。
請想象這樣一個情境——A公司賣糖果,想得知禁售前后糖果的銷量是否發生變化。數據分析師根據公司需求,將查詢數據,查看禁售前、禁售期間、禁售后的糖果銷售趨勢。為了更好地展示數據,分析師還可以采用可視化的方法——統計圖和統計表來表達糖果銷售的增長與下降。
這只是一個非常基本的例子,但是足以描述公司中數據分析師的職業。數據分析師可能還需要具備一些業務領域的知識,以便于理解客戶的請求并根據他們的需求交付結果。分析師不需要具備機器學習的知識,也不需要創建任何類型的預測模型。
所需技能:分析師需要了解一種查詢語言,這將根據公司的不同而不同。掌握一種或多種編程語言至關重要。分析師的主要任務是從數據中洞察出信息,因此沒有必要對數據創建表或寫入表。有可視化工具的知識將會非常有用。
所需工具:MySQL,Hive, Python, Tableau, Excel, PowerBI(根據工作的公司不同)。
3. 數據科學家
數據科學家是應用機器學習技術提出預測模型的人。數據科學家設計算法,根據所提供的數據做出預測,建立統計模型,做類創建推薦系統或是欺詐檢測之類的事情。根據所在公司的不同,數據科學家可能也需要具備分析師的技能——接受業務請求、獲得數據特性、完成可視化之類的事情。
我們常看到“數據科學獨角獸”這個詞,這個詞指能夠:
- 提出機器學習模型并做出預測
- 具有特定領域知識,能夠將特定業務需求轉化為數據問題
- 分析數據并提出商業見解
- 能夠向客戶展示/傳達這些見解
綜上所述,數據科學獨角獸指懂得機器學習和數據分析、擁有領域相關知識、能夠表達自己見解的人。然而在大多數數據為核心驅動的公司中,這幾種工作是分開的。數據科學家的主要任務仍然是建立機器學習模型,并做出預測。
所需技能:一種或多種編程語言,較強的數學背景,統計學,機器學習。
所需工具:R,Python(工具包,如Caret和Scikit-Learn)。
你應該選擇什么職業?
圖源:unsplash
在數據科學的生命周期中,還有很多可以扮演的職業,如機器學習工程師,商業洞察師等。筆者上方列出了三個主要職位,在做出最后的職業決定前,你也應該對其他的職位也做一些調查。上文提到的所有職業都需要一些編程和查詢的知識,這些并不難學習。
數據工程師可能是這三種角色中技術含量最高的,因為這需要比其他任何一種都需要更多的編程。如果讀者更傾向于編程,并且了解數據庫的來龍去脈,可以考慮成為一名數據工程師。
數據科學家的角色更注重于數學本身。如果喜歡數學,并對建立堅實的統計學基礎感興趣,可以考慮成為一名數據科學家。如果想成為一名數據科學家,則需要一個更強的學術背景,花更多的時間進行學習。需要了解編程知識(用R或Python編寫),并使用工具包構建機器學習模型。
最后,數據分析師需要對數據具有洞察力的人。要成為分析師,則需要知道如何查詢數據并找到符合顧客需求的見解。這在三個職業中最需要創意。從事這個職業需要將業務需求轉化為洞察力,并進行可視化。還可能需要對客戶進行展示。如果你是一個有創造力的人,有良好的表達和溝通技巧,數據分析可能相當適合你。
歸根結底,做你喜歡的事,興趣是第一生產力。