解析:躋身數據科學領域的五條職業規劃道路
本文為你提供如何切實參與到數據科學和/或大數據職業道路的建議。
最近有許多人聯系我(大部分都是通過領英)尋求著手數據科學和/或大數據的建議。這些人普遍對切入這個“領域”感興趣,并且需要些關于如何切入方面的指導。
然而,我懷著極大的尊重來說這個話,這些請求的中心含義體現出請求者對自己所要求的事情其實并不理解。是的,不論在學習什么,每個人都需要從某個地方開始。我不會再一個個去回答這些相似的問題,這篇文章會列出和數據科學和/或大數據職業道路相關的一些基本的概念,并且,很希望提供一點如何切實參與到這個復雜領域的建議。
預備閱讀
第一篇文章概覽數據科學中一些最主要的概念,而第二篇文章則是今年早些時候對這些概念的更新。第三篇文章更深入地解析了數據科學和大數據之中的概念。最后一篇文章對比了一些其他術語,對“數據科學”這個術語的復雜性和微妙性進行了簡短的探討。
我將眾多的職業可能性拆分成五條能夠輕松掌控的道路。雖然可能有很多人強烈反對這種角色劃分并且因此感到恐慌,但它確實對技能和職業責任進行了高度的分類。因此,我相信接下來的內容能有效地幫助新來者在這個專業領域中所存在的令人混淆和迷惑的無數機會之中確認方向。
數據管理專員
這本質上是一個IT職業,類似于數據庫管理員。數據管理專員被認為和管理數據以及支持數據管理的設施有關。這個職位和數據分析只有很少關聯,也類似Python和R語言的使用也不是很必要。可能會用到SQL語言,以及和Hadoop相關的查詢語言,比如Hive和Pig。
關鍵技術以及需要關注的技能:
延伸閱讀:
數據工程師
這是一條非分析大數據職業道路。記得在剛剛的職業道路之中提到的數據設施嗎?是的,它們需要被設計和執行,數據工程師就承擔了這部分工作。如果說數據管理專員是汽車修理師,那么數據工程師就是汽車工程師。不過不要搞錯了,這兩個角色都對你的汽車的行駛和持續工作至關重要,對你從A點駕駛到B點同樣重要。
說句實話,數據工程師和數據管理專員所需要的技術和技能是相似的,然而,他們各自在不同的層次理解和使用同樣的概念。我不會重復之前一種職業中所提到的那些信息(所有這些信息對數據工程師都很重要),但我會專門給數據工程師補充延伸閱讀的清單。
延伸閱讀:
商業分析師
在本文里,商業分析師指的是與數據分析和數據呈現緊密相關的角色。包括報告,儀表板和任何被稱為“商業智能”的東西。 這種角色通常要求與關系數據庫和非關系數據庫以及大數據框架的交互(或查詢)。
雖然前兩種角色與設計基礎設施來管理數據以及實際管理數據有關,但商業分析師主要關注從那些或多或少存在的數據中提取信息。 這與以下兩個角色(機器學習研究者/從業者和以數據為導向的專業人員)形成對比,兩者都側重于從數據或數據以外已知的一些表面信息中獲得洞察力。 因此,商業分析師需要在所呈現的這些角色中具有獨特的技能。
關鍵技術以及需要關注的技能:
延伸閱讀:
機器學習研究員/從業者
機器學習研究人員和從業者指的是那些制作和使用預測和相關工具進行數據利用的人。 機器學習算法允許以較高的速度應用統計分析,并且那些操作這些算法的人不滿足于讓數據以其當前形式呈現出來。 數據詢問是機器學習愛好者的工作方式,但是具有足夠的統計理解才能知道何時推進的足夠遠,以及什么時候提供的答案不可信。
統計和編程是機器學習研究者和實踐者最大的財富。
關鍵技術以及需要關注的技能:
延伸閱讀:
數據導向專業人員
對于可以被稱為“真正的”數據科學家,這是我可以想出的最好的描述。你知道,獨角獸。除了,沒有獨角獸,說不同的話的人都是在撒謊。
數據管理專業人員和數據工程師關注數據的基礎設施。商業分析人員關注從數據中提取事實。機器學習研究者和從業者關注推進和使用相關工具,以利用數據來進行預測和相關分析。這兩種角色都是基于算法(開發或利用或兩者兼具)。數據導向的專業人員主要關注數據本身以及它可以告訴的事實,并不涉及執行任務時所需要的技術或工具。
面向數據的專業人員可能使用上面任何角色中列出的任何技術,這取決于他們的具體職責。這是與“數據科學”有關的最大的問題之一;該術語并沒有什么具體的實際意義,但在整體上又包括了一切。這個角色是就像是數據世界的萬金油:(可能)知道如何讓一個Hadoop生態系統建立和運行;如何對存儲在其中的數據執行查詢;如何抽取數據,并且載入到非關系型數據庫;如何獲取非關系型數據并將其提取到平面文件( flat file);如何在R或Python語言中辨別這個數據;如何在進行初步探索性描述分析后設計特征;如何選擇適當的機器學習算法來對數據進行預測分析;如何統計分析所述預測任務的結果;如何將結果可視化,以方便非技術人員使用;如何用剛剛描述的數據處理流水線的最終結果告訴管理人員一個令人信服的事實。
這只是數據科學家可能擁有的一些技能。然而,無論如何,這個角色的重點是數據,以及從數據中可以得到什么。同時,在這一個角色中,專業知識占很大的分量,這顯然不是這里可以教授的。
關鍵技術以及需要關注的技能:
延伸閱讀:
作為一篇介紹性文章,我有意地忽略了物聯網。原因有以下兩個:第一,我不想為試圖吸取所有這些新信息的人增加困惑;第二,物聯網只是一個特殊的數據情況。可能進行一些改進,這些角色都可以適用于物聯網數據。但本質來講還是一樣的。
我希望這個介紹能夠對那些想要從事“數據科學”或“大數據”行業但不知從哪里或者怎樣開始的人們有所幫助。 請記住,對于文章中所提到的任何角色。這里的介紹都不能包羅萬象。 但是,對于對數據專業了解不多的人來講,這是一個很好的起點。
如果你對這個話題的不同看法感興趣,可以讀一讀Zachary Lipton的Will the Real Data Scientists Please Stand Up(http://www.kdnuggets.com/2015/05/data-science-machine-learning-scientist-definition-jargon.html)?
作者介紹:
盧苗苗:北京語言大學英語專業在讀。一個帶有理科思維的文科生。 愛思考善分析,腦洞大想法多,喜歡在復雜事物中發現潛在聯系。既喜歡仰望星空,也喜歡腳踏實地。作為數據派的活躍分子,希望能同各位大們好好學習。
梁傅淇:軟件工程本科在讀,主修大數據分析,喜好搜索、收集各類信息。希望能在THU數據派平臺認識更多對數據分析感興趣的朋友,一起研究如何從數據挖掘出有用的模型和信息。