關于數據科學家面試的那些事兒
數據科學是技術領域中最不明確的領域之一,但是數據科學行業的人才需求確實***的,無論是應聘者還是招聘人員,這篇文章可能會給你下一次面試帶來啟發!
招聘人員所要做的事
面試很困難,數據科學更是如此。每個公司對數據科學都有不同的看法。 更糟糕的是,許多人在招聘過程中或之后才發現他們想要什么。
作為招聘人員的責任是盡可能清楚地說明工作描述:需要的是數據工程師,可視化專家,數據分析師,算法工程師還是機器學習研究員? 知道你想要什么,并及早過濾。
這個工作的不確定性將會遺漏***的候選人——除非你是Google 等。他們會想知道已經建立了什么工具,他們的工作的投資回報率如何衡量,在團隊中有誰……
本文涉及“機器學習”數據科學家。
讓數據科學家談論他們所知道的
數據科學家有非常不同的背景。每一次面試都不可能做好全部的準備:他們是否應該學習“標準”計算機科學?統計?關于貝葉斯定理的?深度學習?機器學習?你公司的領域?
優秀的求職者有許多類別的基礎知識,善于動手實踐,并在一些領域擁有豐富的知識。如果你想進行技術討論的話,這有一些例子:
- 問題類型:回歸/分類/聚類/異常檢測…
- 數據類型:計算機視覺/時間序列/ NLP /推薦系統…
- 復雜數據:降維,流形學習…
- 觀點:深度學習/貝葉斯機器學習/圖形模型…
- 專長:行業洞察/優化/數值方法…
我的觀點是“開放”1-1面試比辦公室筆試要好。許多公司給出關鍵數據集,并要求分析。它可以幫助看出誰是務實的!對于有經驗的求職者可以提問很多,問關于他們的項目,或在Kaggle / GitHub上的表現。
具有行業經驗的求職者應該有失敗的項目。 這些教訓是必不可少的。
數據科學面試專題
然而,許多話題在數據科學面試中似乎是可爭論的對象。 記住,目的是促進討論:很少有一個唯一正確的答案!
機器學習與模型工程
- 你目前正在討論的任務有哪些算法?
- 它們什么時候完成,足夠完善,完善的基準,等等。
- 它們是如何工作的?是如何測量的?它們的參數擬合是如何優化的?
- 你如何評價一個模型的性能?根據上下文,這可以導致關于假正/假負、準確性、召回、AUC、提升等的討論。這應該如何決定?
- 你如何選擇最終的模型?性能?訓練時間?評估速度?復雜性?
了解交叉驗證和偏差/方差是至關重要的。
你如何做變量和模型選擇? 你可以考慮信息化指標、正則化、稀疏性誘導方法,如L1正則化、向前/向后搜索...
數據工程
- 你如何設計X?
- 你會對任務X做什么預處理?
- 不平衡數據呢?丟失的數據?異常值?
- 以及高基數的分類變量?
- 如何處理大數據? 考慮在線學習、映射/化簡、(小批量)隨機梯度下降...
- 你知道什么工具/語言可以實現X? 你使用哪些?為什么?
- 你使用哪些可視化工具? 為什么?
作出決定?
這總是放手一搏的。你不可能僅在短短幾小時內可靠地評估求職者過去項目中的參與情況,他們的專業知識,甚至你與他們的合作情況。
不要害怕選擇具有不同背景和經驗水平的求職者。 數據科學團隊需要這樣的人才。 如果你正在開始這樣一個團隊,就要依靠有專業知識的人:這是避免浪費時間的唯一辦法。
作者:Arthur Flam ,企業家,數據科學家。三星的算法工程師。