迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)！

作者：讀芯術(shù) 2019-12-16 07:23:53

好的準(zhǔn)備工作是數(shù)據(jù)科學(xué)職業(yè)生涯成功的關(guān)鍵，這當(dāng)然也包括面試過(guò)程。現(xiàn)在，我們將數(shù)據(jù)科學(xué)家將會(huì)遇到的面試問(wèn)題分為了六個(gè)不同的類別：數(shù)據(jù)統(tǒng)計(jì)、編程、建模、行為、文化，和解決問(wèn)題類。

不管你是擁有上萬(wàn)經(jīng)驗(yàn)條的“老手”，亦或是初出茅廬卻天資過(guò)人的“新手”，面試官總能“難倒你”。

在面試的時(shí)候，面試官所出題目涉及的范圍可能會(huì)非常廣，這既考驗(yàn)了面試者的技能知識(shí)，又很能體現(xiàn)面試者的溝通技巧。面試官會(huì)通過(guò)一系列的問(wèn)題來(lái)衡量你的數(shù)據(jù)統(tǒng)計(jì)、編程，和數(shù)據(jù)建模能力，而且這些問(wèn)題是經(jīng)過(guò)專門(mén)設(shè)計(jì)的，需要你精神高度集中，并迫使你展示在壓力下的工作狀態(tài)。

[[285568]]

好的準(zhǔn)備工作是數(shù)據(jù)科學(xué)職業(yè)生涯成功的關(guān)鍵，這當(dāng)然也包括面試過(guò)程。

怎樣才能不被面試官“難倒”?怎樣才能在一場(chǎng)數(shù)據(jù)科學(xué)面試上脫穎而出?小芯這次特別整理了你應(yīng)該準(zhǔn)備的所有數(shù)據(jù)科學(xué)面試問(wèn)題，包括國(guó)內(nèi)外109個(gè)面試問(wèn)答，都是數(shù)據(jù)科學(xué)面試時(shí)面試者曾遇到的真實(shí)的問(wèn)題哦，作為年末送給大家的福利~快將它收入囊中吧~

現(xiàn)在，我們將數(shù)據(jù)科學(xué)家將會(huì)遇到的面試問(wèn)題分為了六個(gè)不同的類別：數(shù)據(jù)統(tǒng)計(jì)、編程、建模、行為、文化，和解決問(wèn)題類。

數(shù)據(jù)統(tǒng)計(jì)(Statistics)
編程
一般問(wèn)題
大數(shù)據(jù)
Python
R語(yǔ)言
結(jié)構(gòu)化查詢語(yǔ)言(SQL)
建模
行為
文化契合
問(wèn)題解決能力

[[285569]]

圖源：Unsplash

數(shù)據(jù)統(tǒng)計(jì)面試問(wèn)題

統(tǒng)計(jì)計(jì)算就是數(shù)據(jù)科學(xué)家通過(guò)原始數(shù)據(jù)來(lái)做出預(yù)測(cè)和建模的過(guò)程。沒(méi)有杰出的統(tǒng)計(jì)學(xué)知識(shí)，是很難成為一個(gè)成功的數(shù)據(jù)科學(xué)家的。因此，一個(gè)優(yōu)秀的面試官大概率會(huì)通過(guò)一些統(tǒng)計(jì)向的數(shù)據(jù)科學(xué)問(wèn)題，來(lái)試探你對(duì)這個(gè)領(lǐng)域的理解。那么面試者最好對(duì)一些基本的統(tǒng)計(jì)問(wèn)題有所準(zhǔn)備，以此為數(shù)據(jù)面試做更充分的準(zhǔn)備。

下列是我們搜尋到的一些常見(jiàn)統(tǒng)計(jì)問(wèn)題：

1. 什么是中心極限定理?它為什么很重要?

“假設(shè)，我們有興趣來(lái)估算所有人的平均身高。搜集世界上每個(gè)人的數(shù)據(jù)是不可能的。雖然我們不能獲得每個(gè)人的身高測(cè)量數(shù)據(jù)，但我們?nèi)钥梢詮囊恍┤松砩先印Ｄ敲磫?wèn)題就變成了，對(duì)于這個(gè)單一的樣本推測(cè)出的整個(gè)人口的平均身高，你的看法是怎么樣的。中心極限定理其實(shí)也就是在討論這個(gè)問(wèn)題。”

2. 什么是抽樣? 你知道多少種抽樣方法?

“數(shù)據(jù)抽樣是一種統(tǒng)計(jì)分析技術(shù)，用于選擇、操作和分析具有代表性的數(shù)據(jù)點(diǎn)子集，以識(shí)別正在測(cè)試的更大數(shù)據(jù)集中的模式和趨勢(shì)。”

3. I類錯(cuò)誤和II類型錯(cuò)誤的區(qū)別是什么?

“當(dāng)原假設(shè)為真但被拒絕時(shí)，會(huì)發(fā)生I類錯(cuò)誤。如果原假設(shè)是不成立的，但卻錯(cuò)誤地沒(méi)有被拒絕，就會(huì)發(fā)生 II 類錯(cuò)誤。”

4. 什么是線性回歸?P 值、系數(shù)、和R平方值這些術(shù)語(yǔ)又是什么意思?它們各自的重要性又是怎樣的?

線性回歸是快速預(yù)測(cè)分析的好工具。舉例來(lái)講，房子的價(jià)格取決于許多因素，比如它的大小或位置。為了看到這些變量之間的關(guān)系，我們需要建立一個(gè)線性回歸模型，它可以預(yù)測(cè)變量之間的最佳匹配線，并且可以幫助得出這兩個(gè)因素之間是正相關(guān)還是負(fù)相關(guān)。

5. 線性回歸需要什么樣的假設(shè)?

有四個(gè)主要假設(shè)：

因變量和回歸變量之間存在線性關(guān)系，這意味著你正在創(chuàng)建的模型實(shí)際上適合數(shù)據(jù)。
數(shù)據(jù)的誤差或殘差是正態(tài)分布的，相互獨(dú)立。
在解釋變量間存在最小多重共線性。
同方差性。這意味著對(duì)于預(yù)測(cè)變量的所有值，回歸線周圍的方差是相同的。

6. 什么是統(tǒng)計(jì)交互作用?

“基本上，交互作用是指一個(gè)因素(輸入變量)對(duì)因變量(輸出變量)的影響在另一個(gè)因素的不同水平上存在差異。”

7. 什么是選擇性偏差?

“當(dāng)為建模而收集和準(zhǔn)備的樣本數(shù)據(jù)具有不能代表模型將預(yù)測(cè)到的未來(lái)真實(shí)情況的特征時(shí)，選擇(或‘抽樣’)偏差會(huì)在‘主動(dòng)的’意義上發(fā)生。也就是說(shuō)，當(dāng)一部分?jǐn)?shù)據(jù)被系統(tǒng)地，即非隨機(jī)地排除在分析之外時(shí)，就會(huì)出現(xiàn)主動(dòng)選擇性偏差。”

8. 非高斯分布的數(shù)據(jù)集是什么樣的?

“高斯分布是指數(shù)族分布的一部分，但除此之外，還有很多使用十分便捷的分布。對(duì)研究深度學(xué)習(xí)的人而言，如果在統(tǒng)計(jì)學(xué)方面有堅(jiān)實(shí)的基礎(chǔ)，則能夠更加熟練地應(yīng)用這些分布。”

9. 二項(xiàng)式概率公式是什么?

“二項(xiàng)分布的概率包括：n次獨(dú)立試驗(yàn)中每次成功的可能數(shù)量的概率，每次試驗(yàn)都發(fā)生的概率(希臘字母 pi)。”

在Glassdoor*上找到的類似的數(shù)據(jù)科學(xué)面試問(wèn)題實(shí)例：

*Glassdoor 是美國(guó)一家做企業(yè)點(diǎn)評(píng)與職位搜索的職場(chǎng)社區(qū)。

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

什么是P值?如果有不同(更大，有三百萬(wàn)個(gè)期望值)的數(shù)據(jù)集你又如何理解P值變化?

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

Wayfair*公司(一家美國(guó)電子商務(wù)公司，主要銷售家具和家居用品。)決定不再向過(guò)半的線上客戶提供電話客服，它為什么要這么做?

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

如何巧妙地應(yīng)用一些計(jì)算技巧，來(lái)更快速地計(jì)算逆矩陣?

編程

為了檢驗(yàn)編程技能，你通常會(huì)遇到以下兩類問(wèn)題：在不寫(xiě)出代碼的情況下，你會(huì)如何從理論上解決編程問(wèn)題?隨后，面試官會(huì)要求你在白板上當(dāng)場(chǎng)寫(xiě)下你的解決方案。對(duì)于后一種問(wèn)題，這里有幾個(gè)案例可供參考。在“實(shí)踐出真知”的方針指導(dǎo)下，該網(wǎng)站圍繞著核心概念出了很多有挑戰(zhàn)的題目，而它們也是面試時(shí)常見(jiàn)的問(wèn)題。

[[285570]]

圖源：Unsplash

一般問(wèn)題

你最擅長(zhǎng)的編程語(yǔ)言和環(huán)境是什么?
你最喜歡的統(tǒng)計(jì)軟件有哪些優(yōu)缺點(diǎn)?
展示一個(gè)你原創(chuàng)的算法。
描述一次你參與了實(shí)質(zhì)性的編程組件的數(shù)據(jù)科學(xué)項(xiàng)目經(jīng)歷。以及你從那次經(jīng)歷中學(xué)到了什么?
你是否為任何開(kāi)源項(xiàng)目做過(guò)貢獻(xiàn)?
如何清理數(shù)據(jù)集(以insert語(yǔ)句為例)?
展示你在上一個(gè)項(xiàng)目中做的代碼。

大數(shù)據(jù)

1. Hadoop框架的兩個(gè)主要構(gòu)成部分?

Hadoop分布式文件系統(tǒng)(HDFS)，MapReduce(編程模型)，和另一種資源協(xié)調(diào)者(YARN)。

2. 盡量簡(jiǎn)潔地解釋MapReduce的工作原理。

“MapReduce是一個(gè)編程模型，可以在使用商用硬件的計(jì)算機(jī)群上對(duì)大型數(shù)據(jù)集進(jìn)行分布式處理。HadoopMapReduce首先會(huì)執(zhí)行數(shù)據(jù)映射，這包括將大文件分割成多個(gè)部分，以生成另一組數(shù)據(jù)。”

3. 如何處理一長(zhǎng)列數(shù)字?

4. 假設(shè)有一個(gè)大數(shù)據(jù)集。你將如何處理其中的異常值、缺失值，以及數(shù)據(jù)轉(zhuǎn)換?

Python

1. 你最熟悉的模塊和數(shù)據(jù)庫(kù)有哪些?它們哪些特點(diǎn)讓你喜歡，哪些讓你討厭?

2. Python是如何管理內(nèi)存?

在Python中，內(nèi)存是在私有堆空間中管理的，這意味著所有Python對(duì)象和數(shù)據(jù)結(jié)構(gòu)都位于一個(gè)私有堆中。但是，程序員無(wú)法訪問(wèn)這個(gè)私有空間。相反，Python解釋器將處理它。同時(shí)，核心應(yīng)用程序接口(API)允許程序員使用一些Python工具來(lái)編寫(xiě)代碼。內(nèi)存管理器將為Python對(duì)象分配堆空間，而內(nèi)置垃圾收集器則回收所有未使用的內(nèi)存，并釋放內(nèi)存使其可用到堆空間。

3. Python支持哪些數(shù)據(jù)類型?

“Python的內(nèi)置，或者標(biāo)準(zhǔn)數(shù)據(jù)類型可以分為幾類。按Python官方文檔中使用的層次結(jié)構(gòu)模式來(lái)看，即數(shù)字類型、序列、集合和映射。”

4. Python中的元組(tuple)和列表(list)有什么區(qū)別?

“除了元組是不可變的之外，語(yǔ)句應(yīng)用上兩者也有區(qū)別。”

R語(yǔ)言

1.R語(yǔ)言中有哪些不同類型的排序算法?

有插入、選擇和冒泡(bubble)排序算法。這里閱讀更多。

2. R語(yǔ)言中的不同數(shù)據(jù)對(duì)象是什么?

“R語(yǔ)言可以將數(shù)值存儲(chǔ)為不同的核心數(shù)據(jù)類型(在R術(shù)語(yǔ)中稱為模式);這些類型包括數(shù)字(整數(shù)和雙精度浮點(diǎn)數(shù))、字符和邏輯符號(hào)。”

3. 你最熟悉的軟件包是什么?你認(rèn)為它們哪些特點(diǎn)讓你喜歡，哪些讓你討厭?

4.如何訪問(wèn)名為M的矩陣的第2列和第4行中的元素?

“我們可以使用方括號(hào)索引方法訪問(wèn)矩陣中的元素。元素可以作為var[row, column]來(lái)訪問(wèn)。”

5. 在文件中用來(lái)存儲(chǔ)R對(duì)象的命令是什么?

save (x,file=”x.Rdata”)

6. Hadoop和R語(yǔ)言一起進(jìn)行數(shù)據(jù)分析的最佳方式是什么?

“Hadoop和R語(yǔ)言在大數(shù)據(jù)的可視化和分析方面相互補(bǔ)充。有四種不同的方法可以同時(shí)使用Hadoop和R語(yǔ)言。”

7. 在R語(yǔ)言中，如何將連續(xù)變量分成不同的組或級(jí)?

8. 用R語(yǔ)言編寫(xiě)一個(gè)函數(shù)，其功能是使向量的平均值替換該向量中的缺失值。

結(jié)構(gòu)化查詢語(yǔ)言(SQL)

SQL問(wèn)題通常是基于實(shí)際案例的，這就意味著面試官會(huì)從實(shí)用的角度來(lái)測(cè)試你的技能。舉例來(lái)講，面試官會(huì)給你一個(gè)表單，要求你提取相關(guān)數(shù)據(jù)，然后根據(jù)你認(rèn)為合適的方式對(duì)數(shù)據(jù)進(jìn)行篩選和排序，最后陳述你的發(fā)現(xiàn)。如果你還沒(méi)有準(zhǔn)備好在面試環(huán)境中進(jìn)行這樣的操作，Mode Analytics(模式分析)提供了使用SQL的有趣介紹，它將通過(guò)一個(gè)交互式SQL環(huán)境來(lái)教你這些命令。

1. 組函數(shù)在SQL中的用途是什么?給出一些組函數(shù)的例子。

組函數(shù)是獲得數(shù)據(jù)集的摘要統(tǒng)計(jì)信息的必要途徑。 COUNT、MAX、MIN、AVG、SUM和DISTINCT都是組函數(shù)。

2. 交集(innerjoin)、左結(jié)果集(left join)、右結(jié)果集(rightjoin)和合并(union)之間的區(qū)別。

“在維恩圖中，交集就是左右兩個(gè)表單匹配的部分，左結(jié)果集則產(chǎn)生于左表中有匹配項(xiàng)且右表無(wú)效時(shí)，右結(jié)果集與左結(jié)果集是相對(duì)的，合并就是指所有的數(shù)據(jù)。”

3. 合并(UNION)的功能?合并和全合并(UNIONALL)有什么不同?

“合并會(huì)刪除重復(fù)的記錄，也就是那些結(jié)果相同的欄，而全合并則不刪除重復(fù)的部分。”

4. SQL、MySQL和SQLServer有什么區(qū)別?

“SQL就是結(jié)構(gòu)化查詢語(yǔ)言，它是訪問(wèn)和操作數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)語(yǔ)言。MySQL是一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)，像SQLServer，Oracle1，Informix2，PostgreSQL3都是數(shù)據(jù)庫(kù)管理系統(tǒng)。

1：甲骨文公司的一款關(guān)聯(lián)式資資料庫(kù)管理系統(tǒng)。
2：IBM信息管理部門(mén)的一個(gè)產(chǎn)品系列。
3：是以加州大學(xué)計(jì)算機(jī)系開(kāi)發(fā)的POSTGRES，4.2版本為基礎(chǔ)的對(duì)象關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。

5. 如果表單內(nèi)包含重復(fù)行，查詢結(jié)果是否默認(rèn)顯示重復(fù)值?如何從查詢結(jié)果中消除重復(fù)行?

會(huì)的。使用DISTINCT語(yǔ)句是消除重復(fù)行的一種方法。

有關(guān)特定代碼片段的其他SQL問(wèn)題，請(qǐng)查看Toptal創(chuàng)建的資源。

在Glassdoor上找到的類似的數(shù)據(jù)科學(xué)面試問(wèn)題實(shí)例：

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

評(píng)價(jià)一個(gè)Python函數(shù)。

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

SQL查詢分為自我查詢(self joins)和內(nèi)查詢(innerqueries)。可以通過(guò)分析性查詢來(lái)解決問(wèn)題。

[[285571]]

圖源：Unsplash

建模

數(shù)據(jù)建模才是數(shù)據(jù)科學(xué)家為公司創(chuàng)造價(jià)值的途徑。將數(shù)據(jù)轉(zhuǎn)化為可預(yù)測(cè)的、可運(yùn)用的信息是很困難的，與潛在雇主談?wù)撨@些問(wèn)題更是如此。練習(xí)描述你過(guò)去建立模型的經(jīng)歷：你使用了哪些技巧，克服了哪些挑戰(zhàn)，又取得了怎樣的成功?

下面的一組問(wèn)題就是幫助你了解這些信息，以及回顧不同建模技術(shù)。如果你不能描述你使用模型背后相關(guān)的理論和假設(shè)，你不會(huì)給面試官留下好印象。

那么請(qǐng)瀏覽以下的問(wèn)題來(lái)進(jìn)行練習(xí)，并不是所有的問(wèn)題都會(huì)出現(xiàn)在你的面試?yán)铮悴恍枰莆账械募记伞＿@些問(wèn)題更多的是幫助你重新熟悉過(guò)去學(xué)過(guò)的建模技術(shù)的。

1. 你如何為過(guò)去的雇主或客戶設(shè)計(jì)一個(gè)模型?

2. 你最喜歡的數(shù)據(jù)可視化工作技巧是什么?

3. 如何有效地用五維方式展示數(shù)據(jù)?

4. k鄰近算法和K均值算法有什么不同?

k-NN(距k最近區(qū)域的英文縮寫(xiě))，是一種分類算法，其中k是一個(gè)整數(shù)，用來(lái)描述影響給定觀測(cè)值分類的相鄰數(shù)據(jù)點(diǎn)的數(shù)量。K均值算法是一種聚類算法，其中k是一個(gè)整數(shù)，用于描述從給定數(shù)據(jù)創(chuàng)建的聚類數(shù)量。

5. 如何創(chuàng)建一個(gè)Logistic回歸分析模型?

6. 用過(guò)時(shí)間序列模型嗎?理解時(shí)滯的交叉相關(guān)性嗎?

7. 解釋二八法則，并說(shuō)出它在模型驗(yàn)證中的重要性。

“人們通常傾向于用一個(gè)80%和20%的比例(80%的訓(xùn)練集，20%的測(cè)試集)開(kāi)始建模，然后再次將訓(xùn)練集分離成80%和20%的比例來(lái)創(chuàng)建驗(yàn)證集。”

8. 解釋什么是準(zhǔn)確率、召回率，它們和ROC曲線有什么關(guān)系?

召回率表示了真正值在模型中被記為正值的比率。準(zhǔn)確率描述了正面預(yù)測(cè)的正確率。ROC曲線顯示了模型召回率和特異性之間的關(guān)系：特異性是用來(lái)衡量真負(fù)值在模型中被記為負(fù)值的比率。召回率、準(zhǔn)確率和ROC是用來(lái)衡量給定分類模型有多大用處的指標(biāo)。

9. 解釋L1和L2正則化方法的區(qū)別。

“使用L1正則化技巧的回歸模型稱為套索回歸(LassoRegression)，使用 L2的回歸模型稱為嶺回歸，這兩者之間的關(guān)鍵區(qū)別在于懲罰因子。”

10. 根本原因分析法是什么?

“我們所有人都害怕一種會(huì)議，那就是老板會(huì)問(wèn)‘為什么營(yíng)收減少了?’。更糟糕的是，我們對(duì)這個(gè)問(wèn)題一點(diǎn)想法都沒(méi)有。生意可謂是日新月異，但你想要準(zhǔn)確地了解是什么在推動(dòng)這些變化，尤其是那些意想不到的變化。理解變化的潛在原因被稱為根本原因分析。”

11. 什么是哈希表碰撞?

“如果鍵值的范圍大于哈希表的大小(通常都是這樣的)，那么我們必須考慮到兩個(gè)不同的記錄，和兩組不同的答案會(huì)散列到同一個(gè)表索引的可能性。其實(shí)有幾種不同的方法來(lái)解決這個(gè)問(wèn)題。在哈希表中，這種解決方案稱為碰撞解決方案。”

12. 什么是精確檢驗(yàn)?

“精確(顯著性)檢驗(yàn)中所有推導(dǎo)檢驗(yàn)統(tǒng)計(jì)量分布假設(shè)都能夠得到滿足，而在近似檢驗(yàn)中，通過(guò)使樣本規(guī)模足夠大，就可以得到足夠接近的近似值。之后就要進(jìn)行顯著性檢驗(yàn)，其錯(cuò)誤拒絕率總是等于檢驗(yàn)的顯著性水平。例如，在顯著性水平為5%的精確檢驗(yàn)中，從長(zhǎng)遠(yuǎn)來(lái)看，拒絕真正的零假設(shè)的時(shí)間只占5%。”

13. 在你看來(lái)，設(shè)計(jì)機(jī)器學(xué)習(xí)模型時(shí)，哪個(gè)更重要:模型性能還是模型準(zhǔn)確性?

這里有本問(wèn)題的一個(gè)解答。

14. 如何處理一個(gè)用于預(yù)測(cè)的不平衡數(shù)據(jù)集，例如在負(fù)類比正類多得多的情況下?

15. 如何使用多元回歸來(lái)驗(yàn)證，你創(chuàng)建的生成預(yù)測(cè)模型的定量結(jié)果?

16. 兩個(gè)模型的準(zhǔn)確性和計(jì)算性能相當(dāng)，該選擇哪一個(gè)模型投入生產(chǎn)，為什么?

17. 如何處理稀疏性?

18. 花五天時(shí)間研究出一個(gè)準(zhǔn)確度為90%解決方案，還是花10天時(shí)間研究出100%準(zhǔn)確的解決方案?

19. 一般線性模型失敗的情況有哪些?

20. 你是否認(rèn)為50個(gè)小的決策樹(shù)比一整個(gè)大的更好?為什么?

21. 在修改算法時(shí)，如何知道你的更改是對(duì)是對(duì)不執(zhí)行任何操作的改進(jìn)?

22. 是有太多的假正值還是太多的假負(fù)值更好?

這取決于幾個(gè)因素。

在Glassdoor上找到的類似的數(shù)據(jù)科學(xué)面試問(wèn)題實(shí)例：

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

如何對(duì)各有一百條消費(fèi)記錄的百萬(wàn)用戶，進(jìn)行有效分類，分類標(biāo)準(zhǔn)是一萬(wàn)人為一組，他們的共同特征是消費(fèi)過(guò)同類產(chǎn)品。

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

學(xué)術(shù)型問(wèn)題總是能找到答案的。請(qǐng)回憶一下各基本算法的一兩個(gè)特點(diǎn)：神經(jīng)網(wǎng)絡(luò)，隨機(jī)森林，支持向量機(jī)，線性回歸。

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

你會(huì)怎樣調(diào)整一個(gè)隨機(jī)森林?

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

想象一下場(chǎng)景：我簽署了一份保密協(xié)議，所以我不能揭露過(guò)多細(xì)節(jié)。但是面試官提出了一個(gè)開(kāi)放式問(wèn)題，它包含了我創(chuàng)建、設(shè)計(jì)、應(yīng)用一個(gè)算法的全過(guò)程。

[[285572]]

圖源：Unsplash

過(guò)去的行為

雇主很喜歡行為性問(wèn)題。因?yàn)檫@些問(wèn)題不僅能夠揭示受試者的工作經(jīng)歷，還有他們的工作態(tài)度，以及受試者曾給一個(gè)團(tuán)隊(duì)帶來(lái)的影響。從這些問(wèn)題出發(fā)，面試官想了解的是面試者在過(guò)去是如何應(yīng)對(duì)這些環(huán)境的，他們又是如何把自己的作用發(fā)揮到極致的，以及他們能從這些經(jīng)歷中學(xué)到什么。

那么行為性問(wèn)題通常有以下幾類：

團(tuán)隊(duì)合作
領(lǐng)導(dǎo)力
沖突應(yīng)對(duì)
解決問(wèn)題
面對(duì)失敗

在開(kāi)始面試前，寫(xiě)下和這些話題有關(guān)的工作經(jīng)歷，幫助你喚醒之前的記憶，因?yàn)槟憧赡苄枰鞍l(fā)生的真實(shí)的案例來(lái)回答這些問(wèn)題。注意，要求你陳述前段經(jīng)歷的時(shí)候，確保你說(shuō)的是一個(gè)故事，而簡(jiǎn)潔并有邏輯地講述你詳盡的經(jīng)歷是非常重要的。

比如：“我被要求去做X。我做了A，B，和C，然后我覺(jué)得正確答案應(yīng)該是Y。”

當(dāng)然，如果你能夠突出講述和數(shù)據(jù)科學(xué)有關(guān)的經(jīng)歷，這些問(wèn)題就是展示你作為一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家的大好時(shí)機(jī)。

下面是一些具體問(wèn)題：

描述一次你主動(dòng)工作的情景。
描述一次你需要克服困境的經(jīng)歷。
描述一次你解決爭(zhēng)端的經(jīng)歷。
描述一次你失敗的經(jīng)歷，以及你從中學(xué)到了什么。
描述你簡(jiǎn)歷上的一次工作經(jīng)歷。你選擇那份工作的理由是什么?以及你最喜歡那份工作的哪一點(diǎn)。
描述一次小組工作經(jīng)歷中你所戰(zhàn)勝的挑戰(zhàn)。
當(dāng)你接手了一個(gè)無(wú)趣的工作，你會(huì)如何解決它?以及你如何讓自己有動(dòng)力完成它?
在過(guò)去，你如何讓客戶滿意或者開(kāi)心?
上一份工作中你引以為傲的地方。
你的私生活影響到工作時(shí)你會(huì)怎么做?

在Glassdoor上找到的類似的數(shù)據(jù)科學(xué)面試問(wèn)題實(shí)例：

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

看看那個(gè)混蛋發(fā)給我的這封郵件，你會(huì)怎么處理這種情況?(他實(shí)際上給我看了他的收件箱，然后讓我看公司其他部門(mén)發(fā)來(lái)的一封命令語(yǔ)氣極強(qiáng)的郵件。)

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

你如何通過(guò)數(shù)據(jù)改變世界?

[[285573]]

圖源：Unsplash

文化契合

如果面試官問(wèn)到了一下的問(wèn)題，那么他們主要是想了解你是誰(shuí)，以及你將如何適應(yīng)這個(gè)公司的環(huán)境。他們?cè)诠懒磕銓?duì)數(shù)據(jù)科學(xué)，以及對(duì)他們公司的興趣是從哪兒來(lái)的。

看看以下的問(wèn)題，想出你最好的答案，但注意回答問(wèn)題時(shí)一定要誠(chéng)實(shí)。沒(méi)有理由不去做你自己。這些問(wèn)題沒(méi)有標(biāo)準(zhǔn)答案，但能夠確定的一點(diǎn)是，好的回答誕生于充滿自信感的交流。

1. 你最崇拜哪個(gè)數(shù)據(jù)科學(xué)家?最崇拜哪些初創(chuàng)企業(yè)?

有很多偉大的數(shù)據(jù)科學(xué)家可以選擇，多了解一些世界頂級(jí)數(shù)據(jù)科學(xué)家的趣事。

2. 你認(rèn)為成為一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家需要哪些品質(zhì)?

3. 你是如何對(duì)數(shù)據(jù)科學(xué)產(chǎn)生興趣的?

4. 舉出幾個(gè)數(shù)據(jù)科學(xué)中的最佳應(yīng)用實(shí)例。

5. 你最近閱讀的數(shù)據(jù)科學(xué)書(shū)籍或文章是什么?你最近參與的數(shù)據(jù)挖掘會(huì)議、線上研討會(huì)、課程、工作坊、訓(xùn)練有哪些?

如果最近你沒(méi)有閱讀優(yōu)秀的數(shù)據(jù)科學(xué)書(shū)籍，Springboard提供了最佳數(shù)據(jù)科學(xué)書(shū)籍書(shū)單。

6. 你想?yún)⑴c我們公司的哪個(gè)項(xiàng)目?

7. 你認(rèn)為你能給團(tuán)隊(duì)帶來(lái)什么獨(dú)特的能力?

8. 如果不加限制的話，你最想獲得什么數(shù)據(jù)?

9. 你想過(guò)創(chuàng)立自己的公司嗎?它是基于什么想法或概念的?

10. 你的愛(ài)好能夠傳達(dá)出的簡(jiǎn)歷里表現(xiàn)不出來(lái)的信息有哪些?

11. 你對(duì)未來(lái)20年的五個(gè)主要預(yù)測(cè)?

12. 你今天做了什么?或者你這個(gè)周、上個(gè)周做了什么?

13. 如果你中了一百萬(wàn)美金的彩票，你會(huì)如何用這筆錢(qián)?

14. 大多數(shù)人不認(rèn)同但你堅(jiān)持相信的一件事?

15. 你不認(rèn)同哪些性格特征?

16. 數(shù)據(jù)科學(xué)領(lǐng)域外你感興趣的事情?

在Glassdoor上找到的類似的數(shù)據(jù)科學(xué)面試問(wèn)題實(shí)例：

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

你看重一個(gè)企業(yè)的五個(gè)原因。

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)

如果你可以擁有一種超能力，你希望它是什么?

問(wèn)題解決能力

在數(shù)據(jù)科學(xué)面試中，面試官會(huì)不定時(shí)的想要測(cè)試你的問(wèn)題解決能力。通常這些問(wèn)題都是開(kāi)放式的，你會(huì)如何解決X?一般來(lái)說(shuō)，這個(gè)X會(huì)是你所面試的公司需要解決的問(wèn)題。

比如，Yelp的面試官就會(huì)讓面試者回答如何解決Yelp*上的虛假評(píng)論。

*美國(guó)最大的點(diǎn)評(píng)網(wǎng)站。

一些小技巧：首先，不要害怕問(wèn)問(wèn)題。面試官想要衡量你的批判性思維能力，而問(wèn)問(wèn)題來(lái)解決不確定性是每一個(gè)數(shù)據(jù)科學(xué)家都應(yīng)該有的能力。

同時(shí)，如果這個(gè)問(wèn)題為展示你白板演示代碼，或是原理圖的能力提供了機(jī)會(huì)，不要浪費(fèi)，多多展示自己。

它不僅展示了你的專業(yè)技能，還通過(guò)不同的溝通模式展示了你的思維過(guò)程。記得一定要展示你的思維過(guò)程，對(duì)于面試官來(lái)說(shuō)，過(guò)程比結(jié)果更重要。

1. 如何想出一個(gè)識(shí)別作弊的方法?

2. 一個(gè)Yelp評(píng)論會(huì)收到幾個(gè)“有用”?

3. 如何識(shí)別個(gè)人賬戶為多個(gè)消費(fèi)者買(mǎi)單的情況?

4. 你要發(fā)送一百萬(wàn)封郵件。怎樣最優(yōu)化傳輸過(guò)程?以及如何最優(yōu)化回復(fù)?

5. 一個(gè)有十萬(wàn)行和一百列的數(shù)據(jù)集，其中一列是要解決問(wèn)題的因變量。如何快速確定哪一列對(duì)于預(yù)測(cè)因變量有幫助?想出兩個(gè)方案，并向我解釋，就當(dāng)我只有五歲。

6. 如何檢測(cè)那些惡意的假評(píng)論和假帳戶?

這是展示你對(duì)機(jī)器學(xué)習(xí)算法掌握程度的好時(shí)機(jī)，尤其是情感分析算法和文本分析算法。展示你對(duì)欺詐行為的了解，那些假賬戶通常會(huì)有什么異常的表現(xiàn)?

7. 如何對(duì)一百萬(wàn)個(gè)關(guān)鍵詞進(jìn)行聚類算法?假設(shè)有一千萬(wàn)個(gè)數(shù)據(jù)點(diǎn)，每一個(gè)都包含兩個(gè)關(guān)鍵詞，你需要衡量?jī)蓚€(gè)關(guān)鍵詞的相似度。一開(kāi)始你會(huì)如何創(chuàng)建者一千萬(wàn)個(gè)數(shù)據(jù)點(diǎn)的表單呢?

8. 如何最優(yōu)化一個(gè)網(wǎng)絡(luò)蜘蛛使其運(yùn)行得更快，提取更優(yōu)的信息，并且更好得總結(jié)信息從而創(chuàng)立一個(gè)更清晰的數(shù)據(jù)庫(kù)?

在Glassdoor上找到的類似的數(shù)據(jù)科學(xué)面試問(wèn)題實(shí)例：

迅速收藏！109個(gè)數(shù)據(jù)科學(xué)面試問(wèn)答，你絕對(duì)不能錯(cuò)過(guò)的寶藏庫(kù)