9 大主題!機器學習算法理論面試題大匯總
機器學習是一門理論性和實戰(zhàn)性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。
算法理論基礎不僅包含基本概念、數(shù)學基礎,也包含了機器學習、深度學習相關。今天給大家推薦一個不錯的算法理論基礎面試題匯總資源,已開源~
首先放上這份開源面試題匯總的地址:
https://github.com/sladesha/Reflection_Summary
其作者是 SladeSal 和 tcandzq,來自 2020 屆校招面試各類算法問題及個人理解的匯總。目前已經收獲 900+ 的贊了~
資源目錄:
- 基礎概念
- 數(shù)學
- 數(shù)據(jù)預處理
- 機器學習
- 深度學習
- 自然語言處理
- 推薦
- 風控
- 評價指標
下面來看一下詳細內容,一睹為快!
1. 基礎概念
基礎概念部分包含了 5 個主題,分別是:方差和偏差、生成與判別模型、先驗概率和后驗概率、頻率概率、AutoML。每個主題都包含若干常見、高頻出現(xiàn)的面試題。
例如“如何解釋偏差、方差,模型訓練為什么要引入偏差和方差?”
問題的解釋都來自面試題的精煉總結,不羅嗦,簡單易懂。
2. 數(shù)學
數(shù)學部分包含了 12 個主題,分別是:數(shù)據(jù)質量、最大公約數(shù)問題、牛頓法、擬牛頓法、概率密度分布、平面曲線的切線和法線、導數(shù)、微分中值定理、泰勒公式、歐拉公式、矩陣、概率論。
例如,看下關于泰勒公式的講解:
泰勒公式一句話描述:就是用多項式函數(shù)去逼近光滑函數(shù)。常見的泰勒公式有:
3. 數(shù)據(jù)預處理
數(shù)據(jù)預處理部分包含了 5 個主題,分別是數(shù)據(jù)平衡、異常點處理、缺失值處理、特征選擇、特征提取。數(shù)據(jù)預處理是機器學習算法的重要組成部分。
例如“為什么需要對數(shù)據(jù)進行變換?”,“歸一化和標準化之間的關系?”
這部分作者總結得很詳細,后面還有展開!關于連續(xù)特征的常用方法,作者引入一張圖進行總結歸納:
4. 機器學習
機器學習部分包含了 9 個主題,分別是:聚類、線性回歸、邏輯回歸、決策樹、貝葉斯、隨機森林、集成學習、FM/FFM、SVM。這部分內容詳實,核心面試題也總結得很好。
例如 SVM 面試題非常豐富,涵蓋得比較全面。眾所周知,支持向量機(Support Vector Machine, SVM)是一類按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。
關于KKT限制條件,KKT條件有哪些、引入拉格朗日的優(yōu)化方法后的損失函數(shù)解釋、核函數(shù)的作用是啥、核函數(shù)的種類和應用場景作者都有詳細解釋。
5. 深度學習
深度學習部分包含了 8 個主題,分別是:dropout、batch_normalization、bp過程、embedding、softmax、梯度消失/爆炸、殘差網絡、Attention。
例如“殘差網絡為什么能解決梯度消失的問題?”
6. 自然語言處理
自然語言處理部分包含了 8 個主題,分別是:GloVe、WordsVec、CRF、LDA、LSTM、GRU、Bert、文本相似度計算。
例如“word2vec和glove區(qū)別?”
7. 推薦
推薦部分包含 8 個主題,分別是:DIN、DeepFM、YoutubeNet、Wide&Deep、MLR、Neural Network全家桶、XDeepFM、Recall。
8. 風控
風控部分包含了 2 個主題,分別是:孤立森林和評分卡。
9. 評價指標
評價指標包含了 5 個主題,分別是:二分類、多分類、回歸指標、聚類指標、排序指標。
總的來說,這是一份不錯的算法理論基礎面試資源,作者對常見的大廠面試題做了較好的歸納和總結。幫助大家對這些知識點進行梳理和理解,以便能夠更好地應對機器學習筆試包括面試。
目前該項目應該還在補充完善。
最后,再次放上該資源的 GitHub 開源地址:
https:// github.com/sladesha/Ref lection_Summary