最強總結,機器學習中必會的 15 個關鍵術語!!
1.算法
算法是一系列明確的步驟或規則,用于解決特定問題或完成特定任務。
在機器學習中,算法用于從數據中學習模式,并做出預測或決策。
示例:線性回歸、決策樹、支持向量機(SVM)、神經網絡等都是常見的機器學習算法。例如,線性回歸根據歷史數據預測連續值(如房價)。
2.模型
模型是通過機器學習算法從數據中學習到的數學表示。它能夠對新數據進行預測或分類。
示例:決策樹模型可以根據輸入特征來決定輸出類別;神經網絡模型可以識別圖像中的物體。
3.訓練數據
訓練數據是指用于訓練機器學習模型的數據集。
它由輸入輸出對組成,可幫助模型學習所需的任務。
訓練數據越多樣化、越有代表性,模型的性能就越好。
示例:對于預測房價的模型,訓練數據可能包括房屋特征(如大小、臥室數量)及其相應的價格。
4.測試數據
測試數據是一個單獨的數據集,用于評估機器學習模型在未知數據上的表現。
這有助于防止過度擬合,即模型在訓練數據上可能表現良好,但在新數據上卻表現不佳。
示例:訓練垃圾郵件過濾器后,你可以在以前從未見過的電子郵件上對其進行測試,以檢查其準確性。
5.特征
特征是模型用來進行預測的數據的單個可測量屬性。
在機器學習的背景下,選擇正確的特征對于構建良好的模型至關重要。
示例:在預測房價時,特征可能包括臥室數量、面積和位置。
6.標簽
標簽是與每個訓練樣本關聯的目標值或類別。
在監督學習中,模型使用這些標簽來學習輸入和輸出之間的關系。
示例:在預測電子郵件是否為垃圾郵件的模型中,標簽將是“垃圾郵件”或“非垃圾郵件”。
7.過度擬合
過度擬合是指模型對訓練數據(包括噪聲和異常值)的學習過于深入,導致新數據上的表現不佳。
這意味著模型與訓練數據的擬合程度過高,使其通用性較差。
示例:由于過度擬合,模型在訓練數據上表現完美,但在測試數據上表現不佳。
8.欠擬合
當模型過于簡單,無法捕捉數據中的模式時,就會發生欠擬合,從而導致訓練和測試數據的性能不佳。
示例:使用線性回歸來擬合一個明顯非線性的關系,導致預測誤差較大。
9.準確性
準確性是衡量分類模型正確預測的比例。計算方法是正確預測的數量除以總預測數量。
示例:如果一個模型能夠正確識別 100 封電子郵件中的 90 封是否為垃圾郵件,則其準確率為 90%。
10.精確率和召回率
精確率和召回率是評價分類模型的重要指標,尤其是在不平衡的數據集中。
- 精確率:在所有被模型預測為正類的樣本中,實際為正類的比例。
- 召回率:在所有實際為正類的樣本中,模型正確預測為正類的比例。
示例:在疾病篩查中,高精確率意味著大多數被診斷為患病的人確實患病;高召回率意味著大多數實際患病的人被成功識別。
11.學習率
學習率是一個超參數,它控制模型權重相對于損失梯度的更新程度。
較高的學習率可能會導致模型收斂過快而錯過最優解,而較低的學習率則可能導致訓練過程過慢。
示例:在神經網絡中,學習率決定了模型在訓練期間從錯誤中學習的速度。
12.epoch
一個 epoch 是指在模型訓練過程中對整個訓練數據集進行一次完整的遍歷。
多個 epoch 可以讓模型更好地學習,因為它會在每次遍歷中調整其權重。
示例:如果有1000個訓練樣本,1個epoch意味著模型已經看過所有1000個樣本一次。
13.超參數
超參數是在訓練之前設置的參數,用于控制學習過程和模型結構。
與模型參數不同,超參數不能通過訓練直接學習到。
示例:學習率、批量大小(batch size)、神經網絡的層數和每層的神經元數量等都是常見的超參數。
14.損失函數
損失函數用于衡量模型預測值與真實值之間的差距。
訓練過程中,模型通過最小化損失函數來進行優化。
示例:均方誤差(MSE)常用于回歸任務,交叉熵損失常用于分類任務。
15.正則化
正則化是一種技術,用于防止模型過度擬合。
它通過在損失函數中添加懲罰項,限制模型的復雜度。
示例:
- L1正則化:通過加上權重絕對值的和,促使一些權重變為零,實現特征選擇。
- L2正則化:通過加上權重平方和,限制權重的大小,防止過度擬合。