監(jiān)督學習or無監(jiān)督學習?這個問題必須搞清楚
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
當你踏上機器學習之旅時,搞清楚監(jiān)督學習和無監(jiān)督學習是你應該做的第一件事。而對于新手而言,“監(jiān)督學習和無監(jiān)督學習有什么區(qū)別?”,是最為常見不過的問題。
其答案在于理解機器學習算法的本質(zhì)。如果沒有明確監(jiān)督學習和無監(jiān)督學習之間的區(qū)別,你的學習之旅將無法前行。
如果sSDBQIF不了解線性回歸、邏輯回歸、聚類、神經(jīng)網(wǎng)絡等算法的適用范圍,就沒法直接進入模型構建階段。
如果不知道機器學習算法的目標是什么,就無法建立一個精確的模型。這就是監(jiān)督學習和無監(jiān)督學習的由來。

本文就將幫你解決這個問題,再友情奉送另一個關鍵問題:如何決定何時使用監(jiān)督學習或無監(jiān)督學習?
什么是監(jiān)督學習?
在監(jiān)督學習中,計算機通過示例學習。它從過去的數(shù)據(jù)中學習,并將學習的結果應用到當前的數(shù)據(jù)中,以預測未來的事件。在這種情況下,輸入和期望的輸出數(shù)據(jù)都有助于預測未來事件。
為了準確預測,將輸入數(shù)據(jù)標記為正確答案。
監(jiān)督機器學習分類
重要的是,要記住:所有監(jiān)督學習算法本質(zhì)上都是復雜算法,分為分類或回歸模型。
- 回歸模型—回歸模型用于輸出變量為實際值的問題,例如單一的數(shù)字、美元、薪水、體重或壓力。它最常用于根據(jù)先前的觀測數(shù)據(jù)來預測數(shù)值。一些比較常見的回歸算法包括線性回歸、邏輯回歸、多項式回歸和脊回歸。
- 分類模型—分類模型用于可以對輸出變量進行分類,例如“是”或“否”、“通過”或“失敗”。分類模型用于預測數(shù)據(jù)的類別。現(xiàn)實生活中的例子包括垃圾郵件檢測、情緒分析、考試記分卡預測等。

監(jiān)督學習算法在現(xiàn)實生活中有一些非常實際的應用,包括:
- 文本分類
- 垃圾郵件檢測
- 天氣預報
- 根據(jù)當前市場價格預測房價
- 股票價格預測等
- 人臉識別
- 簽名識別
- 客戶發(fā)現(xiàn)
什么是無監(jiān)督學習?
無監(jiān)督學習是訓練機器使用既未分類也未標記的數(shù)據(jù)的方法。這意味著無法提供訓練數(shù)據(jù),機器只能自行學習。機器必須能夠對數(shù)據(jù)進行分類,而無需事先提供任何有關數(shù)據(jù)的信息。
其理念是先讓計算機與大量變化的數(shù)據(jù)接觸,并允許它從這些數(shù)據(jù)中學習,以提供以前未知的見解,并識別隱藏的模式。因此,無監(jiān)督學習算法不一定有明確的結果。相反,它確定了與給定數(shù)據(jù)集不同或有趣之處。
計算機需要編程才能自學。計算機需要從結構化和非結構化數(shù)據(jù)中理解和提供見解。以下是無監(jiān)督學習的準確說明:

無監(jiān)督機器學習分類
- 聚類是最常見的無監(jiān)督學習方法之一。聚類的方法包括將未標記的數(shù)據(jù)組織成類似的組,稱為聚類。因此,聚類是相似數(shù)據(jù)項的集合。此處的主要目標是發(fā)現(xiàn)數(shù)據(jù)點中的相似性,并將相似的數(shù)據(jù)點分組到一個聚類中。
- 異常檢測是識別與大多數(shù)數(shù)據(jù)顯著不同的特殊項、事件或觀測值的方法。通常在數(shù)據(jù)中尋找異常或異常值的原因在于它們是可疑的。異常檢測常用于銀行欺詐和醫(yī)療差錯檢測。

無監(jiān)督學習算法的應用
無監(jiān)督學習算法的一些實際應用包括:
- 惡意軟件檢測
- 數(shù)據(jù)輸入過程中人為錯誤識別
- 進行準確的購物籃分析等
- 欺詐檢測
應該什么時候選擇監(jiān)督學習或無監(jiān)督學習?
在制造業(yè)中,有很多因素影響哪種機器學習方法最適合任何給定的任務。而且,由于每個機器學習問題的獨特性,決定使用哪種技術是一個復雜的過程。
一般來說,選擇正確機器學習方法的一個好策略是:
- 評估數(shù)據(jù)。標記與否?是否有專家知識支持附加標記?這將有助于確定是否應使用監(jiān)督、無監(jiān)督、半監(jiān)督或強化的學習方法。
- 審查可用的算法,其可能適合維度問題(特征、屬性或特征的數(shù)量)。候選算法應適合于整個數(shù)據(jù)量以及其結構。
- 研究成功案例,關于類似問題上應用的算法類型。
- 定義目標。被定義的問題是否反復出現(xiàn)?是否期望算法能預測新的問題?
監(jiān)督學習和無監(jiān)督學習是機器學習領域中的關鍵概念,這應該是你開始學習機器學習的第一課,一定要理解透徹呀!