小白學數據:教你用Python實現簡單監督學習算法
編譯:文明、笪潔瓊、天培
監督學習作為運用最廣泛的機器學習方法,一直以來都是從數據挖掘信息的重要手段。即便是在無監督學習興起的近日,監督學習也依舊是入門機器學習的鑰匙。
這篇監督學習教程適用于剛入門機器學習的小白。
當然了,如果你已經熟練掌握監督學習,也不妨快速瀏覽這篇教程,檢驗一下自己的理解程度。
一、什么是監督學習?
在監督學習中,我們首先導入包含有訓練屬性和目標屬性的數據集。監督學習算法會從數據集中學習得出訓練樣本和其目標變量之間的關系,然后將學習到的關系對新樣本(未被標記的樣本)進行分類。
為了闡明監督學習的工作原理,我們用根據學生學習時間預測其考試成績的例子來說明。
用數學表示,即Y = f(X)+ C,其中
- f表示學生學習時間和考試成績之間的關系
- X表示輸入(學習小時數)
- Y表示輸出(考試分數)
- C表示隨機誤差
監督學習算法的***目標是給出新的輸入X,使得預測結果Y的準確率***。有很多方法可以實現有監督學習,我們將探討幾種最常用的方法。
根據給定的數據集,機器學習可以分為兩大類:分類(Classification)和回歸(Regression)。如果給定的數據集的輸出值是類別,那么待解決是分類問題。如果給定的數據集的輸出值是連續的,那么該問題是回歸問題。
舉兩個例子
- 分類:判斷是貓還是狗。
- 回歸:房子的售價是多少?
二、分類
考慮這樣一個例子,醫學研究員想要分析乳腺癌數據,用于預測患者使用三種治療方案中的哪一種。該數據分析問題就屬于分類問題,通過建立分類模型來預測類別標簽,例如“治療方案A”、“治療方案B”或者“治療方案C”。
分類是一個預測類別標簽的預測問題,這些類別標簽都是離散和無序的。分類包含兩個步驟:學習步驟和分類步驟。
1. 分類方法和選擇***方法
一些常見的分類算法:
- K近鄰
- 決策樹
- 樸素貝葉斯
- 支持向量機
在學習步驟中,分類模型通過分析訓練集數據建立一個分類器。在分類步驟中,分類器對給定的數據進行分類。用于分析的數據集(包含數據和其對應的標簽)被劃分為訓練集和測試集。訓練集從分析用的數據集中隨機抽取。剩下的數據集構成測試集。測試集和訓練集相互獨立,即測試集中的數據不會被構建于分類器。
測試集用于評價分類器的預測精度。分類器的精度用測試集中預測正確的百分比表示。為了獲得更高的精度,***的方法是測試多個不同的算法,同時,對每個算法嘗試不同的參數??梢酝ㄟ^交互檢驗選擇***的算法和參數。
對于給定問題,在選取算法時,算法的精度、訓練時間、線性、參數數目以及特殊情況都要考慮在內。
在IRIS數據集上實現sklearn中的KNN,并對給定的輸入進行花卉類型分類。
首先,要應用機器學習算法,我們需要了解給定數據集的組成。在這個例子中,我們使用內置在sklearn包中的IRIS數據集。現在讓我們使用代碼查看IRIS數據集。
請確保你的電腦上成功安裝了Python。然后,通過PIP安裝下面這些python庫:
- pip install pandas
- pip install matplotlib
- pip install scikit-learn
在下面這段代碼中,我們使用pandas中的一些方法查看IRIS數據集的一些屬性。
- from sklearn import datasets
- import pandas as pd
- import matplotlib.pyplot as plt
- # Loading IRIS dataset from scikit-learn object into iris variable.
- iris = datasets.load_iris()
- # Prints the type/type object of iris
- print(type(iris))
- # <class 'sklearn.datasets.base.Bunch'>
- # prints the dictionary keys of iris data
- print(iris.keys())
- # prints the type/type object of given attributes
- print(type(iris.data), type(iris.target))
- # prints the no of rows and columns in the dataset
- print(iris.data.shape)
- # prints the target set of the data
- print(iris.target_names)
- # Load iris training dataset
- X = iris.data
- # Load iris target set
- Y = iris.target
- # Convert datasets' type into dataframe
- df = pd.DataFrame(X, columns=iris.feature_names)
- # Print the first five tuples of dataframe.
- print(df.head())
2. 輸出:
- <class ‘sklearn.datasets.base.Bunch’>
- dict_keys([‘data’, ‘target’, ‘target_names’, ‘DESCR’, ‘feature_names’])]
- <class ‘numpy.ndarray’> <class ‘numpy.ndarray’>
- (150, 4)
- [‘setosa’ ‘versicolor’ ‘virginica’]
- sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
- 0 5.1 3.5 1.4 0.2
- 1 4.9 3.0 1.4 0.2
- 2 4.7 3.2 1.3 0.2
- 3 4.6 3.1 1.5 0.2
- 4 5.0 3.6 1.4 0.2
三、Sklearn中的K最近鄰算法
如果一個算法僅存儲訓練集數據,并等待測試集數據的給出,那么這個算法便可認為是一個“懶惰學習法”。直到給定測試集數據,它才會根據它與存儲的訓練集樣本的相似性來對新樣本進行分類。
K近鄰分類器就是一個懶惰學習法。
K近鄰基于類比學習,比較一個測試樣本和與之相似訓練集數據。訓練集有n個屬性表征。每個樣本由n維空間中的一個點表示。這樣,訓練集中的所有樣本都儲存在n維模式空間中。當給定一個未知的樣本,K近鄰分類器在模式空間中搜尋和未知樣本最接近的k個訓練樣本。這k個訓練樣本就是未知樣本的k個近鄰。
“接近度”用距離來度量,例如歐幾里得距離。較好的K值可以通過實驗確定。
在下面這段代碼中,我們導入KNN分類器,將之應用到我們的輸入數據中,然后對花卉進行分類。
- from sklearn import datasets
- from sklearn.neighbors import KNeighborsClassifier
- # Load iris dataset from sklearn
- iris = datasets.load_iris()
- # Declare an of the KNN classifier class with the value with neighbors.
- knn = KNeighborsClassifier(n_neighbors=6)
- # Fit the model with training data and target values
- knn.fit(iris['data'], iris['target'])
- # Provide data whose class labels are to be predicted
- X = [
- [5.9, 1.0, 5.1, 1.8],
- [3.4, 2.0, 1.1, 4.8],
- ]
- # Prints the data provided
- print(X)
- # Store predicted class labels of X
- prediction = knn.predict(X)
- # Prints the predicted class labels of X
- print(prediction)
輸出:
- [1 1]
其中,0,1,2分別代表不同的花。在該例子中,對于給定的輸入,KNN分類器將它們都預測成為1這個類別的花。
KNN對IRIS數據集分類的直觀可視化
四、回歸
回歸通常被定義為確定兩個或多個變量之間的相關關系。例如,你要通過給定的數據X預測一個人的收入。這里,目標變量是指該變量是我們關心以及想要預測的未知變量,而連續是指Y的取值沒有間隔。
預測收入是一個經典的回歸問題。你的輸入應當包含所有與收入相關的個人信息(比如特征),這些信息可以預測收入,例如工作時長、教育經歷、職稱以及他的曾住地等。
1. 回歸模型
一些常見的回歸模型有
- 線性回歸
- 邏輯回歸
- 多項式回歸
線性回歸通過擬合一條直線(回歸線)來建立因變量(Y)與一個或多個自變量(X)之間關系。
用數學公示表示,即h(xi) = βo + β1 * xi + e,其中
- βo是截距
- β1是斜率
- e是誤差項
用圖表示,即
邏輯回歸是一種預測類別的算法,用于找出特征和特定輸出概率之間關系。
當然了,我們也可以把邏輯回歸歸類為分類算法,但就像我們剛才所說,邏輯回歸的輸出其實是目標對象屬于某一類別的概率。既然概率是連續的,我們依舊把邏輯回歸算作回歸算法。
用數學公式表示:p(X) = βo + β1 * X,其中p(x) = p(y = 1 | x)
圖形表示為:
多項式回歸是一種將自變量x與因變量y的關系擬合為x的n階多項式的回歸算法。
2. 解決線性回歸問題
我們有數據集X,以及對應的目標值Y,我們使用普通最小二乘法通過最小化預測誤差來擬合線性模型
給定的數據集同樣劃分為訓練集和測試集。訓練集由已知標簽的樣本組成,因此算法能夠通過這些已知標簽的樣本來學習。測試集樣本不包含標簽,你并不知道你試圖預測樣本的標簽值。
我們將選擇一個需要訓練的特征,應用線性回歸方法擬合訓練數據,然后預測測試集的輸出。
3. 用Sklearn實現線性回歸
- from sklearn import datasets, linear_model
- import matplotlib.pyplot as plt
- import numpy as np
- # Load the diabetes dataset
- diabetes = datasets.load_diabetes()
- # Use only one feature for training
- diabetesdiabetes_X = diabetes.data[:, np.newaxis, 2]
- # Split the data into training/testing sets
- diabetes_Xdiabetes_X_train = diabetes_X[:-20]
- diabetes_Xdiabetes_X_test = diabetes_X[-20:]
- # Split the targets into training/testing sets
- diabetesdiabetes_y_train = diabetes.target[:-20]
- diabetesdiabetes_y_test = diabetes.target[-20:]
- # Create linear regression object
- regr = linear_model.LinearRegression()
- # Train the model using the training sets
- regr.fit(diabetes_X_train, diabetes_y_train)
- # Input data
- print('Input Values')
- print(diabetes_X_test)
- # Make predictions using the testing set
- diabetes_y_pred = regr.predict(diabetes_X_test)
- # Predicted Data
- print("Predicted Output Values")
- print(diabetes_y_pred)
- # Plot outputs
- plt.scatter(diabetes_X_test, diabetes_y_test, color='black')
- plt.plot(diabetes_X_test, diabetes_y_pred, color='red', linewidth=1)
- plt.show()
4. 輸入
輸入值:
- [
- [ 0.07786339] [-0.03961813] [ 0.01103904] [-0.04069594]
- [-0.03422907] [ 0.00564998] [ 0.08864151] [-0.03315126]
- [-0.05686312] [-0.03099563] [ 0.05522933] [-0.06009656]
- [ 0.00133873] [-0.02345095] [-0.07410811] [ 0.01966154]
- [-0.01590626] [-0.01590626] [ 0.03906215] [-0.0730303 ]
- ]
預測的輸出值:
- [
- 225.9732401 115.74763374 163.27610621 114.73638965
- 120.80385422 158.21988574 236.08568105 121.81509832
- 99.56772822 123.83758651 204.73711411 96.53399594
- 154.17490936 130.91629517 83.3878227 171.36605897
- 137.99500384 137.99500384 189.56845268 84.3990668
- ]
五、結語
提一下常用的監督學習的python庫
- Scikit-Learn
- Tensorflow
- Pytorch
原文鏈接:https://towardsdatascience.com/supervised-learning-with-python-cf2c1ae543c1
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】