機器學習的工作原理
機器學習是一種數據分析技術,可在數據集上構建預測模型,以提供有用的答案,這些答案可用于制定重要決策。 它利用統計概念和數學方法通過python和R等編碼語言處理大數據。有多種機器學習技術。 但是,本文將介紹回歸和分類。
回歸
回歸用于預測連續的數值數據。 它是一種廣泛使用的統計概念,可以手動應用于具有兩個變量和少量元素的小型數據集。 當處理具有多個變量和元素負載的大型數據集時,通過將包含數據集的文件上載到編碼平臺并運行一堆代碼來完成回歸。
有多種不同的回歸技術,例如線性回歸,多項式回歸,多元線性回歸和多元多項式回歸。 它們的應用根據要使用多少個自變量來預測因變量而有所不同。 以下是一些與回歸相關的有用術語:
回歸方程
回歸方程是使用自變量對因變量進行預測的方程。 可以表示為y = mx + b,y = ax ^ n + bx ^ n-1 +…+ c,y = ax + bx2 +…+ c或y = ax ^ n + bx ^ n-1 +…+ c分別表示線性回歸,多項式回歸,多元線性回歸和多元多項式回歸。

回歸系數
回歸系數是應用于線性回歸或多元線性回歸的常數值。 它可能對因變量產生增加或減少的影響。 讓我們舉一個例子,其中使用年齡和身高(cm)等變量來確定體重(磅)。
對于線性回歸,可以將其表示為體重= 5 *年齡+30。此等式表明,年齡每增加1年,體重就會增加5磅。
對于多元線性回歸,它可以表示為體重= 4 年齡+ 2.5 高度+30。該方程式意味著,假設年齡為零,則體重每增加1厘米將增加2.5幅度。 身高為零,體重將增加4磅,年齡會增加一年。
Y軸截距
如果將回歸系數或x設置為零,則這可以描述為因變量的值。 可以表示為y = c。 這也是回歸線切割y軸的點。
培訓模型與測試模型
數據集分為兩組:訓練數據集和測試數據集。 將數據集分成幾組后,使用訓練數據集生成回歸方程。 開發完成后,將回歸方程應用于測試數據集以創建預測。
可以將預測值與實際值進行比較以測試準確性。 評估預測的指標如下:
測定系數
r平方的確定系數是一種有用的機制,用于解釋回歸方程對進行預測的準確性。 通過將預測值與實際值進行比較來完成此操作。 它提供了一個值,該值表示自變量解釋了因變量的比例。 為了提高r平方得分,可以從一種回歸樣式切換到另一種回歸樣式。
相關系數
這是另一個非常有用的值,它描述了實際結果和預測結果中的值之間的關系。 范圍是-1到1。如果相關系數為負,則預測結果會隨著實際結果的減少而增加,反之亦然。 如果為正,則預測結果隨實際結果的增加而增加。 值越接近| 1 |,關系就越完美。
均方根誤差
均方誤差是每個數據點的預測值和實際值之間的總平方差的平均值。 該值是數據集平均距離回歸線的接近程度的度量。 該值的平方根稱為均方根誤差。 目的是使均方根誤差接近0,以獲得最佳擬合。

分類
分類是另一種很棒的機器學習算法,可用于預測分類數據集。 自變量可以是連續的或分類的,而因變量是分類的。 分類可以用來建立提供是(1)或否(0)答案的模型,也可以用來建立多個類別(0,1,2 ….),具體取決于用戶的議程。 像回歸一樣,它利用訓練和測試數據集。
使用我預測貸款申請狀態的前一個項目的結果,下面將解釋分類方法,例如K最近鄰居和決策樹分類器及其度量標準:
K最近鄰居
這是一種分類方法,使用最接近該特定數據點的數據點來預測該數據點應屬于的類別。 通過評估每個數據點的獨立變量和因變量,并將它們與k個最接近的變量進行比較,它使用訓練數據集創建了一個預測模型。 該模型用于預測測試數據集中每個數據點的類別,并測量其準確性。
通過將k設置為1來進行多次迭代,測量其精度并增加k值直至達到峰值精度。

通過將預測模型與訓練模型擬合,并使用該預測模型對測試數據集中的數據點進行分類,可以使用此k-max值預測模型進一步分析數據集。
決策樹分類器
決策樹分類器使用與K最近鄰居不同的方法。 首先查看訓練模型中的所有數據點并評估一個自變量,然后根據該變量的值為其分配是(1)或否(0)標簽。 然后,它基于先前一個或多個自變量的輸出進行其他自變量,以得出Y或N的最終標簽作為預測結果。

從決策樹分類器訓練數據集生成的預測模型可用于預測測試數據集中的數據點的類別。
混淆矩陣
混淆矩陣是用于分類的表,用于顯示正確預測了多少個值以及錯誤預測了多少個值。 錯誤有兩種類型:I型錯誤和II型錯誤。 I類錯誤被認為是誤報,即歸為正的負值。 II型錯誤是假負數,即被歸類為負數的正值。

可以使用度量標準(例如精度,召回率和準確性)使用混淆矩陣來計算分類性能。
精確
精度用于查看實際記錄的正值中有多少是正值。 其公式為TP /(TP + FP)。 對于上面的混淆矩陣,精度為:119 /(119 + 54)= 0.69
召回
召回率也稱為真實陽性率。 它計算真實正值在實際正值中的比例。 其公式為TP /(TP + FN)。 回憶上面的混淆矩陣是119 /(119 + 10)= 0.92
真實負利率
真實負比率衡量真實負數在實際負數中的比例。 其公式為TN /(TN + FP)。 對于上面的混淆矩陣,它是9 /(9 + 54)= 0.15。
準確性
準確度就是所有準確記錄的值的總和除以所有記錄值的總和。 其公式為(TP + TN)/(TP + TN + FP + FN)。 上面的混淆矩陣的精度為(119 + 9)/(119 + 9 +54 + 10)= 0.67。
F-1分數
F-1分數類似于r平方分數。 它衡量自變量對自變量的解釋程度。 通過將預測值與實際值進行比較來完成此操作。 它越接近1,則預測模型越強。 可以針對不同分類方法的預測模型測量F-1分數,以決定使用哪種分類方法。
結論
機器學習是一個能夠指導我們在日常活動中做出有效決策的領域。 這將在將來幫助人類和公司做出明智的決策時非常有幫助。 例如,分類可以告訴我們是否要投資某個業務,而回歸可以告訴我們如果投資該業務我們可能賺多少錢。