線性回歸詳解---一元一次線性回歸
作為機器學習的入門課程,線性回歸是我們必須要學習的第一個算法。今天我們就來詳細的講解一下線性回歸。
在講解之前,我們先來解釋以下幾個問題。
可為線性?線性是指自變量x和因變量y之間是線性的關系,即圖像是一條直線,叫做線性。
何為回歸?百度百科的解釋是:指研究一組隨機變量(Y1 ,Y2 ,…,Yi)和另一組(X1,X2,…,Xk)變量之間關系的統計分析方法,又稱多重回歸分析。通俗的講就是我們研究一個函數,當我們輸入自變量x時,因變量y可以無限的接近真實值。
線性回歸可以解決什么問題?線性回歸主要是對大量的觀測數據進行處理,從而得到比較符合事物內部規律的數學表達式。也就是說尋找到數據與數據之間的規律所在,從而就可以模擬出結果,也就是對結果進行預測。通過已知的數據得到未知的結果。比如:對房價的預測、判斷信用評價、電影票房預估等。
線性模型的一般形式
一般我們的輸入是由多個屬性描述的示例x。在預測房價的例子中,我們輸入的一個示例x就包含多種維度:房間數,簡直面積,房屋評分,日期等等。可用公式表示成x=(x1;x2;x3...;xd),其中xi是x在第i個屬性上的取值。由于線性模型是一個試圖學得一個通過屬性的線性組合來進行預測的函數,即f(x)=w1x1+w2x2+...+wdxd+b。所以線性模型的一般形式可以表示為:
我們首先考慮一種最簡單的情形:輸入x的屬性只有一個,即x只有一維。那么接下來的問題就是如何確定w和b。我們回歸的目的就是使預測值無限逼近真實值,所以當然要使預測值f(x)和真實值y之間的差值盡可能的小。由于差值可正可負,與其取絕對值,不如使用平方。所以在這種情況下,均方誤差是最常用的性能度量,公式如下:
我們的目的就是求得此函數的最小值,而基于均方誤差最小化來進行模型求解的方法稱為“最小二乘法”。最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐式距離之和最小。通俗講,最小二乘法的中心思想就是能夠使得如上函數最小的w和b就是我們所求函數的解。
這是一個二次函數,對其求導:
導數為0的時候取得最小值,令上式子右方為零,可解得:
這樣我們就可以得到完整的線性回歸函數。
本文轉載自??人工智能訓練營??,作者:人工智能訓練營
