如何用初中知識(shí)理解機(jī)器學(xué)習(xí)到底在干什么事情
前言
百度百科搜索“機(jī)器學(xué)習(xí)”,映入眼簾的是我無(wú)法企及的高度:
- 機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。
讓我在懷疑自己智商的同時(shí)也在思考:這段話除了闡述了機(jī)器學(xué)習(xí)很牛X,能夠模擬人類(lèi)學(xué)習(xí)行為以外,好像并沒(méi)有讓我明白這四個(gè)詞的含義,反而加重了我的思想負(fù)擔(dān),帶著我越加沉重的大腦繼續(xù)往下看,找到了我認(rèn)為本詞條最為重要的定義:

然而并卵!!!
就像是看著笑傲江湖里的《葵花寶典》,由于沒(méi)有自宮,看了再怎么高深的劍法招式,也只是流于片面,除了牛批,還是牛批。至此我終于明白,原來(lái)是打開(kāi)方式不對(duì),從一開(kāi)始就錯(cuò)了(要自宮)!
所以,需要換個(gè)方式,這一次我們用初中數(shù)學(xué)打開(kāi):
從一次函數(shù)說(shuō)起
在初中的數(shù)學(xué)中,我們常常遇到類(lèi)似這樣題目:
- 給定平面內(nèi)的三個(gè)點(diǎn)坐標(biāo)(x,y): A(1,3)、B(2,5)、C(3,7)求x=5時(shí),y的值。
面對(duì)如此問(wèn)題,我們可以先把三個(gè)點(diǎn)放到坐標(biāo)軸上看看,如圖:

可以發(fā)現(xiàn)三個(gè)點(diǎn)在一條直線上,符合一次函數(shù)的性質(zhì),那我們只需要求出這條直線的方程式,將x=5代入方程式,就可以求出此時(shí)y的值。
此時(shí),問(wèn)題就變成了:
- 已知A(1,3)、B(2,5)、C(3,7)三個(gè)點(diǎn),橫坐標(biāo)和縱坐標(biāo)的關(guān)系符合一次函數(shù)

求x=5時(shí),y的值。
問(wèn)題到此就進(jìn)入了我初中知識(shí)水平的層面,只需要將A、B、C三個(gè)點(diǎn)代入y=kx+b得到關(guān)于k和b的一個(gè)方程組,求解可得:

那么x=5時(shí),y等于2*5+1=11(放著我來(lái),這個(gè)我會(huì)算)。
問(wèn)題思考
機(jī)器學(xué)習(xí)無(wú)非就是類(lèi)似于上面的一個(gè)過(guò)程,在給定一定量的輸入(x)和輸出(y)數(shù)據(jù)的前提下,找出一個(gè)函數(shù)來(lái)表示這些x和y之間的關(guān)系,根據(jù)這個(gè)函數(shù),我們可以在知道x的條件下輕松求出y,例如我們?cè)诰W(wǎng)購(gòu)之后輸入評(píng)論,系統(tǒng)就能自動(dòng)識(shí)別出是好評(píng)還是差評(píng)。
上述案例的這個(gè)函數(shù)我們可以稱(chēng)之為模型,x稱(chēng)之為特征,y就是機(jī)器學(xué)習(xí)要預(yù)測(cè)的結(jié)果,而已知的x和y的組合稱(chēng)之為訓(xùn)練數(shù)據(jù),訓(xùn)練的過(guò)程也就是找出x和y的關(guān)系的過(guò)程(而不是用皮鞭抽的過(guò)程)。
然而真實(shí)的機(jī)器學(xué)習(xí)案例中往往沒(méi)這么簡(jiǎn)單,只有一個(gè)特征x的函數(shù)怎么滿足更為復(fù)雜的業(yè)務(wù)需求呢?
“一個(gè)不行就兩個(gè),兩個(gè)不行就三個(gè),三個(gè)不行還可以加呀,只要給錢(qián),不好意思,扯遠(yuǎn)了!”
當(dāng)特征數(shù)量為多個(gè),我們依舊可以基于上面的一次函數(shù)基礎(chǔ),進(jìn)行模型假設(shè)

那么問(wèn)題也可以得到解決,這就是機(jī)器學(xué)習(xí)里面較為基礎(chǔ)的線性回歸。
如果你覺(jué)得這些函數(shù)都只能求出一個(gè)值,沒(méi)啥意思,能否幫我識(shí)別出評(píng)論區(qū)里哪些是好評(píng),哪些是差評(píng)呢?
“當(dāng)然是沒(méi)問(wèn)題的!只需要把y的結(jié)果映射到0-1之間,然后對(duì)y進(jìn)行判斷,y>=0.5表示好評(píng),y<0.5表示差評(píng)就行,然后這個(gè)映射函數(shù)我們稱(chēng)之為激活函數(shù),怎么實(shí)現(xiàn)的先不管,理解為主”

這樣就實(shí)現(xiàn)了機(jī)器學(xué)習(xí)中分類(lèi)任務(wù)邏輯回歸。
如果你覺(jué)得一個(gè)特征對(duì)應(yīng)一個(gè)權(quán)重有點(diǎn)low,而且很多事情都并非是線性相關(guān),如何解決這個(gè)問(wèn)題呢?
“一層權(quán)重不夠,那就加唄,如果再不夠,那就再加!”

你還要嗎?我再加點(diǎn)
上面的過(guò)程跑得有點(diǎn)遠(yuǎn),一不小心已經(jīng)到了深度學(xué)習(xí)的層面,路漫漫其修遠(yuǎn)兮,我的智商有點(diǎn)跟不上...(所以用省略號(hào)代替)
總結(jié)
以上案例僅僅是機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的過(guò)程,真正的機(jī)器學(xué)習(xí)往往比這個(gè)復(fù)雜得多,還分為非監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),在此不做多余贅述,有機(jī)會(huì)再寫(xiě),再見(jiàn)!