如有有一天,你的小孩問(wèn):「爸爸,什么是機(jī)器學(xué)習(xí)呀?」
爸爸,什么是機(jī)器學(xué)習(xí)呀?
難以回答!抓了抓開(kāi)始脫發(fā)的腦殼,爸比還是被這個(gè)問(wèn)題KO了。這個(gè)有些學(xué)術(shù)的問(wèn)題,如何給孩子解答?
近日,計(jì)算機(jī)科學(xué)博士Daniel Tunkelang就在Quora上回答了這個(gè)問(wèn)題——
不如我們由機(jī)器學(xué)習(xí)中的分類問(wèn)題入手,教計(jì)算機(jī)學(xué)習(xí)哪些食物好吃,哪些難吃。
和人類不一樣,計(jì)算機(jī)沒(méi)有嘴巴,不能品嘗食物。所以,我們需要用很多食物樣例(標(biāo)記的訓(xùn)練數(shù)據(jù))教會(huì)計(jì)算機(jī)。這項(xiàng)樣例中有美味的食物(正例),也有惡心的(負(fù)例)。對(duì)于每個(gè)被標(biāo)記的示例,我們給計(jì)算機(jī)提供了描述食物(特征)的方法。
正例被標(biāo)記為“美味”,比如巧克力冰淇淋、披薩、草莓等。負(fù)例被標(biāo)記為“惡心”,比如鳳尾魚(yú)、花椰菜和球芽甘藍(lán)。
在真正的機(jī)器學(xué)習(xí)系統(tǒng)中,你可能需要更多的訓(xùn)練數(shù)據(jù),但3正3負(fù)的例子夠我們了解概念了。
現(xiàn)在,我們需要一些特征。不妨就將這些樣例設(shè)置為甜、咸和蔬菜三個(gè)特征,因?yàn)闉槎匦裕悦糠N食物的每個(gè)特征都被賦予“是”或“否”的值。
有了這些訓(xùn)練數(shù)據(jù)后,計(jì)算機(jī)的工作就是從這些數(shù)據(jù)中總結(jié)一個(gè)公式(模型)。這樣,當(dāng)它會(huì)遇到新食物時(shí),它能根據(jù)模型決定食物是美味還是惡心的。
一種模型是點(diǎn)系統(tǒng)(線性模型)。如果具備每個(gè)特性,就會(huì)得到一定分?jǐn)?shù)(權(quán)重),如果不具備就沒(méi)有分?jǐn)?shù)。然后,模型將食物的點(diǎn)數(shù)加起來(lái),得到最終分。
模型里有一個(gè)分界點(diǎn),若得分高于分界點(diǎn),模型就判定食物美味;如果分?jǐn)?shù)低于分界點(diǎn),就判定為難吃。
根據(jù)訓(xùn)練數(shù)據(jù),模型中的特征分可能會(huì)被設(shè)置為甜3分,咸1分,松脆1分,蔬菜為-1分。則巧克力冰淇淋、披薩、草莓、鳳尾魚(yú)、花椰菜、和球芽甘藍(lán)在模型中的得分如下:
權(quán)重讓選擇分界點(diǎn)更容易,因?yàn)檎嫉梅?ge;2,負(fù)例得分≤1。
總能正確找到權(quán)重和分界點(diǎn)不太容易。即使找到了,最終可能會(huì)得到一個(gè)只適用于這個(gè)訓(xùn)練數(shù)據(jù)的模型,但當(dāng)我們用新例子時(shí),模型效果就沒(méi)這么好了(過(guò)度擬合)。
理想的模型不僅在訓(xùn)練數(shù)據(jù)中正確率高,在新例中仍然有效(泛化)。通常,簡(jiǎn)單模型比復(fù)雜模型(奧卡姆剃刀)更容易一般化。
我們可以不使用線性模型,構(gòu)建決策樹(shù)也是個(gè)好方法。在決策樹(shù)中,只能問(wèn)能用“是”和“否”回答的問(wèn)題。
用訓(xùn)練數(shù)據(jù)讓決策樹(shù)答對(duì)并不難,在這個(gè)示例中訓(xùn)練數(shù)據(jù)是這樣利用的:
- 這是蔬菜嗎?
- 如果是,則難吃。
- 如果不是,那它是甜的嗎?
- 如果是,則好吃。
- 如果不是,那它是松脆的嗎?
- 如果是,則好吃。
- 如果不是,則難吃。
如同線性模型,我們需要擔(dān)心過(guò)度擬合,不能讓決策樹(shù)太深。所以這意味著最終可能會(huì)有一個(gè)模型,雖然在我們的訓(xùn)練數(shù)據(jù)上會(huì)犯錯(cuò),但能對(duì)新數(shù)據(jù)更好泛化。
希望孩子能聽(tīng)懂這個(gè)機(jī)器學(xué)習(xí)的解釋~