啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

作者：聞數(shù)起舞 2020-10-26 07:03:35

人工智能機(jī)器學(xué)習(xí) 算法

本文不僅試圖解釋算法的工作原理，而且要直觀地理解算法的工作原理，以提供這種燈泡啊哈! 時刻。

大多數(shù)人都在兩個營地中：

我不了解這些機(jī)器學(xué)習(xí)算法。
我了解算法的工作原理，但不了解其工作原理。

本文不僅試圖解釋算法的工作原理，而且要直觀地理解算法的工作原理，以提供這種燈泡啊哈! 時刻。

[[348334]]

決策樹

決策樹使用水平線和垂直線劃分要素空間。例如，考慮下面一個非常簡單的決策樹，該決策樹具有一個條件節(jié)點(diǎn)和兩個類節(jié)點(diǎn)，指示一個條件以及滿足該條件的訓(xùn)練點(diǎn)將屬于哪個類別。

請注意，標(biāo)記為每種顏色的字段與該區(qū)域內(nèi)實(shí)際上是該顏色或(大致)熵的數(shù)據(jù)點(diǎn)之間存在很多重疊。構(gòu)造決策樹以最小化熵。在這種情況下，我們可以增加一層復(fù)雜性。如果要添加另一個條件; 如果x小于6，y大于6，我們可以將該區(qū)域中的點(diǎn)指定為紅色。此舉降低了熵。

在每個步驟中，決策樹算法都會嘗試找到一種構(gòu)建樹的方法，以使熵最小化。將熵更正式地看作是某個分隔線(條件)所具有的"混亂"或"混亂"，而與"信息增益"相反的是，分隔線為模型增加了多少信息和洞察力。具有最高信息增益(以及最低熵)的要素拆分位于頂部。

條件可能會將其一維特征分解為如下形式：

請注意，條件1具有清晰的分隔，因此熵低且信息增益高。條件3不能說相同，這就是為什么它位于決策樹底部附近的原因。樹的這種構(gòu)造確保其可以保持盡可能輕巧。

您可以在此處閱讀有關(guān)熵及其在決策樹以及神經(jīng)網(wǎng)絡(luò)(交叉熵作為損失函數(shù))中的用法的更多信息。

隨機(jī)森林

隨機(jī)森林是決策樹的袋裝(引導(dǎo)聚合)版本。主要思想是對數(shù)個決策樹分別訓(xùn)練一個數(shù)據(jù)子集。然后，輸入通過每個模型，并且它們的輸出通過類似平均值的函數(shù)進(jìn)行匯總以產(chǎn)生最終輸出。套袋是組合學(xué)習(xí)的一種形式。

您需要確定下一家餐廳。要向某人提出建議，您必須回答各種是/否問題，這將使他們做出您應(yīng)該去哪家餐廳的決定。

您愿意只問一個朋友還是問幾個朋友，然后找到方式或普遍共識?

除非您只有一個朋友，否則大多數(shù)人都會回答第二個。該類比提供的見解是，每棵樹都有某種"思維多樣性"，因?yàn)樗鼈兪窃诓煌臄?shù)據(jù)上訓(xùn)練的，因此具有不同的"體驗(yàn)"。

這種類比，干凈和簡單，從來沒有真正讓我脫穎而出。在現(xiàn)實(shí)世界中，單朋友選項(xiàng)的經(jīng)驗(yàn)少于所有朋友，但在機(jī)器學(xué)習(xí)中，決策樹和隨機(jī)森林模型是在相同的數(shù)據(jù)上訓(xùn)練的，因此也具有相同的體驗(yàn)。集成模型實(shí)際上沒有接收任何新信息。如果我可以向一個全知的朋友提出建議，我不會反對。

在相同數(shù)據(jù)上訓(xùn)練的模型如何隨機(jī)抽取數(shù)據(jù)子集以模擬人為的"多樣性"，其效果如何比在整個數(shù)據(jù)上訓(xùn)練的模型更好?

拍攝正弦波，并帶有大量正態(tài)分布的噪聲。這是您的單個決策樹分類器，它自然是一個高方差模型。

將選擇100個"近似值"。這些逼近器沿正弦波隨機(jī)選擇點(diǎn)并生成正弦曲線擬合，就像在數(shù)據(jù)子集上訓(xùn)練決策樹一樣。然后將這些擬合平均，以形成袋裝曲線。結(jié)果? -更平滑的曲線。

套袋有效的原因在于，它通過人為地使模型更具"信心"，從而減少了模型的差異并有助于提高泛化能力。這也就是為什么裝袋在諸如Logistic回歸之類的低方差模型中效果不佳的原因。

您可以在這里閱讀更多關(guān)于直覺的信息，以及關(guān)于套袋成功的更嚴(yán)格的證明。

支持向量機(jī)

支持向量機(jī)依靠"支持向量"的概念來最大化兩個類別之間的距離，試圖找到一種可以最好地劃分?jǐn)?shù)據(jù)的超平面。

不幸的是，大多數(shù)數(shù)據(jù)集并不是那么容易分離，如果能夠分離，SVM可能不是處理它的最佳算法。考慮此一維分離任務(wù); 沒有良好的分隔符，因?yàn)槿魏我环N分隔都會導(dǎo)致將兩個獨(dú)立的類歸為同一類。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

> One proposal for a split.

SVM通過使用所謂的"內(nèi)核技巧"來強(qiáng)大地解決此類問題，該技巧將數(shù)據(jù)投影到新的維度上，從而簡化了分離任務(wù)。例如，讓我們創(chuàng)建一個新的尺寸，將其簡單定義為x²(x是原始尺寸)：

現(xiàn)在，將數(shù)據(jù)投影到新的維度(每個數(shù)據(jù)點(diǎn)以兩個維度表示為(x，x²))之后，數(shù)據(jù)就可以清晰地分離了。

使用各種內(nèi)核(最常見的是多項(xiàng)式，Sigmoid和RBF內(nèi)核)，內(nèi)核技巧使繁重的工作創(chuàng)造了一個轉(zhuǎn)換后的空間，從而使分離任務(wù)變得簡單。

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的頂峰。他們的發(fā)現(xiàn)以及對它的無窮變化和改進(jìn)使它成為了自己領(lǐng)域的主題，即深度學(xué)習(xí)。誠然，神經(jīng)網(wǎng)絡(luò)的成功仍然是不完整的("神經(jīng)網(wǎng)絡(luò)是沒人能理解的矩陣乘法")，但是最簡單的解釋方法是通過通用近似定理(UAT)。

每種監(jiān)督算法的核心都是試圖對數(shù)據(jù)的某些基礎(chǔ)功能進(jìn)行建模。通常這是一個回歸平面或特征邊界。考慮這個函數(shù)y =x²，可以用幾個水平步長將其建模為任意精度。

這本質(zhì)上就是神經(jīng)網(wǎng)絡(luò)可以做的。也許除了水平步長之外，模型關(guān)系可能會更復(fù)雜一些(例如下面的二次和線性線)，但是神經(jīng)網(wǎng)絡(luò)的核心是分段函數(shù)逼近器。

每個節(jié)點(diǎn)都委托給分段功能的一部分，網(wǎng)絡(luò)的目的是激活負(fù)責(zé)部分特征空間的某些神經(jīng)元。例如，如果要對有胡須或沒有胡須的男人的圖像進(jìn)行分類，則應(yīng)將幾個節(jié)點(diǎn)專門委派給經(jīng)常出現(xiàn)胡須的像素位置。在多維空間中的某個位置，這些節(jié)點(diǎn)表示一個數(shù)值范圍。

再次注意，"神經(jīng)網(wǎng)絡(luò)為什么起作用"的問題仍然沒有得到回答。 UAT并未回答這個問題，但指出在某些人類的解釋下，神經(jīng)網(wǎng)絡(luò)可以為任何功能建模。可解釋/可解釋AI的領(lǐng)域正在涌現(xiàn)，以通過激活最大化和敏感性分析等方法來回答這些問題。

您可以在此處閱讀更深入的解釋并查看通用近似定理的可視化。

在所有四種算法以及許多其他算法中，這些算法在低維情況下看起來都非常簡單。機(jī)器學(xué)習(xí)的一個關(guān)鍵實(shí)現(xiàn)是，我們聲稱在AI中看到的許多"魔術(shù)"和"智能"實(shí)際上是一個隱藏在高維偽裝下的簡單算法。

將區(qū)域劃分為正方形的決策樹很簡單，但是將高維空間劃分為超立方體的決策樹卻不那么容易。 SVM執(zhí)行內(nèi)核技巧以提高一維到二維的可分離性是可以理解的，但是SVM在數(shù)百個大維數(shù)據(jù)集上執(zhí)行相同的操作幾乎是神奇的。

我們對機(jī)器學(xué)習(xí)的欽佩和困惑是基于我們對高維空間缺乏了解。學(xué)習(xí)如何解決高維問題并了解本機(jī)空間中的算法，有助于直觀理解。

責(zé)任編輯：趙寧寧來源：今日頭條