ICLR-17 最佳論文：理解深度學習需要重新思考泛化問題

作者：機器之心編譯 2017-06-02 23:00:00

如何區分泛化能力好的與差的神經網絡?問題答案是泛化能力好的神經網絡不僅有助于提升網絡解釋性，而且還可以帶來更有規律、更可靠的模型架構設計。

本文是一篇很好的綜述論文：結果很容易理解，也讓人有些驚訝，但其意指又會讓人思考良久。

對于文中的問題，作者是這樣回答的：

所謂的「泛化能力好」，作者對此做出的簡單解釋是「那些在訓練集上表現好的網絡在測試集上也有良好的表現?」(與遷移學習不同的是，這涉及將訓練過的網絡應用于相關而又不相同的問題中)。如果你思考一下，這個問題幾乎歸結為為什么神經網絡可以跟它們工作的一樣好?泛化性與僅僅記憶部分訓練數據并將其重新編寫返回不同，泛化性實際上是開發了一些可用于預測數據的有意義的能力。所以這可能會讓人有一點懊惱，如果這個問題「為什么神經網絡的可以跟其他模型工作的一樣好」的答案是「我們真的不知道」，那么也就不會有懊惱了。

隨機標簽的奇怪案例

我們的故事從熟悉的地方開始---CIFAR 10(50000 張訓練圖像，分為 10 類，另有 10000 張驗證圖像)、2012 年的 ILSVR(1281167 張訓練圖像，50000 張驗證圖片，并且有 1000 個類) 的數據以及 Inception 網絡架構的變體。

用訓練數據訓練網絡，在訓練集上達到零誤差你肯定不會感到奇怪。這是一個很明顯的過擬合訓練示例，而不是學習真實的預測特征。我們采用諸如正則化技術防止過擬合，而且能使模型獲得更好的泛化能力，關于正則化后文會有細述。

采用相同的訓練數據，但這次使用隨機的標簽 (即這樣使得標簽和圖像中的內容之間不再有真正的對應關系)。用這些隨機的標簽訓練網絡然后你會得到什么?零訓練誤差!

在這個例子中，實例和類別標簽之間沒有任何的關系。因此，學習是不可能的。這直觀地表明了這種不可能性在訓練過程中應該自我表現的很清楚，例如在訓練之后誤差是不可能收斂或者減小的。令我們驚訝的是，多標準架構的訓練過程中的幾個屬性很大程度上不受這個標簽轉換的影響。

正如作者總結所言，「深度神經網絡很容易擬合這些隨機標簽」。這是***個實驗中獲得三個重要發現：

神經網絡的有效容量足夠記憶整個數據集。
盡管優化隨機標簽依舊容易，實際上與使用真正標簽的訓練比，隨機標簽訓練的時間只多了一個小的常數時間。
隨機標簽只不過是一個數據轉換，而學習問題的所有其他屬性不變。

如果你用隨機標簽訓練網絡，然后看網絡在測試集中的表現，這個表現顯然不好，這是因為網絡沒有學習到數據集的正確信息。這一問題的一個奇怪描述是它具有高泛化誤差。將這些情況綜合考慮，你能理解到：

單獨通過隨機標簽，在不改變模型的大小、超參數或者優化下，我們可以強制明顯地提高模型的泛化誤差。我們在 CIFA 10 和 ImageNet 分類基準上訓練的幾種不同標準體系確立了這個事實。
或易言之，模型及其大小、超參數和優化器并不能解釋當前***進神經網絡的泛化能力。這正是由于模型可以毫無變化，但是泛化能力的表現可以千差萬別。

更奇怪的隨機圖像案例

如果我們不僅僅是弄亂標簽，而且弄亂圖像本身會發生什么?事實上，如果用隨機噪聲替換真實圖像又會怎么樣?在圖中，這個被稱為「高斯」實驗，因為是使用與原始圖像相匹配的均值和方差的高斯分布生成每張圖像的隨機像素。

事實證明，網絡依然能夠訓練到零誤差，但是速度比隨機標簽更快。至于為什么會發生這種情況的假設是：隨機像素比隨機化標簽的原始圖像更容易區分，這是因為原始圖像中屬于同一個類別的圖像在經過類別隨機化后被學習為其他類別。

帶有一系列變化的團隊實驗將不同程度和種類的隨機化引入數據集：

真實標簽(沒有經過任何修改的原始數據集)
部分壞標簽(弄亂部分標簽)
隨機標簽(弄亂所有標簽)
混合像素(選擇一排像素，然后將它應用于所有圖像)
隨機像素(對每個圖像使用不同的排列)
高斯(僅是為每張圖片填充，如前所述)

所有的這一系列方法，網絡依舊可以很好的擬合這些訓練數據。

此外，我們進一步改變隨機化的數量，在無噪聲和全噪聲的情況下平滑內插。這會導致一系列中間學習的問題，其中標簽中存在一定的信號。隨著噪聲的不斷加大，我們發現泛化誤差也不斷的加大。這說明神經網絡能夠捕獲數據中的剩余信號，同時使用蠻力來擬合部分噪聲。

對我來說***一句是關鍵。我們在模型中做出的某些選擇清楚的表明了模型泛化能力的差異(否則所有的架構應該具有相同的泛化能力)。在數據中沒有其他真實信號時，世界上泛化能力***的網絡依舊需要回顧一下。所以我們可能需要一種方法去挑選數據集中存在的真正泛化能力，以及給定模型架構在捕捉這種潛力的效率。一個簡單方法是用不同架構的模型訓練在同樣的數據上訓練(當然我們一直是這樣做的)。這依然不能幫助我們解決原始問題，但是可以理解為什么一些模型的泛化能力比其他模型好。

用正則化彌補?

模型架構本身顯然不能充分正規化(不能防止過擬合/記憶)，但是常用的正則化技術呢?

如下我們顯示采用一些正則化技術，例如權重衰減、dropout、增加一些數據都足以解釋神經網絡的泛化誤差：采用正則化可能會提供模型的泛化能力，但這并不是必須的也不足以控制泛化誤差。

顯性正則化似乎更多的是一個調整參數，有助于提高泛化能力，但是其缺失也并不意味著泛化誤差。當然并非所有能夠擬合訓練數據的模型都能很好地泛化。本文分析中的有趣一面是，我們僅僅通過使用梯度下降過程就獲得了一定量的正則化：

我們分析 SGD 如何作為一個隱性正則器。對于線性模型，SGD 經常收斂到一個小規模的解決方案。因此算法本身隱性地正則化了解決方案，盡管這個無法解釋為什么某些架構比其他架構泛化能力更好，但卻表明需要使用更多的研究來了解 SGD 的內在屬性。

機器學習模型的有效容量

考慮樣本大小為 n 的神經網絡情況，如果網絡有一個參數 p，p 比 n 更大，然后盡管一個簡單的兩層神經網絡可以表示輸入樣本的任何函數。作者證明(在附錄中)以下定律：

存在一個帶有 ReLU 激活函數、有 2n+d 個權重的二層神經網絡，可以表示大小為 n*d 的樣本上的任何函數。

所以這一切都偏離我們了?

這種情況對統計學習提出了一個概念上的挑戰，因為傳統的模型復雜度度量很難解釋大型人工神經網絡的泛化能力。我們的任務在這個巨大的模型下，且還沒有發現簡單準確的度量方法。從我們的實驗得出的另一個解釋是：即使是模型的泛化能力不好，通過經驗優化模型也是比較容易的。這表明了優化為什么容易的經驗性原因，肯定不同于真正的泛化原因。

【本文是51CTO專欄機構機器之心的原創譯文，微信公眾號“機器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

深度學習機器學習神經網絡

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR-17 最佳論文：理解深度學習需要重新思考泛化問題