模型難復現不一定是作者的錯，研究發現模型架構要背鍋

作者：豐色 2022-03-21 09:47:02

人工智能深度學習

深度學習中的決策邊界，可以用來最小化誤差。簡單來說，分類器會通過決策邊界，把線內線外的點歸為不同類。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

在不同初始化條件下，同一神經網絡經過兩次訓練可以得到相同的結果嗎？

CVPR 2022的一篇研究通過將決策邊界 （Decision Boundary）可視化的方法，給出了答案——

有的容易，有的很難。

例如，從下面這張圖來看，研究人員就發現，ViT比ResNet要更難復現（兩次訓練過后，顯然ViT決策邊界的差異更大）：

研究人員還發現，模型的可復現性和模型本身的寬度也有很大關聯。

同樣，他們利用這種方法，對2019年機器學習最重要的理論之一——雙下降 （Double Descent）現象進行了可視化，最終也發現了一些很有意思的現象。

來看看他們具體是怎么做的。

更寬的CNN模型，可復現性更高

深度學習中的決策邊界，可以用來最小化誤差。

簡單來說，分類器會通過決策邊界，把線內線外的點歸為不同類。

在這項研究中，作者從CIFAR-10訓練集中選擇了三幅隨機圖像，然后使用三次不同的隨機初始化配置在7種不同架構上訓練，繪制出各自的決策區域。

從中我們可以發現：

左邊三個和右邊四個差異很大，也就是說不同架構之間的相似性很低。

再進一步觀察，左邊的全連接網絡、ViT和MLP Mixer之間的決策邊界圖又不太一樣，而右邊CNN模型的則很相似。

在CNN模型中，我們還可以觀察到不同隨機數種子之間明顯的的重復性趨勢，這說明不同初始化配置的模型可以產生一樣的結果。

作者設計了一種更直觀的度量方法來衡量各架構的可復現性得分，結果確實驗證了我們的直觀感受：

并發現更寬的CNN模型似乎在其決策區域具有更高的可復現性，比如WideRN30。

以及采用殘差連接結構的CNN模型（ResNet和DenseNet ）的可復現性得分比無此連接的模型要略高（VGG）。

此外，優化器的選擇也會帶來影響。

在下表中，我們可以看到SAM比標準優化器（如SGD和Adam）產生了更多可重復的決策邊界。

不過對于MLP Mixer和ViT，SAM的使用不能總是保證模型達到最高的測試精度。

有網友表示好奇，如果通過改善模型本身的設計，能改變這種現象嗎？

對此作者回應稱，他們已經試著調整過ViT的學習率，但得到的結果仍然比ResNet差。

可視化ResNet-18的雙下降現象

雙下降（Double Descent）是一個有趣的概念，描述是測試/訓練誤差與模型大小的關系。

在此之前，大家普遍認為參數太少的模型泛化能力差——因為欠擬合；參數太多的模型泛化能力也差——因為過擬合。

而它證明，兩者的關系沒有那么簡單。具體來說：

誤差會先隨著模型的增大而減小，然后經過模型過擬合，誤差又增大，但隨著模型大小或訓練時間的進一步增加，誤差又會再次減小。

作者則繼續使用決策邊界方法，可視化了ResNet-18的雙下降現象。

他們通過寬度參數（k：1-64）的改變來增加模型容量。

訓練出的兩組模型，其中一組使用無噪聲標簽（label noise）的訓練集，另一組則帶有20%的噪聲標簽。

最終，在第二組模型中觀察到了明顯的雙下降現象。

對此作者表示：

線性模型預測的模型不穩定性也適用于神經網絡，不過這種不穩定性表現為決策區域的大量碎片。

也就說，雙下降現象是由噪聲標簽情況下決策區域的過度碎片引起的。

具體來說，當k接近/達到10 （也就是插值閾值）時，由于模型此時擬合了大部分訓練數據，決策區域被分割成很多小塊，變得“混亂和破碎”，并不具備可重復性；此時模型的分類功能存在明顯的不穩定性。

而在模型寬度很窄（k=4）和很寬（k=64）時，決策區域碎片較少，有高水平的可重復性。

為了進一步證明該結果，作者又設計了一個碎片分數計算方法，最終再次驗證上圖的觀察結果。

模型的可復現性得分如下：

同樣可以看到，在參數化不足和過參數化的情況下，整個訓練過程的可復現性很高，但在插值閾值處會出現“故障”。

有趣的是，即使沒有噪聲標簽，研究人員發現他們設計的量化方法也足夠敏感，可以檢測到可復現性的細微下降（上圖藍線部分）。

目前代碼已經開源，要不要來試試你的模型是否容易復現？

論文地址：

https://arxiv.org/abs/2203.08124

GitHub鏈接：

https://github.com/somepago/dbVi

責任編輯：張燕妮來源：量子位

深度學習模型人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模型難復現不一定是作者的錯，研究發現模型架構要背鍋

更寬的CNN模型，可復現性更高

可視化ResNet-18的雙下降現象