成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

選擇哪個Batchsize對模型效果最好?

發布于 2025-1-15 12:56
瀏覽
0收藏

總結

在項目中,如果你沒有任何參考,那么選擇2次方(即64、128、256、512、1024等)可以會更加直接和易于管理,然后對上限來說,batchsize大小最好<=數據集樣本數*0.1。

梯度下降算法

在更新模型參數時,我們一般會用到梯度下降算法。這個時候,我們就會有一個問題,每次拿多少訓練樣本進行更新參數呢?這個時候有兩個極端情況,資源夠,那我們把所有數據都丟進去,我們稱之為批量梯度下降法(Batch Gradient Descent,BGD)。另外一個極端,我們每次都是拿一個數據去訓練,此時我們稱之為隨機梯度下降法(Stochastic Gradient Descent,SGD)。

批量梯度下降法(BGD)的好處是穩定下降,loss下降得也快,但容易到極小值,而隨機梯度下降法(SGD)的梯度上引入了隨機噪聲,因此在非凸優化問題中,其相比批量梯度下 降更容易逃離局部最小值。

選擇哪個Batchsize對模型效果最好?-AI.x社區

如果拿不同的批量來訓練模型來做圖像識別問題,實驗結果如圖所示,橫軸是批量大小,縱軸是正確率。結果是可能出乎一部分人的意料:批量大小越大,驗證集準確率越差。 這個是優化的問題,大的批量大小優化可能會有問題,小的批量大小優化的結果反而是比較好的。

選擇哪個Batchsize對模型效果最好?-AI.x社區

有噪聲反而可能是好事

有可能存在的解釋是,批量梯度下降法因為沿著一個損失函數,所以比較容易出現局部極小值或者鞍點。而小批量梯度下降法每次都是挑一次批量計算損失,所以每一次更新參數的時候所使用的損失函數是有差異的。

選擇哪個Batchsize對模型效果最好?-AI.x社區

選擇哪個Batchsize對模型效果最好?-AI.x社區

在論文 “On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima”中,作者在不同數據集上訓練了六個網絡(包括全連接網絡、不同的卷積神經網絡),在很多不同的 情況都觀察到一樣的結果。

在小的批量,一個批量里面有256筆樣本。在大的批量中,批量大小等于數據集樣本數乘0.1,大的批量跟小的批量的訓練準確率(accuracy)差不多。 但就算是在訓練的時候結果差不多,測試的時候,大的批量比小的批量差,代表過擬合。

本文轉載自 ??沐白AI筆記??,作者: 楊沐白

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩欧美大片在线观看 | 亚洲精品视频在线 | 四虎在线视频 | 欧美精品91| 久久久女女女女999久久 | 在线观看视频亚洲 | av网站在线看 | 黄免费观看视频 | 亚洲欧美日韩成人在线 | 国产一级免费视频 | 亚州成人 | 一区二区三区久久久 | 成人妇女免费播放久久久 | 黄色网址在线播放 | 久草.com | 在线观看免费毛片 | 亚洲成人av一区二区 | 另类视频区 | 精品乱码一区二区 | 日本一区二区视频 | 欧美激情五月 | 97精品视频在线 | 国产高清一区二区 | 成年人免费在线视频 | 亚洲一二三视频 | 在线中文字幕av | 国产成人福利 | av黄色在线观看 | 欧美亚洲网站 | 国产成人精品综合 | 亚洲欧洲成人在线 | 国产亚洲一区二区在线观看 | 人人操日日干 | 黄a在线观看 | 国内精品伊人久久久久网站 | 国产精品99久 | 国产91精品久久久久久久网曝门 | 91传媒在线观看 | 亚洲网站在线观看 | 亚洲免费成人 | 毛片高清 |