IEEE論文提出徑向變換實現圖像增強
近日,一篇題為《Training Neural Networks with Very Little Data-A Draft》IEEE 論文提出了一種使用少量數據訓練神經網絡的新方法,即通過極坐標空間中的徑向變換(radial transform) 實現圖像增強。它并未改變數據的信息內容,而是改進了數據的多樣性,并最終提升了神經網絡的泛化表現。
論文地址:https://arxiv.org/pdf/1708.04347.pdf
摘要:深度神經網絡是由許多節點層組成的復雜架構,結果導致大量需要在訓練中評估的參數,包括權重、偏差等。相比于簡單的架構,更大、更復雜的神經網絡需要更多的訓練數據滿足適當的收斂。然而,可用于訓練網絡的數據要么有限、要么不均衡。我們提出在極坐標空間中的徑向變換(radial transform) 進行圖像增強,從而幫助數據較少的神經網絡進行訓練。每像素的坐標變換提供了原始圖像與增強后的數據在極坐標系統中的表征,且又能增加表征較弱的圖像類別的多樣性。使用我們提出的方法,在 MNIST 上,以及使用 AlxNet、GoogLeNet 神經網絡模型的一系列多模型醫療圖像上的試驗表現出了極高的分類準確率。
圖 1:徑向變換采樣。a)使用徑向變換從笛卡爾坐標系統(左)中把樣本映射到極坐標系統(右)。b)極坐標系統中的徑向變換。c)使用徑向變換篩選 256 × 256 圖像(2D 平面)中的離散樣本。任意選定的極點在像素(170,50)處。d)把 c)中篩選的樣本從極坐標系統映射到笛卡爾坐標系統。紅色樣本表明了樣本從 c)到 d)的映射方向。
圖 2 :來自 MNIST 數據集的樣本和使用極坐標系中的徑向變換 RT(·)的相應表征。
圖 3:多模態醫療數據集的樣本,以及在極坐標系統中使用徑向變換的相應表征。
表 4:使用 MNIST 和醫療多模態數據集中的原始和徑向變換圖像訓練的 AlexNet 和 GoogLeNet 模型的收斂行為。術語「RT」是指徑向變換圖像,術語「Original」是指用很少的原始圖像訓練的模型。x 軸表示訓練迭代,左 y 軸表示訓練時的模型損失,右 y 軸表示使用驗證數據集訓練時的模型準確度。
表 1:通過原始和徑向變換的多模態醫療圖像訓練的 AlexNet 和 GoogLeNet 的準確度(「Acc.」in %)和置信度(「Conf.」in %)值?!窤bd」是指腹部 MRI,「Std」是標準偏差。黑體部分是***結果。
表 2 :通過原始和徑向變換的 MNIST 圖像訓練的 AlexNet 和 GoogLeNet 的準確度(「Acc.」in %)和置信度(「Conf.」in %)值?!窼td」是標準偏差。黑體部分是***結果。
結論
成功地訓練深度神經網絡需要大量均衡的數據。在實踐中,大部分數據集都是不均衡的,或者特定類別的數據集可用的數據有限。在此論文中,我們提出了極坐標系統中的徑向變換來增加數據集中的樣本量,從而幫助對神經網絡的訓練。提出的這種數據增強方法并未改變數據的信息內容,而是改進了數據的多樣性。我們的結果顯示這種方法增加了神經網絡的泛化表現,也就是機器學習模型預測未知數據的輸出值的準確率。在非常少的數據上訓練當前***的 AlexNet 和 GooLeNet 神經網絡模型,表明該方法在整個學習流程中訓練損失和驗證準確率都有極大的波動。