譯者 | 陳峻
審校 | 孫淑娟
眾所周知,人類在很小的時候就學會了識別和標記自己所看到的事物。如今,隨著機器學習和深度學習算法的不斷迭代,計算機已經能夠以非常高的精度,對捕獲到的圖像進行大規模的分類了。目前,此類先進算法的應用場景已經涵括到了包括:解讀肺部掃描影像是否健康,通過移動設備進行面部識別,以及為零售商區分不同的消費對象類型等領域。
下面,我將和您共同探討計算機視覺(Computer Vision)的一種應用——圖像分類,并逐步展示如何使用TensorFlow,在小型圖像數據集上進行模型的訓練。
1、數據集和目標
在本示例中,我們將使用MNIST數據集的從0到9的數字圖像。其形態如下圖所示:
我們訓練該模型的目的是為了將圖像分類到其各自的標簽下,即:它們在上圖中各自對應的數字處。通常,深度神經網絡架構會提供一個輸入、一個輸出、兩個隱藏層(Hidden Layers)和一個用于訓練模型的Dropout層。而CNN或卷積神經網絡(Convolutional Neural Network)是識別較大圖像的首選,它能夠在減少輸入量的同時,捕獲到相關的信息。
2、準備工作
首先,讓我們通過TensorFlow、to_categorical(用于將數字類的值轉換為其他類別)、Sequential、Flatten、Dense、以及用于構建神經網絡架構的 Dropout,來導入所有相關的代碼庫。您可能會對此處提及的部分代碼庫略感陌生。我會在下文中對它們進行詳細的解釋。
3、超參數
- 我將通過如下方面,來選擇正確的超參數集:
- 首先,讓我們定義一些超參數作為起點。后續,您可以針對不同的需求,對其進行調整。在此,我選擇了128作為較小的批量尺寸(batch size)。其實,批量尺寸可以取任何值,但是2的冪次方大小往往能夠提高內存的效率,因此應作為首選。值得注意的是,在決定合適的批量尺寸時,其背后的主要參考依據是:過小的批量尺寸會使收斂過于繁瑣,而過大的批量尺寸則可能并不適合您的計算機內存。
- 讓我們將epoch(訓練集中每一個樣本都參與一次訓練)的數量保持為50 ,以實現對模型的快速訓練。epoch數值越低,越適合小而簡單的數據集。
- 接著,您需要添加隱藏層。在此,我為每個隱藏層都保留了128個神經元。當然,你也可以用64和32個神經元進行測試。就本例而言,像MINST這樣的簡單數據集,我并不建議使用較高的數值。
- 您可以嘗試不同的學習率(learning rate),例如0.01、0.05和0.1。在本例中,我將其保持為0.01。
- 對于其他超參數,我將衰減步驟(decay steps)和衰減率(decay rate)分別選擇為2000和0.9。而隨著訓練的進行,它們可以被用來降低學習率。
- 在此,我選擇Adamax作為優化器。當然,您也可以選擇諸如Adam、RMSProp、SGD等其他優化器。
4、創建訓練和測試集
由于TensorFlow庫也包括了MNIST數據集,因此您可以通過調用對象上的 datasets.mnist ,再調用load_data() 的方法,來分別獲取訓練(60,000個樣本)和測試(10,000個樣本)的數據集。
接著,您需要對訓練和測試的圖像進行整形和歸一化。其中,歸一化會將圖像的像素強度限制在0和1之間。
最后,我們使用之前已導入的to_categorical 方法,將訓練和測試標簽轉換為已分類標簽。這對于向TensorFlow框架傳達輸出的標簽(即:0到9)為類(class),而不是數字類型,是非常重要的。
5、設計神經網絡架構
下面,讓我們來了解如何在細節上設計神經網絡架構。
我們通過添加Flatten ,將2D圖像矩陣轉換為向量,以定義DNN(深度神經網絡)的結構。輸入的神經元在此處對應向量中的數字。
接著,我使用Dense() 方法,添加兩個隱藏的密集層,并從之前已定義的“params”字典中提取各項超參數。我們可以將“relu”(Rectified Linear Unit)作為這些層的激活函數。它是神經網絡隱藏層中最常用的激活函數之一。
然后,我們使用Dropout方法添加Dropout層。它將被用于在訓練神經網絡時,避免出現過擬合(overfitting)。畢竟,過度擬合模型傾向于準確地記住訓練集,并且無法泛化那些不可見(unseen)的數據集。
輸出層是我們網絡中的最后一層,它是使用Dense() 方法來定義的。需要注意的是,輸出層有10個神經元,這對應于類(數字)的數量。
6、訓練
至此,我們已經定義好了架構。下面讓我們用給定的訓練數據,來編譯和訓練神經網絡。
首先,我們以初始學習率、衰減步驟和衰減率作為參數,使用ExponentialDecay(指數衰減學習率)來定義學習率計劃。
其次,將損失函數定義為CategoricalCrossentropy(用于多類式分類)。
接著,通過將優化器 (即:adamax)、損失函數、以及各項指標(由于所有類都同等重要、且均勻分布,因此我選擇了準確性)作為參數,來編譯模型。
然后,我們通過使用x_train、y_train、batch_size、epochs和validation_data去調用一個擬合方法,并擬合出模型。
同時,我們調用模型對象的評估方法,以獲得模型在不可見數據集上的表現分數。
最后,您可以使用在模型對象上調用的save方法,保存要在生產環境中部署的模型對象。
7、小結
綜上所述,我們討論了為圖像分類任務,訓練深度神經網絡的一些入門級的知識。您可以將其作為熟悉使用神經網絡,進行圖像分類的一個起點。據此,您可了解到該如何選擇正確的參數集、以及架構背后的思考邏輯。
原文鏈接:https://www.kdnuggets.com/2022/12/guide-train-image-classification-model-tensorflow.html