GPT理解的CV:基于Yolov5的半監督目標檢測
本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。
01 概要
半監督目標檢測(SSOD)已經成功地提高了R-CNN系列和無錨檢測器的性能。然而,一級基于錨的檢測器缺乏生成高質量或靈活偽標簽的結構,導致SSOD中存在嚴重的不一致性問題。在今天分享中,提出了一個高效的教師框架,用于可擴展和有效的基于單階段錨的SSOD訓練,該框架由密集檢測器、偽標簽分配器和Epoch適配器組成。Dense Detector是一個基線模型,它以YOLOv5為靈感,使用密集采樣技術擴展了RetinaNet。高效教師框架引入了一種新的偽標簽分配機制,稱為偽標簽分配器,它更精細地利用了密集檢測器中的偽標簽。
Epoch Adaptor是一種為密集探測器提供穩定高效的端到端SSOD訓練計劃的方法。偽標簽分配器防止了在師生相互學習機制期間由大量低質量偽標簽引起的可能干擾密集檢測器的偏差的發生,并且Epoch適配器利用域和分布自適應來允許密集檢測器學習全局分布的一致特征,使得訓練與標記數據的比例無關。我們的實驗表明,高效教師框架在VOC、COCO標準和COCO附加方面取得了最先進的結果,使用的FLOP比以前的方法更少。據我們所知,這是將SSOD應用于YOLOv5的第一次嘗試。
02 新框架
高效教師(Efficient Teacher)是一種新穎高效的半監督目標檢測框架,它顯著提高了基于單級錨點的檢測器的性能。該框架基于師生相互學習的方法,如下圖所示,靈感來自以前的工作。提出的偽標簽分配器方法根據偽標簽的得分將其分為可靠和不確定的偽標簽,其中可靠的偽標簽用于默認監督訓練,不確定的用于指導軟損失學生模型的訓練。Epoch-Adaptor方法通過在標記數據和未標記數據之間進行域自適應,并計算每個歷元中偽標簽的閾值,來加速收斂。在整個培訓過程中,教師模型采用指數移動平均(EMA)技術進行更新。
比較RetinaNet和檢測聚類器的偽指標分布圖,發現:
(a)RetinaNet使用了更少的輸入數據,產生了更高的分辨率,暗色表示分數較低;
(b)檢測聚類器利用更多的輸入數據,根據物體特征和分類結果產生了更強健和更密集的反應。
偽標簽過濾是 SSOD 中常用的一種方法,閾值設置太低會產生錯誤的偽標簽,而閾值設置太高則可能排除可靠的偽標簽,從而導致分配不佳,進而影響網絡訓練的效果。為了解決這個問題,我們提出了偽標簽分配器方法,該方法根據高低閾值將偽標簽分為可靠和不可靠的類別,分別為目標 L 提高單目標 SSOD 中偽標簽的質量。
Main epoch 表示整個訓練期間不中斷,并且在執行期間沒有任何新權重的加載。有效教師的訓練策略:(a)在標記數據上進行監督訓練,然后在未標記數據上進行基于標記的 SSOD 訓練;(b)在標記數據上進行監督訓練,并在未標記數據上進行基于標記的 SSOD 訓練以外的額外基于標記的 SSOD 訓練;(c)在標記數據和未標記數據上進行端到端訓練,并使用適應域和分布的 Epoch 適配器以改進收斂和特征分布。
03 實驗
Experimental results on COCO-standard (AP50:95)
PASCAL-VOC的實驗結果。?表示使用ImageNet預訓練骨干來初始化高效教師