YoloCS:有效降低特征圖空間復雜度
本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。
論文地址:YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification (arxiv.org)
01 總 述
在今天分享中,研究者檢查了在特征純化和梯度反向傳播過程中信道特征和卷積核之間的關聯,重點是網絡內的前向和反向傳播。因此,研究者提出了一種稱為密集通道壓縮的特征空間固化方法。根據該方法的核心概念,引入了兩個用于骨干網絡和頭部網絡的創新模塊:用于特征空間固化結構的密集通道壓縮(DCFS)和非對稱多級壓縮解耦頭部(ADH)。當集成到YOLOv5模型中時,這兩個模塊表現出非凡的性能,從而產生了一個被稱為YOLOCS的改進模型。
在MSCOCO數據集上評估,大、中、小YOLOCS模型的AP分別為50.1%、47.6%和42.5%。在保持與YOLOv5模型的推理速度顯著相似的情況下,大、中、小YOLOCS模型分別以1.1%、2.3%和5.2%的優勢超過YOLOv5的AP。
02 背 景
近年來,目標檢測技術在計算機視覺領域受到了廣泛關注。其中,基于單發多框算法的目標檢測技術(Single Shot Multi Box Detector,SSD)和基于卷積神經網絡的目標檢測技術(Convolutional Neural Networks,CNN)是兩種最常用的目標檢測技術。然而,由于單發多框算法的精度較低,而基于卷積神經網絡的目標檢測技術的計算復雜度較高,因此,尋找一種高效且精度較高的目標檢測技術成為了當前研究的熱點之一。
Dense Channel Compression(DCC)是一種新型的卷積神經網絡壓縮技術,它通過對卷積神經網絡中的特征圖進行空間固化,從而實現對網絡參數的壓縮和加速。然而,DCC技術在目標檢測領域的應用尚未得到充分的研究。
因此,提出了一種基于Dense Channel Compression的目標檢測技術,命名為YOLOCS(YOLO with Dense Channel Compression)。YOLOCS技術將DCC技術與YOLO(You Only Look Once)算法相結合,實現了對目標檢測的高效且精度較高的處理。具體來說,YOLOCS技術通過DCC技術對特征圖進行空間固化,從而實現對目標位置的精確定位;同時,YOLOCS技術利用YOLO算法的單發多框算法特點,實現對目標類別分類的快速計算。
03 新框架
- Dense Channel Compression for Feature Spatial Solidification Structure (DCFS)
在提出的方法中(上圖(c))中,研究者不僅解決了網絡寬度和深度之間的平衡問題,還通過3×3卷積壓縮了來自不同深度層的特征,在輸出和融合特征之前將通道數量減少了一半。這種方法使研究者能夠在更大程度上細化來自不同層的特征輸出,從而在融合階段增強特征的多樣性和有效性。
此外,來自每一層的壓縮特征都帶有更大的卷積核權重(3×3),從而有效地擴展了輸出特征的感受野。將這種方法稱為特征空間固化的密集通道壓縮。用于特征空間固化的密集通道壓縮背后的基本原理依賴于利用較大的卷積核來促進通道壓縮。該技術具有兩個關鍵優點:首先,它擴展了前向傳播過程中特征感知的感受域,從而確保了區域相關的特征細節被納入,以最大限度地減少整個壓縮階段的特征損失。其次,誤差反向傳播過程中誤差細節的增強允許更準確的權重調整。
為了進一步闡明這兩個優點,使用具有兩種不同核類型(1×1和3×3)的卷積來壓縮兩個通道,如下圖:
DCFS的網絡結構如下圖所示。采用三層瓶頸結構,在網絡前向傳播的過程中逐漸壓縮信道。半通道3×3卷積應用于所有分支,然后是批處理歸一化(BN)和激活函數層。隨后,使用1×1卷積層來壓縮輸出特征通道,以匹配輸入特征通道。
- Asymmetric Multi-level Channel Compression Decoupled Head (ADH)
為了解決YOLOX模型中的解耦頭問題,研究者進行了一系列的研究和實驗。研究結果揭示了解耦頭部結構的利用與相關損失函數之間的邏輯相關性。具體而言,對于不同的任務,應根據損失計算的復雜性調整解耦頭的結構。此外,當將解耦的頭部結構應用于各種任務時,由于最終輸出維度的差異,將前一層的特征通道(如下圖)直接壓縮為任務通道可能會導致顯著的特征損失。這反過來又會對模型的整體性能產生不利影響。
此外,當考慮提出的用于特征空間固化的密集通道壓縮方法時,直接減少最終層中的通道數量以匹配輸出通道可能會導致前向傳播過程中的特征丟失,從而降低網絡性能。同時,在反向傳播的背景下,這種結構可能會導致次優誤差反向傳播,阻礙梯度穩定性的實現。為了應對這些挑戰,引入了一種新的解耦頭,稱為非對稱多級通道壓縮解耦頭(如下圖(b))。
具體而言,研究者深化了專用于目標評分任務的網絡路徑,并使用3個卷積來擴展該任務的感受野和參數數量。同時,沿著通道維度壓縮每個卷積層的特征。該方法不僅有效地減輕了與目標評分任務相關的訓練難度,提高了模型性能,而且大大減少了解耦頭部模塊的參數和GFLOP,從而顯著提高了推理速度。此外,使用1卷積層來分離分類和邊界框任務。這是因為對于匹配的正樣本,與兩個任務相關聯的損失相對較小,因此避免了過度擴展。這種方法大大降低了解耦頭中的參數和GFLOP,最終提高了推理速度。
04 實驗可視化
Ablation Experiment on MS-COCO val2017
Comparison of YOLOCS, YOLOX and YOLOv5- r6.1[7] in terms of AP on MS-COCO 2017 test-dev