計算機視覺關鍵技術及其在通信工程中的應用
Labs 導讀
本文首先總結了計算機視覺領域的重要關鍵技術以及典型算法模型,隨后介紹了這些技術在通信工程領域內設備安裝、施工驗收、三維測量以及天面核查等四種典型場景下的應用方案及實施效果,上述應用實踐將為在通信工程行業構建數字孿生網絡提供有益探索。
1、引言
計算機視覺(Computer Vision, CV)是指用計算機來模擬人的視覺系統,實現人的視覺功能,以適應、理解外界環境和控制自身的運動。數據、算力和模型是計算機視覺行業發展的三大基石。2000年之后,數據量的上漲、運算力的提升和深度學習算法的出現促進了計算機視覺行業的迅猛發展。
隨著高性能智能終端的普及以及影像采集設備成本的下降,通信行業逐漸在勘察、施工、優化和運維等領域累積了大量非結構化的圖像數據;同時,圖像處理器(Graphics Processing Unit,GPU)的便利應用也為開展高強度并行計算提供了算力基礎。
本文首先總結了計算機視覺領域的重要關鍵技術以及典型算法模型,隨后介紹了這些技術在通信工程領域內設備安裝、施工驗收、三維測量以及天面核查等幾種典型場景下的技術方案,并提供了所屬應用的實施效果。
2、計算機視覺領域的關鍵技術
2.1重要關鍵技術
計算機視覺領域一般包括如下五類關鍵技術。
(1)圖像分類
圖像分類主要研究內容是對圖像進行特征描述。通常,圖像分類算法通過手工特征或者特征學習方法對整個圖像進行全局描述,并依據圖像特征圖的不同語義信息進行分類,該技術廣泛應用于人臉識別、手寫文件或印刷識別、車輛識別等場景。常用的圖像分類模型包括:AlexNet[1]、VGG[2]、ResNet[3]、InceptionV4、MobileNetV3[4]、ShuffleNet等。
(2)目標檢測
作為計算機視覺的一個重要分支,目標檢測的任務是在一幅圖像或視頻中找到目標類別以及目標位置。與圖像分類不同,目標檢測側重于物體搜索,被檢測目標必須有固定的形狀和輪廓;而圖像分類可以是任意目標包括物體、屬性和場景等。目標檢測已在人臉識別和自動駕駛領域取得了非常顯著的效果,經典的檢測模型有YOLOV3、SSD[t5]和Faster RCNN[6]。
(3)圖像分割
圖像分割指的是將數字圖像細分為多個圖像子區域(像素的集合,也被稱作超像素)的過程。圖像分割的目的是簡化或改變圖像的表示形式,使得圖像更容易理解和分析。圖像語義分割是一個像素級別的物體識別,即每個像素點都要判斷它的類別。Mask R-CNN[7]就是一種經典的實力分割網絡。
(4)場景文字識別
場景文字識別分為兩部分,首先通過目標檢測檢測出目標區域,然后通過CRNN-CTC模型將網絡特征轉為文字序列。場景文字識別廣泛應用于路牌識別、車牌檢測等領域。
(5)圖像生成
圖像生成是指使用對抗網絡(GAN)根據輸入的隨機噪聲或向量生成目標圖像。生成器、識別器是對抗網絡(GAN)的重要組成部分。
2.2典型算法模型
近年來,計算機視覺領域的優秀算法層出不窮,以下擇要簡介下文研究使用的一些模型。
(1)VGG
2014年,牛津大學計算機視覺組和谷歌公司的研究員聯合研發出一種新的深度卷積神經網絡,即VGGNet,并獲得當年ILSVRC分類比賽的亞軍。VGGNet分為VGG16和VGG19:VGG16通過13層3×3的卷積網絡和3層全連接網絡構建,VGG19則通過16層3×3的卷積網絡和3層全連接網絡構建。VGG19被廣泛應用于不同行業的圖像特征提取領域。
(2)Resnet
深度殘差網絡(Residual Network, ResNet)是過去幾年中計算機視覺領域頗具開創性的工作。因其強大的表征能力,除圖像分類以外,包括目標檢測和人臉識別在內的許多計算機視覺應用都得到了性能提升。ResNet101是其中的一種網絡堆疊方式,101層網絡指齊總的卷積或全連接層數目。
(3)SIFT
尺度不變特征轉換(Scale-invariant feature transform,SIFT)是一種用來偵測與描述影像局部性特征的重要算法,由 David Lowe在1999年所發表,并于2004年總結完善。SIFT算法主要用于處理兩幅圖像之間發生平移、旋轉、仿射變換情況下的匹配問題。
(4)Mask R-CNN
Mask R-CNN是華人學者何愷明提出的一種簡潔、靈活的圖像實例分割框架,用于判斷圖像中不同目標的類別和位置,并可做出像素級預測。該算法不僅能夠有效地檢測圖像中的目標,而且還能為每個實例生成一個高質量的分割掩碼。
3、通信工程中典型應用與效果
3.1 設備安裝方式檢測
蓄電池是通信機房內的重要基礎設施,按照設備屬性、機房空間等因素,蓄電池的安裝方式可分臥式和立式兩種(圖1)。在局房設計時,需要因地制宜地制定安裝方式;在施工驗收時,需要關注是否按圖施工。通常,安裝方式的信息采集和現場核驗都是人工判斷并填注到相應信息系統中,填報錯誤時有發生。
引入VGG19模型中的采用VGG19模型中的二分類法,基于一般清晰度的現場圖像,本文設計出圖2所示算法,可高效識別這兩種安裝方式,在100張標注樣本數據時,置信度可以即可以達到0.95以上;同時,還可以借助移動互聯網手段,在圖像信息采集終端中實現即時識別(圖3),從而提升現場查勘人員信息填寫效率并降低人工填報錯誤率。
3.2 施工工藝圖像質檢
家庭市場是中國移動“四輪驅動”戰略的重要組成部分,業務發展已經進入快車道,并由“高速度”向“高質量”轉型。當前家寬裝維主要存在以下問題:人工抽檢覆蓋率低、成本高;人工質檢依靠經驗,存在漏檢、錯檢的情況,結果不可靠。
通過計算機視覺技術可構建家客智能化質檢手段(圖4),對家寬裝維質量進行跟蹤監管,自動識別安裝結果是否合格,提升質檢效率,減少人工成本,改善安裝質量,提升家客業務支撐水平,最終達到降本、增效、提質的愿景目標。
以實際應用中效果較好的尾纖安裝質檢為例,傳統的人工圖像質檢存在檢測準確率低且人力成本高的問題,本文采用基于深度學習的圖像識別技術,基于VGG19模型構建了相應的檢測算法模塊(圖5)。
基于樣本圖像(66張尾纖布放照片,典型照片如圖6),開展二分類標注:規范與整潔,訓練圖5所示的VGG19模型;同時,預留了10張照片用于測試驗證,圖6右是隨機挑選的驗證圖片,置信度為0.954528,方法有效。
3.3 全景圖像三維測量
三維全景是基于全景圖像的真實場景虛擬現實技術,將相機環一周度拍攝的一組或多組照片拼接成一個全景圖像,也可通過一次拍攝實現成像。通過拼接,經過一系列數學計算可以得到其球形全景的立方體投影圖,最后通過計算機技術實現全方位互動式觀看的真實場景還原展示(圖7)。
本文設計并實現了一種基于SIFT算法的三維全景圖像測量方案(圖8),基于該方案可以開展機房內設施、天面設施等場景的三維空間距離測量(圖9),三種試驗場景下的驗證誤差均在5%以內(測量結果見圖9右上)。
3.4 天線數量目標檢測
天面是5G網絡建設的重要資源,也制約到5G工程建設進展。在日常勘測、優化及維護工作中,往往積累了大量的天面歷史影響資料;通過引入圖像檢測算法,可以探索天面資源的自動核查方法。
本文應用Mask R-CNN算法設計了基于天面照片的天線數量檢測算法:首先,圖像經過殘差網絡(ResNet101)和特征金字塔網絡(FPN)結構,提取多層特征圖,然后經過區域選取網絡(RPN)微調特征圖對應錨框(Anchor)的偏移量并且將錨框劃分為前景還是背景,之后將生成的感興趣區域(ROI)經過排序,輸出相同大小的感興趣區域。在訓練階段(圖8),分類和掩膜兩個分支同時進行,其中分類包括類別、置信度、邊界框回歸,掩膜分支則用于分割目標;在測試階段(圖9),則是先經過分類分支,再經過掩膜分支。
本方案使用在所有的交并比(Intersection over Union,IOU)閾值的平均精度(AP)來評價在數據集中的表現(表1)。驗證結果表明:Mask R-CNN算法有著較強的魯棒性,可以有效解決天線數量檢測任務(圖12)。
表1 天線目標的檢測結果
4、結束語
計算機視覺是通信與信息系統領域一個方興未艾的重要發展方向。本文系統總結了在通信工程領域開展的初步探索,介紹了所使用的關鍵技術、方案要點以及實踐效果,未來將進一步推動相應研究成果在5G網絡規劃優化信息化系統中的固化與規模化應用,迎接6G數字孿生時代的加速到來。
【本文為51CTO專欄作者“移動Labs”原創稿件,轉載請聯系原作者】