計(jì)算機(jī)視覺(jué)技術(shù)在物聯(lián)網(wǎng)中的發(fā)展與應(yīng)用
By Frank Lee is the co-founder and CEO of Eurika Solutions
計(jì)算機(jī)視覺(jué)的發(fā)展演進(jìn)
我們可以輕松地在日常產(chǎn)品中找到計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用,從可以識(shí)別手勢(shì)的游戲機(jī)到可以自動(dòng)聚焦于人臉的智能手機(jī)攝像頭。如今,計(jì)算機(jī)視覺(jué)正在影響我們生活的許多領(lǐng)域。
實(shí)際上,計(jì)算機(jī)視覺(jué)在商業(yè)和政府使用中已有悠久的歷史。可以感測(cè)各種光譜范圍內(nèi)的光波的光學(xué)傳感器已在許多應(yīng)用中部署:像制造中的產(chǎn)品質(zhì)量檢測(cè),用于環(huán)境管理的遙感或在戰(zhàn)場(chǎng)上收集情報(bào)的高分辨率相機(jī)。這些傳感器中的一些是固定的,而另一些則附著在移動(dòng)的物體上,例如衛(wèi)星、無(wú)人機(jī)和車(chē)輛。
過(guò)去,這些計(jì)算機(jī)視覺(jué)應(yīng)用中有許多都限于某些封閉的平臺(tái)。但是,當(dāng)與IP連接技術(shù)結(jié)合使用時(shí),它們會(huì)創(chuàng)建一套以前無(wú)法實(shí)現(xiàn)的新應(yīng)用。計(jì)算機(jī)視覺(jué),再加上IP連接性、高級(jí)數(shù)據(jù)分析和人工智能,將成為彼此的催化劑,從而引發(fā)物聯(lián)網(wǎng)(IoT)創(chuàng)新和應(yīng)用的革命性飛躍。
推動(dòng)計(jì)算機(jī)視覺(jué)的多個(gè)領(lǐng)域的進(jìn)步
專(zhuān)為視覺(jué)設(shè)計(jì)的環(huán)境
視力或視覺(jué)是人類(lèi)五種感官中最發(fā)達(dá)的。我們每天都使用它來(lái)認(rèn)識(shí)我們的朋友、發(fā)現(xiàn)前進(jìn)道路上的障礙、完成任務(wù)并學(xué)習(xí)新事物。我們?cè)O(shè)計(jì)視覺(jué)環(huán)境的物理環(huán)境,有路標(biāo)和信號(hào)燈可以幫助我們從一個(gè)地方到達(dá)另一個(gè)地方;商店有標(biāo)牌來(lái)幫助我們找到它們;電腦和電視屏幕顯示我們消費(fèi)的信息和娛樂(lè)。考慮到視覺(jué)的重要性,將其擴(kuò)展到計(jì)算機(jī)和自動(dòng)化領(lǐng)域并不是一個(gè)大飛躍。
什么是計(jì)算機(jī)視覺(jué)?
計(jì)算機(jī)視覺(jué)始于捕獲和存儲(chǔ)圖像或一組圖像的技術(shù),然后將這些圖像轉(zhuǎn)換為可以進(jìn)一步作用的信息。它由多種技術(shù)共同組成(圖1)。計(jì)算機(jī)視覺(jué)工程是一個(gè)跨學(xué)科領(lǐng)域,需要許多這些技術(shù)的跨功能和系統(tǒng)專(zhuān)業(yè)知識(shí)。
例如,Microsoft Kinect使用3D計(jì)算機(jī)圖形算法來(lái)使計(jì)算機(jī)視覺(jué)能夠分析和理解三維場(chǎng)景。它允許游戲開(kāi)發(fā)人員將實(shí)時(shí)的全身運(yùn)動(dòng)捕捉與人工3D環(huán)境合并。除了游戲以外,這還在機(jī)器人技術(shù)、虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)應(yīng)用等領(lǐng)域開(kāi)辟了新的可能性。
傳感器技術(shù)的進(jìn)步也在許多方面超越了傳統(tǒng)的相機(jī)傳感器而迅速發(fā)展。最近的一些例子包括:
- 紅外傳感器和激光結(jié)合起來(lái)可感應(yīng)深度和距離,這是自動(dòng)駕駛汽車(chē)和3D映射應(yīng)用的關(guān)鍵推動(dòng)力之一
- 非侵入式傳感器,無(wú)需物理接觸即可跟蹤醫(yī)療患者的生命體征
- 高頻攝像頭可以捕捉人眼無(wú)法察覺(jué)的細(xì)微動(dòng)作,幫助運(yùn)動(dòng)員分析步態(tài)
- 超低功耗和低成本視覺(jué)傳感器,可以長(zhǎng)時(shí)間部署在任何地方
圖1.由多個(gè)領(lǐng)域的進(jìn)步推動(dòng)的計(jì)算機(jī)視覺(jué)。圖片來(lái)源:IFA
計(jì)算機(jī)視覺(jué)變得智能
早期應(yīng)用
監(jiān)控行業(yè)是圖像處理技術(shù)和視頻分析的較早采用者之一。視頻分析是計(jì)算機(jī)視覺(jué)的一種特殊用例,其重點(diǎn)是從數(shù)小時(shí)的錄像中查找模式。在現(xiàn)實(shí)世界中自動(dòng)檢測(cè)和識(shí)別預(yù)定義模式的能力代表著數(shù)百個(gè)用例的巨大市場(chǎng)機(jī)會(huì)。
首批視頻分析工具使用手工算法來(lái)識(shí)別圖像和視頻中的特定功能。它們?cè)趯?shí)驗(yàn)室設(shè)置和模擬環(huán)境中都是準(zhǔn)確的。但是,當(dāng)輸入數(shù)據(jù)(例如光照條件和攝像機(jī)視圖)偏離設(shè)計(jì)假設(shè)時(shí),性能會(huì)迅速下降。
研究人員和工程師花了很多年時(shí)間開(kāi)發(fā)和調(diào)整算法,或者提出新的算法來(lái)應(yīng)對(duì)不同的條件。但是,使用這些算法的攝像機(jī)或錄像機(jī)仍然不夠堅(jiān)固。盡管這些年來(lái)取得了一些漸進(jìn)的進(jìn)步,但現(xiàn)實(shí)世界的糟糕表現(xiàn)限制了該技術(shù)的實(shí)用性和采用性。
深度學(xué)習(xí)突破
近年來(lái),深度學(xué)習(xí)算法的出現(xiàn)重新激發(fā)了計(jì)算機(jī)視覺(jué)。深度學(xué)習(xí)使用模仿人類(lèi)大腦神經(jīng)元的人工神經(jīng)網(wǎng)絡(luò)(ANN)算法。
從2010年代初開(kāi)始,通過(guò)圖形處理單元(GPU)加速的計(jì)算機(jī)性能已經(jīng)變得足夠強(qiáng)大,足以讓研究人員實(shí)現(xiàn)復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)的功能。此外,部分地受視頻站點(diǎn)和流行的IoT設(shè)備驅(qū)動(dòng),研究人員擁有龐大的視頻和圖像數(shù)據(jù)庫(kù)來(lái)訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)。
2012年,一種稱(chēng)為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度神經(jīng)網(wǎng)絡(luò)(DNN)版本在準(zhǔn)確性上實(shí)現(xiàn)了巨大飛躍。這一發(fā)展帶動(dòng)了人們對(duì)計(jì)算機(jī)視覺(jué)工程領(lǐng)域的興趣和興奮。現(xiàn)在,在需要圖像分類(lèi)和面部識(shí)別的應(yīng)用中,深度學(xué)習(xí)算法甚至超過(guò)了人類(lèi)。更重要的是,就像人類(lèi)一樣,這些算法具有學(xué)習(xí)和適應(yīng)不同條件的能力。
圖2.場(chǎng)景的語(yǔ)義表示
隨著深度學(xué)習(xí)的發(fā)展,我們正在進(jìn)入認(rèn)知技術(shù)的時(shí)代,其中計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)融合在一起,以解決人腦領(lǐng)域中的高級(jí)復(fù)雜問(wèn)題(圖2)。我們只是在探索一切可能的事物。隨著更快的處理器,更先進(jìn)的機(jī)器學(xué)習(xí)算法以及與邊緣設(shè)備的更深入集成,這些系統(tǒng)將繼續(xù)得到改善。計(jì)算機(jī)視覺(jué)將徹底改變物聯(lián)網(wǎng)。
用例增加
其他有趣的用例包括:
- 監(jiān)控作物健康的農(nóng)業(yè)無(wú)人機(jī)(http://www.slantrange.com/)(圖3)
- 運(yùn)輸基礎(chǔ)設(shè)施管理(http://www.vivacitylabs.com/)
- 無(wú)人機(jī)檢查(http://industrialskyworks.com/drone-inspections-services/)
- 下一代家庭安全攝像頭(https://buddyguard.io/)
圖3.從無(wú)人機(jī)收集的圖像中的植被指數(shù)(來(lái)源:Emmetts,www.emmetts.com.au)
這些只是計(jì)算機(jī)視覺(jué)如何在許多領(lǐng)域極大地提高生產(chǎn)力的一些小例子。我們正在進(jìn)入物聯(lián)網(wǎng)發(fā)展的下一階段。在第一階段,我們專(zhuān)注于連接設(shè)備,聚合數(shù)據(jù)和構(gòu)建大數(shù)據(jù)平臺(tái)。在第二階段,重點(diǎn)將轉(zhuǎn)移到通過(guò)計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)等技術(shù)使“事物”更加智能,生成更多可操作的數(shù)據(jù)。
挑戰(zhàn)
在讓計(jì)算機(jī)視覺(jué)技術(shù)對(duì)大眾更實(shí)用和更經(jīng)濟(jì)時(shí),有許多問(wèn)題需要克服:
- 嵌入式平臺(tái)需要集成深度神經(jīng)設(shè)計(jì)。由于功耗、成本、準(zhǔn)確性和靈活性,很難做出設(shè)計(jì)決定。
- 業(yè)界需要標(biāo)準(zhǔn)化,以允許智能設(shè)備和系統(tǒng)相互通信并共享元數(shù)據(jù)。
- 系統(tǒng)不再是數(shù)據(jù)的被動(dòng)收集器。他們需要以最少的人工干預(yù)就數(shù)據(jù)采取行動(dòng)。他們需要自己學(xué)習(xí)和即興創(chuàng)作。整個(gè)軟件/固件更新過(guò)程在機(jī)器學(xué)習(xí)時(shí)代具有新的意義。
- 黑客可以利用計(jì)算機(jī)視覺(jué)和AI中的新安全漏洞。設(shè)計(jì)師需要考慮到這一點(diǎn)。