優雅談大模型:揭開計算機視覺任務神秘面紗 原創
人工智能在第四次工業革命發揮著至關重要的作用,它廣泛的融入日常生活,例如Google助手、Siri、智能手機攝像頭、社交媒體過濾器、自動標記、醫療成像、導航等,所有這些技術都切實的改進和增強日常活動的便利性和習慣。
大模型技術發展到現在已經趨于穩定,而加入視覺的多模態大模型才開始興起,它除了日常生活,還會廣泛的融入到工業智造、無人駕駛和機器人等領域。這里計算機視覺就十分重要,它在捕獲實時圖像、提煉知識以及自主預測和分類圖像方面是都不斷地進步。計算機視覺使計算機能夠解釋和檢測圖像中的模式,其主要目的是復制人類視覺系統處理、分析和理解視覺數據的能力。
一般而言,計算機視覺任務可以進一步分為四個更廣泛的類別: 1. 物體檢測,2. 圖像分類,3. 語義分割,4. 實例分割。
第一幅圖為語義分割任務,就是將草,貓,樹和藍天隔開。第二幅圖展示了圖像分類,判斷畫面中是什么物體。第三幅圖將畫面中的物體都一一識別出來。第四幅圖將這些物體的輪廓做出分離提煉。
物體檢測涉及使用圖像或視頻檢測和定位感興趣的對象。它使用帶有相應類標簽的對象周圍的邊界框,目標是精確定位對象并相應地對它們進行分類。隨著深度學習模型的出現,例如基于區域的卷積神經網絡、更快的R-CNN、YOLO正在用于這項任務。真實世界的例子包括自動駕駛汽車,用于識別和跟蹤交通科學車輛和現實生活中的障礙物。
圖像分類的目的是將圖像分類為幾個預定義的類別之一。目標是使算法能夠根據其視覺特征和模式識別圖像并為圖像分配正確的標簽,它有多種應用,包括醫學圖像分類、質量控制、手勢識別、手寫圖像分類。卷積神經網絡CNN等深度學習架構及其類型,如LeNet、AlexNet、VGGNet、GoogLeNet (Inception)、ResNet、DenseNet可用于相應地對圖像進行分類。
實例分割使用像素級分類,該分類為每個坐標像素分配標簽,將圖像劃分為多個段,其中每個段對應于特定的對象類。這在不同對象之間的邊界沒有明確定義的情況下特別有用,這些場景需要精確的位置,例如腦腫瘤分割、自動駕駛、衛星圖像,并涉及最先進的架構,包括用于此任務的U-NET和DeepLab。
即時分割是語義分割的更高級和詳細的版本,它涉及通過在同一類中分配不同的標簽來對類中的對象進行分類。它在同一類的不同實例之間提供像素級區分,也用于自動駕駛汽車、醫療圖像等
其他技術,如全景分割、光學字符識別、圖像字幕、圖像重建,在該領域是值得注意的。將計算機視覺與其他突出的人工智能領域相結合,為該行業的重大進步鋪平了道路。
全景分割d結合了語義b和實例c分割,為更復雜的計算機視覺應用生成準確的像素級注釋。它通過合并分類和檢測算法來檢測“物”和“物”,以實現更豐富的場景理解。
雖然全景分割是一種提高視覺理解力的強大技術,但由于以下原因,它帶來了多重挑戰:分割重疊對象很困難,因為算法無法識別對象邊界以生成準確的蒙版。由于模糊、遮擋和形狀不清晰,低圖像質量使檢測事物和分類事物變得具有挑戰性。構建分割模型需要廣泛、高質量的訓練數據集來全面理解日常物體。從頭開始開發此類模型既繁瑣又昂貴。因此一般要依托合適的平臺,這個平臺提供預構建的分割框架和工具,以通過用戶友好的界面有效地標記所有類型和格式的視覺數據。
最后一起聊聊大名鼎鼎的OpenCV,開源計算機視覺庫,計算機視覺的扛把子。它是一個開源的計算機視覺和機器學習軟件庫。OpenCV旨在為計算機視覺應用提供通用基礎設施,并加速機器感知在商業產品中的使用。作為 BSD 許可的產品,OpenCV使企業可以輕松使用和修改代碼。
該庫擁有2500多種優化算法,其中包括一整套經典和最先進的計算機視覺和機器學習算法。這些算法可用于檢測和識別人臉、識別物體、對視頻中的人體動作進行分類、跟蹤攝像機運動、跟蹤移動物體、提取物體的3D模型、從立體攝像機生成3D點云、將圖像拼接在一起以生成整個場景的高分辨率圖像、從圖像數據庫中查找相似圖像、從使用閃光燈拍攝的圖像中刪除紅眼、 跟隨眼球運動,識別風景建立標記以便于將其與增強現實疊加。
本文轉載自 ??魯班模錘??,作者: 龐德公
