目標檢測新SOTA,端側實時識別,沈向洋罕見轉發點贊
目標檢測領域,迎來了新進展——
Grounding DINO 1.5,IDEA研究院團隊出品,在端側就可實現實時識別。
這一進展獲得AI大佬沈向洋轉發,他一般都是一年一轉的節奏。
此次發布主要有兩個版本:Pro和Edge。Pro版更強,Edge版更快。
它仍然保留了上一個版本Grounding DINO雙編碼器-單解碼器結構,在此基礎上通過結合更大的視覺 backbone 擴大模型尺寸,并使用超過2000萬的Grounding 數據獲得了豐富的語料,大幅提升了檢測精度和速度,且通過Pro和Edge版本分別針對不同應用場景進行了優化。
Pro版本在大規模數據集構建和高精度需求場景中表現卓越,而Edge版本則在端側部署中展示了其獨特的優勢。
這就來分別看一看。
Pro版目標檢測新SOTA
Grounding DINO 1.5 Pro版本實現了當前開集目標檢測SOTA水平,在圖像和文本的語義理解上表現出色,能夠快速、準確地根據語言提示檢測和識別圖像中的目標對象。
△在COCO、LVIS、ODinW35和ODinW13基準測試中的零樣本遷移性能對比
物體級別理解是機器和物理世界交互的感知基礎,也是解決多模態大模型(VLM)幻覺問題繞不過去的基礎問題。
作為當前性能最好的開集檢測模型,Grounding DINO 1.5 Pro 可以幫助構建海量的具有物體級別語義信息的多模態數據,從而有效地助力多模態大模型的訓練。
它可以將長文本描述中的短語與圖像中的具體對象或場景精確匹配,以增強AI對視覺內容和文本之間關系的理解
另外,在其他需要處理大量復雜數據的領域,如電商、社交媒體和自動駕駛等,Grounding DINO 1.5 Pro 也具有強大應用價值。
例如,在電商領域,該模型可以幫助快速標注商品圖像,優化搜索和推薦系統。在社交媒體中,該模型能自動標注用戶上傳的圖片,提升內容審核和分類的效率。
支持行業數據微調
除此之外,Pro版還支持通過行業數據進行微調(fine tuning),以滿足各行業的特定需求,從而達到更加精準的識別效果。
為了驗證微調帶來的提升,CVR團隊在視覺領域通用的LVIS等公開數據集上進行了對比實驗。
從最后兩行可看出,Grounding DINO 1.5 Pro經過微調,在多個數據集上都展現出大幅的性能提升。
而在多個實際場景,也十分適配。
像在醫療領域,通過微調后的Grounding DINO 1.5 Pro可以更準確地識別醫療影像中的病灶,輔助醫生進行診斷,提高診療效率。
在零售行業,微調后的模型能更精準地識別和分類商品,有助于庫存管理和銷售分析。
Edge版端側可部署
在端側部署方面,Grounding DINO 1.5 Edge版本通過模型結構優化,成功部署在NVIDIA Orin NX卡上,并實現了10FPS的推理速度。
再者,它可以讓機器人和開放環境進行交互。
在自動駕駛領域,Grounding DINO 1.5 Edge未來可以在車輛上實時運行,實現高效的目標檢測和環境感知,提高駕駛安全性。在智能安防中,該模型能快速處理視頻監控數據,實時檢測異常行為,提升安全監控的響應速度。
未來,Grounding DINO 1.5 Edge的運行速度有望提升至20到30FPS,進一步擴大其在邊緣計算領域的應用范圍。
論文鏈接:
https://arxiv.org/abs/2405.10300
項目試玩鏈接:
https://deepdataspace.com/playground/grounding_dino