成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一統所有目標感知任務,華科&字節提出目標感知基礎模型GLEE

人工智能 新聞
來自華中科技大學和字節跳動的研究團隊提出了一個針對視覺目標的基礎模型 GLEE,一次性解決圖像和視頻中的幾乎所有目標感知任務。

近年來,LLM 已經一統所有文本任務,展現了基礎模型的強大潛力。一些視覺基礎模型如 CLIP 在多模態理解任務上同樣展現出了強大的泛化能力,其統一的視覺語言空間帶動了一系列多模態理解、生成、開放詞表等任務的發展。然而針對更細粒度的目標級別的感知任務,目前依然缺乏一個強大的基礎模型。

圖片

為了解決這個問題,來自華中科技大學和字節跳動的研究團隊提出了一個針對視覺目標的基礎模型 GLEE,一次性解決圖像和視頻中的幾乎所有目標感知任務。GLEE 支持根據任意開放詞表、目標的外觀位置描述、和多種交互方式進行目標檢測、分割、跟蹤,并在實現全能性的同時保持 SOTA 性能。

此外,GLEE 還構建了統一優化目標的訓練框架,從超過一千萬的多源數據中汲取知識,實現對新數據和任務的零樣本遷移。并驗證了多種數據之間相互促進的能力。模型和訓練代碼已全部開源。

  • 論文標題:GLEE: General Object Foundation Model for Images and Videos at Scale
  • 論文地址:https://arxiv.org/abs/2312.09158
  • 代碼地址:https://github.com/FoundationVision/GLEE
  • Demo 地址:https://huggingface.co/spaces/Junfeng5/GLEE_demo
  • 視頻地址:https://www.bilibili.com/video/BV16w4m1R7ne/

1. GLEE 可以解決哪些任務?

GLEE 可以同時接受語義和視覺上的 prompt 作為輸入,因此,任意長度的開放詞表、目標屬性描述、目標位置描述都、交互式的 point,box,mask 都可以被作為 prompt 來指引 GLEE 檢測分割出任意目標。具體來說,開放世界的目標檢測、實例分割、文本描述的指代檢測與分割(referring expression comprehension and segmentation)以及交互式分割都可以被輕松實現。

此外,通過在超大規模的圖像數據上進行訓練,GLEE 學習到了更加有判別性的目標特征,直接對這些特征進行無參數的幀間匹配可以實現高質量的跟蹤,從而將 GLEE 的能力完全擴展到視頻任務上。在視頻任務中 GLEE 可以實現開放世界的視頻實例分割(VIS),視頻目標分割(VOS),參考視頻實例分割(RVOS)以及交互式的視頻目標分割跟蹤。

2. GLEE 統一了哪些數據用來訓練?

GLEE 使用了來自 16 個數據集的超過一千萬圖片數據進行訓練,充分利用了現有的標注數據和低成本的自動標注數據構建了多樣化的訓練集,是 GLEE 獲得強大泛化性的根本原因。

GLEE 使用的數據根據標注類型可以分為四大類:1)基于詞表的目標檢測數據集,如 COCO、Objects365。2)基于目標描述的 grounding 數據集,如 RefCOCO 系列、VisualGenome。3)無類語義信息的 open-world 數據集,如 SA1B、UVO。4)視頻數據,如 YouTubeVIS、OVIS。GLEE 所使用的圖片超過 1 千萬,其中標注目標數量超過一億五千萬。

3. GLEE 如何構成?

GLEE 包括圖像編碼器、文本編碼器、視覺提示器和目標檢測器,如圖所示。文本編碼器處理與任務相關的任意描述,包括目標類別詞表、目標任何形式的名稱、關于目標的標題和指代表達。視覺提示器將用戶輸入(如交互式分割中的點、邊界框或涂鴉)編碼成目標對象的相應視覺表示。然后,這些信息被整合到一個檢測器中,根據文本和視覺輸入從圖像中提取對象。

4. 在目標感知任務上的全能性和泛化能力

該研究展示了 GLEE 模型作為一個目標感知基礎模型的普適性和有效性,它可以直接應用于各種以目標為中心的任務,同時確保最先進的性能,無需進行微調。

此外,該研究在一些開放詞匯表的視頻任務中驗證了 GLEE 的零樣本泛化能力。在 TAO、BURST、LV-VIS 這三個開放詞匯表的跟蹤數據集上,GLEE 在未經過訓練和微調的情況下,取得了令人驚嘆的最先進(SOTA)性能,這證明了 GLEE 在大規模聯合訓練中學習到的通用對象感知能力和強大的泛化能力。

5. 作為基礎模型的潛力

作為基礎模型,該研究用預訓練且凍結的 GLEE-Plus 替換了 LISA 的中使用的 SAM backbone,并將 GLEE 的 Object Query 輸入到 LLAVA 中,移除了 LISA 的解碼器。該研究直接將輸出的 SEG 標記與 GLEE 特征圖進行點積運算以生成 Mask。在進行相同步數的訓練后,修改后的 LISA-GLEE 取得了與原版 LISA 使用 SAM 相媲美的結果,這證明了 GLEE 的表示具有多功能性,并且在為其他模型服務時的有效性。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-24 09:24:19

自動駕駛算法

2024-09-10 10:07:19

2023-05-10 14:58:06

開源模型

2022-11-29 15:15:47

AI模型

2025-03-04 09:50:00

2025-06-13 08:46:00

2024-06-24 13:35:58

2025-01-06 10:00:00

模型視覺生成

2009-09-27 09:05:50

Intel架構

2024-10-29 14:40:00

圖像生成模型

2024-12-04 14:00:00

機器人AI

2022-03-18 00:12:20

SA系統態勢感知

2022-03-19 00:09:59

態勢感知網絡安全

2025-01-10 09:05:00

2013-01-06 09:27:02

CPUHaswellARM架構

2020-08-27 19:52:34

AI人工智能

2022-01-12 14:40:49

推薦系統模型

2025-06-09 09:50:00

VeactReact

2024-08-12 07:30:00

模型訓練

2024-05-27 12:05:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人免费视频 | 99爱国产 | 日本免费在线 | a在线视频观看 | 草久视频 | 伊人精品在线 | av在线免费观看网站 | 欧美在线a | 99热视| 日韩在线视频一区 | 成人三级影院 | 精品国产18久久久久久二百 | 日韩欧美中文 | 国产精品一区二区三区四区 | 黄色av网站在线观看 | 久久最新精品 | 羞羞的视频免费观看 | 亚洲黄色视屏 | 亚洲一区二区三区四区五区中文 | 不卡一区二区在线观看 | 九九久久99 | 美女久久久久 | 久国产精品 | 欧美一级久久 | 无吗视频| 在线看亚洲 | 欧洲精品在线观看 | 91社区在线高清 | 国产乱码精品一品二品 | 久久机热 | 午夜播放器在线观看 | 久久蜜桃av一区二区天堂 | 国产精品观看 | 久久精品一二三影院 | 国产精品久久国产精品 | 国产精品伦一区二区三级视频 | 亚洲成人精品免费 | 91久久国产综合久久 | 成年人免费在线视频 | 国产aa| 极情综合网 |