成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

港大字節提出多模態大模型新范式,模擬人類先感知后認知,精確定位圖中物體

人工智能
通過區域性圖像編碼來提升多模態大模型的感知定位能力。在融入定位后,Groma可以將文本內容和圖像區域直接關聯起來,從而顯著提升對話的交互性和指向性。

當前,多模態大模型 (MLLM)在多項視覺任務上展現出了強大的認知理解能力。

然而大部分多模態大模型局限于單向的圖像理解,難以將理解的內容映射回圖像上。

比如,模型能輕易說出圖中有哪些物體,但無法將物體在圖中準確標識出來。

定位能力的缺失直接限制了多模態大模型在圖像編輯,自動駕駛,機器人控制等下游領域的應用。

針對這一問題,港大和字節跳動商業化團隊的研究人員提出了一種新范式Groma——

通過區域性圖像編碼來提升多模態大模型的感知定位能力。

在融入定位后,Groma可以將文本內容和圖像區域直接關聯起來,從而顯著提升對話的交互性和指向性。

圖片
圖片

核心思路

如何賦予多模態大模型定位物體的能力,乃至于將文字內容和圖像區域關聯起來,做到“言之有物”,是當前一大研究熱點。

常見的做法是微調大語言模型使其直接輸出物體坐標。然而這種方法卻有著諸多限制:

1、在文本上預訓練的大語言模型本身不具備空間理解能力,僅依靠少量數據微調很難精準定位物體。

2、定位任務對輸入圖像的分辨率有較高要求,但提高分辨率會顯著增加多模態大模型的計算量。

3、大語言模型的輸出形式不適合處理精細的定位任務,比如分割。

基于這些考慮,Groma提出將定位轉移到多模態大模型的vision tokenizer中,由vision tokenizer發現并定位潛在的物體,再交給大語言模型識別。

圖片

同時,這樣的設計也充分利用了vision tokenizer本身的空間理解能力,而無需外接專家模型(比如SAM)來輔助定位,從而避免了外接模型的冗余。

具體而言,Groma在全局圖像編碼的基礎上,引入了區域編碼來實現定位功能——如下圖所示,Groma先利用Region Proposer定位潛在的物體,再通過Region Encoder將定位到的區域逐一編碼成region token。

而大語言模型則可以根據region token的語意判斷其對應的區域,并通過在輸出中插入region token來達成類似超鏈接的效果,實現visually grounded conversation。

同樣地,用戶指定的區域也可以通過Region Encoder編碼成相應的region token,并插入到用戶指令中,從而讓多模態模型能關注到指定的區域并產生指向性的回答。

圖片

為了提升定位的魯棒性和準確性,Groma采用了超過8M的數據(包括SA1B)來預訓練Region Proposer。因此其產生的proposal不僅包括常見的物體,也涵蓋了物體的組成部分以及更廣闊的背景等要素。

此外,得益于分離式的設計,Groma可以采用高分辨率特征圖用于Region Proposer/Encoder的輸入,并采用低分辨率的特征圖用于大模型輸入,從而在降低計算量的同時又不損失定位性能。

實驗結果

Groma在傳統的Grounding Benchmarks上表現出了超越MiniGPT-v2和Qwen-VL的性能。

圖片

同時,Groma在多模態大模型通用的VQA Benchmark (LLaVA-COCO)驗證了其對話和推理能力。

圖片

在可視化的對比中,Groma也表現出了更高的recall和更少的幻覺。

圖片

此外,Groma還支持融合對話能力和定位能力的referential dialogue以及grounded chat。

圖片

圖片

得益于大語言模型強大的認知推理能力,多模態大模型在視覺理解任務上表現突出。

然而一些傳統的視覺任務,如檢測分割、深度估計等,更多依賴視覺感知能力,這恰恰是大語言模型所缺乏的。

Groma在這個問題上提供了一種新的解決思路,即把感知和認知解耦開來,由vision tokenizer負責感知,大語言模型負責認知。

這種先感知后認知的形式除了更符合人類的視覺過程,也避免了重新訓練大語言模型的計算開銷。

5月15日,字節跳動剛剛公布了自研的豆包大模型,提供多模態能力,下游支持豆包APP、扣子、即夢等50+業務,并通過火山引擎開放給企業客戶,助力企業提升效率、加速智能化創新。目前,豆包APP已成為中國市場用戶量最大的AIGC應用。字節跳動正持續加大對頂尖人才和前沿技術的投入力度,參與行業頂尖的技術挑戰和攻堅。

項目網站:
https://groma-mllm.github.io
論文鏈接:
https://arxiv.org/abs/2404.13013
開源代碼:
https://github.com/FoundationVision/Groma

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-07-17 11:02:36

模型開源

2025-05-26 16:46:38

2024-07-08 08:47:00

2024-06-17 00:00:00

MiCo模態人腦

2023-06-05 13:02:19

OlaGPT語言模型

2023-12-04 13:23:00

數據訓練

2025-06-26 09:13:22

2025-01-08 08:21:16

2024-08-14 14:43:00

2025-04-15 09:22:00

AI訓練模型

2023-12-28 09:49:19

AI工具模型

2024-12-12 00:25:09

2024-03-25 12:40:19

訓練模型

2024-12-25 15:36:44

Sakana AI大模型ASAL

2024-01-15 06:15:00

模型數據

2025-05-15 09:10:00

2023-12-18 09:39:20

模型AI

2023-03-14 14:06:52

訓練模型

2025-01-13 03:00:00

模型數據訓練

2024-08-12 07:30:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 97日韩精品 | 国产一级片在线播放 | 国产一级片91 | 欧美在线一区二区三区 | 91精品国产综合久久久久 | 99久久精品免费看国产小宝寻花 | 亚洲一区二区综合 | 日韩高清中文字幕 | 亚洲精品一区二区网址 | 亚洲精品一区二区另类图片 | 91欧美 | 欧美黄色一区 | 国产精品一区在线观看你懂的 | 99亚洲精品 | 欧美一级三级在线观看 | 久久r久久 | 黄色大片网站 | 中文字幕影院 | 国产在线视频三区 | 在线观看免费av网 | 久久久久久久97 | 婷婷丁香在线视频 | 亚洲成人av在线 | 91精品国产欧美一区二区成人 | 日韩色在线 | 欧美一级www片免费观看 | 日日射影院 | 97精品超碰一区二区三区 | 欧美日韩亚洲视频 | 国产精品国产馆在线真实露脸 | 亚洲免费在线观看视频 | 欧美在线视频观看 | 国产视频久久久久 | 午夜影院在线观看 | 国产午夜三级一区二区三 | 羞羞视频网页 | 中文在线一区二区 | 久久久久久久久久久高潮一区二区 | 亚洲精品在 | 黄色成人免费看 | 久久久久久久久淑女av国产精品 |