成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何高效橋接視覺和語言,字節(jié)&中大提出全新多模態(tài)大模型連接器ParGo

人工智能 新聞
字節(jié)團隊與中大合作提出的 ParGo 模型,通過巧妙地融合全局視野和局部細(xì)節(jié),在多項權(quán)威基準(zhǔn)測試(Benchmark)中表現(xiàn)出色,成功入選了 AAAI 2025。

在多模態(tài)大語言模型(MLLMs)的發(fā)展中,視覺 - 語言連接器作為將視覺特征映射到 LLM 語言空間的關(guān)鍵組件,起到了橋梁作用。因此,它幾乎成為了所有多模態(tài)大語言模型中不可或缺的結(jié)構(gòu)之一。然而,如何高效地將視覺特征映射到 LLM 的探索還有很大提升空間。

字節(jié)團隊與中大合作提出的 ParGo 模型,通過巧妙地融合全局視野和局部細(xì)節(jié),在多項權(quán)威基準(zhǔn)測試(Benchmark)中表現(xiàn)出色,成功入選了 AAAI 2025。

圖片


  • 論文地址:https://arxiv.org/abs/2408.12928
  • 代碼地址:   https://github.com/bytedance/ParGo

過去,大多數(shù)研究主要依賴線性投影或多層感知機(MLP)將視覺特征直接映射,這種方法難以有效控制輸入 LLMs 的視覺 token 數(shù)量,特別是在處理細(xì)粒度特征時,導(dǎo)致計算成本極高。另一類基于注意力機制的方法(如 Q-former)通過注意力操作將圖像特征投射為固定數(shù)量的視覺 token,雖然大幅減少了計算成本,但往往使得生成的 token 集中在圖像的顯著區(qū)域,忽略了細(xì)節(jié)部分。

為了解決這一問題,ParGo 提出了一種創(chuàng)新的全局 - 局部投影器來連接視覺與文本,通過結(jié)合全局視野和局部細(xì)節(jié)的雙重視角,克服了傳統(tǒng)方法對顯著區(qū)域的過度聚焦,使得視覺特征能夠在更細(xì)膩的層面上得到全面展現(xiàn),同時有能有效控制過長的 token 帶來的計算成本的升高,進(jìn)而實現(xiàn)了視覺特征和 LLM 的高效連接。

圖片

全局 + 局部視角聯(lián)合

方法

ParGo (Partial-Global) 采用兩種類型的可學(xué)習(xí) token, 利用 attention 機制,同時從局部和全局視角將視覺特征映射到大語言模型(LLM)中。該框架包含兩個關(guān)鍵模塊:Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)。這兩個模塊共同作用,實現(xiàn)了高效的視覺 - 語言連接,既捕捉了圖像的全局信息,又能精細(xì)地提取局部特征,從而提升了多模態(tài)大語言模型的效果。

圖片

圖 1: ParGo 模型框架圖

核心模塊

  • Partial-Global Perception Block (PGP)

在 ParGo 中,視覺編碼器的特征被映射為兩種不同類型的 token:Partial token 和 Global token,從而能夠分別提取圖像的局部和全局信息。具體來說:

  • Partial tokens:每個 token 僅與部分視覺特征進(jìn)行交互,專注于圖像的局部信息
  • Global tokens:全局 token 則與所有視覺特征進(jìn)行交互,捕捉圖像的全局信息

ParGo 采用了一種新的交叉注意力掩碼設(shè)計(Partial-Global Attention Mask),如圖 1 (b) 所示,來處理輸入的視覺特征。該設(shè)計能夠同時輸出包含圖像局部和全局信息的特征,即 Partial tokens 和 Global tokens。具體的公式如下:

圖片

  • Cascaded Partial Perception Block (CPP)

此外,考慮到不同局部物體在圖像中的占比不同,為了進(jìn)一步增強對多種局部信息的完整捕獲能力,ParGo 在 Partial-Global Perception 模塊之前引入了 Cascaded Partial Perception (CPP) 模塊。

CPP 模塊 的核心是一個帶有特殊設(shè)計掩碼的自注意力機制,如圖 1 (b) 中的  Cascaded Partial  Attention Mask。隨著層數(shù)的增加,每個 Partial token 能夠訪問到更多的相鄰 token,從而逐步擴展其感知范圍。該過程可以通過以下公式表示:

圖片

實驗效果

論文重點對比了當(dāng)前不同類型的 Projector(投射器),在一些通用的 MLLM 的 benchmark 的效果,均取得了優(yōu)異的效果。

圖片

為了進(jìn)一步進(jìn)行公平對比,論文在相同數(shù)據(jù)集和實驗參數(shù)下,比較了三種主流的投影器(Projector)。結(jié)果顯示,ParGo 依然取得了最佳的性能表現(xiàn)。另外,在不同基座 LLM 下,ParGo 均表現(xiàn)良好,體現(xiàn)出了更好的泛化性能。

圖片

不同 Projector 之間的比較

圖片

換用不同的基座 LLM 的比較

案例分析

為了能進(jìn)一步展現(xiàn) ParGo 在控制 token 數(shù)量的情況下,依然能做到細(xì)粒度和空間關(guān)系的準(zhǔn)確捕獲,作者對比了 ParGo 和 Q-former 這兩種均是基于注意力機制的 Projector(投射器)在相同 tokens 下的效果:

圖片

文字識別更加準(zhǔn)確

圖片

圖像的細(xì)節(jié)描述程度更好

圖片

局部元素識別效果更好

結(jié)論

本研究提出了 ParGo(局部 - 全局投影器),一種創(chuàng)新的視覺 - 語言投影方案,旨在提升多模態(tài)大語言模型(MLLMs)中視覺和語言模態(tài)的對齊效果。ParGo 通過結(jié)合局部 token 和全局 token,并使用精心設(shè)計的注意力掩碼分別提取局部和全局信息,在控制 token 數(shù)量的同時增強了局部區(qū)域之間的關(guān)系建模,充分考慮了圖像的細(xì)節(jié)與全局視角,從而克服了傳統(tǒng)方法中忽視細(xì)節(jié)的問題。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-11-04 13:30:00

模型AI

2023-12-28 17:31:44

PixelLM性能模型

2024-07-23 10:34:57

2024-11-13 09:39:13

2022-02-28 10:31:22

人工智能視覺檢測

2025-01-08 08:21:16

2025-02-12 13:31:33

2024-12-18 14:50:00

AI訓(xùn)練數(shù)據(jù)

2025-05-14 15:05:21

模型AI訓(xùn)練

2024-05-17 16:02:00

2023-07-17 11:02:36

模型開源

2024-06-20 14:12:53

2024-01-22 06:40:00

模型視覺

2025-01-06 10:00:00

模型視覺生成

2024-11-11 15:11:23

2021-12-01 10:05:12

模型人工智能計算

2009-12-22 10:16:09

路由器橋接原理

2023-03-10 15:18:55

光纖
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久国内精品 | 日韩精品999 | av电影一区 | 亚洲性视频| 欧美久久久久久久 | 韩国av网站在线观看 | 久久久久久成人 | 色综合久久久久 | 成人亚洲视频 | 9999视频 | 精品国产一区二区国模嫣然 | 毛片a区 | 亚洲精品一区二区 | v亚洲 | 偷派自拍 | 欧美亚洲国产成人 | 免费精品一区 | 国产美女一区二区三区 | 国产区精品 | 欧美国产亚洲一区二区 | 欧美精品一二三区 | 理论片87福利理论电影 | 韩日有码| 久久精品国产一区 | 亚洲手机视频在线 | 久久久久久久久久久一区二区 | 亚洲精品综合 | 九九热精品在线 | 亚洲一区二区高清 | 在线观看亚 | 国产欧美日韩一区 | 久久国产精品免费一区二区三区 | 国产视频久久久 | 国产乱码久久久 | 日韩精品专区在线影院重磅 | 欧产日产国产精品99 | 91se在线 | 久久免费视频网 | 一级黄色片在线免费观看 | 福利一区二区 | 中文字幕亚洲视频 |