成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源

人工智能 新聞
在將 LMM 應(yīng)用到計算機視覺任務(wù)上時,我們?nèi)悦媾R一個關(guān)鍵挑戰(zhàn):大多數(shù) LMM 目前只限于文本輸出,這限制了它們在處理更細(xì)粒度的視覺任務(wù),如圖像分割方面的能力。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://m.ekrvqnd.cn/aigc/

最近,多模態(tài)大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 - 語言任務(wù)上的表現(xiàn)令人矚目。它們的成功不僅展現(xiàn)了多模態(tài)大模型在各個領(lǐng)域的實用性和靈活性,也為更多視覺場景下的應(yīng)用探索了新的道路。

盡管如此,在將 LMM 應(yīng)用到計算機視覺任務(wù)上時,我們?nèi)悦媾R一個關(guān)鍵挑戰(zhàn):大多數(shù) LMM 目前只限于文本輸出,這限制了它們在處理更細(xì)粒度的視覺任務(wù),如圖像分割方面的能力。

此外,圖像分割領(lǐng)域內(nèi)部的需求多樣化,任務(wù)各異 —— 實例分割需為每個對象分配唯一 ID 并計算類別信賴度,指代分割(RES)則需要基于描述性語句來識別圖像中的特定區(qū)域,而交互式分割的輸入可能包括點、線、邊界框或掩碼。這些不同的輸入和輸出格式如何能夠被 LMM 高效地統(tǒng)一和處理,目前仍然是一個開放性問題。

華中科技大學(xué)的研究團隊針對多模態(tài)大模型(LMM)在視覺任務(wù)中的應(yīng)用挑戰(zhàn),推出了針對性的解決方案:PSALM 模型。這一模型的設(shè)計理念是:通過一個統(tǒng)一的框架處理絕大多數(shù)類型的圖像分割任務(wù),從而實現(xiàn)分割任務(wù)的全面覆蓋。

同時,得益于多模態(tài)大模型廣泛的預(yù)訓(xùn)練,PSALM 不僅在已見分割任務(wù)上表現(xiàn)出色,更在諸多未曾訓(xùn)練過的開放場景分割任務(wù)中,展現(xiàn)出強大的零樣本泛化能力。多模態(tài)大模型作為視覺任務(wù)統(tǒng)一框架的巨大潛力得到進(jìn)一步挖掘。

PSALM 有如下的特點:

  • 參數(shù)優(yōu)化:PSALM 采用了 Swin-Base 結(jié)合 Phi-1.5(1.3B 參數(shù))的模型組合,這比傳統(tǒng)的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,實現(xiàn)了效率與性能的兼?zhèn)洹?/span>
  • 多任務(wù)統(tǒng)一:得益于 PSALM 靈活的結(jié)構(gòu)設(shè)計,模型能夠?qū)⒍喾N分割任務(wù)的輸入形式進(jìn)行統(tǒng)一,并支持多任務(wù)的聯(lián)合訓(xùn)練,最終取得相互促進(jìn)的效果。
  • 性能優(yōu)異:PSALM 不僅在全景分割、交互式分割、指代分割等多個已見分割任務(wù)上展現(xiàn)出比肩或超越專家模型的強大性能,還在開放詞表、視頻目標(biāo)分割等未見開放場景任務(wù)中表現(xiàn)出令人矚目的零樣本泛化能力。

目前,模型和訓(xùn)練代碼已全部開源。

  • 論文標(biāo)題:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
  • 論文地址:https://arxiv.org/abs/2403.14598
  • 代碼地址:https://github.com/zamling/PSALM
  • 模型地址:https://huggingface.co/EnmingZhang/PSALM

PSALM 如何實現(xiàn)的?

PSALM 包含圖像編碼器、大語言模型(LLM)和 mask 生成器,如上圖所示。為了使得模型可以處理各種分割任務(wù),模型將 LLM 的輸入分為四個部分:圖片特征、任務(wù)指令提示、任務(wù)條件提示以及一組可學(xué)習(xí)的 mask tokens

任務(wù)指令提示包含當(dāng)前分割任務(wù)的一個簡單任務(wù)描述。例如,對于全景分割,任務(wù)指令提示可以是:「請分割出圖片中所有的目標(biāo),下面是可能的類別名稱」。任務(wù)條件提示指的是當(dāng)前分割任務(wù)所需要的特有的信息。對于語義分割、全景分割等,所需要的即所有類別名稱。模型直接簡單地將類別使用逗號進(jìn)行拼接,如「person, bicycle, car…」;對于指令分割,任務(wù)條件提示是當(dāng)前所需分割的物體的一段描述;對于更為復(fù)雜的交互式分割,模型將點、線、框、掩碼等各種提示信息轉(zhuǎn)換為掩碼,并通過掩碼池化的操作提取所指定的區(qū)域的特征,作為交互式分割的任務(wù)條件提示。

隨后,得到 mask tokens 對應(yīng)位置的輸出,送入 mask 生成其中,得到 mask 的特征。該特征與任務(wù)條件提示所對應(yīng)的輸出特征計算相似度得到置信度,與圖像特征計算內(nèi)積得到候選分割結(jié)果。

最終,將置信度和候選分割結(jié)果相結(jié)合,即可得到各種分割任務(wù)的結(jié)果。各種任務(wù)類型如何生成特定的條件提示和對應(yīng)的條件特征可見下圖。

PSALM 的效果如何?

對于指代分割 (RES) 任務(wù),也是目前已有的基于 LMM 的分割模型所關(guān)注的任務(wù),PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的許多基準(zhǔn)測試集上取得了 SOTA 的性能,詳見下表。

圖片

在語義分割、實例分割、全景分割等任務(wù)上,PSALM 在 COCO-val 上比較了現(xiàn)有的 SOTA 模型。對于采用類似規(guī)模的圖像編碼器的方法,PSALM 取得了極具競爭力的結(jié)果,甚至不弱于該任務(wù)上的專家模型。

對于交互式分割任務(wù),由于當(dāng)前沒有開源的交互式分割數(shù)據(jù)集和測試基準(zhǔn)。因此,在 COCO 的基礎(chǔ)上,對其中的所有目標(biāo)隨機生成了各種交互提示,最終生成了 COCO-Interactive 數(shù)據(jù)集。具體結(jié)果如下表所示,PSALM 在使用點,曲線,掩碼作為提示下,取得了 SOTA 的效果。在使用框作為提示下,略弱于使用數(shù)據(jù)集 SA-1B 訓(xùn)練的 SAM。

PSALM 對于沒有見過的任務(wù),泛化能力如何?

PSALM 在開放詞表分割、通用指代分割、視頻目標(biāo)分割以及多視角 Ego-Exo 匹配分割任務(wù)上的零樣本泛化能力同樣令人印象深刻,這些結(jié)果展示了它對未知任務(wù)的適應(yīng)性。

下圖展示了 PSALM 在多個任務(wù)上的可視化結(jié)果包括全景分割、指令分割、交互式分割、開放詞表實例分割、通用指令分割、視頻目標(biāo)檢測和 Ego-Exo 多視角匹配分割。

總結(jié)

PSALM 代表了多模態(tài)大模型在統(tǒng)一圖像分割領(lǐng)域的一次積極探索,其在參數(shù)優(yōu)化、性能展示以及泛化能力方面均取得了顯著成果。PSALM 的創(chuàng)新架構(gòu)和條件提示機制,使其能夠靈活處理多樣化的輸入輸出需求,從而在各種基準(zhǔn)任務(wù)中取得優(yōu)異的成績。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://m.ekrvqnd.cn/aigc/

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-05-14 08:51:00

2023-06-06 14:09:32

模型開源

2023-12-08 07:48:42

GPT模型時間序列

2025-01-08 08:21:16

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2025-03-04 09:50:00

2025-01-06 10:00:00

模型視覺生成

2023-12-10 15:21:39

2021-12-23 10:00:38

谷歌訓(xùn)練技術(shù)

2024-11-13 09:39:13

2024-09-10 12:11:18

2025-02-12 10:20:00

2024-01-22 13:59:00

模型訓(xùn)練

2024-12-30 00:01:00

多模態(tài)大模型Python

2022-09-28 15:34:06

機器學(xué)習(xí)語音識別Pytorch

2025-05-27 15:59:41

AI工具模型

2023-08-04 13:22:46

AI開源

2024-09-25 14:53:00

2025-03-19 09:30:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 97人人超碰 | 午夜精品久久久久久久99黑人 | 欧美精品一区二区免费视频 | 国产精品国产馆在线真实露脸 | 综合久久亚洲 | 免费毛片网 | 午夜99 | av看片网| 免费的网站www | 欧美淫片 | 国产一区二区三区免费视频 | 国产综合久久 | 日日操日日干 | 亚洲国产一区二区三区 | 91视频进入 | 亚洲一区三区在线观看 | 国产一区精品 | 黄色中文字幕 | 久久成人精品一区二区三区 | 日本在线视频一区二区 | 国产精品欧美一区二区三区不卡 | 国产精品视频500部 a久久 | 国产精品一区二区在线 | 久久久91精品国产一区二区三区 | 欧美日韩国产精品激情在线播放 | 99免费在线观看视频 | 亚洲性综合网 | 久久精品一区 | 视频一区二区在线观看 | 国产91丝袜在线播放 | 亚洲国产一区二区三区 | 日韩视频专区 | 久草免费在线视频 | 久久久久国色av免费观看性色 | 亚洲激情av | 日本成人在线网址 | 亚洲精品久久久一区二区三区 | 亚洲福利精品 | 成人精品国产一区二区4080 | 欧美在线一区二区三区 | 午夜影院在线观看免费 |