成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

賈佳亞團隊提出LISA大模型:理解人話「分割一切」,在線可玩

人工智能 新聞
根據發布的論文來看,LISA是一個多模態大模型,它在這次研究中主攻的任務便是推理分割(Reasoning Segmentation)。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

分割一切這事,又有一項重磅研究入局。

香港中文大學終身教授賈佳亞團隊,最新提出LISA大模型——理解人話,精準分割。

例如讓AI看一張早餐圖,要識別“哪個是橙子”是比較容易的,但若是問一句“哪個食物維他命C最高”呢?

畢竟這不是一個簡單分割的任務了,而是需要先認清圖中的每個食物,還要對它們的成分有所了解。

但現在,對于這種人類復雜的自然語言指令,AI已經是沒有在怕的了,來看下LISA的表現:

圖片

不難看出,LISA精準無誤的將橘子分割了出來。

再“投喂”LISA一張圖并提問:

是什么讓這位女士站的更高?請把它分割出來并解釋原因。

圖片

從結果上來看,LISA不僅識別出來了“梯”,而且也對問題做出了解釋。

還有一個更有意思的例子。

許多朋友在看到這個大模型的名字,或許會聯想到女子組合BLACK PINK里的Lisa。

賈佳亞團隊還真拿她們的照片做了個測試——讓LISA找Lisa

圖片

不得不說,會玩!

基于LISA,復雜分割任務拿下SOTA

根據發布的論文來看,LISA是一個多模態大模型,它在這次研究中主攻的任務便是推理分割(Reasoning Segmentation)

這個任務要求模型能夠處理復雜的自然語言指令,并給出精細的分割結果。

圖片

如上圖所示,推理分割任務具有很大的挑戰性,可能需要借鑒世界知識(例如,左圖需要了解“短鏡頭更適合拍攝近物體”),或進行復雜圖文推理(如右圖需要分析圖像和文本語義,才能理解圖中“柵欄保護嬰兒”的含義),才能獲得最終理想的分割結果。

盡管當前多模態大模型(例如Flamingo[1], BLIP-2[2], LLaVA[3], miniGPT-4[4], Otter[5]使得AI能夠根據圖像內容推理用戶的復雜問題,并給出相應的文本分析和回答,但仍無法像視覺感知系統那樣在圖像上精確定位指令對應的目標區域。

因此,LISA通過引入一個<SEG>標記來擴展初始大型模型的詞匯表,并采用Embedding-as-Mask的方式賦予現有多模態大型模型分割功能,最終展現出強大的零樣本泛化能力。

同時,這項工作還創建了ReasonSeg數據集,其中包含上千張高質量圖像及相應的推理指令和分割標注。

那么LISA這種精準理解人話的分割能力,具體是如何實現的呢?

圖片

首先將圖像ximg和文本xtxt送到多模態-大語言模型F(在實驗中即LLaVA),得到輸出的文本結果,如果此時文本結果包含<SEG>標記,則表示需要通過輸出分割預測來解決當前問題。反之,若不包含<SEG>標記,則無分割結果輸出。

如果存在標記,則將<SEG>標記在多模態大模型F最后一層對應的embedding經過一個MLP層得到hseg,并將其與分割視覺特征f一起傳遞給解碼器Fdec(其中分割視覺特征f由輸入編碼器Fenc對圖像ximg進行編碼得到)

最終,Fdec根據生成最終的分割結果M。

LISA在訓練過程中使用了自回歸交叉熵損失函數,以及對分割結果監督的BCE和DICE損失函數。

實驗證明,在訓練過程中僅使用不包含復雜推理的分割數據(通過將現有的語義分割數據如ADE20K[6],COCO-Stuff[7]以及現有指代分割數據refCOCO系列[8]中的每條數據轉換成“圖像-指令-分割Mask”三元組) ,LISA能在推理分割任務上展現出優異的零樣本泛化能力。

此外,進一步使用239個推理分割數據進行微調訓練還能顯著提升LISA在推理分割任務上的性能。而且LISA還表現出高效的訓練特性,只需在8張具有24GB顯存的3090顯卡上進行10,000次訓練迭代,即可完成7B模型的訓練。

最終,LISA不僅在傳統的語言-圖像分割指標(refCOCO、refCOCO+和refCOCOg)上展現出優異性能,還能處理以下分割任務情景:⑴復雜推理;⑵聯系世界知識;⑶解釋分割結果以及⑷多輪對話。

圖片

在有復雜情景的ReasonSeg數據集上,LISA顯著領先于其他相關工作,進一步證明其出色的推理分割能力。

圖片

在線可玩

值得一提的是,LISA的推理分割能力已經出了demo,可以在線體驗的那種。

圖片

操作也極其簡單,只需填寫“指令”,然后上傳要處理的圖像即可。

若是不會描述指令,Demo下方也給出了一些示例,小伙伴們也可以參照一下。

圖片

GitHub地址:https://github.com/dvlab-research/LISA

論文地址:https://arxiv.org/pdf/2308.00692.pdf

Demo地址:http://103.170.5.190:7860/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-24 14:14:35

模型框架視頻

2024-07-08 08:38:00

模型推理

2023-05-04 12:19:47

模型AI

2023-10-04 10:38:38

模型方法

2023-11-22 11:40:00

Meta模型

2025-04-03 11:16:10

2024-03-01 10:04:11

研究訓練編碼器

2024-07-18 12:56:29

2023-10-09 12:36:08

人工智能數據

2023-04-25 11:36:17

CV模型

2024-07-30 10:51:51

2016-02-23 15:08:51

中云網

2023-04-10 15:52:57

模型樣本

2024-04-15 12:28:00

AI模型

2023-12-10 15:05:47

AI模型

2023-04-23 15:42:18

圖像視頻

2024-04-15 12:54:39

2023-10-09 14:17:00

AI模型

2023-04-27 09:27:44

視頻AI

2023-12-07 07:16:57

Meta訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天色天天色 | 亚洲 中文 欧美 日韩 在线观看 | 91电影| 亚洲人va欧美va人人爽 | 欧美成人免费在线视频 | 国产福利视频 | 超黄视频网站 | 午夜影院在线观看 | 国产乱码精品1区2区3区 | 亚洲国产精品一区 | 夜夜骚视频 | www.三级| 老司机精品福利视频 | 久久久av一区 | 亚洲国产精品日韩av不卡在线 | 国产一级大片 | 99日韩| 91精品久久久久久久久久小网站 | 黄色永久免费 | 亚洲国产网站 | 国产区精品视频 | 国产一二三区精品视频 | 欧美中文字幕一区 | 四虎永久 | 成人免费小视频 | 国产精品一区2区 | 一区视频 | 91久久国产综合久久91精品网站 | 一级黄色av电影 | 东方伊人免费在线观看 | av黄色在线观看 | 欧美日韩视频在线 | 日韩视频二区 | 国产三级大片 | 天天干天天操天天爽 | 午夜视频网站 | 久久久美女 | 亚洲综合一区二区三区 | 亚洲大片一区 | 国产视频线观看永久免费 | 殴美一级片 |