成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

媲美GPT-4V,僅使用1.2M數據、8個A100,一天內完成訓練,LLaVA-1.5刷新11個基準SOTA

人工智能 新聞
盡管 LLaVA 是用一個小的多模態指令數據集訓練的,卻在一些樣本上展示了與 GPT-4 非常相似的推理結果。

多模態大模型落地的風,最終還是刮了起來。

十幾天前,OpenAI 為 ChatGPT 添加了圖像識別功能,允許用戶使用上傳一張或多張圖像配合進行對話。從 OpenAI 自己公開的簡短文檔,我們得知, ChatGPT 識圖功能的背后是一個名為 GPT-4V 的新款大模型。

實際上,這一能力在半年前 GPT-4 發布之時就已存在,但一直未對普通用戶公開。在 AI 領域,多模態大模型 早已成為公認的趨勢,也被認為是通用 AI 助手的關鍵模塊。

鑒于 OpenAI 對「閉源」的堅持,很多研究者也率先一步推出了自己的多模態大模型研究成果。比如兩大代表作「LLaVA」和「MiniGPT-4」,都在自然指令跟蹤和視覺推理能力方面展示了令人印象深刻的結果。

今年 4 月,威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發布了 LLaVA(Large Language and Vision Assistant)。盡管 LLaVA 是用一個小的多模態指令數據集訓練的,卻在一些樣本上展示了與 GPT-4 非常相似的推理結果。

如今,這一成果迎來重磅升級:LLaVA-1.5 已正式發布,通過對原始 LLaVA 的簡單修改,在 11 個基準上刷新了 SOTA。


  • 論文地址:https://browse.arxiv.org/pdf/2310.03744.pdf
  • Demo 地址:https://llava.hliu.cc/

僅使用 120 萬公開數據,LLaVA-1.5 在單個 8-A100 節點上用不到 1 天的時間就完成了訓練。

圖片

在論文中,研究者介紹了兩項簡單的改進:一個 MLP 跨模態連接器,以及合并 VQA 等學術任務相關數據。與 LLaVA 一起使用時,這兩項改進帶來了更好的多模態理解能力。

相比于 InstructBLIP 或 Qwen-VL 在數億甚至數十億的圖像文本配對數據上訓練專門設計的視覺重采樣器,LLaVA 使用了最簡單的架構設計,只需要在 600K 個圖像 - 文本對上訓練一個簡單的全連接投影層。

圖片

和 GPT-4V 比,能不能打?

在讀論文之前,我們先來看看 LLaVA-1.5 的識別能力如何,能不能與 GPT-4V 相較量。

命題一:將雜貨轉換為 JSON

指令:需要識別所有水果(僅水果),然后為每種水果創建一個具有名稱屬性和營養屬性的對象,營養屬性包括估計熱量、碳水化合物、脂肪和蛋白質屬性。

LLaVA-1.5 的回答結果:

圖片

GPT-4V 的回答結果:

圖片

命題二:從簡化的草圖識別電影名稱

指令:這個圖講的是哪部電影?注:我改了角色的名字,讓識別變得更難。

LLaVA-1.5 的回答結果:

圖片

GPT-4V 的回答結果:

圖片

論文細節

LLaVA 在視覺推理方面表現出值得稱贊的能力,在現實生活中的視覺指令任務的各種基準上超越了多個最新模型,而僅在通常需要簡短答案的學術基準上有所欠缺。研究團隊認為后者歸因于 LLaVA 沒有像其他方法那樣在大規模數據上進行預訓練。

具體來說,該研究首先在下表 1 中選擇的三個數據集上分析了擴展數據、模型和輸入圖像分辨率的影響;然后在表 2 中的 12 個不同基準上進行比較實驗。實驗結果表明,LLaVA 架構對于視覺指令調整而言功能強大且數據高效,并且使用比所有其他方法少得多的計算和訓練數據實現了最佳性能。

圖片


圖片

響應格式 prompt

該研究發現:InstructBLIP 等方法無法在短格式和長格式 VQA 之間取得平衡主要有兩點原因:

首先,給 LLM 的 prompt 在響應格式上不明確。例如,「Q:{問題} A:{答案} 」這樣的 prompt 并不能清楚地闡明所需的輸出格式。即使對于自然的視覺對話,也可能使 LLM 過度適合給出簡短的答案。

其次,沒有對 LLM 進行微調。例如,InstructBLIP 需要 Qformer 的視覺輸出 token 來控制 LLM 的輸出長度(長格式 / 短格式),但由于其容量有限,Qformer 可能缺乏正確執行此操作的能力。

為了解決這個問題,該研究提出使用一個明確指定輸出格式的「響應格式 prompt」,例如當需要模型給出簡短回答時,在 VQA 問題的末尾加一句:「使用單個詞語或短語回答問題」。

圖片

該研究通過實驗表明:當 LLM 使用此類 prompt 進行微調時,LLaVA 能夠根據用戶的指令適當調整輸出格式,并且不需要使用 ChatGPT 對 VQA 數據進行額外處理。

圖片

此外,該研究還發現,與原始模型相比,通過雙層 MLP 提高視覺 - 語言連接器的表征能力可以提高 LLaVA 的多模態能力。并且,該研究還面向學術任務擴展了數據,包括額外的面向學術任務的 VQA 數據集,用于 VQA、OCR 和區域級感知,以增強模型的多模態能力。

圖片

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-08 13:43:00

模型數據

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2023-09-18 09:36:58

微軟模型

2024-06-27 13:10:21

2020-04-09 09:02:38

bug編程代碼

2024-01-03 12:56:39

2020-11-26 10:14:49

機器人人工智能小冰

2024-04-07 13:39:55

2023-11-13 18:19:35

AI訓練

2023-10-19 09:32:45

自動駕駛技術

2023-12-01 12:32:04

數據訓練

2020-08-18 14:48:00

AI 數據人工智能

2023-04-07 09:28:31

模型訓練

2023-12-03 08:43:55

機器人模型

2021-07-05 10:02:29

黑客CoopKaseya

2024-01-30 21:18:57

語言模型圖像序列機器人

2023-11-07 18:08:03

GPT-4模型

2024-03-01 12:32:53

AI模型

2024-02-02 21:53:58

AI訓練

2023-10-04 18:42:30

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕在线观看日韩 | 国产高清一区二区三区 | 精品久久国产老人久久综合 | 精品国产一区二区三区久久狼黑人 | a欧美| 国产精品综合视频 | 在线免费观看欧美 | 国产伦精品一区二区三区照片91 | 精品一区二区三区四区五区 | 一级大片网站 | 久久这里只有 | 欧美一级欧美三级在线观看 | 一区二区三区福利视频 | 国产精品美女 | 日韩成人影院 | 一区中文字幕 | 99精品一区二区 | 一区二区三区四区在线视频 | 亚洲欧美精品一区 | www.99热.com| 日韩有码一区 | 日韩美女一区二区三区在线观看 | 在线一级片 | 国产精品区二区三区日本 | 伊人超碰在线 | 久久久观看 | 一级黄色片一级黄色片 | 成年无码av片在线 | a视频在线观看 | 91久久精品一区二区二区 | 精品久久成人 | 一区二区三区播放 | 国产精品成人一区 | 日韩精品在线一区二区 | 日韩在线免费视频 | 欧美大片久久久 | 久久久精品网站 | av日韩在线播放 | 日韩欧美一区二区三区免费观看 | 国产91网站在线观看 | 成人在线网 |