將所有有用的信息整合到一張圖片中：大型多模態(tài)模型能夠進行圖片內的學習

zhangyannni

發(fā)布于 2024-3-28 12:00

瀏覽

0收藏

將所有有用的信息整合到一張圖片中：大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

論文題目：

All in a Single Image: Large Multimodal Models are In-Image Learners

論文鏈接：

??https://arxiv.org/abs/2402.17971??

開源鏈接：

https://github.com/AGI-Edgerunners/In-Image Learning

01 動機和背景

近年來，大語言模型取得了顯著的成功。盡管 GPT-4V 有強大的文本理解和圖片輸入能力，但仍存在許多問題。例如，在讀取一張復雜圖片時，無法完全理解圖像中呈現的信息。在本文中，我們提出了一種新的上下文學習機制——In-Image Learning，它將所有可能有用的信息，包括樣例，視覺線索和思維鏈等等整合在一張圖片上，有助于釋放 GPT-4V 的性能。

將所有有用的信息整合到一張圖片中：大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

02 方法

T-ICL with additional image-to-text models（T-ICL-Img）：為了將大型語言模型（LLMs）從自然語言處理（NLP）任務適配到多模態(tài)任務，一個常見的策略是將相應的圖像轉換成文本描述。

2. Visual-text interleaved in-context learning（VT-ICL）：盡管 T-ICL-Img 取得了顯著的效果，但在將視覺輸入轉換為文本描述時存在丟失信息的風險。

為了避免這個問題，可以為上下文學習準備交錯的圖文對，直接整合到大語言模型（LLMs）中。

In-Image Learning（IIL）：GPT-4V 在理解圖像中的符號和數字等視覺線索方面具有很高的熟練度。

在本文中，我們將樣例范本、視覺線索、思維鏈整合在一張圖片上。將有價值的信息整合到單一圖像中提供了三個主要好處。

首先，它有效地傳達了僅憑文字無法準確描述的復雜圖像。其次，它允許信息被放置在圖像的任何位置，不像之前的上下文學習方法那樣對信息的排序敏感。第三，僅使用一個圖像作為輸入減少了對冗長輸入的需求，從而減輕了輸入負擔并避免超出大模型（LMMs）的輸入限制（注意：我們沒有包含任何提示在測試樣本上）。

Selection：本文提出的 In-Image Learning 擅長處理僅用文本無法準確描述的復雜圖像，而 VT-ICL 能更好地利用文本信息來提升那些可以被文本輕易描述的圖像的性能。

為了結合這兩種方法的優(yōu)點，我們使用 GPT-4V 作為一種選擇器。首先提示 GPT-4V 為給定數據示例的圖像生成描述。然后讓 GPT-4V 根據生成的描述與圖像進行對比打分，范圍從 1 到 4 分。1 或 2 分表明圖像難以描述，使其更適合 In-Image Learning 方法，3 或 4 分表明圖像易于描述，使用 VT-ICL 方法更適合這個數據示例。

將所有有用的信息整合到一張圖片中：大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)