成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習

發(fā)布于 2024-3-28 12:00
瀏覽
0收藏

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

論文題目:

All in a Single Image: Large Multimodal Models are In-Image Learners

論文鏈接:

??https://arxiv.org/abs/2402.17971??

開源鏈接:

https://github.com/AGI-Edgerunners/In-Image Learning

01 動機和背景

?

近年來,大語言模型取得了顯著的成功。盡管 GPT-4V 有強大的文本理解和圖片輸入能力,但仍存在許多問題。例如,在讀取一張復雜圖片時,無法完全理解圖像中呈現的信息。在本文中,我們提出了一種新的上下文學習機制——In-Image Learning,它將所有可能有用的信息,包括樣例,視覺線索和思維鏈等等整合在一張圖片上,有助于釋放 GPT-4V 的性能。

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

02 方法

  1. T-ICL with additional image-to-text models(T-ICL-Img):為了將大型語言模型(LLMs)從自然語言處理(NLP)任務適配到多模態(tài)任務,一個常見的策略是將相應的圖像轉換成文本描述。

2. Visual-text interleaved in-context learning(VT-ICL):盡管 T-ICL-Img 取得了顯著的效果,但在將視覺輸入轉換為文本描述時存在丟失信息的風險。

為了避免這個問題,可以為上下文學習準備交錯的圖文對,直接整合到大語言模型(LLMs)中。

  1. In-Image Learning(IIL):GPT-4V 在理解圖像中的符號和數字等視覺線索方面具有很高的熟練度。


在本文中,我們將樣例范本、視覺線索、思維鏈整合在一張圖片上。將有價值的信息整合到單一圖像中提供了三個主要好處。


首先,它有效地傳達了僅憑文字無法準確描述的復雜圖像。其次,它允許信息被放置在圖像的任何位置,不像之前的上下文學習方法那樣對信息的排序敏感。第三,僅使用一個圖像作為輸入減少了對冗長輸入的需求,從而減輕了輸入負擔并避免超出大模型(LMMs)的輸入限制(注意:我們沒有包含任何提示在測試樣本上)。


  1. Selection:本文提出的 In-Image Learning 擅長處理僅用文本無法準確描述的復雜圖像,而 VT-ICL 能更好地利用文本信息來提升那些可以被文本輕易描述的圖像的性能。


為了結合這兩種方法的優(yōu)點,我們使用 GPT-4V 作為一種選擇器。首先提示 GPT-4V 為給定數據示例的圖像生成描述。然后讓 GPT-4V 根據生成的描述與圖像進行對比打分,范圍從 1 到 4 分。1 或 2 分表明圖像難以描述,使其更適合 In-Image Learning 方法,3 或 4 分表明圖像易于描述,使用 VT-ICL 方法更適合這個數據示例。

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)


03 實驗結果

我們在3個數據集上進行了測試,分別是:(1)MathVista;(2)HallusionBench;(3)VQA.

MathVista minitest 數據集上不同方法和模型上的測試結果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

HallusionBench 數據集上不同方法和模型上的測試結果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

VQA 數據集在不同方法和模型上的測試結果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

我們使用 MathVista 數據集上的隨機 100 個數據進行消融實驗,結果如下,說明 In-Image Learning 方法能激發(fā) GPT-4V 的潛力。

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

此外,我們?yōu)榱颂骄科渌绊懶阅艿囊蛩亍Ψ直媛时壤⑹纠龜盗考皽y試例子位置等各種因素下,使用 VQA 數據集進行了測試,結果如下:

將所有有用的信息整合到一張圖片中:大型多模態(tài)模型能夠進行圖片內的學習-AI.x社區(qū)

04 總結

在本文中,我們提出了 In-Image Learning 的方法,以增強 GPT-4V 的能力。In-Image Learning 將示范例子、視覺線索和指令結合到單一圖像中。


In-Image Learning 擅長處理復雜圖像,而 VT-ICL 更適合那些可以輕易通過文本描述的圖像。為了在多模態(tài)任務中利用這兩種方法的優(yōu)勢,我們提議使用 GPT-4V 作為選擇器,以確定給定任務中每個多模態(tài)數據示例的適當方法。


通過在 MathVista 和 Hallusionbench 上的全面實驗,我們展示了 In-Image Learning 在復雜推理任務中的有效性,以及在減輕語言幻覺和視覺錯覺方面的作用。我們還檢查了圖像分辨率和示范例子位置等因素的影響,進一步凸顯了圖像內學習的多功能性和潛力。


對于未來的工作,我們計劃在更多的文字難以描述的任務上驗證 In-Image Learning 的有效性,以及通過訓練的方式來加強 In-Image Learning。


本文轉自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/VVNih3IFgIDRJMjP-7trKA??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产一级视频在线观看 | 国产中文在线观看 | 国产精品欧美大片 | 日韩一二三区 | 97精品国产手机 | 久久精品亚洲精品国产欧美 | 亚洲精品久久久久中文字幕欢迎你 | 久久久精| 性做久久久久久免费观看欧美 | 日韩国产一区二区三区 | 久久亚洲视频 | 日本不卡高清视频 | 黄色一级视频免费 | 欧美在线一区二区视频 | 国产精品日韩欧美一区二区 | 91精品国产91久久久久久密臀 | 欧美一区二区三区在线观看 | av永久 | 免费观看毛片 | 久久精品亚洲欧美日韩久久 | 成人永久免费视频 | 久久影院一区 | 国产欧美日韩一区 | 欧美 日韩 国产 成人 | 成人影院av | 亚洲狠狠 | 国产视频一二三区 | 涩涩导航| 国产精品久久久久久久午夜 | 青青草精品视频 | 欧美激情国产精品 | 欧美视频在线播放 | 日韩免费福利视频 | 国内精品视频在线 | 日本不卡一区 | 亚州精品天堂中文字幕 | 福利av在线 | a在线视频| 日韩小视频在线 | 国产一区二区不卡 | 国产精品日韩欧美一区二区 |