一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI聊天更接近現(xiàn)實

Crystalcxt

發(fā)布于 2024-7-1 09:41

瀏覽

0收藏

大模型對話能更接近現(xiàn)實了！

不僅可以最多輸入20張圖像，還能支持多達(dá)27輪對話。可處理文本+圖像tokens最多18k。

這就是最新開源的超長多圖多輪對話理解數(shù)據(jù)集MMDU（Multi-Turn Multi-Image Dialog Understanding）。

一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI聊天更接近現(xiàn)實-AI.x社區(qū)

大型視覺語言模型（LVLMs）的核心能力之一是生成自然且有意義的回答，從而能夠與人類進(jìn)行流暢的圖文對話。

盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力，但在具有長上下文長度，且需要多輪對話和多圖輸入的真實對話場景中，表現(xiàn)則相對不足。

此外，現(xiàn)有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式，難以全面評估LVLMs在真實世界人機互動應(yīng)用中的表現(xiàn)。

為此，研究團(tuán)隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準(zhǔn)MMDU及大規(guī)模指令微調(diào)數(shù)據(jù)集MMDU-45k，旨在評估和提升LVLMs在多輪及多圖像對話中的性能。

目前，該研究在HuggingFace的6月18日Daily Papers中位居榜首，VQA dataset trending榜排名Top3，得到了國內(nèi)外的廣泛關(guān)注。

一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI聊天更接近現(xiàn)實-AI.x社區(qū)

可縮小開閉源模型差距

MMDU基準(zhǔn)測試具有以下優(yōu)勢：

（1）多輪對話與多圖像輸入：MMDU基準(zhǔn)測試最多包括20幅圖像和27輪問答對話，從而超越了先前的多種benchmark，并真實地復(fù)制了復(fù)現(xiàn)了現(xiàn)實世界中的聊天互動情景。

（2）長上下文：MMDU基準(zhǔn)測試通過最多18k文本+圖像tokens，評估LVLMs處理和理解帶有長上下文歷史的情況下理解上下文信息的能力。

（3）開放式評估：MMDU擺脫傳統(tǒng)基準(zhǔn)測試依賴的close-ended問題和短輸出（例如，多項選擇題或簡短的答案），采用了更貼合現(xiàn)實和精細(xì)評估的方法，通過自由形式的多輪輸出評估LVLM的性能，強調(diào)了評估結(jié)果的可擴(kuò)展性和可解釋性。

在構(gòu)建MMDU的過程中，研究者們從開源的維基百科中選取具有較高相關(guān)程度的圖像及文本信息，并在GPT-4o模型的輔助下，由人工標(biāo)注員構(gòu)建問題和答案對。

具體而言，研究者將wikipedia詞條通過聚類的方法進(jìn)行合并，劃分為多個不同的類別，并在同一個類別中使用不同的詞條（包含圖文）進(jìn)行組合。經(jīng)過InternLM-Chat-20B清洗并去除無用信息之后，交給GPT-4o進(jìn)行對話生成。生成的基于單詞條和多詞條的對話進(jìn)行組合，從而構(gòu)建具有長上下文的多圖多輪對話。

生成的對話以的格式標(biāo)記圖像位置，使用者可以將不同的多圖多輪對話進(jìn)一步組合，從而構(gòu)建所需長度的對話。

△MMDU和MMDU-45k數(shù)據(jù)生成pipeline

MMDU Benchmark包含的問答最長擁有18k的圖像+文本tokens、20幅圖像及27輪對話，其規(guī)模是以往同類型benchmark的至少五倍，為當(dāng)前的LVLMs提出了新的挑戰(zhàn)。MMDU-45k包含的最長對話數(shù)據(jù)擁有超17k的圖像+文本tokens。

45k的多輪對話共包含超過410k的問答，能夠顯著提升LVLMs在長上下文理解，多圖多輪對話等方面的能力。

一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI聊天更接近現(xiàn)實-AI.x社區(qū)

受到利用強大的LLMs作為評判的NLP研究的啟發(fā)，MMDU的研究員們開發(fā)了一個使用GPT-4o進(jìn)行模型性能評估的評估流程。

具體來說，模型在MMDU Benchmark上生成輸出后，GPT-4o將根據(jù)多個維度評估這些輸出結(jié)果，并將它們與參考答案進(jìn)行比較。

為確保全面和細(xì)致的評估，MMDU確定了六個評估維度：創(chuàng)造力、豐富度、視覺感知、邏輯連貫性、答案準(zhǔn)確性和圖像關(guān)系理解。為了引導(dǎo)GPT-4o提供平衡和公正的評估，每個維度都有精心制定的評估提示。

每個維度的評分范圍為10分，分為五個區(qū)間（0-2、2-4…8-10），每個區(qū)間都設(shè)定了相應(yīng)的評判標(biāo)準(zhǔn)。GPT-4o遵循這些標(biāo)準(zhǔn)進(jìn)行評判過程，并為每個維度提供最終分?jǐn)?shù)。

一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI聊天更接近現(xiàn)實-AI.x社區(qū)

MMDU的評估流程中，使用GPT-4o作為評判，根據(jù)參考答案給出總體分?jǐn)?shù)。在每次評估中，GPT-4o將同時參考模型的答案和參考答案。它將為每個評估標(biāo)準(zhǔn)（用藍(lán)色表示）提供相應(yīng)的分?jǐn)?shù)（用綠色表示），并最終以淺橙色總結(jié)結(jié)果。

通過對15個具有代表性的開源和閉源LVLMs進(jìn)行深入分析，研究人員發(fā)現(xiàn)開源LVLMs（如LLaVa）由于缺乏足夠的對話指令微調(diào)數(shù)據(jù)，相比閉源系統(tǒng)（如GPT-4V）存在較大差距。研究表明，通過對開源LVLMs在MMDU-45k數(shù)據(jù)集上進(jìn)行finetune，則可以顯著縮小這一差距，finetune后的模型能夠生成更長、更精確的對話，同時對于圖文交錯的多圖理解能力有了顯著的提升。

△評估不同LVLMs在MMDU上的表現(xiàn)

團(tuán)隊報告了以下指標(biāo)：創(chuàng)造力（C）、豐富度（R）、視覺感知（VP）、邏輯連貫性（LC）、答案準(zhǔn)確性（AA）、圖像關(guān)系理解（IRU），以及平均（Avg.）結(jié)果。

此外，經(jīng)過MMDU-45k微調(diào)之后的模型，在現(xiàn)有基準(zhǔn)測試上表現(xiàn)也有所提升（MMStar: +1.1%，MathVista: +1.5%，ChartQA: +1.2%）。這一結(jié)果說明，MMDU-45k能夠在各種圖像文本相關(guān)的任務(wù)上提升LVLMs的能力。

△在LVLM監(jiān)督微調(diào)（SFT）階段添加MMDU-45k數(shù)據(jù)的優(yōu)勢。

表中報告了LLaVa和InternLM-XC2在MMDU和現(xiàn)有的代表性基準(zhǔn)測試上的表現(xiàn)，包括M?MB（MMBench-Dev-EN）、MMMU（MMMU-Val）、MMStar 、MathVista、AI2D、HallBench（HallusionBench）、MMVet 以及ChartQA。每個部分中的最佳和次佳結(jié)果分別用綠色和紅色標(biāo)記。

在多圖多輪問答及普通單圖問答情境下，經(jīng)過MMDU-45k微調(diào)的模型都有顯著的性能提升。這一性能提升首先表現(xiàn)在對圖像內(nèi)容的識別上，相比微調(diào)前的LVLMs，微調(diào)之后的模型能夠更加準(zhǔn)確的同時理解多張圖像的主要內(nèi)容，圖像的順序，以及圖像之間的關(guān)系。此外，微調(diào)之后的模型能夠生成更為詳實和豐富的輸出，并能夠輕松應(yīng)對具有超長上下文長度的圖文對話情景。

一次可輸入多張圖像，還能多輪對話！最新開源數(shù)據(jù)集，讓AI聊天更接近現(xiàn)實-AI.x社區(qū)