成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<span id="izter"><form id="izter"></form></span>

<mark id="izter"></mark>

<blockquote id="izter"><sub id="izter"><rp id="izter"></rp></sub></blockquote>

<blockquote id="izter"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

多模態(tài)LLM視覺推理能力堪憂，浙大領(lǐng)銜用GPT-4合成數(shù)據(jù)構(gòu)建多模態(tài)基準(zhǔn)

作者：新智元 2024-08-08 13:04:28

LLM的數(shù)學(xué)推理能力缺陷得到了很多研究的關(guān)注，但最近浙大、中科院等機構(gòu)的學(xué)者們提出，先進(jìn)模型在視覺推理方面同樣不足。為此他們提出了一種多模態(tài)的視覺推理基準(zhǔn)，并設(shè)計了一種新穎的數(shù)據(jù)合成方法。

無論是語言模型還是視覺模型，似乎都很難完成更抽象層次上的理解和推理任務(wù)。

語言模型已經(jīng)可以寫詩寫小說了，但是依舊算不對9.11和9.9比大小的問題。

同樣的問題也出現(xiàn)在視覺模型中，它們能完美理解自然景色或人物照片，卻無法處理各種圖表任務(wù)，甚至看表讀時間都是難題。

如果要將AI系統(tǒng)用在更多專業(yè)領(lǐng)域，這些能力缺陷就顯得極為突出。

最近，浙江大學(xué)、中科院軟件研究所、上?？萍即髮W(xué)等機構(gòu)就聯(lián)合提出了一種新的多模態(tài)基準(zhǔn)，專門衡量模型對抽象圖像的理解能力和視覺推理能力。

圖片

論文地址：https://arxiv.org/pdf/2407.07053

數(shù)據(jù)集共包含11,193個帶有相關(guān)問題的抽象圖像，涵蓋了儀表板、路線圖、圖表、表格、流程圖、關(guān)系圖、視覺謎題和2D平面圖等8大類別，此外還有額外的62,476條數(shù)據(jù)用于微調(diào)模型。

經(jīng)過測試，人類在該基準(zhǔn)上可以達(dá)到至少82.1%的準(zhǔn)確率，但Claude 3.5 Sonnet和GPT-4o等頂流模型的成績卻遠(yuǎn)遠(yuǎn)落后于人類，分別只有64.7%和59.9%。

圖片

目前全部數(shù)據(jù)已經(jīng)上傳至HuggingFace倉庫。

圖片

倉庫地址：https://huggingface.co/datasets/zwq2018/Multi-modal-Self-instruct

此外，作者也將數(shù)據(jù)構(gòu)建數(shù)據(jù)所用的代碼上傳到了GitHub。

圖片

代碼地址：https://github.com/zwq2018/Multi-modal-Self-instruct

構(gòu)建數(shù)據(jù)集

作為新提出的基準(zhǔn)測試，重頭戲自然是數(shù)據(jù)集的構(gòu)建過程。

作者在論文中指出，想要采集到合適的抽象圖像-文本對，既需要大量人力，也十分耗費時間。

那么使用合成數(shù)據(jù)呢？

同樣也不容易，因為我們需要的是多模態(tài)數(shù)據(jù)，但LLM無法直接生成圖像，DALL-E、Stable Diffusion等圖像生成模型又無法同步生成文本。

一個直覺的解決方案是將二者結(jié)合在一起，直接生成<圖像，問題，答案>形式的數(shù)據(jù)。

但文生圖模型實際上很難對圖像細(xì)節(jié)做到細(xì)微精準(zhǔn)的控制，尤其是生成僅由幾何形狀組成的抽象圖像，更何況其中大部分還需要包含數(shù)字和文字。

鑒于以上問題，作者提出了一種以代碼為中心的「自我指導(dǎo)」（self-instruct）策略進(jìn)行圖像和相關(guān)文本的同步合成，整個過程只有語言模型——GPT-4-Turbo的參與，沒有用到圖像生成模型。（圖2）

圖片

首先指導(dǎo)LLM，針對某個日常情景，提出一種視覺創(chuàng)意。這個過程中，作者給LLM提供了一些in-context示例，使生成結(jié)果盡可能涵蓋全部8個類別。

然后模型根據(jù)自己提出的創(chuàng)意，生成所需的數(shù)據(jù)和代碼以繪制圖像。

比如對于餅狀圖，LLM就需要先「捏造」數(shù)據(jù)，設(shè)計出每個類型對應(yīng)的百分比數(shù)值。在代碼生成中，作者激勵模型使用Matplotlib或ECharts等代碼庫，顯著降低了代碼復(fù)雜度。

執(zhí)行代碼并渲染好圖像后，LLM會繼續(xù)進(jìn)行「自我指導(dǎo)」，根據(jù)視覺內(nèi)容，加上之前所用的視覺創(chuàng)意、數(shù)據(jù)和代碼作為prompt，生成多個高質(zhì)量的<問題，答案>文本對。

除了為每個問題生成答案，作者還提示LLM生成能解釋答案的「原理」（rationale），以便用于訓(xùn)練模型，起到類似于CoT的作用。

整個構(gòu)建過程的流水線如下圖所示：

圖片

這種「以代碼為中心」的方式不僅更容易保證圖像的細(xì)節(jié)、質(zhì)量和多樣性，也讓LLM更容易生成相關(guān)文本。

數(shù)據(jù)合成過程所用的模型是GPT-4-Turbo，但合成后還經(jīng)過Llava-1.5的初篩，以保證圖像的美觀程度、布局合理性以及文本可讀性等。

最終構(gòu)建的測試集共包含3.658張圖像和11,193條指令，涵蓋了儀表板、路線圖、圖表、表格、流程圖、關(guān)系圖、視覺謎題和2D平面圖等8個類別。

圖片

數(shù)據(jù)集進(jìn)行了10%的隨機抽樣，并讓人類驗證答案的正確性，發(fā)現(xiàn)數(shù)據(jù)集的質(zhì)量有一定的保證。

為了能進(jìn)一步評估合成數(shù)據(jù)的質(zhì)量，作者還為圖表、表格和路線圖這三個任務(wù)構(gòu)建了額外的訓(xùn)練集，共包含62,476條指令（圖1）。

圖片

基準(zhǔn)測試

論文共對12個模型進(jìn)行了測試，詳細(xì)結(jié)果如表A1所示，其中人類所得分?jǐn)?shù)來自于兩個本科生分?jǐn)?shù)的平均。

其中得分最高的是Claude 3.5 Sonnet，平均準(zhǔn)確率為64.74%；GPT-4o緊隨其后，準(zhǔn)確率為59.99%，都與人類平均水平82.1%相去甚遠(yuǎn)。

作者發(fā)現(xiàn)，在圖表、關(guān)系圖、2D平面圖中，模型經(jīng)常在抽象概念或空間關(guān)系上出錯。

8個類別的抽象圖像中，模型表現(xiàn)最差的當(dāng)屬「路線圖」類。Claude 3.5 Sonnet平均準(zhǔn)確率為59.24%，其余模型均為未超過40%。

在「路線圖」和「視覺謎題」兩類圖像任務(wù)中，開源和閉源模型的差距尤為明顯。

模型微調(diào)

除了構(gòu)建基準(zhǔn)，論文發(fā)現(xiàn)，用這些合成數(shù)據(jù)訓(xùn)練模型可以顯著提高其視覺推理能力。

相比之前的Vanilla Llava-1.5-7B，用62K條數(shù)據(jù)經(jīng)過4小時LoRA微調(diào)后的模型，在3類圖像任務(wù)上都有非常顯著的提升。尤其是「路線圖」類別，準(zhǔn)確率飆升67.4%，超過了GPT-4V和Claude-3-Sonnet（表2）。

雖然模型在微調(diào)后出現(xiàn)性能提升屬于正常現(xiàn)象，但這種微調(diào)效率可以側(cè)面證明合成數(shù)據(jù)的潛力，尤其是在質(zhì)量、有效性和多樣性方面。

除了在原基準(zhǔn)上有所進(jìn)步，微調(diào)后的模型在ChatQA、MathVista這樣弱相關(guān)任務(wù)上也有不同程度的分?jǐn)?shù)提升（表4）。

這意味著，在合成數(shù)據(jù)上的訓(xùn)練可以提升模型的通用視覺推理能力，從而泛化到其他任務(wù)，而非僅僅是擬合訓(xùn)練場景。

圖片

結(jié)論與限制

論文最重要的貢獻(xiàn)在于指出了當(dāng)前多模態(tài)LLM在視覺推理方面的次優(yōu)表現(xiàn)，并構(gòu)建了合成數(shù)據(jù)組成的基準(zhǔn)測試集，表明合成數(shù)據(jù)訓(xùn)練是一個有前景的解決方案。

與此同時，作者指出了該研究存在的三方面限制：

- 數(shù)據(jù)合成過程嚴(yán)重依賴LLM的代碼合成和推理能力，因此論文只使用了GPT-4等閉源模型。隨著Llama 3等開源模型逐漸提升性能，未來可以利用開源模型合成數(shù)據(jù)以減少成本

- 本項工作主要用代碼合成8類的抽象圖像，例如表格和地圖，未來可以繼續(xù)擴展到用代碼控制機器人仿真器，生成特定的房屋布局和結(jié)構(gòu)

- 我們認(rèn)為視覺編碼器是當(dāng)前LLM的瓶頸，尤其是對于抽象圖表而言，因此未來提升編碼器圖像分辨率可以增強LLM的細(xì)粒度認(rèn)知能力

參考資料：

https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/

https://arxiv.org/abs/2407.07053

責(zé)任編輯：武曉燕來源：新智元

LLM 視覺多模態(tài)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：亚洲精品久久久久久久久久吃药 | 插插宗合网 | 亚洲欧美高清 | 久久人体视频 | 国产精品明星裸体写真集 | 亚洲第一区久久 | 久久夜色精品国产 | 成人影院午夜 | 亚洲网站在线观看 | 久久久久久久久久久久91 | 国产精品亚洲欧美日韩一区在线 | 国产精品久久国产精品 | 国产欧美精品一区 | 亚洲一区二区中文字幕 | 国产精品美女 | 色婷婷av99xx| 久久精品国产一区二区电影 | 国产在线观看一区二区 | 亚洲欧美网站 | 黄视频欧美 | 91久久国产综合久久 | 欧美一区二区 | 91视频导航 | 午夜影院网站 | 亚洲综合热 | 视频1区2区 | 91社区视频 | 欧美成人黄色小说 | 污片在线免费观看 | 97视频在线观看网站 | 波霸ol一区二区 | 插插插干干干 | av官网在线 | a亚洲精品 | 日韩毛片视频 | 美女张开腿露出尿口 | 91伊人| 国产精品成人免费 | 天天躁日日躁狠狠躁白人 | 日韩欧美天堂 | 精品欧美一区二区三区久久久小说 |

<blockquote id="gwcnu"></blockquote>