GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開

發布于 2024-7-10 09:30

瀏覽

0收藏

5 月 14 日， OpenAI 發布了 GPT-4o ，支持文本、圖像、語音、視頻等多種形式的輸入，大幅提升了推理響應的速度，在非英文任務上具有較大提升，并擁有比現有模型更強的視覺理解能力。我們第一時間對 GPT-4o 模型的圖像-文本多模態能力進行了評測。

GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開-AI.x社區

OpenAI 官方公布的視覺理解性能

基于多模態大模型開源評測工具 VLMEvalKit，我們在 Open VLM Leaderboard 中的十二個圖文多模態評測集上測試了 GPT-4o 的視覺能力。

GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開-AI.x社區

GPT-4o (20240513) 與此前的 GPT-4v 版本在各個多模態測試集上的性能對比

在各個通用圖文多模態評測數據集 (MMBench, MME, SEEDBench, MMStar 等) 上，GPT-4o 相比上一版本的 GPT-4v 均有不同程度的提升。其中在更具挑戰性的 MMStar，中文測試集 CCBench，MMBench_CN 等上面的提升尤其顯著。

在基于GPT-4主觀打分的MMVet與LLaVABench上，GPT-4o 相比上一版本的 GPT-4v 有微小下降，目前猜測是由于 GPT-4 打分的隨機性所致。

在強推理的多模測試集 (MMMU, MathVista 等) 上，GPT-4o 相比上一版本的 GPT-4v 有一定提升，但比較微小。

在幻覺多模測試集 HallusionBench 上，GPT-4o 相比上一版本的 GPT-4v 有顯著提升。

總結

GPT-4o 的客觀性能相比 GPT-4v (0409) 有了更進一步的提升，在所有測試集上的平均分提升約 3 分；
GPT-4o 顯示了更強的感知能力與更少的幻覺；
GPT-4o 的中文能力得到了較大的提高。

需要注意的是，由于 OpenAI 設置的規則，GPT-4o 在解答部分評測集中問題的時候，會出現拒答的現象。這一點導致 GPT-4o 的真實性能可能較我們報告的性能更強。

GPT-4o 的詳細評測結果已上線至Opencompass官網及Open-VLM-Leaderboard，歡迎大家訪問查看更詳細的評測數據！

GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開-AI.x社區

Opencompass官網：

???https://opencompass.org.cn/??

Open-VLM-Leaderboard：

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

本文轉載自??司南評測體系??，作者： OpenCompass 司南 ????

標簽

GPT-4o

模型

圖文

贊

回復

舉報

回復

相關推薦

OpenAI模型終于更新！強大視聽能力的GPT-4o將面向所有用戶，其前身正是神秘的gpt2！

51CTO技術棧 ? 3551瀏覽 ? 0回復
GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

戀戀青鳥 ? 3659瀏覽 ? 0回復
GPT-4o熱潮來襲：探索圖生文本的奧秘（多模態大模型系列之一）

魚蟲子 ? 7961瀏覽 ? 0回復
GPT-4o做Code Review可行嗎？

51CTO技術棧 ? 3793瀏覽 ? 0回復
GPT-4o與SQL：大模型改變自身架構的能力有多強？

51CTO技術棧 ? 2514瀏覽 ? 0回復
GPT-4o背后可能的語音技術

魚蟲子 ? 3504瀏覽 ? 0回復
模型更新，評測集優化：多模態大模型評測升級！

戀戀青鳥 ? 5751瀏覽 ? 0回復
GPT-4o們其實都是眼盲！OpenAI奧特曼自曝自家模型：推理比人弱。研究證明：多模態能力還差得遠，楊立昆上大

51CTO技術棧 ? 2387瀏覽 ? 1回復
長上下文能力只是吹牛？最強GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 3308瀏覽 ? 0回復
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 2662瀏覽 ? 0回復
多模態大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 9896瀏覽 ? 0回復
超GPT-4o，1240億參數！最強開源多模態模型 Pixtral Large！

Aceryt ? 2592瀏覽 ? 0回復
o1的風又吹到多模態，直接吹翻了GPT-4o-mini

PaperAgent ? 2452瀏覽 ? 0回復
LLM合集：港大利用GPT-4o生成QA對，打造大規模多模態視頻思維鏈（COT）數據集

AIPaperDaily ? 3227瀏覽 ? 0回復
微軟發布Phi-4，最強小模型！參數極小、超GPT-4o

Aceryt ? 2327瀏覽 ? 0回復
如何全面評估多模態大模型能力？MLLM評測任務與指標總結

shizhi02 ? 7880瀏覽 ? 0回復
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2455瀏覽 ? 0回復
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴散架構？北大&中山等開源GPT-ImgEval

angel ? 2348瀏覽 ? 0回復
GPT-4o(多模態版)、Claude3.7、Gemini2.5最新系統提示詞！

云中江樹 ? 1779瀏覽 ? 0回復

戀戀青鳥

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開

總結

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開

總 結

目錄

總結