成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全面評估多模態模型視頻OCR能力,Gemini 準確率僅73.7%

人工智能 新聞
MME-VideoOCR 致力于系統評估并推動MLLM在視頻OCR中的感知、理解和推理能力。

多模態大模型(MLLM)在靜態圖像上已經展現出卓越的 OCR 能力,能準確識別和理解圖像中的文字內容。

然而,當應用場景從靜態圖像拓展至動態視頻時,即便是當前最先進的模型也面臨著嚴峻的挑戰。

MME-VideoOCR 致力于系統評估并推動MLLM在視頻OCR中的感知、理解和推理能力。

圖片

主要貢獻如下:

構建精細的任務體系:

  • 精心構建了10大任務類別,進一步細分為25 個獨立任務
  • 評測維度超越基礎識別,深入考察時序理解、信息整合及復雜推理等高階能力。

高質量、大規模數據集:

包含了1,464 個精選視頻片段,覆蓋不同的分辨率、時長與場景。構建了2,000 條高質量、經人工標注的問答對,確保評測的精確性。

揭示當前 MLLM 的能力邊界與局限:

  • 對包括閉源與領先開源模型在內的18個主流MLLM進行了深入評測。
  • 系統化分析了各模型在不同視頻OCR任務中的表現,明確了其優勢與亟待改進的短板
  • 即便是Gemini-2.5 Pro,其整體準確率也僅為73.7%,顯示出當前MLLM在視頻OCR領域的巨大挑戰。

研究背景

視頻作為一種信息密度更高、場景更復雜的模態,其 OCR 任務的難度遠超靜態圖像:

運動模糊、光影變化、視角切換以及復雜的時序關聯等視頻的動態因素,都對 MLLM 的視頻文字識別構成了顯著的障礙。

2 視頻中的文字信息形式復雜多樣,既可能出現在畫面主體、背景場景,也可能以屏幕注釋、水印或彈幕的方式存在。這要求模型能夠建立穩定的時空視覺-文本關聯,以實現對分布在不同位置與時間段文字信息的準確識別、整合與理解。

3 MLLM 不僅需要對視頻中文字的進行精確識別,更需在視覺、時序上下文中完成語義解析與推理判斷,以實現對視頻整體內容的深層理解。

目前,MLLM 在視頻 OCR 領域的真實性能如何?其核心局限性體現在哪些方面?我們應如何系統地評估并推動其發展?這些關鍵問題亟待一個明確的答案。

圖片

MME-VideoOCR 評測框架詳解

MME-VideoOCR的設計核心在于其全面性與深度,旨在評估模型從“看見”到“理解”視頻文字信息的全方位能力。

數據構建

MME-VideoOCR 的數據集源于部分高質量數據集和人工采集與構造,經過精心篩選與處理,確保其:

  • 多樣性:涵蓋生活記錄、影視娛樂、教育科普、體育賽事、游戲直播等多元化場景。
  • 挑戰性:融入運動模糊、低分辨率、復雜背景、藝術字體、文字遮擋、多語言混合等真實世界的復雜因素。
  • 時序性:特別設計了需要跨幀理解、追蹤文字動態、整合時序信息的復雜任務,考驗模型的動態處理能力。

考慮到短視頻、彈幕視頻及AIGC視頻的逐漸普及,MME-VideoOCR額外引入了這些特殊類型的視頻,增加了數據的全面性。

共收集1,464 個視頻和2000條樣本。

圖片圖片

任務設計

10大任務類別25 個子任務緊密圍繞視頻OCR的核心挑戰,重點評估模型在以下方面的能力:

  • 基礎識別:在各種視頻條件下準確識別文字及其屬性。
  • 時空定位:識別文字在視頻中的時間、空間位置。
  • 時序追蹤:理解文字內容隨時間的演變。
  • 特殊文本解析:對表格、圖表、文檔、公式、手寫體等特殊文本進行有效解析。
  • 信息整合:結合視頻上下文與文字進行綜合理解。
  • 場景理解:在特定視頻情境下解讀文字的深層含義。
  • 復雜推理:基于視頻中的文字信息進行邏輯判斷與問答。
  • 模型魯棒性:對于 AIGC、對抗樣本和超長視頻的有效理解。

圖片

評估策略

針對不同任務的特點和標準答案可能存在的靈活性,設計了字符串匹配、多選題以及 GPT 輔助評分三種評測方式。

實驗發現總結

圖片

通過對18個主流MLLM的深度評測,MME-VideoOCR 揭示了以下關鍵發現:

整體性能:提升空間巨大

  • 頂尖模型面臨挑戰:Gemini-2.5 Pro雖然表現最佳,但73.7%的準確率表明,即便是SOTA模型在應對復雜視頻 OCR 任務時也遠未達到理想狀態。
  • 開源模型差距顯著:當前多數開源MLLM在視頻OCR任務上的表現與頂尖閉源模型相比,存在較大差距,大多數開源模型準確率甚至不足60%。

能力短板:時序與推理是關鍵瓶頸

  • 靜態易,動態難:模型處理單幀或短時序的文字信息相對較好,但在需要整合長時序信息、理解文字動態變化時,性能顯著下降。
  • 時空推理能力薄弱:要求結合文字內容及其時空信息進行推理的任務,是當前MLLM的普遍弱點圖片

語言先驗依賴問題:模型在進行視頻文字理解時,有時會過度依賴其語言模型的先驗知識,而未能充分利用視覺信息進行判斷。

優化關鍵:高分辨率與時序信息

圖片

實驗指出,提供更高分辨率的視覺輸入更完整的時序幀覆蓋,對于提升MLLM在動態視頻場景下的OCR性能至關重要

同時需要注意到,更多的視覺輸入可能也會導致模型難以關注到目標信息,造成準確率的下滑,這也對模型的信息提取與處理能力提出了更高要求。

論文地址:https://mme-videoocr.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-13 09:40:00

2024-10-30 15:00:00

AI視頻模型

2024-06-17 18:06:17

2023-10-23 10:02:00

模型技術

2024-08-02 13:14:51

2024-01-05 08:44:52

2025-03-13 09:47:29

2024-06-12 11:50:23

2023-10-26 08:40:15

模型隱私推理

2024-05-11 07:00:00

GPT4VGemini大模型

2025-05-06 15:32:23

模型AI測試

2018-06-12 07:15:18

阿里巴巴技術語音識別

2023-05-04 09:39:16

AI模型

2020-11-20 17:03:11

AI 數據人工智能

2023-11-08 08:38:43

2024-12-30 08:33:54

大型模型GeminiLLM

2025-01-08 08:21:16

2025-05-21 08:47:00

2024-03-01 11:58:26

MLLMs大語言模型人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中国一级特黄真人毛片 | 日韩精品成人一区二区三区视频 | 亚洲一区二区三区在线播放 | 国产成人精品一区二区 | 狠狠操天天操 | 亚洲va欧美va天堂v国产综合 | 国产永久免费 | 国产精品免费观看 | 精品视频在线播放 | 一区二区在线看 | 国内精品在线视频 | 色成人免费网站 | 国产91在线 | 亚洲 | 日本午夜免费福利视频 | 精品欧美一区二区精品久久 | com.色.www在线观看 | 欧美女优在线观看 | 一区二区免费高清视频 | 日韩中文字幕视频在线观看 | 羞羞的视频免费看 | 韩日在线视频 | 欧美成人精品一区二区男人看 | 黄免费看| 成人在线精品视频 | 国产精品一区在线 | 午夜免费av | 日韩欧美国产一区二区三区 | 欧美精品中文字幕久久二区 | 99视频在线免费观看 | 韩日精品在线观看 | 国产在线一区二区三区 | 在线视频一区二区三区 | 国产精品久久久久久婷婷天堂 | 亚洲理论在线观看电影 | 欧美色影院 | 日韩在线视频一区二区三区 | 中文字幕亚洲在线 | 国产偷录视频叫床高潮对白 | 一区二区三区免费看 | 日韩在线观看中文字幕 | 日韩视频在线一区 |