成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態模型評測框架lmms-eval發布!全面覆蓋,低成本,零污染

人工智能 新聞
來自南洋理工大學 LMMs-Lab 的研究人員聯合開源了 LMMs-Eval,這是一個專為多模態大型模型設計的評估框架,為多模態模型(LMMs)的評測提供了一站式、高效的解決方案。

隨著大模型研究的深入,如何將其推廣到更多的模態上已經成為了學術界和產業界的熱點。最近發布的閉源大模型如 GPT-4o、Claude 3.5 等都已經具備了超強的圖像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等開源領域模型也展現出了越來越接近閉源的性能。

在這個「畝產八萬斤」,「10 天一個 SoTA」的時代,簡單易用、標準透明、可復現的多模態評估框架變得越來越重要,而這并非易事。

為解決以上問題,來自南洋理工大學 LMMs-Lab 的研究人員聯合開源了 LMMs-Eval,這是一個專為多模態大型模型設計的評估框架,為多模態模型(LMMs)的評測提供了一站式、高效的解決方案。

圖片

  • 代碼倉庫: https://github.com/EvolvingLMMs-Lab/lmms-eval
  • 官方主頁: https://lmms-lab.github.io/
  • 論文地址: https://arxiv.org/abs/2407.12772
  • 榜單地址:https://huggingface.co/spaces/lmms-lab/LiveBench

自 2024 年 3 月發布以來, LMMs-Eval 框架已經收到了來自開源社區、公司和高校等多方的協作貢獻。現已在 Github 上獲得 1.1K Stars,超過 30+ contributors,總計包含 80 多個數據集和 10 多個模型,并且還在持續增加中。

圖片

標準化測評框架

為了提供一個標準化的測評平臺,LMMs-Eval 包含了以下特性:

  1. 統一接口:  LMMs-Eval 在文本測評框架 lm-evaluation-harness 的基礎上進行了改進和擴展,通過定義模型、數據集和評估指標的統一接口,方便了使用者自行添加新的多模態模型和數據集。
  2. 一鍵式啟動:LMMs-Eval 在 HuggingFace 上托管了 80 多個(且數量不斷增加)數據集,這些數據集精心從原始來源轉換而來,包括所有變體、版本和分割。用戶無需進行任何準備,只需一條命令,多個數據集和模型將被自動下載并測試,等待幾分鐘時間即可獲得結果。
  3. 透明可復現:LMMs-Eval 內置了統一的 logging 工具,模型回答的每一題以及正確與否都會被記錄下來, 保證了可復現性和透明性。同時也方便比較不同模型的優勢與缺陷。

LMMs-Eval 的愿景是未來的多模態模型不再需要自行編寫數據處理、推理以及提交代碼。在當今多模態測試集高度集中的環境下,這種做法既不現實,測得的分數也難以與其他模型直接對比。通過接入 LMMs-Eval,模型訓練者可以將更多精力集中在模型本身的改進和優化上,而不是在評測和對齊結果上耗費時間。

評測的「不可能三角」

LMMs-Eval 的最終目標是找到一種 1. 覆蓋廣 2. 成本低 3. 零數據泄露 的方法來評估 LMMs。然而,即使有了 LMMs-Eval,作者團隊發現想同時做到這三點困難重重,甚至是不可能的。

如下圖所示,當他們將評估數據集擴展到 50 多個時,執行這些數據集的全面評估變得非常耗時。此外,這些基準在訓練期間也容易受到污染的影響。為此, LMMs-Eval 提出了 LMMs-Eval-Lite 來兼顧廣覆蓋和低成本。他們也設計了 LiveBench 來做到低成本和零數據泄露。

圖片

LMMs-Eval-Lite: 廣覆蓋輕量級評估

圖片

在評測大模型時,往往龐大的參數量和測試任務會使得評測任務的時間和成本急劇上升,因此大家往往會選擇使用較小的數據集或是使用特定的數據集進行評測。然而,有限的評測往往會使得對于模型能力的理解有所缺失,為了同時兼顧評測的多樣性和評測的成本,LMMs-Eval 推出了 LMMs-Eval-Lite

圖片

LMMs-Eval-Lite 旨在構建一個簡化的基準測試集,以在模型開發過程中提供有用且快速的信號,從而避免現在測試的臃腫問題。如果我們能夠找到現有測試集的一個子集,在這上面的模型之間的絕對分數和相對排名與全集保持相似,那么我們可以認為修剪這些數據集是安全的。

為了找到數據集中的數據顯著點,LMMs-Eval 首先使用 CLIP 和 BGE 模型將多模態評測數據集轉換為向量嵌入的形式并使用 k-greedy 聚類的方法找到了數據顯著點。在測試中,這些規模較小的數據集仍然展現出與全集相似的評測能力。

圖片

隨后 LMMs-Eval 使用了相同的方法制作了涵蓋更多數據集的 Lite 版本,這些數據集旨在幫助人們節省開發中的評測成本,以便快速判斷模型性能

圖片

LiveBench: LMMs 動態測試

傳統基準側重于使用固定問題和答案的靜態評估。隨著多模態研究的進展,開源模型在分數比較往往優于商用模型,如 GPT-4V,但在實際用戶體驗中卻有所不及。動態的、用戶導向的 Chatbot Arenas 和 WildVision 在模型評估中越來越受歡迎,但是它們需要收集成千上萬的用戶偏好,評估成本極高。

LiveBench 的核心思想是在一個不斷更新的數據集上評估模型的性能,以實現零污染且保持低成本。作者團隊從網絡上收集評估數據,并構建了一條 pipeline,自動從新聞和社區論壇等網站收集最新的全球信息。為了確保信息的及時性和真實性,作者團隊從包括 CNN、BBC、日本朝日新聞和中國新華社等 60 多個新聞媒體,以及 Reddit 等論壇中選擇來源。具體步驟如下:

  1. 捕捉主頁截圖并去除廣告和非新聞元素。
  2. 使用當前最強大的多模態模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)設計問題和答案集。由另一模型審查和修訂
  3. 問題,確保準確性和相關性。
  4. 人工審查最終的問答集,每月收集約 500 個問題,保留 100-300 個作為最終的 \livebench 問題集。
  5. 采用 LLaVA-Wilder 和 Vibe-Eval 的評分標準 -- 評分模型根據提供的標準答案評分,得分范圍為 [1, 10]。默認評分模型為 GPT-4o,還包括 Claude-3-Opus 和 Gemini 1.5 Pro 作為備選。最終的報告結果將基于得分轉換為 0 到 100 的準確率指標。

圖片

未來也可以在我們動態更新的榜單里查看多模態模型在每個月動態更新的最新評測數據,以及在榜單上的最新評測的結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-08 08:21:16

2009-02-27 10:16:16

微軟Windows Ser低成本

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2024-01-11 09:37:58

模型AI

2023-05-19 13:01:10

ChatGPT模型

2022-12-09 14:07:11

框架開源

2023-12-07 12:38:09

架構低成本開發

2025-03-13 09:47:29

2023-12-25 09:07:50

AI人工智能Ferret

2023-05-15 12:14:02

ChatGPT語音模型

2025-02-12 10:12:00

視頻模型AI

2025-06-03 08:22:00

模型評估視頻

2021-07-20 11:54:14

物聯網零售節能IoT

2024-10-14 14:10:00

大模型AI開源

2025-04-07 00:00:00

多模態大模型

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-03-19 09:30:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品免费视频一区 | 日韩av美女电影 | 久久久久久成人 | 国产精品视频网 | 91在线中文字幕 | 日韩中文字幕一区二区 | 国产一区亚洲 | 国产精品成av人在线视午夜片 | 久久精品国产一区二区三区 | 99精品欧美一区二区蜜桃免费 | 久久久久久久久蜜桃 | 成人免费视频网站在线看 | 久久久久免费观看 | 成人福利网| 国产精品一区久久久 | 亚洲欧美激情精品一区二区 | 国产真实精品久久二三区 | 午夜精品一区二区三区在线观看 | 亚洲男女视频在线观看 | 国色天香综合网 | 亚洲在线| 亚洲美女一区 | 91社区在线高清 | 国产精品69久久久久水密桃 | 欧美freesex黑人又粗又大 | 日韩一区中文字幕 | 国产精品毛片久久久久久久 | 国家aaa的一级看片 h片在线看 | 日韩欧美三区 | 国产精品一区二区无线 | 欧美一级特黄aaa大片在线观看 | 99热热热| 欧美一区二区三区四区视频 | 国产精品视频综合 | 亚洲精品日本 | 午夜视频在线 | 亚洲国产精品一区二区第一页 | 亚洲九九精品 | 黑色丝袜三级在线播放 | 精品国产一级 | 在线第一页 |