成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)

發(fā)布于 2024-7-8 08:04

瀏覽

0收藏

一、背景

上一篇文章（???LLM 評(píng)估匯總：真的吊打 LLaMA-3，媲美 GPT-4 嗎？??）我們簡(jiǎn)單匯總了一些常見的 LLM 評(píng)估指標(biāo)，以及在收集這些指標(biāo)時(shí)遇到的問題。最近在看 [2405.19327] MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series 時(shí)發(fā)現(xiàn)其提到了 MMLU-Pro 評(píng)估集，之前沒有接觸到，與此同時(shí)又正好看到了對(duì)應(yīng)的 Paper，這里簡(jiǎn)單進(jìn)行介紹。MAP-Neo 和 MMLU-Pro 的部分作者是相同的。

對(duì)應(yīng)的 Paper：[2406.01574] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

對(duì)應(yīng)的數(shù)據(jù)集：TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

對(duì)應(yīng)的 Leaderboard：MMLU Pro - a Hugging Face Space by TIGER-Lab

二、摘要

在 LLM 的發(fā)展歷程中，MMLU 這樣的基準(zhǔn)測(cè)試在推動(dòng) AI 在不同領(lǐng)域的語言理解和推理方面起到關(guān)鍵作用。然而，隨著模型的不斷改進(jìn)，這些基準(zhǔn)測(cè)試的性能開始趨于穩(wěn)定，辨別不同模型能力的差異變得越來越困難。

因此作者創(chuàng)建了 MMLU-Pro，這是一個(gè)增強(qiáng)的數(shù)據(jù)集，旨在集成更具挑戰(zhàn)性、以推理為主的問題，并將多項(xiàng)選擇的選項(xiàng)從 4 個(gè)擴(kuò)展到 10 個(gè)，以此來擴(kuò)展廣泛使用的 MMLU 基準(zhǔn)。作者從 MMLU中刪除了不重要問題和噪聲問題。

實(shí)驗(yàn)表明，與 MMLU 相比，MMLU-Pro 進(jìn)一步降低了不同模型的精度指標(biāo)，還擴(kuò)大了差距，各個(gè)模型的 MMLU-Pro 精度指標(biāo)相比 MMLU 下降 16%-33%；此外，也在不同的提示下表現(xiàn)出更高的穩(wěn)定性。通過測(cè)試 24 中不同風(fēng)格的 Prompt，模型分?jǐn)?shù)對(duì) Prompt 變化的敏感性從 MMLU 的 4%-5% 下降到 MMLU-Pro 的 2%。最后，作者發(fā)現(xiàn)使用 CoT（思維鏈）推理與直接回答相比，模型在 MMLU-Pro 上取得了更好的性能，這與原始 MMLU 中的表現(xiàn)形成鮮明對(duì)比，表明 MMLU-Pro 包含更復(fù)雜的推理問題。

三、引言

3.1 指標(biāo)區(qū)分度

我們?cè)谥暗奈恼轮惺崂砹烁鞣N LLM 評(píng)估指標(biāo)，可以發(fā)現(xiàn)很多模型在 MMLU，GSM-8K，BBH，HellaSwag 和 ARC-C 上的指標(biāo)已經(jīng)很高，尤其是 Top 的模型。如下圖所示，其中 MMLU、HellaSwag，ARC-C 以及 GSM-8K 尤其明顯，很多指標(biāo)都到了 90 左右：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2 評(píng)估穩(wěn)定性

在 DeepSeek-V2（[2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model）中，作者使用內(nèi)部評(píng)估工具進(jìn)行評(píng)估，其部分指標(biāo)和其它論文中看到的不一致，有些甚至差距很大，這也就導(dǎo)致很難進(jìn)行公平的比較。出現(xiàn)這種問題很可能是配置未對(duì)齊，比如使用了不同的 Prompt：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

四、MMLU-Pro 數(shù)據(jù)集

4.1 概述

如下圖 Figure 3 所示，新的 MMLU-Pro 數(shù)據(jù)集包含 14 個(gè)子集，總共 12032 個(gè)問題，左圖為各個(gè)子集的占比。右圖為各個(gè)數(shù)據(jù)集的來源，可以看出，56.5% 的問題來源于原始的 MMLU 數(shù)據(jù)集，然后又從 STEM Website、TheoremQA 和 Scibench 中收集了一部分?jǐn)?shù)據(jù)。

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2 數(shù)據(jù)集構(gòu)建

MMLU-Pro 數(shù)據(jù)集的收集過程如下圖 Figure 2 所示，主要包含如下幾個(gè)步驟：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2.1 Initial Filtering

原始的 MMLU 數(shù)據(jù)集包含 57 個(gè)主題，作者將其合并到 14 個(gè)。然后使用 8 個(gè)小模型來評(píng)估（LLaMA2-7B、LLaMA2-7B-Chat、LLaMA2-13B、LLaMA2-13B-Chat、Mistral-7B、Gemma-7B、Yi-6B 和 Yi-6B-Chat），如果超過 4 個(gè)模型回答正確，則認(rèn)為相應(yīng)的問題太簡(jiǎn)單，從數(shù)據(jù)集刪除。經(jīng)過該步驟總共過濾掉 5886 個(gè)問題，具體如下圖 Table 4 所示：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2.2 Question Collection and Integration

為了擴(kuò)充數(shù)據(jù)集，作者從 STEM Website（Index of /subjects）、TheoremQA 和 SciBench 中收集了一部分?jǐn)?shù)據(jù)。然后使用 GPT-4 Turbo 對(duì)上述數(shù)據(jù)進(jìn)行了整理，以便與 MMLU 中過濾的數(shù)據(jù)保持一致，同時(shí)作者也進(jìn)行了必要的人工校驗(yàn)，以刪除 GPT-4 Turbo 處理異常的問題。

3.2.3 Option Augmentation

上述問題都是多項(xiàng)選擇題，有 4 個(gè)選項(xiàng)。作者使用 GPT-4 Turbo 對(duì)問題進(jìn)行了擴(kuò)展，將 4 個(gè)選項(xiàng)擴(kuò)展為 10 個(gè)選項(xiàng)。這些新增的選項(xiàng)也具有一定的迷惑性，可以幫助識(shí)別模型的推理能力，降低模型猜對(duì)的可能性，因此也使得評(píng)估更加魯棒。此外，作者也進(jìn)一步通過實(shí)驗(yàn)驗(yàn)證，使用 GPT-4 Turbo 來擴(kuò)展并不會(huì)使得這個(gè)評(píng)估對(duì) GPT-4 Turbo 更有利。

3.2.4 Expert Review

Expert Review 包含兩個(gè)階段：

驗(yàn)證答案的正確性，并刪除不適合作為多項(xiàng)選擇題的問題，或者缺乏必要文本信息的問題，比如包含圖片，表格。
使用 Gemini-1.5-Pro 重新評(píng)估所有答案選項(xiàng)來識(shí)別 false negative，也就是正確答案被標(biāo)記為錯(cuò)誤答案的情況。并且會(huì)使用人類專家來嚴(yán)格審查這些問題。

如下圖 Table 1 所示為篩選出來的問題：

Incorrect Answer：答案錯(cuò)誤的情況。主要來源為 MMLU 中本身答案是錯(cuò)誤，以及 STEM Website 中錯(cuò)誤提取。
False Negative Options：這個(gè)問題主要來源為將單個(gè)答案問題轉(zhuǎn)換為 4 個(gè)選項(xiàng)，以及 4 個(gè)選項(xiàng)進(jìn)一步擴(kuò)展為 10 個(gè)選項(xiàng)的階段。通過專家 Review 會(huì)刪除 False Negative 的選項(xiàng)，因此最終 83% 的問題有 10 個(gè)選項(xiàng)，17% 的問題選項(xiàng)少于 10 個(gè)，平均有 9.47 個(gè)選項(xiàng)。
Bad Questions：比如不包含文本信息，缺乏文本信息，或者開放性問題。?

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

如下圖 Table 5 所示為最終問題的分布：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

五、實(shí)驗(yàn)

5.1 Few-Shot CoT 評(píng)估

如下圖 Table 2 所示，作者基于提出的 MMLU-Pro 評(píng)估了常見的 LLM（除了 Gemini-1.5 Pro 和 Gemini-1.5-Flash 為 0-shot 外，其它都是 5-shot，并且都用了 CoT）?？梢钥闯?，閉源模型相比開源模型還是有比較明顯的優(yōu)勢(shì)，其中 GPT-4o 性能最優(yōu)，而在開源模型中，LLaMA-3-70B-Instruct 性能最優(yōu)：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

5.2 與 MMLU 對(duì)比

如下圖 Figure 4 所示，作者對(duì)比了同樣模型在 MMLU-Pro 和 MMLU 上的指標(biāo)?？梢钥闯鲈?MMLU-Pro 上的精度明顯低于 MMLU，并且在 MMLU-Pro 上的區(qū)分度更大，這也證明 MMLU-Pro 更加有挑戰(zhàn)：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

如下圖所示為我們收集到的一些對(duì)比數(shù)據(jù)：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

5.3 不同 Prompt 的影響

如下圖 Figure 5 所示，作者進(jìn)一步在 MMLU 和 MMLU-Pro 上驗(yàn)證了不同 Prompt 對(duì)評(píng)估結(jié)果的影響，可以看出在 MMLU-Pro 上的評(píng)估差異更小，也證明其評(píng)估集更加魯棒：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

5.3 CoT 的影響

如下圖 Table 3 所示，作者進(jìn)一步在 MMLU 和 MMLU-Pro 上驗(yàn)證了直接問答以及使用 CoT 的差異，可以看出，在 MMLU-Pro 上使用 CoT 和不使用 CoT 的差異更大，可以證明 MMLU-Pro 數(shù)據(jù)集需要更強(qiáng)的推理能力：

MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

六、參考鏈接

???https://arxiv.org/abs/2405.19327???
???https://arxiv.org/abs/2406.01574???
???https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro???
???https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro???
???https://arxiv.org/abs/2405.04434???
???https://stemez.com/subjects???

本文轉(zhuǎn)載自 ??AI閑談??，作者： AI閑談

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

語言模型安全評(píng)估新標(biāo)桿：SALAD-Bench全面安全評(píng)估新基準(zhǔn)

kcoufee ? 5272瀏覽 ? 0回復(fù)
新測(cè)試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了

Crystalcxt ? 3422瀏覽 ? 0回復(fù)
Arena-Hard：開源高質(zhì)量大模型評(píng)估基準(zhǔn)

Aceryt ? 4728瀏覽 ? 0回復(fù)
LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 3168瀏覽 ? 0回復(fù)
【LLM】CRAG - 綜合性RAG基準(zhǔn)測(cè)試

sbf_2000 ? 4898瀏覽 ? 0回復(fù)
應(yīng)用程序任務(wù)驅(qū)動(dòng)：詳細(xì)解析LLM的評(píng)估指標(biāo)

51CTO內(nèi)容精選 ? 3931瀏覽 ? 0回復(fù)
使用本地部署的Hermes 2 Pro 構(gòu)建開放的LLM應(yīng)用程序

51CTO內(nèi)容精選 ? 2806瀏覽 ? 0回復(fù)
LLMs并非智能思考者：引入數(shù)學(xué)主題樹基準(zhǔn)來全面評(píng)估LLMs

AIRoobt ? 2649瀏覽 ? 0回復(fù)
Llama-3：利用微型基準(zhǔn)測(cè)試（井字游戲）評(píng)估大模型

Baihai_IDP ? 3077瀏覽 ? 0回復(fù)
難倒吳恩達(dá)的LLM評(píng)估，有解嗎？

ermulong ? 2654瀏覽 ? 0回復(fù)
蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！

51CTO技術(shù)棧 ? 2518瀏覽 ? 0回復(fù)
我們對(duì)OpenAI 模型進(jìn)行了軟件開發(fā)基準(zhǔn)測(cè)試評(píng)估

51CTO技術(shù)棧 ? 2537瀏覽 ? 0回復(fù)
大語言模型評(píng)估基準(zhǔn)數(shù)據(jù)泄露問題分析報(bào)告

芝士AI吃魚 ? 3031瀏覽 ? 0回復(fù)
字節(jié)跳動(dòng)AI研究院發(fā)布FullStack Bench和SandboxFusion：用于評(píng)估真實(shí)編程場(chǎng)景中LLM的綜合基準(zhǔn)測(cè)試工具

Halo咯咯 ? 3421瀏覽 ? 0回復(fù)
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 6303瀏覽 ? 0回復(fù)
你的LLM評(píng)估方法過時(shí)了嗎？這三個(gè)范式轉(zhuǎn)變不容錯(cuò)過

Baihai_IDP ? 2357瀏覽 ? 0回復(fù)
LLM Agent 協(xié)作評(píng)估難？這 3 款評(píng)估監(jiān)控工具來幫忙

Baihai_IDP ? 2662瀏覽 ? 0回復(fù)
挑戰(zhàn)LLM邏輯推理極限！新基準(zhǔn)TEXTGAMES能否揭開大模型的短板？

sbf_2000 ? 1939瀏覽 ? 0回復(fù)
LLM基準(zhǔn)測(cè)試過時(shí)了嗎？一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)

Halo咯咯 ? 1466瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM Inference 中的低精度陷阱：數(shù)值穩(wěn)定性和可復(fù)現(xiàn)性 7天前發(fā)布
NVIDIA：Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實(shí)踐 2025-06-13 06:57:47發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇： Excp & FastPersist：數(shù)十倍 LLM Checkpoint 保存加速和壓縮

下一篇： Imbue-70B 的 AI Infra：從0到1搭建和運(yùn)維4088 H100集群的最佳實(shí)踐

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：黄频视频 | 国产精品久久精品 | 国产99精品 | 岛国av免费观看 | 欧美jizzhd精品欧美巨大免费 | 日本精品一区二区三区视频 | 日屁网站 | 日本手机在线 | 成人在线一区二区三区 | 天天操夜夜拍 | 成人一区二区三区在线观看 | av手机免费在线观看 | 中文字幕亚洲精品 | 草比av| 亚洲成人一二三 | 久久不卡 | 97精品超碰一区二区三区 | 精品一区二区三区在线观看 | 日韩欧美手机在线 | 国产精品日日夜夜 | 91色视频在线观看 | 日韩中文一区二区三区 | 在线看黄免费 | 久久久久久久综合 | 国产精品久久久久久亚洲调教 | www.日韩| 国产一区二区精品 | 国产精品久久久久久久粉嫩 | 中文字幕亚洲一区二区三区 | 成人精品一区二区三区中文字幕 | 久草成人 | 久久精品国产亚洲一区二区三区 | 欧美特级黄色 | 欧美二区在线 | 精品国产欧美 | 一级电影免费看 | 欧美精品一区二区三区在线 | 日韩欧美一级精品久久 | 久久久蜜桃 | 综合久久av| 亚洲视频一区二区三区四区 |