成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)

發(fā)布于 2024-7-8 08:04
瀏覽
0收藏

一、背景

上一篇文章(???LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎???)我們簡(jiǎn)單匯總了一些常見的 LLM 評(píng)估指標(biāo),以及在收集這些指標(biāo)時(shí)遇到的問題。最近在看 [2405.19327] MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series 時(shí)發(fā)現(xiàn)其提到了 MMLU-Pro 評(píng)估集,之前沒有接觸到,與此同時(shí)又正好看到了對(duì)應(yīng)的 Paper,這里簡(jiǎn)單進(jìn)行介紹。MAP-Neo 和 MMLU-Pro 的部分作者是相同的。

對(duì)應(yīng)的 Paper:[2406.01574] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

對(duì)應(yīng)的數(shù)據(jù)集:TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

對(duì)應(yīng)的 Leaderboard:MMLU Pro - a Hugging Face Space by TIGER-Lab

二、摘要

在 LLM 的發(fā)展歷程中,MMLU 這樣的基準(zhǔn)測(cè)試在推動(dòng) AI 在不同領(lǐng)域的語言理解和推理方面起到關(guān)鍵作用。然而,隨著模型的不斷改進(jìn),這些基準(zhǔn)測(cè)試的性能開始趨于穩(wěn)定,辨別不同模型能力的差異變得越來越困難。

因此作者創(chuàng)建了 MMLU-Pro,這是一個(gè)增強(qiáng)的數(shù)據(jù)集,旨在集成更具挑戰(zhàn)性、以推理為主的問題,并將多項(xiàng)選擇的選項(xiàng)從 4 個(gè)擴(kuò)展到 10 個(gè),以此來擴(kuò)展廣泛使用的 MMLU 基準(zhǔn)。作者從 MMLU中刪除了不重要問題和噪聲問題。

實(shí)驗(yàn)表明,與 MMLU 相比,MMLU-Pro 進(jìn)一步降低了不同模型的精度指標(biāo),還擴(kuò)大了差距,各個(gè)模型的 MMLU-Pro 精度指標(biāo)相比 MMLU 下降 16%-33%;此外,也在不同的提示下表現(xiàn)出更高的穩(wěn)定性。通過測(cè)試 24 中不同風(fēng)格的 Prompt,模型分?jǐn)?shù)對(duì) Prompt 變化的敏感性從 MMLU 的 4%-5% 下降到 MMLU-Pro 的 2%。最后,作者發(fā)現(xiàn)使用 CoT(思維鏈) 推理與直接回答相比,模型在 MMLU-Pro 上取得了更好的性能,這與原始 MMLU 中的表現(xiàn)形成鮮明對(duì)比,表明 MMLU-Pro 包含更復(fù)雜的推理問題。

三、引言

3.1 指標(biāo)區(qū)分度

我們?cè)谥暗奈恼轮惺崂砹烁鞣N LLM 評(píng)估指標(biāo),可以發(fā)現(xiàn)很多模型在 MMLU,GSM-8K,BBH,HellaSwag 和 ARC-C 上的指標(biāo)已經(jīng)很高,尤其是 Top 的模型。如下圖所示,其中 MMLU、HellaSwag,ARC-C 以及 GSM-8K 尤其明顯,很多指標(biāo)都到了 90 左右:

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2 評(píng)估穩(wěn)定性

在 DeepSeek-V2([2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model)中,作者使用內(nèi)部評(píng)估工具進(jìn)行評(píng)估,其部分指標(biāo)和其它論文中看到的不一致,有些甚至差距很大,這也就導(dǎo)致很難進(jìn)行公平的比較。出現(xiàn)這種問題很可能是配置未對(duì)齊,比如使用了不同的 Prompt:

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

四、MMLU-Pro 數(shù)據(jù)集

4.1 概述

如下圖 Figure 3 所示,新的 MMLU-Pro 數(shù)據(jù)集包含 14 個(gè)子集,總共 12032 個(gè)問題,左圖為各個(gè)子集的占比。右圖為各個(gè)數(shù)據(jù)集的來源,可以看出,56.5% 的問題來源于原始的 MMLU 數(shù)據(jù)集,然后又從 STEM Website、TheoremQA 和 Scibench 中收集了一部分?jǐn)?shù)據(jù)。

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2 數(shù)據(jù)集構(gòu)建

MMLU-Pro 數(shù)據(jù)集的收集過程如下圖 Figure 2 所示,主要包含如下幾個(gè)步驟:

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2.1 Initial Filtering

原始的 MMLU 數(shù)據(jù)集包含 57 個(gè)主題,作者將其合并到 14 個(gè)。然后使用 8 個(gè)小模型來評(píng)估(LLaMA2-7B、LLaMA2-7B-Chat、LLaMA2-13B、LLaMA2-13B-Chat、Mistral-7B、Gemma-7B、Yi-6B 和 Yi-6B-Chat),如果超過 4 個(gè)模型回答正確,則認(rèn)為相應(yīng)的問題太簡(jiǎn)單,從數(shù)據(jù)集刪除。經(jīng)過該步驟總共過濾掉 5886 個(gè)問題,具體如下圖 Table 4 所示:

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

3.2.2 Question Collection and Integration

為了擴(kuò)充數(shù)據(jù)集,作者從 STEM Website(Index of /subjects)、TheoremQA 和 SciBench 中收集了一部分?jǐn)?shù)據(jù)。然后使用 GPT-4 Turbo 對(duì)上述數(shù)據(jù)進(jìn)行了整理,以便與 MMLU 中過濾的數(shù)據(jù)保持一致,同時(shí)作者也進(jìn)行了必要的人工校驗(yàn),以刪除 GPT-4 Turbo 處理異常的問題。

3.2.3 Option Augmentation

上述問題都是多項(xiàng)選擇題,有 4 個(gè)選項(xiàng)。作者使用 GPT-4 Turbo 對(duì)問題進(jìn)行了擴(kuò)展,將 4 個(gè)選項(xiàng)擴(kuò)展為 10 個(gè)選項(xiàng)。這些新增的選項(xiàng)也具有一定的迷惑性,可以幫助識(shí)別模型的推理能力,降低模型猜對(duì)的可能性,因此也使得評(píng)估更加魯棒。此外,作者也進(jìn)一步通過實(shí)驗(yàn)驗(yàn)證,使用 GPT-4 Turbo 來擴(kuò)展并不會(huì)使得這個(gè)評(píng)估對(duì) GPT-4 Turbo 更有利。

3.2.4 Expert Review

Expert Review 包含兩個(gè)階段:

  • 驗(yàn)證答案的正確性,并刪除不適合作為多項(xiàng)選擇題的問題,或者缺乏必要文本信息的問題,比如包含圖片,表格。
  • 使用 Gemini-1.5-Pro 重新評(píng)估所有答案選項(xiàng)來識(shí)別 false negative,也就是正確答案被標(biāo)記為錯(cuò)誤答案的情況。并且會(huì)使用人類專家來嚴(yán)格審查這些問題。

如下圖 Table 1 所示為篩選出來的問題:

  • Incorrect Answer:答案錯(cuò)誤的情況。主要來源為 MMLU 中本身答案是錯(cuò)誤,以及 STEM Website 中錯(cuò)誤提取。
  • False Negative Options:這個(gè)問題主要來源為將單個(gè)答案問題轉(zhuǎn)換為 4 個(gè)選項(xiàng),以及 4 個(gè)選項(xiàng)進(jìn)一步擴(kuò)展為 10 個(gè)選項(xiàng)的階段。通過專家 Review 會(huì)刪除 False Negative 的選項(xiàng),因此最終 83% 的問題有 10 個(gè)選項(xiàng),17% 的問題選項(xiàng)少于 10 個(gè),平均有 9.47 個(gè)選項(xiàng)。
  • Bad Questions:比如不包含文本信息,缺乏文本信息,或者開放性問題。?

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

如下圖 Table 5 所示為最終問題的分布:

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

五、實(shí)驗(yàn)

5.1 Few-Shot CoT 評(píng)估

如下圖 Table 2 所示,作者基于提出的 MMLU-Pro 評(píng)估了常見的 LLM(除了 Gemini-1.5 Pro 和 Gemini-1.5-Flash 為 0-shot 外,其它都是 5-shot,并且都用了 CoT)??梢钥闯?,閉源模型相比開源模型還是有比較明顯的優(yōu)勢(shì),其中 GPT-4o 性能最優(yōu),而在開源模型中,LLaMA-3-70B-Instruct 性能最優(yōu):

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

5.2 與 MMLU 對(duì)比

如下圖 Figure 4 所示,作者對(duì)比了同樣模型在 MMLU-Pro 和 MMLU 上的指標(biāo)??梢钥闯鲈?MMLU-Pro 上的精度明顯低于 MMLU,并且在 MMLU-Pro 上的區(qū)分度更大,這也證明 MMLU-Pro 更加有挑戰(zhàn):

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

如下圖所示為我們收集到的一些對(duì)比數(shù)據(jù):

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

5.3 不同 Prompt 的影響

如下圖 Figure 5 所示,作者進(jìn)一步在 MMLU 和 MMLU-Pro 上驗(yàn)證了不同 Prompt 對(duì)評(píng)估結(jié)果的影響,可以看出在 MMLU-Pro 上的評(píng)估差異更小,也證明其評(píng)估集更加魯棒:

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

5.3 CoT 的影響

如下圖 Table 3 所示,作者進(jìn)一步在 MMLU 和 MMLU-Pro 上驗(yàn)證了直接問答以及使用 CoT 的差異,可以看出,在 MMLU-Pro 上使用 CoT 和不使用 CoT 的差異更大,可以證明 MMLU-Pro 數(shù)據(jù)集需要更強(qiáng)的推理能力:

MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)-AI.x社區(qū)

六、參考鏈接

  1. ???https://arxiv.org/abs/2405.19327???
  2. ???https://arxiv.org/abs/2406.01574???
  3. ???https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro???
  4. ???https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro???
  5. ???https://arxiv.org/abs/2405.04434???
  6. ???https://stemez.com/subjects???

本文轉(zhuǎn)載自 ??AI閑談??,作者: AI閑談

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 黄频视频 | 国产精品久久精品 | 国产99精品 | 岛国av免费观看 | 欧美jizzhd精品欧美巨大免费 | 日本精品一区二区三区视频 | 日屁网站 | 日本手机在线 | 成人在线一区二区三区 | 天天操夜夜拍 | 成人一区二区三区在线观看 | av手机免费在线观看 | 中文字幕亚洲精品 | 草比av| 亚洲成人一二三 | 久久不卡 | 97精品超碰一区二区三区 | 精品一区二区三区在线观看 | 日韩欧美手机在线 | 国产精品日日夜夜 | 91色视频在线观看 | 日韩中文一区二区三区 | 在线看黄免费 | 久久久久久久综合 | 国产精品久久久久久亚洲调教 | www.日韩| 国产一区二区精品 | 国产精品久久久久久久粉嫩 | 中文字幕亚洲一区二区三区 | 成人精品一区二区三区中文字幕 | 久草成人 | 久久精品国产亚洲一区二区三区 | 欧美特级黄色 | 欧美二区在线 | 精品国产欧美 | 一级电影免费看 | 欧美精品一区二区三区在线 | 日韩欧美一级精品久久 | 久久久蜜桃 | 综合久久av| 亚洲视频一区二区三区四区 |