MMLU-Pro:新的 LLM 評(píng)估基準(zhǔn)
一、背景
上一篇文章(???LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎???)我們簡(jiǎn)單匯總了一些常見的 LLM 評(píng)估指標(biāo),以及在收集這些指標(biāo)時(shí)遇到的問題。最近在看 [2405.19327] MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series 時(shí)發(fā)現(xiàn)其提到了 MMLU-Pro 評(píng)估集,之前沒有接觸到,與此同時(shí)又正好看到了對(duì)應(yīng)的 Paper,這里簡(jiǎn)單進(jìn)行介紹。MAP-Neo 和 MMLU-Pro 的部分作者是相同的。
對(duì)應(yīng)的 Paper:[2406.01574] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
對(duì)應(yīng)的數(shù)據(jù)集:TIGER-Lab/MMLU-Pro · Datasets at Hugging Face
對(duì)應(yīng)的 Leaderboard:MMLU Pro - a Hugging Face Space by TIGER-Lab
二、摘要
在 LLM 的發(fā)展歷程中,MMLU 這樣的基準(zhǔn)測(cè)試在推動(dòng) AI 在不同領(lǐng)域的語言理解和推理方面起到關(guān)鍵作用。然而,隨著模型的不斷改進(jìn),這些基準(zhǔn)測(cè)試的性能開始趨于穩(wěn)定,辨別不同模型能力的差異變得越來越困難。
因此作者創(chuàng)建了 MMLU-Pro,這是一個(gè)增強(qiáng)的數(shù)據(jù)集,旨在集成更具挑戰(zhàn)性、以推理為主的問題,并將多項(xiàng)選擇的選項(xiàng)從 4 個(gè)擴(kuò)展到 10 個(gè),以此來擴(kuò)展廣泛使用的 MMLU 基準(zhǔn)。作者從 MMLU中刪除了不重要問題和噪聲問題。
實(shí)驗(yàn)表明,與 MMLU 相比,MMLU-Pro 進(jìn)一步降低了不同模型的精度指標(biāo),還擴(kuò)大了差距,各個(gè)模型的 MMLU-Pro 精度指標(biāo)相比 MMLU 下降 16%-33%;此外,也在不同的提示下表現(xiàn)出更高的穩(wěn)定性。通過測(cè)試 24 中不同風(fēng)格的 Prompt,模型分?jǐn)?shù)對(duì) Prompt 變化的敏感性從 MMLU 的 4%-5% 下降到 MMLU-Pro 的 2%。最后,作者發(fā)現(xiàn)使用 CoT(思維鏈) 推理與直接回答相比,模型在 MMLU-Pro 上取得了更好的性能,這與原始 MMLU 中的表現(xiàn)形成鮮明對(duì)比,表明 MMLU-Pro 包含更復(fù)雜的推理問題。
三、引言
3.1 指標(biāo)區(qū)分度
我們?cè)谥暗奈恼轮惺崂砹烁鞣N LLM 評(píng)估指標(biāo),可以發(fā)現(xiàn)很多模型在 MMLU,GSM-8K,BBH,HellaSwag 和 ARC-C 上的指標(biāo)已經(jīng)很高,尤其是 Top 的模型。如下圖所示,其中 MMLU、HellaSwag,ARC-C 以及 GSM-8K 尤其明顯,很多指標(biāo)都到了 90 左右:
3.2 評(píng)估穩(wěn)定性
在 DeepSeek-V2([2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model)中,作者使用內(nèi)部評(píng)估工具進(jìn)行評(píng)估,其部分指標(biāo)和其它論文中看到的不一致,有些甚至差距很大,這也就導(dǎo)致很難進(jìn)行公平的比較。出現(xiàn)這種問題很可能是配置未對(duì)齊,比如使用了不同的 Prompt:
四、MMLU-Pro 數(shù)據(jù)集
4.1 概述
如下圖 Figure 3 所示,新的 MMLU-Pro 數(shù)據(jù)集包含 14 個(gè)子集,總共 12032 個(gè)問題,左圖為各個(gè)子集的占比。右圖為各個(gè)數(shù)據(jù)集的來源,可以看出,56.5% 的問題來源于原始的 MMLU 數(shù)據(jù)集,然后又從 STEM Website、TheoremQA 和 Scibench 中收集了一部分?jǐn)?shù)據(jù)。
3.2 數(shù)據(jù)集構(gòu)建
MMLU-Pro 數(shù)據(jù)集的收集過程如下圖 Figure 2 所示,主要包含如下幾個(gè)步驟:
3.2.1 Initial Filtering
原始的 MMLU 數(shù)據(jù)集包含 57 個(gè)主題,作者將其合并到 14 個(gè)。然后使用 8 個(gè)小模型來評(píng)估(LLaMA2-7B、LLaMA2-7B-Chat、LLaMA2-13B、LLaMA2-13B-Chat、Mistral-7B、Gemma-7B、Yi-6B 和 Yi-6B-Chat),如果超過 4 個(gè)模型回答正確,則認(rèn)為相應(yīng)的問題太簡(jiǎn)單,從數(shù)據(jù)集刪除。經(jīng)過該步驟總共過濾掉 5886 個(gè)問題,具體如下圖 Table 4 所示:
3.2.2 Question Collection and Integration
為了擴(kuò)充數(shù)據(jù)集,作者從 STEM Website(Index of /subjects)、TheoremQA 和 SciBench 中收集了一部分?jǐn)?shù)據(jù)。然后使用 GPT-4 Turbo 對(duì)上述數(shù)據(jù)進(jìn)行了整理,以便與 MMLU 中過濾的數(shù)據(jù)保持一致,同時(shí)作者也進(jìn)行了必要的人工校驗(yàn),以刪除 GPT-4 Turbo 處理異常的問題。
3.2.3 Option Augmentation
上述問題都是多項(xiàng)選擇題,有 4 個(gè)選項(xiàng)。作者使用 GPT-4 Turbo 對(duì)問題進(jìn)行了擴(kuò)展,將 4 個(gè)選項(xiàng)擴(kuò)展為 10 個(gè)選項(xiàng)。這些新增的選項(xiàng)也具有一定的迷惑性,可以幫助識(shí)別模型的推理能力,降低模型猜對(duì)的可能性,因此也使得評(píng)估更加魯棒。此外,作者也進(jìn)一步通過實(shí)驗(yàn)驗(yàn)證,使用 GPT-4 Turbo 來擴(kuò)展并不會(huì)使得這個(gè)評(píng)估對(duì) GPT-4 Turbo 更有利。
3.2.4 Expert Review
Expert Review 包含兩個(gè)階段:
- 驗(yàn)證答案的正確性,并刪除不適合作為多項(xiàng)選擇題的問題,或者缺乏必要文本信息的問題,比如包含圖片,表格。
- 使用 Gemini-1.5-Pro 重新評(píng)估所有答案選項(xiàng)來識(shí)別 false negative,也就是正確答案被標(biāo)記為錯(cuò)誤答案的情況。并且會(huì)使用人類專家來嚴(yán)格審查這些問題。
如下圖 Table 1 所示為篩選出來的問題:
- Incorrect Answer:答案錯(cuò)誤的情況。主要來源為 MMLU 中本身答案是錯(cuò)誤,以及 STEM Website 中錯(cuò)誤提取。
- False Negative Options:這個(gè)問題主要來源為將單個(gè)答案問題轉(zhuǎn)換為 4 個(gè)選項(xiàng),以及 4 個(gè)選項(xiàng)進(jìn)一步擴(kuò)展為 10 個(gè)選項(xiàng)的階段。通過專家 Review 會(huì)刪除 False Negative 的選項(xiàng),因此最終 83% 的問題有 10 個(gè)選項(xiàng),17% 的問題選項(xiàng)少于 10 個(gè),平均有 9.47 個(gè)選項(xiàng)。
- Bad Questions:比如不包含文本信息,缺乏文本信息,或者開放性問題。?
如下圖 Table 5 所示為最終問題的分布:
五、實(shí)驗(yàn)
5.1 Few-Shot CoT 評(píng)估
如下圖 Table 2 所示,作者基于提出的 MMLU-Pro 評(píng)估了常見的 LLM(除了 Gemini-1.5 Pro 和 Gemini-1.5-Flash 為 0-shot 外,其它都是 5-shot,并且都用了 CoT)??梢钥闯?,閉源模型相比開源模型還是有比較明顯的優(yōu)勢(shì),其中 GPT-4o 性能最優(yōu),而在開源模型中,LLaMA-3-70B-Instruct 性能最優(yōu):
5.2 與 MMLU 對(duì)比
如下圖 Figure 4 所示,作者對(duì)比了同樣模型在 MMLU-Pro 和 MMLU 上的指標(biāo)??梢钥闯鲈?MMLU-Pro 上的精度明顯低于 MMLU,并且在 MMLU-Pro 上的區(qū)分度更大,這也證明 MMLU-Pro 更加有挑戰(zhàn):
如下圖所示為我們收集到的一些對(duì)比數(shù)據(jù):
5.3 不同 Prompt 的影響
如下圖 Figure 5 所示,作者進(jìn)一步在 MMLU 和 MMLU-Pro 上驗(yàn)證了不同 Prompt 對(duì)評(píng)估結(jié)果的影響,可以看出在 MMLU-Pro 上的評(píng)估差異更小,也證明其評(píng)估集更加魯棒:
5.3 CoT 的影響
如下圖 Table 3 所示,作者進(jìn)一步在 MMLU 和 MMLU-Pro 上驗(yàn)證了直接問答以及使用 CoT 的差異,可以看出,在 MMLU-Pro 上使用 CoT 和不使用 CoT 的差異更大,可以證明 MMLU-Pro 數(shù)據(jù)集需要更強(qiáng)的推理能力:
六、參考鏈接
- ???https://arxiv.org/abs/2405.19327???
- ???https://arxiv.org/abs/2406.01574???
- ???https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro???
- ???https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro???
- ???https://arxiv.org/abs/2405.04434???
- ???https://stemez.com/subjects???
本文轉(zhuǎn)載自 ??AI閑談??,作者: AI閑談
