成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型權威測試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區別對待

人工智能 新聞
此前MMLU原始版本早已經被各家大模型刷爆了,誰考都是高分,對前沿模型已經沒有了區分度。

大模型權威測試,翻車了?!

HuggingFace都在用的MMLU-PRO,被扒出評測方法更偏向閉源模型,被網友直接在GitHub Issue提出質疑。

圖片

此前MMLU原始版本早已經被各家大模型刷爆了,誰考都是高分,對前沿模型已經沒有了區分度

號稱更強大、更具挑戰線性多任務語言基準MMLU-Pro,成了業界對大模型性能的重要參考。

但結果沒想到的是,現在有人扒出其在采樣參數、系統提示和答案提取等方面設置不公平,存在一些令人震驚的差異。

隨便對系統提示詞做了個小修改,直接將開源陣營的Llama-3-8b-q8的性能提高了10分?!

圖片

emmm……就問大模型跑分到底還能不能信了?

被扒偏向閉源模型

這是源于Reddit上一位ML/AI愛好者的意外發現。

還特意做了個免責聲明,自己只是感興趣,并不是ML研究員(Doge)

圖片

出于好奇想了解它是如何工作的,于是檢查了原始repo中的代碼以及每個模型使用的提示和響應。

不看不知道,一看嚇一跳。

首先,他們不會對所有模型使用相同的參數。

圖片

其次,給每個大模型的Prompt差別也挺大啊喂?!

跟GPT-4o說:

您是知識專家,您應該回答多選題,得出最終答案為「答案是 ….」

跟GPT-4說:

以下是有關{主題}的選擇題(含答案)。請逐步思考,然后在最后以 “答案是 (X) ”作為輸出。

……
圖片

更離譜的是Claude3,沒有系統提示詞?!!!

此外,這位網友還發現,模型必須按照指令輸出準確的短語和格式,這點至關重要。

否則,模型的答案就不會被認可,而是會為模型隨機生成一個答案。

于是乎他進行了一個小小的測試。

通過調整系統提示,來強調格式的重要性,結果模型分數顯著提高。

比如給llama-3-8b-q8說了這些話,結果它在一些類別中得分提高了10分以上。

圖片

作為一名知識淵博的專家,你的任務是回答只有一個正確答案的多項選擇題。清楚地解釋你對每道題的思考過程,提供全面、逐步的推理,說明你是如何得出最終答案的。如果沒有一個選項完全符合,請選擇最接近的一個。用準確的短語和格式結束每個回答至關重要: 答案是 (X),其中 X 代表字母選項,即使選擇最接近的選項也是如此。

此外對各個模型答案提取regex也不一樣。

圖片

此事一出,大家一片嘩然。他去團隊GitHub頁面底下反應,也得到了官方回復。

官方回應:對結果影響不超過1%

大概有這么幾個意思。

首先,關于采樣參數和系統提示,我們建議使用我們 git 倉庫中的 evaluate_from_api.py 和 evaluate_from_local.py,因為這些設置與我們論文中報告的結果一致。

至于像那些閉源模型的結果,因為是不同合作者同時運行的,所以會有些細微差別。

不過他們表示,有進行抽樣測試,發現對結果的影響很小,不超過 1%。

另外,他們在論文中還強調了 MMLU-Pro 的魯棒性,因此從節約成本的角度出發,我們選擇了不重新運行所有項目。

對于答案提取regex問題,團隊承認:這的確是一個重要問題。

因為像 GPT-4o 和 Gemini 這樣的高性能模型來說,影響微乎其微。但對于較小規模的模型來說,影響可能會更大。

他們正計劃引入召回率更高的答案提取詞法,并將相應地進行標準化和重新提取答案。

此前還被爆出MMLU-Pro以數學為主

今年5月,來自滑鐵盧大模型老虎實驗室陳文虎團隊推出MMLU-Pro版。

當時強調它主要有這些特點:

1、隨機猜測的空間更小。Pro版使用 10 個選項而不是 4 個選項。

2、更復雜:MMLU-Pro 添加了更多不同學科的大學水平問題,共計12K個問題。

3、MMLU-Pro 更穩健,對不同提示的敏感度更低。

結果 GPT-4o(71%)實際上比 GPT-4-turbo(62%)提高了 9%在原始 MMLU 上,改進只有 2% 左右。

圖片

但使用之后發現,有人反饋說MMLU-Pro以數學能力為主,但此前MMLU的價值在于知識和推理。

很多問題都需要多步驟的思維鏈CoT推理來解決應用數學問題。

這樣的話對大模型來說太難了,大部分都集中在低端,這樣評估也就沒有意義。

圖片

好了對于這件事你怎么看呢?

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-06-05 12:32:48

模型論文

2010-04-25 23:11:23

負載均衡設置

2023-09-02 20:19:10

2012-12-14 11:00:02

VDI桌面虛擬化

2023-07-05 09:57:11

2023-06-08 08:09:43

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-06-17 07:46:01

2009-04-01 14:38:36

聯通勞務正式工

2015-02-12 09:29:48

2023-11-13 19:35:12

訓練數據

2024-06-24 17:45:16

2024-04-25 16:56:14

GPT-4大模型人工智能

2024-02-26 13:48:00

模型數據

2023-12-26 08:17:23

微軟GPT-4

2023-06-27 13:37:17

谷歌AI

2025-03-11 08:42:04

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人99久久亚洲综合精品 | 色999日韩 | 日韩一区二区三区在线播放 | 久久久日韩精品一区二区三区 | 亚洲啊v| 91成人精品 | 97久久精品午夜一区二区 | 四虎最新视频 | 成在线人视频免费视频 | 夜夜操天天操 | 欧美成人黄色小说 | 青青操av| 欧美老少妇一级特黄一片 | jlzzjlzz国产精品久久 | 亚洲精选久久 | 色永久 | 久色激情 | 成人性视频免费网站 | 亚洲精品视频网站在线观看 | 狠狠撸在线视频 | av片免费观看 | 欧美国产精品一区二区三区 | 欧美性jizz18性欧美 | 亚洲国产成人精品女人久久久 | 久久aⅴ乱码一区二区三区 91综合网 | 久久精品免费观看 | 黄色一级大片在线免费看产 | 亚洲一区二区三区四区五区中文 | 亚洲成人av| 亚洲综合一区二区三区 | 一区二区三区视频在线 | 免费xxxx大片国产在线 | 91n成人| 在线视频亚洲 | 国产视频二区在线观看 | 99pao成人国产永久免费视频 | 精品av| 免费激情av| 欧美不卡一区二区三区 | 91精品国产综合久久久密闭 | 狠狠色狠狠色综合系列 |