成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新測試基準(zhǔn)發(fā)布,最強開源Llama 3尷尬了

人工智能
隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發(fā)布,業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測試。大模型競技場背后組織LMSYS推出下一代基準(zhǔn)測試Arena-Hard,引起廣泛關(guān)注。

如果試題太簡單,學(xué)霸和學(xué)渣都能考90分,拉不開差距……

隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發(fā)布,業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測試。

大模型競技場背后組織LMSYS推出下一代基準(zhǔn)測試Arena-Hard,引起廣泛關(guān)注。

Llama 3的兩個指令微調(diào)版本實力到底如何,也有了最新參考。

圖片

與之前大家分?jǐn)?shù)都相近的MT Bench相比,Arena-Hard區(qū)分度從22.6%提升到87.4%,孰強孰弱一目了然。

Arena-Hard利用競技場實時人類數(shù)據(jù)構(gòu)建,與人類偏好一致率也高達(dá)89.1%。

除了上面兩個指標(biāo)都達(dá)到SOTA之外,還有一個額外的好處:

實時更新的測試數(shù)據(jù)包含人類新想出的、AI在訓(xùn)練階段從未見過的提示詞,減輕潛在的數(shù)據(jù)泄露。

并且新模型發(fā)布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可得到結(jié)果。

有網(wǎng)友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。

圖片

新基準(zhǔn)測試如何運作?

簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質(zhì)量提示詞作為測試集。

首先,挑選過程中確保多樣性,也就是測試集應(yīng)涵蓋廣泛的現(xiàn)實世界話題。

為了確保這一點,團(tuán)隊采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉(zhuǎn)換每個提示,使用 UMAP 降低維度,并使用基于層次結(jié)構(gòu)的模型聚類算法 (HDBSCAN) 來識別聚類,最后使用GPT-4-turbo進(jìn)行匯總。

圖片

同時確保入選的提示詞具有高質(zhì)量,有七個關(guān)鍵指標(biāo)來衡量:

  • 具體性:提示詞是否要求特定的輸出?
  • 領(lǐng)域知識:提示詞是否涵蓋一個或多個特定領(lǐng)域?
  • 復(fù)雜性:提示詞是否有多層推理、組成部分或變量?
  • 解決問題:提示詞是否直接讓AI展示主動解決問題的能力?
  • 創(chuàng)造力:提示詞是否涉及解決問題的一定程度的創(chuàng)造力?
  • 技術(shù)準(zhǔn)確性:提示詞是否要求響應(yīng)具有技術(shù)準(zhǔn)確性?
  • 實際應(yīng)用:提示詞是否與實際應(yīng)用相關(guān)?

圖片

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進(jìn)行從 0 到 7 的注釋,判斷滿足多少個條件。然后根據(jù)提示的平均得分給每個聚類評分。

高質(zhì)量的問題通常與有挑戰(zhàn)性的話題或任務(wù)相關(guān),比如游戲開發(fā)或數(shù)學(xué)證明。

新基準(zhǔn)測試準(zhǔn)嗎?

Arena-Hard目前還有一個弱點:使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應(yīng)提示。

可以看出,最新兩個版本的GPT-4分?jǐn)?shù)高過Claude 3 Opus一大截,但在人類投票分?jǐn)?shù)中差距并沒有那么明顯。

圖片

其實關(guān)于這一點,最近已經(jīng)有研究論證,前沿模型都會偏好自己的輸出。

圖片

研究團(tuán)隊還發(fā)現(xiàn),AI天生就可以判斷出一段文字是不是自己寫的,經(jīng)過微調(diào)后自我識別的能力還能增強,并且自我識別能力與自我偏好線性相關(guān)。

圖片

那么使用Claude 3來打分會使結(jié)果產(chǎn)生什么變化?LMSYS也做了相關(guān)實驗。

首先,Claude系列的分?jǐn)?shù)確實會提高。

圖片

但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。

總體而言,使用Claude 3打分的區(qū)分度和與人類結(jié)果的一致性都不如GPT-4。

圖片

所以也有很多網(wǎng)友建議,使用多個大模型來綜合打分。

圖片

除此之外,團(tuán)隊還做了更多消融實驗來驗證新基準(zhǔn)測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分?jǐn)?shù)確實會提高。

但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分?jǐn)?shù)提升就不明顯。

圖片

此外在實驗過程中還有很多有意思的發(fā)現(xiàn)。

比如GPT-4來打分非常嚴(yán)格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。

對于代碼問題,Claude 3傾向于提供簡單結(jié)構(gòu)、不依賴外部代碼庫,能幫助人類學(xué)習(xí)編程的答案;而GPT-4-Turbo更傾向最實用的答案,不管其教育價值如何。

另外即使設(shè)置溫度為0,GPT-4-Turbo也可能產(chǎn)生略有不同的判斷。

從層次結(jié)構(gòu)可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質(zhì)量和多樣性確實是高。

圖片

這里面也許就有你的貢獻(xiàn)。

Arena-Hard GitHub:https://github.com/lm-sys/arena-hard
Arena-Hard HuggingFace:https://huggingface.co/spaces/lmsys/arena-hard-browser
大模型競技場:https://arena.lmsys.org

參考鏈接:

[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04-19-arena-hard/

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-04-30 08:28:44

開源大模型Llama

2024-09-14 09:31:00

2024-11-12 14:00:00

AI編程

2023-09-07 13:25:00

AI模型

2024-08-16 14:00:00

2024-07-02 09:20:59

2024-12-27 11:13:16

2024-02-22 10:09:00

開源模型

2025-04-14 09:17:00

2025-03-07 09:57:01

2012-08-23 10:30:09

JavaScript

2024-07-25 13:48:58

2017-12-01 08:53:28

機器學(xué)習(xí)大數(shù)據(jù)物聯(lián)網(wǎng)

2024-12-31 12:35:46

2024-10-29 14:45:00

人工智能開源

2024-08-13 13:11:02

2025-04-15 08:00:00

LMArenaLlama 4大模型

2024-02-01 13:03:00

AI模型

2024-08-30 14:35:00

2024-04-19 07:55:57

Llama 3模型人工智能開源
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久99精品视频 | 亚洲乱码国产乱码精品精的特点 | 日韩中文字幕一区二区三区 | www.色五月.com | 日本精品视频在线观看 | 亚洲欧美日韩一区二区 | 日韩视频一区二区三区 | 欧美在线一区二区三区 | 在线亚洲一区二区 | 欧美一级α片 | 精精国产xxxx视频在线野外 | 亚洲精品视频免费 | 欧美精品一区在线发布 | 国产情侣在线看 | 亚洲欧美一区二区三区国产精品 | 国产激情91久久精品导航 | 亚洲一区 中文字幕 | 欧美在线视频一区二区 | av永久| 亚洲精品久久久 | 龙珠z在线观看 | 亚洲成人中文字幕 | 国久久 | 日本一区不卡 | 三级视频网站 | 国产精品视频在线观看 | 国产美女福利在线观看 | 亚洲成人播放器 | 亚洲精品一区二区三区 | 午夜精品网站 | 久久久精品日本 | 在线成人免费av | 欧美久久久久久 | 99久久精品免费看国产小宝寻花 | 国产精品mv在线观看 | 欧美一级毛片在线播放 | 完全免费在线视频 | 成人在线a | 国产精品久久久久久久 | 久久久爽爽爽美女图片 | 天天干天天色 |