成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五

發(fā)布于 2024-4-23 13:42
瀏覽
0收藏

關(guān)于Llama 3,又有測試結(jié)果新鮮出爐——


大模型評測社區(qū)LMSYS發(fā)布了一份大模型排行榜單,Llama 3位列第五,英文單項與GPT-4并列第一。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

不同于其他Benchmark,這份榜單的依據(jù)是模型一對一battle,由全網(wǎng)測評者自行命題并打分。


最終,Llama 3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude 3超大杯Opus。


而在英文單項榜單中,Llama 3反超了Claude,與GPT-4打成了平手。


對于這一結(jié)果,Meta的首席科學(xué)家LeCun十分高興,轉(zhuǎn)發(fā)了推文并留下了一個“Nice”。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

PyTorch之父Soumith Chintala也激動地表示,這樣的成果令人難以置信,對Meta感到驕傲。

Llama 3的400B版本還沒出來,單靠70B參數(shù)就獲得了第五名……
我還記得去年三月GPT-4發(fā)布的時候,達(dá)到與之相同的表現(xiàn)幾乎是一件不可能的事。
……
現(xiàn)在AI的普及化實在是令人難以置信,我對Meta AI的同仁們做出這樣的成功感到非常驕傲。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

那么,這份榜單具體展示了什么樣的結(jié)果呢?

近90個模型對戰(zhàn)75萬輪

截至最新榜單發(fā)布,LMSYS共收集了近75萬次大模型solo對戰(zhàn)結(jié)果,涉及的模型達(dá)到了89款。

其中,Llama 3參與過的有1.27萬次,GPT-4則有多個不同版本,最多的參與了6.8萬次。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

下面這張圖展示了部分熱門模型的比拼次數(shù)和勝率,圖中的兩項指標(biāo)都沒有統(tǒng)計平局的次數(shù)。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

榜單方面,LMSYS分成了總榜和多個子榜單,GPT-4-Turbo位列第一,與之并列的是早一些的1106版本,以及Claude 3超大杯Opus。


另一個版本(0125)的GPT-4則位列其后,緊接著就是Llama 3了。


不過比較有意思的是,較新一些的0125,表現(xiàn)還不如老版本1106。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

而在英文單項榜單中,Llama 3的成績直接和兩款GPT-4打成了平手,還反超了0125版本。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

中文能力排行榜的第一名則由Claude 3 Opus和GPT-4-1106共享,Llama 3則已經(jīng)排到了20名開外。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

除了語言能力之外,榜單中還設(shè)置了長文本和代碼能力排名,Llama 3也都名列前茅。


不過,LMSYS的“游戲規(guī)則”又具體是什么樣的呢?

人人都可參與的大模型評測

這是一個人人都可以參與的大模型測試,題目和評價標(biāo)準(zhǔn),都由參與者自行決定。


而具體的“競技”過程,又分成了battle和side-by-side兩種模式。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

battle模式下,在測試界面輸入好問題之后,系統(tǒng)會隨機(jī)調(diào)用庫中的兩個模型,而測試者并不知道系統(tǒng)到底抽中了誰,界面中只顯示“模型A”和“模型B”。


在模型輸出答案后,測評人需要選擇哪個更好,或者是平手,當(dāng)然如果模型的表現(xiàn)都不符合預(yù)期,也有相應(yīng)的選項。


只有在做出選擇之后,模型的身份才會被揭開。


side-by-side則是由用戶選擇指定的模型來PK,其余測試流程與battle模式相同

不過,只有battle的匿名模式下的投票結(jié)果才會被統(tǒng)計,且在對話過程中模型不小心暴露身份就會導(dǎo)致結(jié)果失效。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

按照各個模型對其他模型的Win Rate,可以繪制出這樣的圖像:

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

△示意圖,較早版本

而最終的排行榜,是利用Win Rate數(shù)據(jù),通過Elo評價系統(tǒng)換算成分?jǐn)?shù)得到的。


Elo評價系統(tǒng)是一種計算玩家相對技能水平的方法,由美國物理學(xué)教授Arpad Elo設(shè)計。


具體到LMSYS,在初始條件下,所有模型的評分(R)都被設(shè)定為1000,然后根據(jù)這樣的公式計算出期待勝率(E)。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

隨著測試的不斷進(jìn)行,會根據(jù)實際得分(S)對評分進(jìn)行修正,S有1、0和0.5三種取值,分別對應(yīng)獲勝、失敗和平手三種情況。


修正算法如下式所示,其中K為系數(shù),需要測試者根據(jù)實際情況調(diào)整。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

最終將所有有效數(shù)據(jù)納入計算后,就得到了模型的Elo評分。


不過實際操作過程中,LMSYS團(tuán)隊發(fā)現(xiàn)這種算法的穩(wěn)定性存在不足,于是又采用了統(tǒng)計學(xué)方法進(jìn)行了修正。


他們利用Bootstrap方法進(jìn)行重復(fù)采樣,得到了更穩(wěn)定的結(jié)果,并估計了置信度區(qū)間。


最終修正后的Elo評分,就成了榜單中的排列依據(jù)。

One More Thing

Llama 3已經(jīng)可以在大模型推理平臺Groq(不是馬斯克的Grok)上跑了。


這個平臺的最大亮點就是“快”,之前用Mixtral模型跑出過每秒近500 token的速度。


跑起Llama 3,也是相當(dāng)迅速,實測70B可以跑到每秒約300 Token,8B版本更是接近了800。

大模型一對一戰(zhàn)斗75萬輪,GPT-4奪冠,Llama 3位列第五-AI.x社區(qū)

本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/ulo0CiwMvmnE90JsmjJhlg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 午夜精品一区二区三区在线观看 | 日韩欧美天堂 | 欧美成人a | 中文字幕 亚洲一区 | 91精品国产高清一区二区三区 | 久久亚洲一区二区 | 中文字幕免费观看 | 在线观看国产wwwa级羞羞视频 | 毛片一区| 久久综合久色欧美综合狠狠 | 免费一区二区 | 一区二区三区视频在线免费观看 | 国产在线观看一区二区 | 亚洲国产aⅴ精品一区二区 免费观看av | 午夜影院在线视频 | 成人影 | 国产激情精品 | 午夜影院在线观看视频 | 亚洲狠狠爱 | 久草青青 | 欧美一级三级在线观看 | 免费a网站| 日韩欧美一区二区三区在线播放 | 国产亚洲成av人片在线观看桃 | 欧美二区三区 | 日韩视频在线一区二区 | 99re热精品视频国产免费 | 日韩在线一区二区三区 | 欧美一区二区三区在线观看 | 亚洲一区二区在线视频 | 国产精品一级 | 人人澡人人射 | 中文字幕免费视频 | 一区二区三区四区国产精品 | 欧美一区二区三区在线观看 | 国产精品久久久久久久久久久久冷 | 成人在线免费观看 | 色桃网| 夜夜爽99久久国产综合精品女不卡 | 欧美午夜精品理论片a级按摩 | 一区二区三区视频在线观看 |