成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="caiia"></kbd>

<kbd id="caiia"></kbd>

<abbr id="caiia"><code id="caiia"></code></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五

發(fā)布于 2024-4-23 13:42

瀏覽

0收藏

關(guān)于Llama 3，又有測試結(jié)果新鮮出爐——

大模型評測社區(qū)LMSYS發(fā)布了一份大模型排行榜單，Llama 3位列第五，英文單項與GPT-4并列第一。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

不同于其他Benchmark，這份榜單的依據(jù)是模型一對一battle，由全網(wǎng)測評者自行命題并打分。

最終，Llama 3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude 3超大杯Opus。

而在英文單項榜單中，Llama 3反超了Claude，與GPT-4打成了平手。

對于這一結(jié)果，Meta的首席科學(xué)家LeCun十分高興，轉(zhuǎn)發(fā)了推文并留下了一個“Nice”。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

PyTorch之父Soumith Chintala也激動地表示，這樣的成果令人難以置信，對Meta感到驕傲。

Llama 3的400B版本還沒出來，單靠70B參數(shù)就獲得了第五名……
我還記得去年三月GPT-4發(fā)布的時候，達(dá)到與之相同的表現(xiàn)幾乎是一件不可能的事。
……
現(xiàn)在AI的普及化實在是令人難以置信，我對Meta AI的同仁們做出這樣的成功感到非常驕傲。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

那么，這份榜單具體展示了什么樣的結(jié)果呢？

近90個模型對戰(zhàn)75萬輪

截至最新榜單發(fā)布，LMSYS共收集了近75萬次大模型solo對戰(zhàn)結(jié)果，涉及的模型達(dá)到了89款。

其中，Llama 3參與過的有1.27萬次，GPT-4則有多個不同版本，最多的參與了6.8萬次。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

下面這張圖展示了部分熱門模型的比拼次數(shù)和勝率，圖中的兩項指標(biāo)都沒有統(tǒng)計平局的次數(shù)。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

榜單方面，LMSYS分成了總榜和多個子榜單，GPT-4-Turbo位列第一，與之并列的是早一些的1106版本，以及Claude 3超大杯Opus。

另一個版本（0125）的GPT-4則位列其后，緊接著就是Llama 3了。

不過比較有意思的是，較新一些的0125，表現(xiàn)還不如老版本1106。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

而在英文單項榜單中，Llama 3的成績直接和兩款GPT-4打成了平手，還反超了0125版本。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

中文能力排行榜的第一名則由Claude 3 Opus和GPT-4-1106共享，Llama 3則已經(jīng)排到了20名開外。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

除了語言能力之外，榜單中還設(shè)置了長文本和代碼能力排名，Llama 3也都名列前茅。

不過，LMSYS的“游戲規(guī)則”又具體是什么樣的呢？

人人都可參與的大模型評測

這是一個人人都可以參與的大模型測試，題目和評價標(biāo)準(zhǔn)，都由參與者自行決定。

而具體的“競技”過程，又分成了battle和side-by-side兩種模式。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

battle模式下，在測試界面輸入好問題之后，系統(tǒng)會隨機(jī)調(diào)用庫中的兩個模型，而測試者并不知道系統(tǒng)到底抽中了誰，界面中只顯示“模型A”和“模型B”。

在模型輸出答案后，測評人需要選擇哪個更好，或者是平手，當(dāng)然如果模型的表現(xiàn)都不符合預(yù)期，也有相應(yīng)的選項。

只有在做出選擇之后，模型的身份才會被揭開。

side-by-side則是由用戶選擇指定的模型來PK，其余測試流程與battle模式相同

不過，只有battle的匿名模式下的投票結(jié)果才會被統(tǒng)計，且在對話過程中模型不小心暴露身份就會導(dǎo)致結(jié)果失效。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

按照各個模型對其他模型的Win Rate，可以繪制出這樣的圖像：

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

△示意圖，較早版本

而最終的排行榜，是利用Win Rate數(shù)據(jù)，通過Elo評價系統(tǒng)換算成分?jǐn)?shù)得到的。

Elo評價系統(tǒng)是一種計算玩家相對技能水平的方法，由美國物理學(xué)教授Arpad Elo設(shè)計。

具體到LMSYS，在初始條件下，所有模型的評分（R）都被設(shè)定為1000，然后根據(jù)這樣的公式計算出期待勝率（E）。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

隨著測試的不斷進(jìn)行，會根據(jù)實際得分（S）對評分進(jìn)行修正，S有1、0和0.5三種取值，分別對應(yīng)獲勝、失敗和平手三種情況。

修正算法如下式所示，其中K為系數(shù)，需要測試者根據(jù)實際情況調(diào)整。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

最終將所有有效數(shù)據(jù)納入計算后，就得到了模型的Elo評分。

不過實際操作過程中，LMSYS團(tuán)隊發(fā)現(xiàn)這種算法的穩(wěn)定性存在不足，于是又采用了統(tǒng)計學(xué)方法進(jìn)行了修正。

他們利用Bootstrap方法進(jìn)行重復(fù)采樣，得到了更穩(wěn)定的結(jié)果，并估計了置信度區(qū)間。

最終修正后的Elo評分，就成了榜單中的排列依據(jù)。

One More Thing

Llama 3已經(jīng)可以在大模型推理平臺Groq（不是馬斯克的Grok）上跑了。

這個平臺的最大亮點就是“快”，之前用Mixtral模型跑出過每秒近500 token的速度。

跑起Llama 3，也是相當(dāng)迅速，實測70B可以跑到每秒約300 Token，8B版本更是接近了800。

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五-AI.x社區(qū)

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/ulo0CiwMvmnE90JsmjJhlg??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

長文本之罪：Claude團(tuán)隊新越獄技術(shù)，Llama 2到GPT-4無一幸免

輕薄滴假象 ? 3585瀏覽 ? 0回復(fù)
OpenAI競對用256輪對話「灌醉」大模型，Claude被騙造出炸彈！

duhorse ? 3217瀏覽 ? 0回復(fù)
超越GPT-4，斯坦福團(tuán)隊手機(jī)可跑的大模型火了，一夜下載量超2k

輕薄滴假象 ? 3629瀏覽 ? 0回復(fù)
超越GPT-4！最強(qiáng)大模型 Claude 3 完全解讀

開發(fā)者阿橙 ? 6555瀏覽 ? 0回復(fù)
楊笛一新作：社恐有救了，AI大模型一對一陪聊，幫i人變成e人

輕薄滴假象 ? 2372瀏覽 ? 0回復(fù)
OpenAI曾轉(zhuǎn)錄100萬小時視頻數(shù)據(jù)，訓(xùn)練GPT-4

Aceryt ? 2539瀏覽 ? 0回復(fù)
Reka Core登場：挑戰(zhàn)GPT-4、Claude 3

duhorse ? 3067瀏覽 ? 0回復(fù)
Llama 3突然來襲！開源社區(qū)再次沸騰：GPT-4級別模型可以自由訪問的時代到來

Crystalcxt ? 3315瀏覽 ? 0回復(fù)
Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 4471瀏覽 ? 0回復(fù)
蘋果推出理解、轉(zhuǎn)化模型ReALM，性能超GPT-4

Aceryt ? 3106瀏覽 ? 0回復(fù)
生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

51CTO內(nèi)容精選 ? 3642瀏覽 ? 0回復(fù)
OpenAI開源GPT-4 SAE，提供1600萬個解釋模式

Aceryt ? 4350瀏覽 ? 0回復(fù)
LLM 評估匯總：真的吊打 LLaMA-3，媲美 GPT-4 嗎？

amei2000go ? 7051瀏覽 ? 0回復(fù)
Llama 3.1磁力鏈提前泄露！開源模型王座一夜易主，GPT-4o被超越

duhorse ? 2379瀏覽 ? 0回復(fù)
TOT(Tree of Thought) | 讓GPT-4像人類一樣思考

arnoldzhw ? 3049瀏覽 ? 0回復(fù)
Agent遇上4萬個工具？一個Token搞定！

探索AGI ? 2543瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進(jìn)行抽象推理

lintoms ? 2226瀏覽 ? 0回復(fù)
騰訊元寶登頂下載榜，AI 下一戰(zhàn)拼什么？

算家計算 ? 2142瀏覽 ? 0回復(fù)
一戰(zhàn)封神還是虛火？Claude 4 對決 Gemini 2.5 Pro，誰才是你的下一個 AI 搭檔？

ermulong ? 1689瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：黑照變廢為寶！超能AI一句話修出創(chuàng)意大片，親媽看了都說真

下一篇： Llama 3低比特量化性能下降顯著！全面評估結(jié)果來了 | 港大&北航&ETH

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：午夜精品一区二区三区在线观看 | 日韩欧美天堂 | 欧美成人a | 中文字幕亚洲一区 | 91精品国产高清一区二区三区 | 久久亚洲一区二区 | 中文字幕免费观看 | 在线观看国产wwwa级羞羞视频 | 毛片一区| 久久综合久色欧美综合狠狠 | 免费一区二区 | 一区二区三区视频在线免费观看 | 国产在线观看一区二区 | 亚洲国产aⅴ精品一区二区免费观看av | 午夜影院在线视频 | 成人影 | 国产激情精品 | 午夜影院在线观看视频 | 亚洲狠狠爱 | 久草青青 | 欧美一级三级在线观看 | 免费a网站| 日韩欧美一区二区三区在线播放 | 国产亚洲成av人片在线观看桃 | 欧美二区三区 | 日韩视频在线一区二区 | 99re热精品视频国产免费 | 日韩在线一区二区三区 | 欧美一区二区三区在线观看 | 亚洲一区二区在线视频 | 国产精品一级 | 人人澡人人射 | 中文字幕免费视频 | 一区二区三区四区国产精品 | 欧美一区二区三区在线观看 | 国产精品久久久久久久久久久久冷 | 成人在线免费观看 | 色桃网| 夜夜爽99久久国产综合精品女不卡 | 欧美午夜精品理论片a级按摩 | 一区二区三区视频在线观看 |

<kbd id="0ke48"><object id="0ke48"></object></kbd>

<s id="0ke48"><center id="0ke48"></center></s>

<pre id="0ke48"><table id="0ke48"></table></pre>

<cite id="0ke48"></cite>