成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產(chǎn)大模型全陣容,中文大模型競(jìng)技場(chǎng)推出!

人工智能
近日,上海人工智能實(shí)驗(yàn)室聯(lián)合魔搭社區(qū)推出中國大語言模型評(píng)測(cè)競(jìng)技場(chǎng)Compass Arena,首度集齊國內(nèi)主流大模型全陣容,阿里通義千問、百度文心一言、騰訊混元、訊飛星火、字節(jié)跳動(dòng)豆包、智譜AI、百川智能、零一萬物、月之暗面、Minimax、深度求索、書生·浦語等20款國產(chǎn)大模型出戰(zhàn),角逐中國大模型“最強(qiáng)王者”。

LMSYS Org推出的大模型競(jìng)技場(chǎng)Chatbot Arena,已成為海外最具公信力的大模型榜單之一,但該榜單中文化程度相對(duì)不足。近日,上海人工智能實(shí)驗(yàn)室聯(lián)合魔搭社區(qū)推出中國大語言模型評(píng)測(cè)競(jìng)技場(chǎng)Compass Arena,首度集齊國內(nèi)主流大模型全陣容,阿里通義千問、百度文心一言、騰訊混元、訊飛星火、字節(jié)跳動(dòng)豆包、智譜AI、百川智能、零一萬物、月之暗面、Minimax、深度求索、書生·浦語等20款國產(chǎn)大模型出戰(zhàn),角逐中國大模型“最強(qiáng)王者”。

相比考題固定的傳統(tǒng)測(cè)評(píng),大模型競(jìng)技場(chǎng)采用盲測(cè)、開放的測(cè)評(píng)模式,可以更全面地檢驗(yàn)?zāi)P蛯?shí)力。Compass Arena設(shè)置了隨機(jī)、匿名對(duì)戰(zhàn),大模型選手們成為“蒙面唱將”,模型信息隱去后,由系統(tǒng)隨機(jī)匹配進(jìn)行PK,用戶可以天馬行空自由出題,并作為評(píng)委主觀評(píng)判和投票。如果大模型不小心“自報(bào)家門”,則對(duì)話被過濾,不計(jì)入成績。通過成千上萬輪PK挑戰(zhàn)和用戶投票,系統(tǒng)將對(duì)大模型進(jìn)行自動(dòng)排名。

魔搭社區(qū)直播時(shí),網(wǎng)友腦洞大開在線出題

Compass Arena由上海人工智能實(shí)驗(yàn)室OpenCompass司南評(píng)測(cè)體系與魔搭社區(qū)聯(lián)合建設(shè),前者負(fù)責(zé)組織評(píng)測(cè),后者負(fù)責(zé)開源模型引入及社區(qū)打造。據(jù)上海人工智能實(shí)驗(yàn)室OpenCompass團(tuán)隊(duì)介紹,Compass Arena力求體現(xiàn)社區(qū)用戶的真實(shí)反饋,評(píng)測(cè)機(jī)制借鑒Chatbot Arena,采用Elo評(píng)分系統(tǒng),即國際象棋等對(duì)弈活動(dòng)評(píng)估的權(quán)威標(biāo)準(zhǔn)。在這種模式下,大模型競(jìng)技類似“在游戲中打排位”,勝率成為評(píng)估模型水平的關(guān)鍵指標(biāo),同時(shí)隨著排位變高,系統(tǒng)也會(huì)自動(dòng)匹配高段位選手進(jìn)行對(duì)戰(zhàn)。

與Chatbot Arena相比,Compass Arena更聚焦中文大模型,主流國產(chǎn)大模型全覆蓋,同時(shí)評(píng)測(cè)用戶大多使用中文,可以充分評(píng)估國產(chǎn)大模型的性能。

目前,Compass Arena已匯聚超20款商業(yè)及社區(qū)模型,包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等國內(nèi)頭部廠商的旗艦款大模型,并引入了Llama3、Mixtral等海外標(biāo)桿模型進(jìn)行參照。更多模型及廠商還在不斷加入中。

上線不到一周,已有上萬人訪問魔搭Compass Arena頁面。魔搭社區(qū)表示,歡迎廣大開發(fā)者和網(wǎng)友參與大模型排位賽的投票,共同促進(jìn)國產(chǎn)大模型的進(jìn)步和趕超。后續(xù),Compass Arena首期排行榜將揭曉,并將定期公布更新。

魔搭社區(qū)Compass Arena鏈接:https://www.modelscope.cn/studios/opencompass/CompassArena

Compass Arena首批大模型名單:

Abab6.5-Chat (MiniMax)

Baichuan 4 (百川智能)

C4AI Command R+ (Cohere)

DBRX-Instruct (DataBricks)

Deepseek-LLM-67B-Chat(深度求索)

Deepseek-MoE-16B-Chat(深度求索)

Doubao-Pro-4K (字節(jié)豆包)

ERNIE-4.0-8K (百度文心一言)

GLM4 (智譜AI)

Hunyuan-Pro (騰訊混元)

InternLM2系列(上海AILab書生·浦語)

Llama3系列(Meta)

Mixtral 8x22B Instruct (Mistral)

MoonShot-V1-32K (月之暗面)

Qwen1.5系列 (阿里通義千問)

Qwen-Max (阿里通義千問)

Spark3.5-Max (訊飛星火)

Yi-34B-Chat (零一萬物)

Yi-Large (零一萬物)

責(zé)任編輯:鳶瑋
相關(guān)推薦

2024-10-16 15:07:57

2024-06-20 14:04:17

2024-07-24 12:40:44

2025-04-18 10:43:23

2012-05-31 14:20:14

2025-02-28 08:40:00

2025-02-06 12:10:00

2025-03-13 06:34:49

2025-02-18 10:25:10

2024-04-23 07:00:00

2025-04-02 09:21:00

DeepSeekAI開源

2024-04-22 08:40:00

LLM模型開源

2024-05-20 15:25:47

2024-12-31 12:35:46

2025-05-06 01:45:00

大模型Llama4版本

2023-11-03 07:47:12

機(jī)器資源大模型:

2025-05-13 02:00:22

2013-09-12 11:17:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲欧美日韩中文字幕一区二区三区 | 国产精品久久久久久久久久三级 | 精品中文视频 | 美女黄视频网站 | 日韩一二三区 | 欧美一区二区三区国产精品 | 精品国产一区二区三区性色 | 免费精品在线视频 | 亚洲中午字幕 | 在线免费观看毛片 | 精品在线一区二区 | 一区二区三区在线免费看 | 欧美精品成人 | 精品免费视频 | 一区精品视频 | 99久久精品免费看国产四区 | 国产成人精品午夜 | 精品视频亚洲 | 999视频在线播放 | 日韩一及片 | 高清黄色网址 | 久久久久久久久久久久久久av | 色橹橹欧美在线观看视频高清 | 国产乱人伦 | 国产中文原创 | 天天操,夜夜爽 | 亚州激情 | 视频一区 国产精品 | 国产欧美一区二区久久性色99 | 欧美日韩在线一区二区 | 久操伊人 | 欧美 日韩 国产 成人 | 国产精品国产三级国产aⅴ原创 | 日韩免费在线观看视频 | 农村妇女毛片精品久久久 | 亚洲成人免费视频在线观看 | 国产亚洲成av人在线观看导航 | www.一区二区| 日韩av成人| 黑人一级片视频 | 国产精品久久久久久久久久了 |