成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

原有的模型評(píng)測(cè)基準(zhǔn)OUT了!12歲高中生建立了一個(gè)網(wǎng)站, 讓AI模型發(fā)起 Minecraft 挑戰(zhàn)

原創(chuàng) 精選
人工智能
Minecraft Benchmark (或 MC-Bench)網(wǎng)站是合作開(kāi)發(fā)的,目的是讓人工智能模型在面對(duì)面的挑戰(zhàn)中相互競(jìng)爭(zhēng),用 Minecraft 創(chuàng)作來(lái)回答提示。用戶可以投票選出哪個(gè)模型做得更好,只有在投票后,他們才能看到每個(gè) Minecraft 構(gòu)建都是由哪個(gè)人工智能完成的。

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

由于傳統(tǒng)的AI 基準(zhǔn)測(cè)試技術(shù)已被證明不夠充分,AI 開(kāi)發(fā)者開(kāi)始采用更具創(chuàng)造性的方式來(lái)評(píng)估生成式 AI 模型的能力。對(duì)于一組開(kāi)發(fā)者來(lái)說(shuō),這就是微軟旗下的沙盒建造游戲 Minecraft。

Minecraft Benchmark (或 MC-Bench)網(wǎng)站是合作開(kāi)發(fā)的,目的是讓人工智能模型在面對(duì)面的挑戰(zhàn)中相互競(jìng)爭(zhēng),用 Minecraft 創(chuàng)作來(lái)回答提示。用戶可以投票選出哪個(gè)模型做得更好,只有在投票后,他們才能看到每個(gè) Minecraft 構(gòu)建都是由哪個(gè)人工智能完成的。

Minecraft 基準(zhǔn)測(cè)試Minecraft 基準(zhǔn)測(cè)試

對(duì)于創(chuàng)辦 MC-Bench 的 12 年級(jí)學(xué)生 Adi Singh 來(lái)說(shuō),Minecraft 的價(jià)值不在于游戲本身,而在于人們對(duì)它的熟悉程度——畢竟,它是有史以來(lái)最暢銷的電子游戲。即使對(duì)于沒(méi)有玩過(guò)這款游戲的人來(lái)說(shuō),仍然可以評(píng)估哪種塊狀菠蘿表現(xiàn)更好。

“Minecraft 讓人們更容易看到(人工智能開(kāi)發(fā)的)進(jìn)展,”辛格告訴 TechCrunch。“人們已經(jīng)習(xí)慣了 Minecraft,習(xí)慣了它的外觀和氛圍。”

MC-Bench 目前列出了 8 名志愿者。根據(jù) MC-Bench 網(wǎng)站,Anthropic、Google、OpenAI 和阿里巴巴已為該項(xiàng)目使用其產(chǎn)品運(yùn)行基準(zhǔn)測(cè)試提供補(bǔ)貼,但這些公司與其他公司并無(wú)關(guān)聯(lián)。

辛格說(shuō):“目前,我們只是在進(jìn)行簡(jiǎn)單的構(gòu)建,以反思我們與 GPT-3 時(shí)代相比取得了多大的進(jìn)步,但我們可以預(yù)見(jiàn)到自己會(huì)擴(kuò)展到這些長(zhǎng)期計(jì)劃和以目標(biāo)為導(dǎo)向的任務(wù)。”“游戲可能只是一種測(cè)試代理推理的媒介,它比現(xiàn)實(shí)生活中更安全,而且在測(cè)試方面更易于控制,在我看來(lái),這更理想。”

其他游戲,如《精靈寶可夢(mèng)紅》、  《街頭霸王》和《你畫我猜》也被用作人工智能的實(shí)驗(yàn)基準(zhǔn),部分原因是人工智能的基準(zhǔn)測(cè)試藝術(shù)非常棘手。

研究人員經(jīng)常在標(biāo)準(zhǔn)化評(píng)估中測(cè)試人工智能模型,但其中許多測(cè)試都讓人工智能擁有主場(chǎng)優(yōu)勢(shì)。由于訓(xùn)練方式的原因,模型天生擅長(zhǎng)解決某些特定類型的問(wèn)題,尤其是需要死記硬背或基本推斷的問(wèn)題。

簡(jiǎn)而言之,很難理解 OpenAI 的 GPT-4 可以在 LSAT 中取得 88% 的成績(jī),但卻無(wú)法辨別“strawberry”這個(gè)詞中有多少個(gè)“R”。Anthropic的Claude 3.7 Sonnet在標(biāo)準(zhǔn)化軟件工程基準(zhǔn)測(cè)試中的準(zhǔn)確率為 62.3%,但它在玩 Pokémon 方面的表現(xiàn)卻比大多數(shù)五歲兒童還要差。

圖片來(lái)源:Minecraft Benchmark圖片來(lái)源:Minecraft Benchmark

MC-Bench 從技術(shù)上來(lái)說(shuō)是一個(gè)編程基準(zhǔn),因?yàn)槟P捅灰缶帉懘a來(lái)創(chuàng)建提示的構(gòu)建,例如“雪人弗羅斯蒂”或“原始沙灘上迷人的熱帶海灘小屋”。

但對(duì)于大多數(shù) MC-Bench 用戶來(lái)說(shuō),評(píng)估雪人是否看起來(lái)更好比深入研究代碼更容易,這使得該項(xiàng)目具有更廣泛的吸引力 - 并因此有可能收集更多關(guān)于哪些模型持續(xù)得分更高的數(shù)據(jù)。

當(dāng)然,這些分?jǐn)?shù)是否對(duì) AI 的實(shí)用性有重大影響還有待商榷。不過(guò),Singh 堅(jiān)稱,這是一個(gè)強(qiáng)烈的信號(hào)。

“目前的排行榜與我自己使用這些模型的經(jīng)驗(yàn)非常接近,這與許多純文本基準(zhǔn)測(cè)試不同,”Singh 說(shuō)。“也許 [MC-Bench] 可以幫助公司了解他們是否朝著正確的方向前進(jìn)。”

基準(zhǔn)鏈接:https://mcbench.ai/

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2025-03-31 09:20:00

AI模型測(cè)試

2020-06-22 14:10:45

編程語(yǔ)言蘋果開(kāi)發(fā)者

2022-02-14 16:26:23

機(jī)器學(xué)習(xí)C++庫(kù)

2024-10-15 14:30:00

AI應(yīng)用

2020-03-11 11:10:12

開(kāi)發(fā)技能代碼

2021-01-14 16:25:18

iPhone 7服務(wù)器開(kāi)發(fā)者

2019-07-04 15:57:16

數(shù)據(jù)安全互聯(lián)網(wǎng)

2020-10-09 10:29:05

Python 開(kāi)發(fā)編程語(yǔ)言

2009-05-20 09:02:53

IT職業(yè)培訓(xùn)就業(yè)高中生

2025-05-12 18:33:03

AI模型數(shù)據(jù)

2020-12-09 13:59:15

神經(jīng)網(wǎng)絡(luò)AI算法

2021-08-20 16:24:16

算法圓周率技術(shù)

2023-06-20 18:33:00

DOM框架React

2024-09-29 13:24:41

2022-12-12 10:35:00

2021-08-02 10:40:45

機(jī)器人人工智能算法

2011-04-19 09:40:31

2015-10-20 17:40:42

2009-04-14 15:30:25

2009-08-10 17:08:52

計(jì)算機(jī)專業(yè)就業(yè)IT培訓(xùn)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 韩日三级| 精品久久久久久久久久久久 | 国产精品不卡 | 亚洲第一天堂 | www日韩| 久久久久久一区 | 天天摸天天看 | 国产精品久久久久久久久久免费 | 亚洲免费观看视频网站 | 国产在线观看网站 | 在线成人av | 国产xxxx搡xxxxx搡麻豆 | 日韩在线免费视频 | 色婷婷久久久久swag精品 | 国产色黄 | 亚洲啪啪一区 | 在线日韩福利 | 成人小视频在线观看 | 久产久精国产品 | 日韩二区 | 一区二区三区在线免费观看视频 | 亚洲视频中文字幕 | 成人性生交a做片 | 欧美精品1区2区3区 精品国产欧美一区二区 | 成人免费在线 | 91在线 | 99在线免费观看视频 | 日日干日日色 | 91av精品| 8x国产精品视频一区二区 | 狠狠的干狠狠的操 | 欧美精品久久久久 | 日韩久久精品视频 | 国产精品国产三级国产aⅴ中文 | 日韩视频中文字幕 | 午夜在线免费观看视频 | 久草视频网站 | 欧美专区日韩 | 天天碰日日操 | 国产综合精品一区二区三区 | 男人天堂免费在线 |