成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌終于贏了OpenAI一回:實(shí)驗(yàn)版本Gemini 1.5 Pro超越GPT-4o

人工智能 新聞
當(dāng)我們問(wèn) Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個(gè)數(shù)大時(shí),模型一次就能回答正確,并給出了理由。

近兩日,谷歌在不斷發(fā)布最新研究。繼昨日放出最強(qiáng)端側(cè) Gemma 2 2B 小模型后,剛剛,Gemini 1.5 Pro 實(shí)驗(yàn)版本 (0801) 已經(jīng)推出。

用戶可以通過(guò) Google AI Studio 和 Gemini API 進(jìn)行測(cè)試和反饋。

既然免費(fèi),那我們幫大家測(cè)試一下最近比較火的比大小問(wèn)題。當(dāng)我們問(wèn) Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個(gè)數(shù)大時(shí),模型一次就能回答正確,并給出了理由。

圖片

當(dāng)我們繼續(xù)追問(wèn)「Strawberry 單詞里面有多少個(gè) r」時(shí),然而 Gemini 1.5 Pro (0801) 卻翻車了。在提示語(yǔ)中施加「咒語(yǔ)」一步一步來(lái),模型分析到第四步就出錯(cuò)了。

圖片

  • Google AI Studio 測(cè)試地址:https://aistudio.google.com/app/prompts/new_chat

不過(guò),從官方評(píng)測(cè)來(lái)看,Gemini 1.5 Pro (0801) 各項(xiàng)指標(biāo)還是很能打的。新模型迅速奪得著名的 LMSYS Chatbot Arena 排行榜榜首,并擁有令人印象深刻的 ELO 分?jǐn)?shù),得分為 1300。

這一成就使 Gemini 1.5 Pro (0801) 領(lǐng)先于 OpenAI 的 GPT-4o(ELO:1286)和 Anthropic 的 Claude-3.5 Sonnet(ELO:1271)等強(qiáng)大競(jìng)爭(zhēng)對(duì)手,這或許預(yù)示著人工智能格局的轉(zhuǎn)變。

圖片

Gemini 團(tuán)隊(duì)關(guān)鍵成員 Simon Tokumine 稱 Gemini 1.5 Pro (0801) 是谷歌迄今為止制造的最強(qiáng)大、最智能的 Gemini (模型)。

除了拿到 Chatbot Arena 榜首,Gemini 1.5 Pro (0801) 在多語(yǔ)言任務(wù)、數(shù)學(xué)、Hard Prompt 和編碼等領(lǐng)域也表現(xiàn)相當(dāng)出色。

具體而言,Gemini 1.5 Pro (0801) 在中文、日語(yǔ)、德語(yǔ)、俄語(yǔ)方面均表現(xiàn)第一。

圖片

圖片

但在編碼、Hard Prompt 領(lǐng)域,Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然處于領(lǐng)先地位。

圖片

圖片

在 win-rate 熱圖上:Gemini 1.5 Pro (0801) 對(duì)陣 GPT-4o 的勝率為 54%,對(duì)陣 Claude-3.5-Sonnet 的勝率為 59%。

圖片

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一!

圖片

圖片

網(wǎng)友紛紛表示,谷歌這次真是出乎所有人的預(yù)料,沒(méi)有提前官宣就突然開(kāi)放測(cè)試最強(qiáng)模型,這次壓力給到了 OpenAI。

圖片

雖然 Gemini 1.5 Pro (0801) 取得了很高的成績(jī),但它仍處于實(shí)驗(yàn)階段。這意味著該模型在廣泛使用之前可能會(huì)進(jìn)行進(jìn)一步的修改。 

網(wǎng)友評(píng)測(cè)

有網(wǎng)友對(duì) Gemini 1.5 Pro (0801) 的內(nèi)容提取能力、代碼生成能力、推理能力等進(jìn)行了測(cè)試,我們來(lái)看下他的測(cè)試結(jié)果。

圖片

來(lái)源:https://x.com/omarsar0/status/1819162249593840110

首先,Gemini 1.5 Pro (0801) 的圖像信息提取功能很強(qiáng),例如輸入一張發(fā)票圖像,將發(fā)票細(xì)節(jié)用 JSON 格式編寫出來(lái):

圖片

再來(lái)看下 Gemini 1.5 Pro (0801) 的 PDF 文檔內(nèi)容提取功能,以經(jīng)典論文《Attention Is All You Need》為例,提取論文章節(jié)目錄:

圖片

讓 Gemini 1.5 Pro (0801) 生成一個(gè)幫助學(xué)習(xí)大型語(yǔ)言模型(LLM)知識(shí)的 Python 游戲,該模型直接生成了一整段代碼:

圖片

圖片

值得一提的是,Gemini 1.5 Pro (0801) 還給出了詳細(xì)的代碼解釋,包括代碼中函數(shù)的作用、該 Python 游戲的玩法等等。

圖片

這段程序可以直接在 Google AI Studio 中運(yùn)行,并且可以試玩,例如做道關(guān)于 Tokenization 定義的選擇題:

圖片

如果覺(jué)得選擇題太簡(jiǎn)單無(wú)聊,可以進(jìn)一步讓 Gemini 1.5 Pro (0801) 生成一個(gè)更復(fù)雜的游戲:

圖片

圖片

得到一個(gè) LLM 專業(yè)知識(shí)句子填空游戲:

圖片

為了測(cè)試 Gemini 1.5 Pro (0801) 的推理能力,網(wǎng)友提問(wèn)了一個(gè)「吹蠟燭」問(wèn)題,但模型回答錯(cuò)誤:

圖片

盡管有一些瑕疵,但 Gemini 1.5 Pro (0801) 的確表現(xiàn)出接近 GPT-4o 的視覺(jué)能力,以及接近 Claude 3.5 Sonnet 的代碼生成和 PDF 理解、推理能力,值得期待。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-05-21 12:23:17

2024-11-22 15:00:00

模型數(shù)據(jù)

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2024-05-15 09:58:06

谷歌大模型

2024-07-19 14:08:02

2024-11-22 12:39:56

2024-05-14 07:30:52

OpenAIGPT-4模型

2024-05-14 11:29:15

2024-08-14 14:30:00

AI訓(xùn)練

2025-03-31 08:50:00

AI生成模型

2024-08-08 14:27:29

2024-05-15 17:34:15

2024-08-22 13:40:08

開(kāi)發(fā)者GPT-4oepoch

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2025-03-26 10:21:58

2024-06-05 08:29:35

2024-05-16 12:38:05

GPT-4o圖像方式

2025-05-19 08:33:00

2024-05-20 08:20:00

OpenAI模型

2024-05-14 10:14:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩视频观看 | 成年免费在线观看 | 久草视频观看 | 免费观看羞羞视频网站 | 国产免费一区二区三区 | 日本网站在线看 | 天天躁天天操 | 国产亚洲欧美在线 | 亚洲精品久久久久久一区二区 | 日韩插插 | 亚洲综合电影 | 日本激情视频在线播放 | 日韩欧美视频网站 | 久久久久久影院 | 久久毛片| 日日夜夜天天 | 欧美精品首页 | 国产精品毛片一区二区在线看 | 成人午夜视频在线观看 | 久久综合久久自在自线精品自 | 精品美女视频在线观看免费软件 | 亚洲精品中文字幕在线观看 | 精品无码久久久久久久动漫 | 人人看人人干 | 亚洲福利av | 亚洲精品在线免费播放 | wwwxxx国产| 一二区电影| 精品视频成人 | 中文字幕一区二区三区不卡 | 亚洲视频在线免费观看 | 天堂在线中文 | 91麻豆精品国产91久久久久久 | 91伊人| 午夜精品导航 | 欧美性大战xxxxx久久久 | 日韩三级免费网站 | 亚洲免费大片 | 日韩精品久久久久 | 狠狠视频 | 操人网站|