谷歌終于贏了OpenAI一回：實(shí)驗(yàn)版本Gemini 1.5 Pro超越GPT-4o

作者：機(jī)器之心 2024-08-02 14:58:00

當(dāng)我們問(wèn) Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個(gè)數(shù)大時(shí)，模型一次就能回答正確，并給出了理由。

近兩日，谷歌在不斷發(fā)布最新研究。繼昨日放出最強(qiáng)端側(cè) Gemma 2 2B 小模型后，剛剛，Gemini 1.5 Pro 實(shí)驗(yàn)版本 (0801) 已經(jīng)推出。

用戶可以通過(guò) Google AI Studio 和 Gemini API 進(jìn)行測(cè)試和反饋。

既然免費(fèi)，那我們幫大家測(cè)試一下最近比較火的比大小問(wèn)題。當(dāng)我們問(wèn) Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個(gè)數(shù)大時(shí)，模型一次就能回答正確，并給出了理由。

當(dāng)我們繼續(xù)追問(wèn)「Strawberry 單詞里面有多少個(gè) r」時(shí)，然而 Gemini 1.5 Pro (0801) 卻翻車了。在提示語(yǔ)中施加「咒語(yǔ)」一步一步來(lái)，模型分析到第四步就出錯(cuò)了。

Google AI Studio 測(cè)試地址：https://aistudio.google.com/app/prompts/new_chat

不過(guò)，從官方評(píng)測(cè)來(lái)看，Gemini 1.5 Pro (0801) 各項(xiàng)指標(biāo)還是很能打的。新模型迅速奪得著名的 LMSYS Chatbot Arena 排行榜榜首，并擁有令人印象深刻的 ELO 分?jǐn)?shù)，得分為 1300。

這一成就使 Gemini 1.5 Pro (0801) 領(lǐng)先于 OpenAI 的 GPT-4o（ELO：1286）和 Anthropic 的 Claude-3.5 Sonnet（ELO：1271）等強(qiáng)大競(jìng)爭(zhēng)對(duì)手，這或許預(yù)示著人工智能格局的轉(zhuǎn)變。

Gemini 團(tuán)隊(duì)關(guān)鍵成員 Simon Tokumine 稱 Gemini 1.5 Pro (0801) 是谷歌迄今為止制造的最強(qiáng)大、最智能的 Gemini （模型）。

除了拿到 Chatbot Arena 榜首，Gemini 1.5 Pro (0801) 在多語(yǔ)言任務(wù)、數(shù)學(xué)、Hard Prompt 和編碼等領(lǐng)域也表現(xiàn)相當(dāng)出色。

具體而言，Gemini 1.5 Pro (0801) 在中文、日語(yǔ)、德語(yǔ)、俄語(yǔ)方面均表現(xiàn)第一。

但在編碼、Hard Prompt 領(lǐng)域，Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然處于領(lǐng)先地位。

在 win-rate 熱圖上：Gemini 1.5 Pro (0801) 對(duì)陣 GPT-4o 的勝率為 54%，對(duì)陣 Claude-3.5-Sonnet 的勝率為 59%。

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一！

網(wǎng)友紛紛表示，谷歌這次真是出乎所有人的預(yù)料，沒(méi)有提前官宣就突然開(kāi)放測(cè)試最強(qiáng)模型，這次壓力給到了 OpenAI。

雖然 Gemini 1.5 Pro (0801) 取得了很高的成績(jī)，但它仍處于實(shí)驗(yàn)階段。這意味著該模型在廣泛使用之前可能會(huì)進(jìn)行進(jìn)一步的修改。

網(wǎng)友評(píng)測(cè)

有網(wǎng)友對(duì) Gemini 1.5 Pro (0801) 的內(nèi)容提取能力、代碼生成能力、推理能力等進(jìn)行了測(cè)試，我們來(lái)看下他的測(cè)試結(jié)果。

來(lái)源：https://x.com/omarsar0/status/1819162249593840110

首先，Gemini 1.5 Pro (0801) 的圖像信息提取功能很強(qiáng)，例如輸入一張發(fā)票圖像，將發(fā)票細(xì)節(jié)用 JSON 格式編寫出來(lái)：

再來(lái)看下 Gemini 1.5 Pro (0801) 的 PDF 文檔內(nèi)容提取功能，以經(jīng)典論文《Attention Is All You Need》為例，提取論文章節(jié)目錄：

讓 Gemini 1.5 Pro (0801) 生成一個(gè)幫助學(xué)習(xí)大型語(yǔ)言模型（LLM）知識(shí)的 Python 游戲，該模型直接生成了一整段代碼：

值得一提的是，Gemini 1.5 Pro (0801) 還給出了詳細(xì)的代碼解釋，包括代碼中函數(shù)的作用、該 Python 游戲的玩法等等。

這段程序可以直接在 Google AI Studio 中運(yùn)行，并且可以試玩，例如做道關(guān)于 Tokenization 定義的選擇題：

如果覺(jué)得選擇題太簡(jiǎn)單無(wú)聊，可以進(jìn)一步讓 Gemini 1.5 Pro (0801) 生成一個(gè)更復(fù)雜的游戲：

得到一個(gè) LLM 專業(yè)知識(shí)句子填空游戲：

為了測(cè)試 Gemini 1.5 Pro (0801) 的推理能力，網(wǎng)友提問(wèn)了一個(gè)「吹蠟燭」問(wèn)題，但模型回答錯(cuò)誤：

盡管有一些瑕疵，但 Gemini 1.5 Pro (0801) 的確表現(xiàn)出接近 GPT-4o 的視覺(jué)能力，以及接近 Claude 3.5 Sonnet 的代碼生成和 PDF 理解、推理能力，值得期待。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型谷歌

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌終于贏了OpenAI一回：實(shí)驗(yàn)版本Gemini 1.5 Pro超越GPT-4o

網(wǎng)友評(píng)測(cè)