成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！

發(fā)布于 2024-11-18 16:58

瀏覽

0收藏

Google DeepMind的最新版本 Gemini Exp 1114，在Chatbot Arena上取得了重要成就，憑借超過6000個社區(qū)投票，躍升至總榜第1，并在多個領(lǐng)域表現(xiàn)出色：

總排名：#3 -> #1
數(shù)學(xué)：#3 -> #1
難題解答：#4 -> #1
創(chuàng)意寫作：#2 -> #1
視覺識別：#2 -> #1
編程：#5 -> #3

首先，我們要理解LLM Arena是什么。LLM Arena（或稱聊天機(jī)器人競技場）是一個評估LLM的平臺，主要目標(biāo)是促進(jìn)社區(qū)驅(qū)動的LLM性能評估。它是最有聲望的評估平臺之一。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

從總榜來看，谷歌新模型Gemini（Exp 1114）分?jǐn)?shù)直漲40+，得分為1344，而 ChatGPT 4.0最新版本的得分是1340。谷歌旗下的模型這好像還是第一次有這樣的成績。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini-Exp-1114 在數(shù)學(xué)競技場中并列第一，性能匹敵 o1：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

要知道，以前o1剛發(fā)布的時候，很驚艷的一點(diǎn)就是它可以在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家，還可以拿下奧數(shù)金牌。

網(wǎng)友：這會兒滿血版的o1是真得出來了。。。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

從總體勝率熱圖上來看，Gemini 對 4o-latest 的勝率為 50%，對 o1-preview 的勝率為 56%，對 Claude-3.5-Sonnet 的勝率為 62%。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

除了總體排名，Gemini Exp 1114 在細(xì)分任務(wù)上獲得6項(xiàng)第一：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

可惜代碼能力遜色了一點(diǎn)，從圖中我們可以看到與 o1-mini/preview 還是有一定差距的。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

目前，Gemini-Exp-1114 可以在谷歌AI Studio 對話體驗(yàn)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

官方計劃后續(xù)提供API，這個模型后續(xù)如果像Flash那樣限速免費(fèi)使用的話，我們還是可以和Cline、Continue這些編碼助手配合使用的。

一些實(shí)踐：

在一位博主的測試中，Gemini Exp 1114通過了所有的問題：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

感覺還不錯。

另一位網(wǎng)友：Gemini-exp-1114 的回答令人驚訝，早期的Flash模型通常會卡在 cat-age 問題上，而Gemini-exp-1114答對了這個問題：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

不過 Gemini-exp-1114在被問到是誰創(chuàng)造和自己是誰時，竟然回答Anthropic 和 Claude。網(wǎng)友戲稱，最讓人感到直觀的解釋就是使用Claude生成的數(shù)據(jù)訓(xùn)練的。

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

然后我問了一下他一些視覺問題，相同的問題曾經(jīng)寫在這篇文章中你可以與之比較：

??https://mp.weixin.qq.com/s/QuoiSxbik5tQXcQOHmrSXw??

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

圖中有多少水果，哪一種最小，哪一種酸性最強(qiáng)，它們在貨架上的哪一排，哪一列？

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū) 圖片

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

圖片中心的石頭被堆疊了幾塊？有沒有不是圖片場景的東西？

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

你能理解這個梗圖的梗點(diǎn)在哪里嗎?

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

最后這個模型，在視覺計數(shù)上似乎不太完美，圖1、圖2分別應(yīng)該是30條船和10條船：

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI進(jìn)修生??，作者： Aitrainee

標(biāo)簽

已于2024-11-18 17:01:29修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Claude3.5突然發(fā)布！GPT-4o不香了

Crystalcxt ? 3414瀏覽 ? 0回復(fù)
阿里開源多模態(tài)視覺語言模型，多項(xiàng)超越GPT4o與Claude 3.5-Sonnet

angel ? 1.1w瀏覽 ? 0回復(fù)
擊敗GPT-4o、僅次于o1！英偉達(dá)重磅開源超強(qiáng)大模型--Nemotron

Aceryt ? 3376瀏覽 ? 0回復(fù)
重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術(shù)棧 ? 2309瀏覽 ? 0回復(fù)
Claude 3.5超預(yù)期炸場！編程能力超o1，像人類一樣操作電腦，開啟Agent新時代！

51CTO技術(shù)棧 ? 2865瀏覽 ? 0回復(fù)
Anthropic 升級版 Claude 3.5 Sonnet 模型，像人一樣操控電腦？

穿越時空111 ? 2646瀏覽 ? 0回復(fù)
Anthropic AI的Claude 3.5，讓機(jī)器更懂你

Halo咯咯 ? 2661瀏覽 ? 0回復(fù)
Claude 3.5 引領(lǐng)人工智能新時代的強(qiáng)大模型

丟翅膀的魚 ? 2872瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！！（擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 4936瀏覽 ? 0回復(fù)
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

Aceryt ? 8001瀏覽 ? 0回復(fù)
Fireworks AI 發(fā)布 f1：在硬編碼、聊天和數(shù)學(xué)基準(zhǔn)方面超過 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 ? 2959瀏覽 ? 0回復(fù)
推進(jìn)醫(yī)療人工智能：評估 OpenAI 的 o1-Preview 模型并優(yōu)化推理策略

Halo咯咯 ? 2694瀏覽 ? 0回復(fù)
GitHub Copilot免費(fèi)了，可無條件使用GPT-4o 和Claude 3.5 Sonnet等高級模型

Syrupup ? 8350瀏覽 ? 0回復(fù)
Cline 3.2 重磅更新：免費(fèi)調(diào)用 Claude Sonnet 3.5 和 GPT 4o，開發(fā)效率直接拉滿！

凝固的雨_1 ? 1.8w瀏覽 ? 0回復(fù)
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 2250瀏覽 ? 0回復(fù)
大語言模型都有哪些特質(zhì)？區(qū)分度達(dá)97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

angel ? 2386瀏覽 ? 0回復(fù)
全球首個混合推理模型Claude 3.7 Sonnet發(fā)布，編碼能力直接起飛！

AI博物院 ? 2818瀏覽 ? 0回復(fù)
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商

sbf_2000 ? 1625瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 1783瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測來了 0回復(fù)

【一手實(shí)測】字節(jié)豆包 1.6 + Trae + 火山 MCP + FaaS：AI云原生 Agent 開發(fā)部署全流程體驗(yàn)！ 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

上一篇： Qwen2.5：13個新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測試

下一篇： Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！！（擊敗 Claude 和 GPT-4o）

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：日韩欧美中文字幕在线观看 | 免费黄视频网站 | 91手机精品视频 | 国产欧美精品区一区二区三区 | 亚洲一区二区av在线 | 国产专区在线 | 中文字幕精品一区久久久久 | 99国产精品久久久久久久 | 日韩在线精品视频 | 1000部精品久久久久久久久 | 亚洲精品一区二区三区蜜桃久 | 久久一| 99久久99| 国产ts人妖一区二区三区 | 亚洲成人国产综合 | 黄片毛片免费观看 | 欧美日韩在线一区二区 | 成人av片在线观看 | 亚洲国产精品99久久久久久久久 | 国产成在线观看免费视频 | 国产精品视频一区二区三区 | 欧美午夜精品久久久久久浪潮 | 精品国产乱码久久久久久蜜退臀 | 日韩成人在线播放 | 亚洲精品久久久久久久久久久久久 | 一级二级三级在线观看 | 男人的天堂在线视频 | 国产不卡视频 | 日韩精品一区二区三区在线播放 | 欧美一a一片一级一片 | 免费一级黄 | 午夜小电影 | 欧美精品中文字幕久久二区 | 欧美做暖暖视频 | 男女免费视频网站 | 欧美在线一区二区三区 | 中文字幕电影在线观看 | 91成人在线 | 波多野结衣一二三区 | 二区在线观看 | 亚洲精品视频久久 |