成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!

發(fā)布于 2024-11-18 16:58
瀏覽
0收藏

Google DeepMind的最新版本 Gemini Exp 1114,在Chatbot Arena上取得了重要成就,憑借超過6000個社區(qū)投票,躍升至總榜第1,并在多個領(lǐng)域表現(xiàn)出色:

  • 總排名:#3 -> #1
  • 數(shù)學(xué):#3 -> #1
  • 難題解答:#4 -> #1
  • 創(chuàng)意寫作:#2 -> #1
  • 視覺識別:#2 -> #1
  • 編程:#5 -> #3

首先,我們要理解LLM Arena是什么。LLM Arena(或稱聊天機(jī)器人競技場)是一個評估LLM的平臺,主要目標(biāo)是促進(jìn)社區(qū)驅(qū)動的LLM性能評估。它是最有聲望的評估平臺之一。

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

從總榜來看,谷歌新模型Gemini(Exp 1114)分?jǐn)?shù)直漲40+,得分為1344,而 ChatGPT 4.0最新版本的得分是1340。谷歌旗下的模型這好像還是第一次有這樣的成績。

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

Gemini-Exp-1114 在數(shù)學(xué)競技場中并列第一,性能匹敵 o1:

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

要知道,以前o1剛發(fā)布的時候,很驚艷的一點(diǎn)就是它可以在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家,還可以拿下奧數(shù)金牌。

網(wǎng)友:這會兒滿血版的o1是真得出來了。。。

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

從總體勝率熱圖上來看,Gemini 對 4o-latest 的勝率為 50%,對 o1-preview 的勝率為 56%,對 Claude-3.5-Sonnet 的勝率為 62%。

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

除了總體排名,Gemini Exp 1114 在細(xì)分任務(wù)上獲得6項(xiàng)第一:

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

可惜代碼能力遜色了一點(diǎn),從圖中我們可以看到與 o1-mini/preview 還是有一定差距的。

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

目前,Gemini-Exp-1114 可以在谷歌AI Studio 對話體驗(yàn)

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

官方計劃后續(xù)提供API,這個模型后續(xù)如果像Flash那樣限速免費(fèi)使用的話,我們還是可以和Cline、Continue這些編碼助手配合使用的。


一些實(shí)踐:

在一位博主的測試中,Gemini Exp 1114通過了所有的問題:

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

感覺還不錯。

另一位網(wǎng)友:Gemini-exp-1114 的回答令人驚訝,早期的Flash模型通常會卡在 cat-age 問題上,而Gemini-exp-1114答對了這個問題:

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

不過 Gemini-exp-1114在被問到是誰創(chuàng)造和自己是誰時,竟然回答Anthropic 和 Claude。網(wǎng)友戲稱,最讓人感到直觀的解釋就是使用Claude生成的數(shù)據(jù)訓(xùn)練的。

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)


然后我問了一下他一些視覺問題,相同的問題曾經(jīng)寫在這篇文章中你可以與之比較:

??https://mp.weixin.qq.com/s/QuoiSxbik5tQXcQOHmrSXw??

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

圖中有多少水果,哪一種最小,哪一種酸性最強(qiáng),它們在貨架上的哪一排,哪一列?

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)圖片

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

圖片中心的石頭被堆疊了幾塊?有沒有不是圖片場景的東西?

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

你能理解這個梗圖的梗點(diǎn)在哪里嗎?

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

最后這個模型,在視覺計數(shù)上似乎不太完美,圖1、圖2分別應(yīng)該是30條船和10條船:

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI進(jìn)修生??,作者: Aitrainee

標(biāo)簽
已于2024-11-18 17:01:29修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩欧美中文字幕在线观看 | 免费黄视频网站 | 91手机精品视频 | 国产欧美精品区一区二区三区 | 亚洲一区二区av在线 | 国产专区在线 | 中文字幕精品一区久久久久 | 99国产精品久久久久久久 | 日韩在线精品视频 | 1000部精品久久久久久久久 | 亚洲精品一区二区三区蜜桃久 | 久久一| 99久久99| 国产ts人妖一区二区三区 | 亚洲成人国产综合 | 黄片毛片免费观看 | 欧美日韩在线一区二区 | 成人av片在线观看 | 亚洲国产精品99久久久久久久久 | 国产成在线观看免费视频 | 国产精品视频一区二区三区 | 欧美午夜精品久久久久久浪潮 | 精品国产乱码久久久久久蜜退臀 | 日韩成人在线播放 | 亚洲精品久久久久久久久久久久久 | 一级二级三级在线观看 | 男人的天堂在线视频 | 国产不卡视频 | 日韩精品一区二区三区在线播放 | 欧美一a一片一级一片 | 免费一级黄 | 午夜小电影 | 欧美精品中文字幕久久二区 | 欧美做暖暖视频 | 男女免费视频网站 | 欧美在线一区二区三区 | 中文字幕电影在线观看 | 91成人在线 | 波多野结衣一二三区 | 二区在线观看 | 亚洲精品视频久久 |