成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

起猛了,GPT-4o被谷歌新模型擊敗,ChatGPT官號:大家深吸一口氣

人工智能
歷時一周,超1,2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次奪得lmsys競技場第一。(中文任務也第一)

起猛了,GPT-4o被谷歌新模型超越了!

歷時一周,超1,2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次奪得lmsys競技場第一。(中文任務也第一)

圖片圖片

而且這次還是雙冠王,除了總榜(唯一分數上1300),在視覺排行榜上也是第一。

圖片圖片

Gemini團隊的關鍵人物Simon Tokumine發文慶祝稱:

(這一新模型)是我們制作過的最強大、最聰明的Gemini。

圖片圖片

一位Reddit用戶也稱該模型“非常好”,并表示希望其功能不會被縮減。

圖片圖片

更多網友興奮表示,OpenAI終于受到挑戰,要發布新版本來反擊了!

圖片圖片

ChatGPT官方賬號也出來暗示著什么。

圖片圖片

一片熱鬧之際,谷歌AI Studio產品負責人宣布該模型進入免費測試階段

可在AI studio免費使用

圖片圖片

網友:谷歌終于來了!

嚴格來說,Gemini 1.5 Pro(0801)其實不算新模型。

實驗性版本建立在谷歌2月發布的Gemini 1.5 Pro基礎之上,后來1.5系列將上下文窗口擴展到了200萬。

隨著模型更新,這命名也是越來越長了,也引起人們一片吐槽。

這不,一位OpenAI員工祝賀之余不忘陰陽怪氣一把:

圖片圖片

當然了,雖然名字難記,但Gemini 1.5 Pro(0801)這次在競技場官方評測中表現亮眼。

總體勝率熱圖顯示,它比GPT-4o勝出54%,比Claude 3.5 Sonnet勝出59%。

圖片圖片

多語言能力基準測試中,它在中文、日語、德語、俄語均排名第一。

圖片圖片

但是,在Coding、Hard Prompt Arena中,它還是打不過Claude 3.5 Sonnet、GPT-4o、Llama 405B等對手。

圖片圖片

這一點也遭到網友詬病,轉譯過來就是:

編碼才是最重要的,但它在這上面表現不佳。

圖片圖片

不過也有人出來安利Gemini 1.5 Pro(0801)的圖像和PDF提取功能

DAIR.AI聯合創始人Elvis親自在油管做了全套測試,并總結道:

視覺能力非常接近GPT-4o

圖片圖片

以及,有人拿Gemini 1.5 Pro(0801)來解決Claude 3.5 Sonet之前回答不好的問題。

結果一看,它不僅表現更好,同時也干掉了自家小伙伴Gemini 1.5 Flash。

圖片圖片

不過嘛,一些經典常識測試它還是搞不定,比如“寫十個以蘋果結尾的句子”。

圖片圖片

One More Thing

與此同時,谷歌Gemma 2系列迎來了一個新的20億參數模型

圖片圖片

Gemma 2(2B)開箱即用,可以在Google Colab的免費T4 GPU上運行。

圖片圖片

在競技場排行榜上,它超過了所有GPT-3.5模型,甚至超越了Mixtral-8x7b。

圖片圖片

面對谷歌最新取得的一系列新排名,競技場榜單權威性再次受到大家質疑。

Nous Research聯合創始人Teknium(微調后訓練領域知名玩家)發文提醒:

雖然Gemma 2(2B)在競技場得分高于GPT-3.5 Turbo,但它在MMLU上遠低于后者。
如果人們使用競技場排名作為模型性能的唯一指標,這種差異就會令人擔憂。

圖片圖片

Abacus.AI首席執行官Bindu Reddy更是直接呼吁:

請立即停止使用這個人類評估排行榜!
Claude 3.5 Sonnet比GPT-4o-mini好得多。
類似的Gemini/Gemma在這個排行榜上的得分都不應該這么高。

圖片圖片

那么,你認為這種人類匿名投票的方式還靠譜嗎?(歡迎評論區討論)

參考鏈接:
[1]https://x.com/lmsysorg/status/1819048821294547441

[2]https://x.com/JeffDean/status/1819121162578022849

[3]https://x.com/stevenheidel/status/1819080995062403484

[4]https://x.com/rohanpaul_ai/status/1818697538360295897

[5]https://x.com/bindureddy/status/1818738366466412601

[6]https://x.com/infwinston/status/1818718423700103526

責任編輯:武曉燕 來源: 量子位
相關推薦

2021-12-06 08:30:49

SpringSpring Bean面試題

2021-03-29 12:22:25

微信iOS蘋果

2020-03-31 08:12:25

Kafka架構數據庫

2021-06-08 22:43:07

IPC方式Qt

2020-04-16 12:42:42

附近的人共享單車App

2020-08-12 09:55:07

附近的人數據庫MySQL

2025-05-14 01:55:00

FCMCPAI

2020-09-24 09:08:04

分布式系統架構

2020-10-22 12:30:33

MySQL

2023-12-18 23:09:25

開源優化引擎

2020-04-14 13:32:56

@Transacti失效場景

2024-01-26 12:31:16

OpenAIGPT-4代碼

2020-12-21 06:07:35

Mybatis設計模式

2020-05-27 21:00:07

微信移動應用

2023-12-04 09:17:00

AI材料

2021-05-18 09:03:16

Gomapslice

2022-05-24 11:50:46

延時消息分布式

2024-05-14 11:29:15

2020-11-04 14:20:58

分布式數據庫MySQL

2020-07-31 10:15:32

分布式ID數據庫MySQL
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美亚洲视频在线观看 | 亚洲欧美激情精品一区二区 | 精品久久久久久久久久久久 | 国产精品美女一区二区三区 | 在线一区二区三区 | 亚洲免费精品一区 | www.4567| 一区二区av在线 | 国产精品久久久久久久久久免费 | 免费久久99精品国产婷婷六月 | 一区在线播放 | 久久国内精品 | 亚洲视频在线播放 | 性一交一乱一透一a级 | 国产69久久精品成人看动漫 | 中文字幕在线一区二区三区 | 日韩在线一区二区三区 | 亚洲国产一区二区三区在线观看 | 久久精品成人 | 色综合久久天天综合网 | 国产精品成人久久久久 | 九九亚洲精品 | 色婷婷精品久久二区二区蜜臂av | 国产精品区二区三区日本 | 99精品一区二区三区 | 欧美成人精品激情在线观看 | 中文在线一区 | 在线观看中文字幕av | 毛片视频网址 | 91porn国产成人福利 | 国产乱精品一区二区三区 | 日韩在线播放av | 欧美精品一区二区免费视频 | 亚洲精品乱码久久久久久黑人 | 亚洲一区二区在线视频 | 国产91成人 | www.操com | 久久久久9999| 国产高清在线观看 | 国产91在线播放精品91 | 久久综合av |