起猛了，GPT-4o被谷歌新模型擊敗，ChatGPT官號：大家深吸一口氣

2024-08-02 13:11:39

人工智能

歷時一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次奪得lmsys競技場第一。（中文任務也第一）

起猛了，GPT-4o被谷歌新模型超越了！

歷時一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次奪得lmsys競技場第一。（中文任務也第一）

圖片

而且這次還是雙冠王，除了總榜（唯一分數上1300），在視覺排行榜上也是第一。

圖片

Gemini團隊的關鍵人物Simon Tokumine發文慶祝稱：

(這一新模型）是我們制作過的最強大、最聰明的Gemini。

圖片

一位Reddit用戶也稱該模型“非常好”，并表示希望其功能不會被縮減。

圖片

更多網友興奮表示，OpenAI終于受到挑戰，要發布新版本來反擊了!

圖片

ChatGPT官方賬號也出來暗示著什么。

圖片

一片熱鬧之際，谷歌AI Studio產品負責人宣布該模型進入免費測試階段：

可在AI studio免費使用

圖片

網友：谷歌終于來了！

嚴格來說，Gemini 1.5 Pro（0801）其實不算新模型。

該實驗性版本建立在谷歌2月發布的Gemini 1.5 Pro基礎之上，后來1.5系列將上下文窗口擴展到了200萬。

隨著模型更新，這命名也是越來越長了，也引起人們一片吐槽。

這不，一位OpenAI員工祝賀之余不忘陰陽怪氣一把：

圖片

當然了，雖然名字難記，但Gemini 1.5 Pro（0801）這次在競技場官方評測中表現亮眼。

總體勝率熱圖顯示，它比GPT-4o勝出54%，比Claude 3.5 Sonnet勝出59%。

圖片

在多語言能力基準測試中，它在中文、日語、德語、俄語均排名第一。

圖片

但是，在Coding、Hard Prompt Arena中，它還是打不過Claude 3.5 Sonnet、GPT-4o、Llama 405B等對手。

圖片

這一點也遭到網友詬病，轉譯過來就是：

編碼才是最重要的，但它在這上面表現不佳。

圖片

不過也有人出來安利Gemini 1.5 Pro（0801）的圖像和PDF提取功能。

DAIR.AI聯合創始人Elvis親自在油管做了全套測試，并總結道：

視覺能力非常接近GPT-4o。

圖片

以及，有人拿Gemini 1.5 Pro（0801）來解決Claude 3.5 Sonet之前回答不好的問題。

結果一看，它不僅表現更好，同時也干掉了自家小伙伴Gemini 1.5 Flash。

圖片

不過嘛，一些經典常識測試它還是搞不定，比如“寫十個以蘋果結尾的句子”。

圖片

One More Thing

與此同時，谷歌Gemma 2系列迎來了一個新的20億參數模型。

圖片

Gemma 2（2B）開箱即用，可以在Google Colab的免費T4 GPU上運行。

圖片

在競技場排行榜上，它超過了所有GPT-3.5模型，甚至超越了Mixtral-8x7b。

圖片

面對谷歌最新取得的一系列新排名，競技場榜單權威性再次受到大家質疑。

Nous Research聯合創始人Teknium（微調后訓練領域知名玩家）發文提醒：

雖然Gemma 2（2B）在競技場得分高于GPT-3.5 Turbo，但它在MMLU上遠低于后者。
如果人們使用競技場排名作為模型性能的唯一指標，這種差異就會令人擔憂。

圖片

Abacus.AI首席執行官Bindu Reddy更是直接呼吁：

請立即停止使用這個人類評估排行榜！
Claude 3.5 Sonnet比GPT-4o-mini好得多。
類似的Gemini/Gemma在這個排行榜上的得分都不應該這么高。

圖片

那么，你認為這種人類匿名投票的方式還靠譜嗎？（歡迎評論區討論）

參考鏈接：
[1]https://x.com/lmsysorg/status/1819048821294547441

[2]https://x.com/JeffDean/status/1819121162578022849

[3]https://x.com/stevenheidel/status/1819080995062403484

[4]https://x.com/rohanpaul_ai/status/1818697538360295897

[5]https://x.com/bindureddy/status/1818738366466412601

[6]https://x.com/infwinston/status/1818718423700103526

責任編輯：武曉燕來源：量子位

GPT-4o 模型 ChatGPT

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

起猛了，GPT-4o被谷歌新模型擊敗，ChatGPT官號：大家深吸一口氣

網友：谷歌終于來了！

One More Thing