成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI重奪競技場第一,但這波靠的是4o

人工智能
模型能完成更自然、更有吸引力、更具針對性的寫作,文本相關(guān)性和可讀性更強。還可以更好地處理上傳的文件,提供更深入的見解和更全面的響應(yīng)。

OpenAI開發(fā)者日新加坡站今天啟幕,果不其然,ChatGPT又出手了:

Gemini剛在競技場頭把交椅上坐了不到一周,最新版ChatGPT輕輕一更新,第一再次易主。

圖片

對,還不是o1滿血版,而是新版4o。

具體來說,此番GPT-4o更新的是“創(chuàng)意寫作能力”,官方說法是:

模型能完成更自然、更有吸引力、更具針對性的寫作,文本相關(guān)性和可讀性更強。

還可以更好地處理上傳的文件,提供更深入的見解和更全面的響應(yīng)。

圖片

o1核心貢獻者Karina Nguyen對此做了進一步解釋:

作為Canvas功能的一部分,我們希望改進寫作,因為這是一個頂級用例,并且可能會改變?nèi)藱C協(xié)作的方式,來更具創(chuàng)造性地完成寫作任務(wù)。

我認(rèn)為我們還沒有完全解決這個研究問題,因為它非常主觀且開放,但至少在寫作方面取得進展,是AGI創(chuàng)造性智能的關(guān)鍵。

圖片

而在大模型競技場的創(chuàng)意寫作分榜上,可以看到新版4o(ChatGPT-4o-1120)確實有明顯的提升,分?jǐn)?shù)從上個版本的1365提升到了1402。

圖片

至于實際效果,我們簡單測試了一下,看看你能給打個幾分:

圖片

重返第一,但4o

除了在總榜上為OpenAI重奪第一,新版4o在體現(xiàn)具體能力的各個分榜上亦有提升。

在創(chuàng)意寫作方面,從第2位升至第1位;

在代碼能力方面,從第2位升至第1位;

在數(shù)學(xué)能力方面,從第4位升至第3位(第1還是o1-preview)

在困難任務(wù)方面,從第2位升至第1位。

并且在風(fēng)格控制(Style Control)之后,新版4o依然位居首位。

圖片

風(fēng)格控制旨在讓榜單分?jǐn)?shù)更真實地反映模型解決問題的能力,避免模型靠漂亮的格式、增加回答長度刷分。

總勝率熱圖顯示,新版4o對上此前登頂?shù)腉emini-Exp-1114,勝率為59%;對上Claude 3.5 Sonnet,勝率為69%;對上5月版本的4o,更是在72%的情況下都能取勝。

圖片

嗯,看上去很強很不錯,但還是那句話……是4o。

結(jié)合今日份DeepSeek的大新聞——DeepSeek版o1滿血上線,還計劃開源,不少網(wǎng)友直接在奧特曼“新的好模型來了”的推文下貼臉嘲諷起來:

可不是嘛,deepseek挺好。

圖片

快把o1放出來,跟deepseek-r1正面比較一下:)

圖片

簡而言之就是:o1滿血版今年上線傳得滿城風(fēng)雨,現(xiàn)在2024年都只剩下40幾天了,OpenAI你暗搓搓更新個4o是鬧哪樣!

還有人試圖總結(jié)OpenAI的更新模式:

OpenAI的老伙計們怕不是寫了個腳本,用來查詢大模型競技場排名第一的模型。

當(dāng)返回值不是OpenAI的模型時,他們就部署個新版本來拿回第一。

圖片

嗯,才不管你期待的是什么呢╭(╯^╰)╮

另外,還有網(wǎng)友拿新4o的生成結(jié)果去做了測試,結(jié)果系統(tǒng)還是當(dāng)場判斷出了100%AI寫的:

圖片

△圖源:??@TuhinChakr

不過,一片吐槽聲中,也有人認(rèn)真研究了一下OpenAI的更新。

比如,在系統(tǒng)提示詞方面,大佬發(fā)現(xiàn),OpenAI確實偷偷給ChatGPT加了點料的:

## guardian_tool

Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:

- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).

Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:

```python

get_policy(category:str) -> str

```

The guardian tool should be triggered before other tools. DO NOT explain yourself.
“””

簡單來說,就是新增了一道護欄,確保ChatGPT不在敏感話題上胡說八道。

那么,如果你想試試新版4o具體能寫出什么“創(chuàng)意”內(nèi)容,現(xiàn)在可以到競技場免費試試:
https://lmarena.ai/?leaderboard

有什么好玩的結(jié)果,歡迎回評論區(qū)分享給大伙兒~

參考鏈接:
[1]https://x.com/OpenAI/status/1859296125947347164。
[2]https://x.com/lmarena_ai/status/1859307979184689269。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2025-02-17 12:24:43

2025-06-06 14:23:48

谷歌模型AI

2012-05-31 14:20:14

2024-07-29 15:37:17

AI訓(xùn)練

2025-04-08 08:50:00

AI模型測試

2024-08-08 13:03:46

2025-04-14 09:06:00

2024-07-24 12:40:44

2024-10-16 15:07:57

2013-03-22 14:08:14

智能手表IT巨頭競技場

2025-02-17 08:03:00

2013-09-12 11:17:02

2024-05-20 08:28:10

2024-05-31 14:23:15

2024-09-29 14:33:30

數(shù)據(jù)飛輪數(shù)據(jù)中臺數(shù)字化轉(zhuǎn)型

2024-04-22 08:40:00

LLM模型開源

2025-02-18 15:09:07

2022-04-12 18:35:03

元宇宙

2014-10-31 15:43:02

華為智慧

2024-03-08 13:02:56

Claude 3GPT-4Opus
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美一级免费看 | 国产精品久久久久久久三级 | 欧美成人一级 | 色伊人网 | 成人亚洲性情网站www在线观看 | 国产精品成人国产乱 | 大陆一级毛片免费视频观看 | 久久日韩精品一区二区三区 | 成人免费观看视频 | 91色网站 | 中文一区| 日本中文字幕一区 | 性高湖久久久久久久久3小时 | 午夜网址 | www.日本在线观看 | 欧美三级在线 | 国产高清一二三区 | 久久高清免费视频 | 国产一区二区三区免费 | 色欧美综合 | 中文字幕日韩一区 | 免费看黄视频网站 | 国产伦精品一区二区三毛 | 91精品欧美久久久久久久 | 久色一区 | 久色视频在线观看 | 日韩一区二区三区视频在线观看 | 欧美a级成人淫片免费看 | 成年人的视频免费观看 | 福利av在线 | 超碰人人爱 | 精品一区二区三区在线视频 | 天堂一区二区三区 | 精品九九九| 日韩免费视频一区二区 | 国产美女精品视频 | 希岛爱理在线 | 日日操夜夜操视频 | 国产精品毛片一区二区在线看 | av网站在线看 | 中文字幕免费视频 |