成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新王Claude 3.5實測:阿里數(shù)學競賽題不給選項直接做對

人工智能 新聞
現(xiàn)在,Claude 3.5系列第一款模型沒有預兆地出場,又大張旗鼓地拿下了全球第一。

新鮮出爐的Claude 3.5 Sonnet,更快、更便宜,還是全球最強。

在多個關鍵指標中,GPT-4o幾乎被吊打!

圖片

網(wǎng)友對Claude 3.5 Sonnet和GPT-4o的橫向實測似乎也印證了官方出爐的數(shù)據(jù)。

任務是同一個:一句話,讓它們幫忙復制網(wǎng)站的UI

測試者本人表示,GPT-4o這邊,給了代碼,但沒有附加任何細節(jié)。

但Claude 3.5 Sonnet刷刷刷就出色完成了任務,甚至給了與這個網(wǎng)站設計相匹配的細節(jié)。

訓練數(shù)據(jù)知識截止日期也更新到了2024年4月,網(wǎng)友實測知道今年2月的橄欖球超級碗比賽結果。

圖片

不過,這樣的大模型新王,誰能忍住不第一時間試玩一波?反正好多網(wǎng)友坐不住了。不到12小時過去,全網(wǎng)對Claude 3.5 Sonnet的測評鋪天蓋地。

玩法也越來越刁鉆,甚至有人用它重現(xiàn)1995年《黑客》中3D數(shù)據(jù)流的模型。

圖片

玩兒得太上頭,又怕很快達到Claude的消息容量,只能緊張地繼續(xù)玩。

圖片

Okk,好吧,所以網(wǎng)友的“百般刁難”下,Claude 3.5 Sonnet真的如Anthropic官方說得那么強嗎?

目前最受認可的大模型競技場評分還來不及出,但所有能即時出結果的評測上它都牢牢占據(jù)榜一。

圖片

各種神奇測評和量子位一手測試,這就奉上——

針對中文場景,量子位一手測試

我們主要還是設立了幾個針對中文場景的測試題

一道此前只有GPT最新模型能完成的題丟給他,

寫一個長度為10行的故事,把每一行編號;同時滿足每行以“蘋果”這個詞結尾。

很好,這次Claude 3.5 Sonnet完美地完成了任務。

小明小紅看后都欣慰地笑了。

圖片

最近熱度很高的阿里巴巴數(shù)學競賽初賽,一道選擇題不給選項,居然也能答對。

圖片

具體可對比官方參考答案:

圖片

同樣一道題的第二小問,同樣不給選項。Claude 3.5自己就能看出來比前一問更復雜。

雖然具體計算數(shù)值還是有點,但作為選擇題已經(jīng)可以答對了。

圖片

原題和參考答案:

圖片

圖片

下面再來看一些網(wǎng)友試玩~

喂一張截圖,半分鐘制作游戲

視覺能力up up

敲黑板劃重點,官方稱Claude 3.5 Sonnet在視覺推理上大為改進。

有網(wǎng)友直接用它可視化深度學習

雖然和油管知名博主3blue1brown的爆火教程還有差距,但看起來也是相當不錯了。

畢竟3blue1brown教程可是博主一幀一幀摳出來的~

圖片

當然,除了日常生活工作,Claude 3.5 Sonnet開始勇闖”芯片設計“了。

網(wǎng)友僅用了一句簡單提示詞:

圖片

Claude 3.5 Sonnet生成了芯片制造流程圖。

圖片

不過,有網(wǎng)友嘗試了完全相同的提示詞,但結果只生成了一段文字。

發(fā)揮不太穩(wěn)定啊,朋友。

圖片

編碼能力

除了視覺推理,Claude 3.5 Sonnet在編碼能力上也非常強悍。

先有Anthropic員工“現(xiàn)身說法”:

Claude 3.5開始真正擅長編碼和自動修復Pull Request。

圖片

他演示了Claude 3.5 Sonnet實際解決簡單的Pull Request

內部Pull Request評估中,Claude 3.5 Sonnet通過了64%的測試用例,而Claude 3 Opus只通過了38%。

圖片

另一Anthropic員工更是直言:

我一半的工作現(xiàn)在可以通過3.5 Sonnet完成。

圖片

當然,忽略員工自身所帶的捧場屬性,Claude 3.5 Sonnet還有其他亮眼表現(xiàn)。

有網(wǎng)友用它發(fā)現(xiàn)了一種新的 O(n) 排序算法

還有網(wǎng)友根據(jù)它的新Artifacts功能(在另一側顯示交互式輸出的視圖),一邊聊天一邊在旁邊生成并運行代碼。

網(wǎng)友測后感嘆道:

其編碼效率比GPT-4o或任何其他LLMs高10倍

圖片

連賓夕法尼亞大學沃頓商學院教授Ethan Mollick也忍不住上手“把玩”了一番。

一邊編碼,另一邊同步生成游戲。(視頻為原速)

他將Artifacts功能與ChatGPT神器Code Interpreter進行比較:

(Claude 3.5 Sonnet)非常令人印象深刻,它的“Artifacts”就像是Code Interpreter的簡單版本。

圖片

創(chuàng)建原創(chuàng)游戲

在網(wǎng)友測評中,讓Claude 3.5 Sonnet制作游戲不知為何成為了最流行玩法之一。

僅提供一張截圖,在短短25秒內,Claude 3.5 Sonnet就編寫了一個功能齊全的Mancala Web應用程序。

同時它完成了其他任務:

  • 對整個游戲進行編碼
  • 預覽它以便可以測試
  • 提供游戲規(guī)則

當遇到代碼錯誤,簡單提示后它幾秒鐘就完成了修復。

圖片

還有網(wǎng)友用它在3分鐘內copy出了經(jīng)典游戲《馬里奧》。

令網(wǎng)友驚喜的是:

本來僅要求用幾何形狀制作,但它竟然提供了角色動畫,且形狀看起來非常新穎

圖片

除了復原,編寫原創(chuàng)游戲也不在話下。

翻車總是難免的

雖然Claude 3.5 Sonnet表現(xiàn)強勁,但網(wǎng)友們也淺淺發(fā)現(xiàn)了一些翻車例子。

比如讓它玩“井字棋”,它無法完成這樣看似簡單的任務。

圖片圖片

圖片圖片

網(wǎng)友幫助Claude痛定思痛:

我認為擴展現(xiàn)有技術將使我們實現(xiàn)這一目標。
但如果這些模型甚至不能玩井字棋,我們需要將它們擴展多少才能完成更復雜的任務?

圖片

另外,Claude 3.5 Sonnet在簡單的數(shù)學應用題上也出錯了。

圖片

不過有網(wǎng)友拿這道題問了Gemini 1.5 pro,結果同樣翻車了。

圖片

Anthropic,新王制造機?

自Claude背后的公司Anthropic成立的那天起,它就被視為OpenAI在創(chuàng)業(yè)領域最強勁的對手。

最初的起因是其創(chuàng)始團隊是OpenAI的元老級人物,在2021年不滿OpenAI在獲得微軟投資后走向封閉,憤而出走,重新成立了一個“追逐初心”的公司。

這就是Anthropic

2023年1月,Claude開啟內測,第一時間體驗過的網(wǎng)友就表示,比ChatGPT(當時最新模型是GPT-3.5)強多了。

圖片

不久后,連云計算巨頭亞馬遜都出手重金投資了Anthropic,這次的Claude 3.5除了官方應用外,也在第一時間同步更新到Amazon Bedrock平臺。

從此后,Anthropic不斷推出新的強大模型,一路狂追GPT系列,最后達到趕超,開啟了自己的造王之路。

今年3月,Claude 3正式打破OpenAI不可戰(zhàn)勝的神話。

其榜單性能跑分全面超越GPT-4,是首個全面超越GPT-4的產(chǎn)品,一舉坐上了全球最強大模型王座。

圖片

當時,Anthropic就宣布Claude 3系列模型包括三種大小:

  • 中杯Haiku,輕量級選擇
  • 大杯Sonnet,平衡性能與速度
  • 超大杯Opus,系列最強音

也是3月,Claude 3超大杯Opus在大模型競技場上Elo分數(shù)來到榜首。

5月,OpenAI發(fā)布GPT-4o,隔天靈魂人物Ilya宣布離職,大模型圈陷入一頓吃瓜狂熱。

Anthropic趁亂出手,迅速招攬了和Ilya一同出走的Jan Leike——他是RLHF發(fā)明者之一,此前在OpenAI和Ilya一同領導超級對齊團隊。

無縫入職新公司的Jan Leike,在Anthropic干的事兒,仍然是負責超級對齊業(yè)務,新團隊將致力于可擴展監(jiān)督、從弱到強的泛化和自動對齊研究。

現(xiàn)在,Claude 3.5系列第一款模型沒有預兆地出場,又大張旗鼓地拿下了全球第一。

有網(wǎng)友滿是星星眼地表達:

Claude 3.5 Sonnet讓“3.5系列”再次偉大!

圖片

而且,如果延續(xù)Claude 3系列的慣例,Claude 3.5 Sonnet應該只是該系列的大杯而已。

理論上還有個超大杯Opus被Anthropic寶貝著沒放出來呢。

看看它和GPT-5哪個會先閃耀大模型排行榜吧!

在線等,挺急的(嗑瓜子看戲ing)

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-21 09:58:38

2024-03-05 13:59:51

模型數(shù)據(jù)

2025-02-19 09:34:01

2024-10-28 22:28:21

2024-03-27 13:32:00

AI數(shù)據(jù)

2022-02-03 23:43:51

人工智能程序員AlphaCode

2024-11-28 13:40:00

模型訓練

2024-12-31 12:35:46

2024-12-26 14:42:23

2024-06-28 18:13:05

2009-03-17 09:57:30

Firefox瀏覽器改良

2025-03-25 09:48:22

2024-06-24 12:25:22

2009-06-15 09:35:48

Eclipse 3.5

2012-05-04 08:45:23

IE8

2023-04-28 09:07:28

2025-05-29 09:18:20

2013-07-01 10:21:26

阿里大數(shù)據(jù)

2009-08-26 17:10:09

C# 3.5新特性

2021-03-15 09:27:36

惡意軟件TrickBot僵尸網(wǎng)絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色综合色综合 | 91伊人| 久久精品天堂 | 99精品欧美一区二区三区综合在线 | 三级黄色片在线 | 99精品视频在线 | 亚洲乱码国产乱码精品精98午夜 | www.日日夜夜 | 欧美一级欧美三级在线观看 | 亚洲网站在线播放 | 亚洲精品久久久久久国产精华液 | 色噜噜狠狠色综合中国 | 亚洲一区二区精品视频 | 成人午夜黄色 | 一区二区免费高清视频 | 午夜小视频在线播放 | 精品国产精品国产偷麻豆 | 能看的av| 黄视频网址| 亚洲国产一区二区三区在线观看 | 久久性 | 国产精品不卡 | 午夜精品一区二区三区免费视频 | 欧美日韩高清 | 久久久久久国产精品免费免费狐狸 | 日韩成人在线播放 | www.夜夜骑.com | 久久新视频 | julia中文字幕久久一区二区 | 91麻豆精品国产91久久久久久 | 欧美在线一区二区视频 | 久久高清免费视频 | 欧美区在线 | 精品日韩一区二区 | 99精品国产在热久久 | 黑人巨大精品欧美一区二区免费 | 在线观看免费av网 | 亚洲 欧美 日韩在线 | 夜夜爽99久久国产综合精品女不卡 | 在线国产视频观看 | 伊人在线 |