成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<bdo id="6y6ig"></bdo>

<tfoot id="6y6ig"></tfoot>

<cite id="6y6ig"></cite>

<rt id="6y6ig"></rt>

<button id="6y6ig"><tbody id="6y6ig"></tbody></button>

<button id="6y6ig"><source id="6y6ig"></source></button>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

新王Claude 3.5實測：阿里數(shù)學競賽題不給選項直接做對

作者：量子位 2024-06-21 13:11:30

人工智能新聞

現(xiàn)在，Claude 3.5系列第一款模型沒有預兆地出場，又大張旗鼓地拿下了全球第一。

新鮮出爐的Claude 3.5 Sonnet，更快、更便宜，還是全球最強。

在多個關鍵指標中，GPT-4o幾乎被吊打！

網(wǎng)友對Claude 3.5 Sonnet和GPT-4o的橫向實測似乎也印證了官方出爐的數(shù)據(jù)。

任務是同一個：一句話，讓它們幫忙復制網(wǎng)站的UI。

測試者本人表示，GPT-4o這邊，給了代碼，但沒有附加任何細節(jié)。

但Claude 3.5 Sonnet刷刷刷就出色完成了任務，甚至給了與這個網(wǎng)站設計相匹配的細節(jié)。

訓練數(shù)據(jù)知識截止日期也更新到了2024年4月，網(wǎng)友實測知道今年2月的橄欖球超級碗比賽結果。

不過，這樣的大模型新王，誰能忍住不第一時間試玩一波？反正好多網(wǎng)友坐不住了。不到12小時過去，全網(wǎng)對Claude 3.5 Sonnet的測評鋪天蓋地。

玩法也越來越刁鉆，甚至有人用它重現(xiàn)1995年《黑客》中3D數(shù)據(jù)流的模型。

玩兒得太上頭，又怕很快達到Claude的消息容量，只能緊張地繼續(xù)玩。

Okk，好吧，所以網(wǎng)友的“百般刁難”下，Claude 3.5 Sonnet真的如Anthropic官方說得那么強嗎？

目前最受認可的大模型競技場評分還來不及出，但所有能即時出結果的評測上它都牢牢占據(jù)榜一。

各種神奇測評和量子位一手測試，這就奉上——

針對中文場景，量子位一手測試

我們主要還是設立了幾個針對中文場景的測試題。

一道此前只有GPT最新模型能完成的題丟給他，

寫一個長度為10行的故事，把每一行編號；同時滿足每行以“蘋果”這個詞結尾。

很好，這次Claude 3.5 Sonnet完美地完成了任務。

小明小紅看后都欣慰地笑了。

最近熱度很高的阿里巴巴數(shù)學競賽初賽，一道選擇題不給選項，居然也能答對。

具體可對比官方參考答案：

同樣一道題的第二小問，同樣不給選項。Claude 3.5自己就能看出來比前一問更復雜。

雖然具體計算數(shù)值還是有點，但作為選擇題已經(jīng)可以答對了。

原題和參考答案：

下面再來看一些網(wǎng)友試玩~

喂一張截圖，半分鐘制作游戲

視覺能力up up

敲黑板劃重點，官方稱Claude 3.5 Sonnet在視覺推理上大為改進。

有網(wǎng)友直接用它可視化深度學習。

雖然和油管知名博主3blue1brown的爆火教程還有差距，但看起來也是相當不錯了。

畢竟3blue1brown教程可是博主一幀一幀摳出來的~

當然，除了日常生活工作，Claude 3.5 Sonnet開始勇闖”芯片設計“了。

網(wǎng)友僅用了一句簡單提示詞：

Claude 3.5 Sonnet生成了芯片制造流程圖。

不過，有網(wǎng)友嘗試了完全相同的提示詞，但結果只生成了一段文字。

發(fā)揮不太穩(wěn)定啊，朋友。

編碼能力

除了視覺推理，Claude 3.5 Sonnet在編碼能力上也非常強悍。

先有Anthropic員工“現(xiàn)身說法”：

Claude 3.5開始真正擅長編碼和自動修復Pull Request。

他演示了Claude 3.5 Sonnet實際解決簡單的Pull Request。

在內部Pull Request評估中，Claude 3.5 Sonnet通過了64%的測試用例，而Claude 3 Opus只通過了38%。

另一Anthropic員工更是直言：

我一半的工作現(xiàn)在可以通過3.5 Sonnet完成。

當然，忽略員工自身所帶的捧場屬性，Claude 3.5 Sonnet還有其他亮眼表現(xiàn)。

有網(wǎng)友用它發(fā)現(xiàn)了一種新的 O(n) 排序算法。

還有網(wǎng)友根據(jù)它的新Artifacts功能（在另一側顯示交互式輸出的視圖），一邊聊天一邊在旁邊生成并運行代碼。

網(wǎng)友測后感嘆道：

其編碼效率比GPT-4o或任何其他LLMs高10倍

連賓夕法尼亞大學沃頓商學院教授Ethan Mollick也忍不住上手“把玩”了一番。

一邊編碼，另一邊同步生成游戲。（視頻為原速）

他將Artifacts功能與ChatGPT神器Code Interpreter進行比較：

它（Claude 3.5 Sonnet）非常令人印象深刻，它的“Artifacts”就像是Code Interpreter的簡單版本。

創(chuàng)建原創(chuàng)游戲

在網(wǎng)友測評中，讓Claude 3.5 Sonnet制作游戲不知為何成為了最流行玩法之一。

僅提供一張截圖，在短短25秒內，Claude 3.5 Sonnet就編寫了一個功能齊全的Mancala Web應用程序。

同時它完成了其他任務：

對整個游戲進行編碼
預覽它以便可以測試
提供游戲規(guī)則

當遇到代碼錯誤，簡單提示后它幾秒鐘就完成了修復。

還有網(wǎng)友用它在3分鐘內copy出了經(jīng)典游戲《馬里奧》。

令網(wǎng)友驚喜的是：

本來僅要求用幾何形狀制作，但它竟然提供了角色動畫，且形狀看起來非常新穎

除了復原，編寫原創(chuàng)游戲也不在話下。

翻車總是難免的

雖然Claude 3.5 Sonnet表現(xiàn)強勁，但網(wǎng)友們也淺淺發(fā)現(xiàn)了一些翻車例子。

比如讓它玩“井字棋”，它無法完成這樣看似簡單的任務。

網(wǎng)友幫助Claude痛定思痛：

我認為擴展現(xiàn)有技術將使我們實現(xiàn)這一目標。
但如果這些模型甚至不能玩井字棋，我們需要將它們擴展多少才能完成更復雜的任務？

另外，Claude 3.5 Sonnet在簡單的數(shù)學應用題上也出錯了。

不過有網(wǎng)友拿這道題問了Gemini 1.5 pro，結果同樣翻車了。

Anthropic，新王制造機？

自Claude背后的公司Anthropic成立的那天起，它就被視為OpenAI在創(chuàng)業(yè)領域最強勁的對手。

最初的起因是其創(chuàng)始團隊是OpenAI的元老級人物，在2021年不滿OpenAI在獲得微軟投資后走向封閉，憤而出走，重新成立了一個“追逐初心”的公司。

這就是Anthropic。

2023年1月，Claude開啟內測，第一時間體驗過的網(wǎng)友就表示，比ChatGPT（當時最新模型是GPT-3.5）強多了。

不久后，連云計算巨頭亞馬遜都出手重金投資了Anthropic，這次的Claude 3.5除了官方應用外，也在第一時間同步更新到Amazon Bedrock平臺。

從此后，Anthropic不斷推出新的強大模型，一路狂追GPT系列，最后達到趕超，開啟了自己的造王之路。

今年3月，Claude 3正式打破OpenAI不可戰(zhàn)勝的神話。

其榜單性能跑分全面超越GPT-4，是首個全面超越GPT-4的產(chǎn)品，一舉坐上了全球最強大模型王座。

當時，Anthropic就宣布Claude 3系列模型包括三種大小：

中杯Haiku，輕量級選擇
大杯Sonnet，平衡性能與速度
超大杯Opus，系列最強音

也是3月，Claude 3超大杯Opus在大模型競技場上Elo分數(shù)來到榜首。

5月，OpenAI發(fā)布GPT-4o，隔天靈魂人物Ilya宣布離職，大模型圈陷入一頓吃瓜狂熱。

Anthropic趁亂出手，迅速招攬了和Ilya一同出走的Jan Leike——他是RLHF發(fā)明者之一，此前在OpenAI和Ilya一同領導超級對齊團隊。

無縫入職新公司的Jan Leike，在Anthropic干的事兒，仍然是負責超級對齊業(yè)務，新團隊將致力于可擴展監(jiān)督、從弱到強的泛化和自動對齊研究。

現(xiàn)在，Claude 3.5系列第一款模型沒有預兆地出場，又大張旗鼓地拿下了全球第一。

有網(wǎng)友滿是星星眼地表達：

Claude 3.5 Sonnet讓“3.5系列”再次偉大！

而且，如果延續(xù)Claude 3系列的慣例，Claude 3.5 Sonnet應該只是該系列的大杯而已。

理論上還有個超大杯Opus被Anthropic寶貝著沒放出來呢。

看看它和GPT-5哪個會先閃耀大模型排行榜吧！

在線等，挺急的（嗑瓜子看戲ing）。

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：色综合色综合 | 91伊人| 久久精品天堂 | 99精品欧美一区二区三区综合在线 | 三级黄色片在线 | 99精品视频在线 | 亚洲乱码国产乱码精品精98午夜 | www.日日夜夜 | 欧美一级欧美三级在线观看 | 亚洲网站在线播放 | 亚洲精品久久久久久国产精华液 | 色噜噜狠狠色综合中国 | 亚洲一区二区精品视频 | 成人午夜黄色 | 一区二区免费高清视频 | 午夜小视频在线播放 | 精品国产精品国产偷麻豆 | 能看的av| 黄视频网址| 亚洲国产一区二区三区在线观看 | 久久性 | 国产精品不卡 | 午夜精品一区二区三区免费视频 | 欧美日韩高清 | 久久久久久国产精品免费免费狐狸 | 日韩成人在线播放 | www.夜夜骑.com | 久久新视频 | julia中文字幕久久一区二区 | 91麻豆精品国产91久久久久久 | 欧美在线一区二区视频 | 久久高清免费视频 | 欧美区在线 | 精品日韩一区二区 | 99精品国产在热久久 | 黑人巨大精品欧美一区二区免费 | 在线观看免费av网 | 亚洲欧美日韩在线 | 夜夜爽99久久国产综合精品女不卡 | 在线国产视频观看 | 伊人在线 |

<center id="s42m2"><acronym id="s42m2"></acronym></center>

<dl id="s42m2"></dl>

<abbr id="s42m2"><source id="s42m2"></source></abbr>

<dl id="s42m2"></dl>