超越GPT-4o,Claude 3.5一夜封王!10倍編碼速度逆天,全網最全實測來了 精華
就在昨天,Anthropic深夜發布了下一代旗艦大模型Claude 3.5 Sonnet。
據稱,Claude 3.5 Sonnet不僅在評估中勝過GPT-4o,還保持了作為「中杯」的最優性價比,超過了自家的Claude 3 Opus。
如今,Claude 3.5 Sonnet已經面向全球開啟免費試用了。
在費用上,Sonnet處理每百萬輸入token僅需3美元,每百萬輸出token僅為15美元。
對比之下,GPT-4o的每百萬輸入token收費5美元,每百萬輸出token為15美元,在價格上可以說是不相上下。正式對打時,各家可以說是已經都壓低到了成本價。
前OpenAI對齊團隊負責人Jan Leike表示,我喜歡Sonnet新模型。我經常要求它向我解釋ML論文。雖然不一定全對,但可能比我略讀要好,而且速度也快得多。自動對齊研究越來越近了......
有網友同樣表示,「我有一半的工作都可以由Claude 3.5 Sonnet來完成,我真是太興奮了」。
Anthropic的產品經理Michael Gerstenhaber將新模型稱之為「世界上最智能的模型」。
他表示,「我們正處于這個行業寒武紀大爆發的開端」。
今年晚些時候,Claude 3.5 Haiku和最強版Claude 3.5 Opus將會陸續推出。
模型廠商們是徹底卷起來了!
網友實測
Claude 3.5 Sonnet發布之后,在全網掀起軒然大波,網友們紛紛上手開啟一波測試。
10倍編碼速度驚人
先來看看Claude 3.5 Sonnet寫代碼的速度有多可怕。
網友僅在一次對話中,就用threejs+cannonjs創建出一個3D太陽系模型,包含了物體和碰撞效果。
另一個網友稱,使用Claude 3.5 Sonnet進行編碼比GPT-4,或任何其他大型語言模型效率高10倍。全新的Artifacts功能,可以在聊天旁邊生成和運行代碼,簡直令人驚嘆。
沒有什么比使用Claude 3.5 Sonnet一次性編寫一個程序,來解密維吉尼亞密碼更棒的事了。
許多網友紛紛夸贊Claude 3.5 Sonnet速度快到起飛。
2分鐘一個小游戲
一位開發者直接用了不到2分鐘,做出了一個戴著太陽鏡的小狗吃骨頭的游戲。
另有人花了3分鐘的時間,做出了馬里奧克隆版,并且為角色提供了動畫效果。
還有另一款「原創」游戲Color Cascade。
用2分鐘創建一個蛇梯棋游戲。
網友表示,「我可以通過新的Artifacts功能實時查看代碼并玩游戲。使用Claude的編碼體驗比GPT-4和Gemini好10倍」。
這位網友用Sonnet做了一款乒乓球游戲。
不像ChatGPT,它沒有用到編碼解釋器。在這個過程中,我們可以制作文檔、筆記和其他內容,其中一個選項的html/jss。
神經網絡可視化
有人還去做了可視化深度學習,不過因為消息限制,不得不暫停。
下面是用動畫效果解釋反向傳播的工作原理。
重建3D「模擬矩陣」
Claude 3.5 Sonnet是第一個能在首次嘗試中,重現電影《黑客》中「數據流」3D場景的模型。
而且,在制作恐怖游戲上,Claude 3.5 Sonnet設計的3D結構比Opus更好。
SVG效果圖
Claude 3.5 Sonnet可以畫出獨角獸SVG圖。
它甚至可以生成芯片制造工藝流程示意圖。
「井字棋」游戲失敗
OpenAI研究科學家,德撲之父使用新模型之后表示,
像GPT-4o(現在還有Claude 3.5 Sonnet)這樣的前沿模型,在某些方面可能達到了「聰明的高中生」的水平,但它們在像「井字棋」這樣的基本任務上無法完成。
人們曾希望原生的多模態訓練能夠有所幫助,但事實并非如此。
Artifacts改變交互
從上文也可以看出,這次更新的一大亮點,就是Claude 3.5引入的超強實時交互功能Artifacts了。
這一功能,可以說是開啟了交互式AI最有潛力的形式。
它標志著Claude從對話式AI向協作工作環境的轉變。而在未來,Anthorpic的設想是,整個組織都能在共享空間中集中知識、文檔、工作,而Claude會隨時提供服務。
在沃頓商學院教授Ethan Mollick看來,Artifacts可以說是一個簡化版的代碼解釋器。
他上手創建的,是這樣一個螃蟹小游戲。
開始的版本是這樣的,稍顯平淡。
教授直接問,能不能讓游戲恐怖一點?然后氛圍感瞬間就上來了。
大家的直觀感受是,使用Claude和Artifacts,就像在IDE中工作一樣。
這位日本網友介紹說,Artifacts簡單來說,就是一個顯示代碼預覽的功能。它很容易直觀地理解,可以用于多種目的。
-網站創建
-形狀
-圖形
-文檔
-簡單游戲
它可以幫忙創建簡單的網站。
只要跟它說“制作一個計算器應用程序”,一個使用React的計算器應用程序預覽就完成了。
通過Artifacts,可以讓Sonnet使用HTML創建簡單的幻燈片材料。
這位網友發現,這個過程中可以向Sonnet展示設計圖片,它們會把這些圖片用作參考。
Claude 3.5 Sonnet不僅編碼效率比GPT-4o或任何其他LLMs都高10倍,而且因為Artifacts功能可以在聊天的旁邊生成并運行代碼,因而可以提供令人驚嘆的用戶體驗。
比如讓它用React生成一個貪吃蛇的游戲。
隨后,我們還可以用自然語言對游戲進行修改,比如做一個美觀的背景,或者讓蛇有一個化身。
因為可以一邊創建游戲,一邊立刻在右側窗口中玩這個游戲,Artifacts功能可以說是徹底貫徹了從對話式人工智能轉向協同工作環境的想法。
總的來說,Artifacts似乎是Claude長遠遠景的一個信號。
長期以來,Anthropic一直表示自己主要關注企業,并且計劃將Claude變成一種工具,讓企業「安全地」將他們的知識、文檔和正在進行的工作集中在一個共享空間中。
聽起來,這種概念更像是Notion或Slack,而不是ChatGPT。而在這種系統中,Anthropic的模型將處于整個系統的中心。
吊打GPT-4o,上一代2倍速
總的來說,Claude 3.5 Sonnet在生成速度方面,實現了飛升,是上一代超大杯Claude 3 Opus的2倍。
而且,在視覺方面的表現,新模型全面超越了GPT-4o。OpenAI上個月剛發布的新模型,沒想到這么快被取而代之。
以下是官方博客中,做的一些基準測試。
從圖中可以看出,Claude 3.5已經在多數基準中,領先GPT-4o、Gemini 1.5,以及Llama-400B的模型。
在代碼基準中,Claude 3.5在零樣本情況下,取得了92%的成績。在數學上,零樣本+CoT加持Claude 3.5還是有些落后于GPT-4o。
在視覺基準上,Claude 3.5 Sonnet在視覺問答MMMU基準上,略遜于GPT-4o。
不過,視覺數學推理、科學表格、圖表問答、文件問答上,都拿下了最高分。
Claude不僅能準確識別、轉錄圖像中的文字內容,還結合了強大的代碼生成能力,將多個模態真正集成在一起。
與眾不同的是,Claude 3.5 Sonnet并不像GPT-4o那樣集成了語音助手,或者能夠生成圖像,而且Anthropic暫時也沒有這一打算。
Anthropic聯創兼總裁Daniela Amodei在接受彭博獨家采訪中提到,「我們的目標是使其成為所有企業業務的首選模型」。
她繼續稱,從研究的角度來看,我們能夠生成圖像輸出,但繪制一只「滑雪的貓」圖像并不是我們的企業客戶所要求的,所以我們并不優先考慮這一點。
目前,制藥巨頭Pfizer已經利用Claude模型,幫助發現新藥物。
未來,模型越智能,就越有能力支持這種非常高水平的智力工作。顯然,Anthropic正在努力為它想要瞄準的企業公司進一步差異化。
可以擴展Claude交互方式的新功能Artifacts,便是一個新的嘗試。
Anthropic的改進速度,簡直令人驚嘆。
如今Anthropic的這一步,必將逼得其他競爭對手跟上。
要知道,Claude不像Gemini或ChatGPT那樣受到更多關注,但它在比賽中卻非常受歡迎。
本文轉自 新智元 ,作者:新智元
