「中杯」Claude 3.5突然上線，竟比GPT-4o還強(qiáng)！全新Artifacts改寫模型交互

作者：新智元 2024-06-21 09:57:00

Anthropic曾許下要超越OpenAI的發(fā)家愿望，沒想到竟然這么快就實(shí)現(xiàn)了。他們剛剛發(fā)布的Claude 3.5 Sonnet模型不僅成本更低、速度更快，而且在基準(zhǔn)測試上的表現(xiàn)「彎道超車」GPT-4o。

繼今年3月發(fā)布Claude 3之后，Anthropic在半年時(shí)間里又上新了！

就在今天，Claude 3.5 Sonnet發(fā)布，作為即將推出的Claude 3.5模型家族的「排頭兵」，而且已經(jīng)面向全球開啟免費(fèi)試用。

具體來說， Claude 3.5 Sonnet支持200K token的上下文窗口，而在多項(xiàng)評測中超過了OpenAI最強(qiáng)的GPT-4o，以及自家的Claude 3 Opus。

與此同時(shí)，Claude 3.5 Sonnet還保持著中等規(guī)模的模型所具有的速度和成本優(yōu)勢。

其中，在費(fèi)用方面，Claude 3.5 Sonnet處理每百萬輸入token僅需3美元，每百萬輸出token則為15美元。（與前代相同）

用戶可以在Claude.ai和Claude iOS應(yīng)用程序上免費(fèi)體驗(yàn)，如果訂閱了Claude Pro和團(tuán)隊(duì)計(jì)劃，則可以享受更高的速率；此外，還可以通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用

生成2倍速，成本僅1/5

Claude 3.5 Sonnet雖然在零樣本MATH和MMLU評測中小幅落后GPT-4o，但在研究生級推理（GPQA）、本科級知識（MMLU）和編碼能力（HumanEval）上，毋庸置疑地刷新了SOTA——

不僅大幅領(lǐng)先自家的前代老大哥Claude 3 Opus，而且還完成了對谷歌Gemini 1.5 Pro和Meta 4000億參數(shù)的Llama（早期預(yù)覽版）的全面超越。

它在理解細(xì)微差別、幽默和復(fù)雜指令方面有顯著提升，并且能夠用自然、貼近生活的語調(diào)撰寫高質(zhì)量內(nèi)容。

在運(yùn)行速度方面，Claude 3.5 Sonnet也是Claude 3 Opus的兩倍。

這種性能提升，再加上高性價(jià)比，使Claude 3.5 Sonnet非常適合處理復(fù)雜任務(wù)，如上下文敏感的客戶支持和多步驟工作流程的協(xié)調(diào)。

在內(nèi)部的智能體編碼評估中，Claude 3.5 Sonnet解決了64%的問題，優(yōu)于Claude 3 Opus的38%。

結(jié)果顯示，在指令和相關(guān)工具的支持下，Claude 3.5 Sonnet可以獨(dú)立編寫、編輯和執(zhí)行代碼，具備復(fù)雜的推理和故障排除能力。

尤其是，它能夠輕松處理代碼翻譯，因此在更新遺留應(yīng)用程序和遷移代碼庫方面效果極佳。

視覺能力超越GPT-4o

在視覺方面，Claude 3.5 Sonnet也是Anthropic迄今為止推出的最強(qiáng)大模型，不僅明顯優(yōu)于Claude 3 Opus和Gemini 1.5 Pro，而且在大部分測試中也都超過了GPT-4o。

這些改進(jìn)在需要視覺推理的任務(wù)中尤為明顯，例如解釋圖表和圖形。

不僅如此，Claude 3.5 Sonnet還可以準(zhǔn)確地從不完美的圖像中轉(zhuǎn)錄文本——這是零售、物流和金融服務(wù)領(lǐng)域的核心能力。

在這些領(lǐng)域里，AI從圖像、圖形或插圖中獲得的信息往往要比單純的文本來得更多。

基準(zhǔn)測試中體現(xiàn)的這種強(qiáng)大視覺能力如何落實(shí)到現(xiàn)實(shí)應(yīng)用中呢？下面這個(gè)demo給你答案。

像GPT-4o、Gemini這些模型雖然理解圖像和視頻的能力很強(qiáng)，但一般只能生成文字的描述內(nèi)容，在這方面我們?nèi)祟愶@然更擅長，能比模型做得更快更好。

但Claude不僅能準(zhǔn)確識別、轉(zhuǎn)錄圖像中的文字內(nèi)容，還結(jié)合了強(qiáng)大的代碼生成能力，多個(gè)模態(tài)真正集成在一起。

看一眼圖片，立刻識別信息生成JSON文件，手速絕對快過任何程序員。

還能通過編碼制造交互式圖表，代碼直接可運(yùn)行，數(shù)據(jù)也絲毫不差。

不僅僅是代碼，根據(jù)圖片信息生成的網(wǎng)頁也是圖文并茂、界面精美。原本需要一晚上才能搞定的工作量，Claude幫你5分鐘內(nèi)趕上DDL。

領(lǐng)域?qū)＜易顬殓姁?/h3>
在附帶的報(bào)告中，Anthropic還補(bǔ)充了一些其他測試的結(jié)果。
報(bào)告地址：https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf
表4展示了Claude 3.5 Sonnet在「拒絕請求」時(shí)的表現(xiàn)。
這里，團(tuán)隊(duì)使用的而是Wildchat和XSTest數(shù)據(jù)集進(jìn)行測試，從而衡量模型在面對無害提示時(shí)避免不必要的拒絕，同時(shí)在面對有害內(nèi)容時(shí)保持適當(dāng)?shù)闹?jǐn)慎。
可以看到，Claude 3.5 Sonnet在這兩個(gè)維度上都優(yōu)于Opus：它的錯(cuò)誤拒絕更少，正確拒絕更多。
表5、圖1和圖2展示了Claude 3.5 Sonnet在「大海撈針」任務(wù)中的表現(xiàn)。
可以看到，Claude 3.5 Sonnet和Claude 3 Opus的性能幾乎不相上下，但在平均召回率方面Claude 3.5 Sonnet還是要略勝一籌。
此外，從下表中能更清晰地看到，Claude 3.5 Sonnet在所有文本長度和200K長上下文之間，召回率居然沒有出現(xiàn)明顯滑落，這是包括Opus在內(nèi)的所有前代模型的突破。
在基于人類反饋的評估方面，團(tuán)隊(duì)把從Claude 2.1開始的所有模型都拉了出來。
其中，人類評審需要與模型進(jìn)行對話，并根據(jù)任務(wù)特定的指令對其進(jìn)行評估。
圖3展示了與Claude 3 Opus基線相比的「勝率」（win rate）。
可以看到， Claude 3.5 Sonnet不僅在編碼、文檔、創(chuàng)意寫作和視覺等核心能力上有著顯著的改進(jìn)，而且領(lǐng)域?qū)＜覀円哺酉矚g——在法律領(lǐng)域的勝率高達(dá)82%，在金融領(lǐng)域?yàn)?3%，在哲學(xué)領(lǐng)域?yàn)?3%。

Artifacts：讓團(tuán)隊(duì)實(shí)現(xiàn)無縫協(xié)作

除了模型的更新之外，Anthropic還Claude.ai上推出了一項(xiàng)全新功能——Artifacts，擴(kuò)展了用戶與Claude互動的方式。

具體來說，當(dāng)用戶要求Claude生成代碼片段、文本文檔或網(wǎng)站設(shè)計(jì)等內(nèi)容時(shí)，只需要一鍵點(diǎn)擊，這些Artifacts會出現(xiàn)在對話旁邊的專用窗口中。

這樣就創(chuàng)建了一個(gè)動態(tài)工作空間，用戶可以實(shí)時(shí)查看、編輯并基于Claude的創(chuàng)作進(jìn)行構(gòu)建，將AI生成的內(nèi)容無縫集成到他們的項(xiàng)目和工作流程中。

這個(gè)功能的添加，大大增強(qiáng)了Claude在復(fù)雜項(xiàng)目中的可用性。

比如想要創(chuàng)建一個(gè)交互式的游戲界面，你很難在一次對話中描述清楚所有的功能與需求。即使描述清楚了，以生成模型目前的能力，未必也能一次得到滿意的結(jié)果。

于是，你可以參考軟件開發(fā)的流程，將需求分解為多個(gè)步驟，更方便Claude Sonnet進(jìn)行「漸進(jìn)式開發(fā)」和迭代。

比如下面這個(gè)demo中，想要創(chuàng)建一個(gè)游戲，可以先讓模型用SVG格式生成你想要的角色形象。

再把所有這些SVG圖像放在同一個(gè)HTML網(wǎng)頁中。

最后，規(guī)定好角色名稱和游戲規(guī)則，只需要告訴Claude讓這個(gè)游戲變得「可玩」，不用操心任何代碼細(xì)節(jié)，一個(gè)簡單的網(wǎng)頁游戲就制作完成了。

Artifacts的推出，標(biāo)志著Claude從對話式AI向協(xié)作工作環(huán)境的轉(zhuǎn)變。

當(dāng)然，這還只是一個(gè)開始。

不久的將來，團(tuán)隊(duì)——最終是整個(gè)組織——將能夠在一個(gè)共享空間中安全地集中他們的知識、文檔和正在進(jìn)行的工作，Claude將作為按需的隊(duì)友提供服務(wù)。

網(wǎng)友：被震撼到了！

模型剛剛發(fā)布，就有早期測試者發(fā)帖表示「被震撼到了」！

我是Claude 3.5 Sonnet模型的早期測試者，我對輸出的一致反應(yīng)是「超神」，模型現(xiàn)在已向所有人開放。
Claude 3.5 Sonnet在關(guān)鍵評估上優(yōu)于競爭模型，速度是Claude 3 Opus的兩倍，但成本只有五分之一，能勝任自主編碼和視覺處理等復(fù)雜任務(wù)，而且可以管理長文檔，確保 RAG、搜索/檢索以及比較多個(gè)長文檔等任務(wù)的準(zhǔn)確性。
以及，我個(gè)人使用體驗(yàn)的反饋：從來不需要跟它說「不，你沒明白我的提示，請執(zhí)行這個(gè)操作」，它就是能理解提示并做到了；Artifact讓我更有效率；文本推理/比較的結(jié)果優(yōu)秀到不可思議。

有網(wǎng)友表示，自己不相信基準(zhǔn)，于是便拿了道真題來了波實(shí)測。

結(jié)果不出所料，Claude 3.5 Sonnet很快就做了出來，而GPT-4o則在一通長篇大論之后給出了錯(cuò)誤的答案。