業界首個“混合AI推理模型”！快OpenAI一步Anthropic跳版本發布：Claude3.7 Sonnet可自行決定思考時長原創

51CTO技術棧

發布于 2025-2-25 13:57

瀏覽

0收藏

整理 | 星璇

出品 | 51CTO技術棧（微信號：blog51cto）

就在OpenAI還在吊胃口之際，最強競對 Anthropic 深夜開大了！

Anthropic 直接把自家的“通用+推理”二合一的模型發布了，并把自家內部在用的AI編程工具也上線，直接可以終端執行任務的那種！

這就帶大家看看這家公司在大模型以及AI產品上的不同打法！

用戶不用再選擇模型了，業界首個混合AI模型

Anthropic 正在發布一款名為 Claude 3.7 Sonnet 的新型前沿 AI 模型，該模型被設計為能夠根據用戶的需求“思考”問題任意長的時間。

業界首個“混合AI推理模型”！快OpenAI一步Anthropic跳版本發布：Claude3.7 Sonnet可自行決定思考時長-AI.x社區圖片

業界首個“混合AI推理模型”！快OpenAI一步Anthropic跳版本發布：Claude3.7 Sonnet可自行決定思考時長-AI.x社區 Anthropic 的新思維模式

Anthropic 將 Claude 3.7 Sonnet 稱為業界首個“混合 AI 推理模型”，因為它是一款既能提供實時回答，又能給出經過深思熟慮、更加“推敲”的答案的單一模型。用戶可以選擇是否激活 AI 模型的“推理”能力，這會促使 Claude 3.7 Sonnet 在短時間內或較長時間內進行“思考”。

這款模型代表了 Anthropic 在簡化其 AI 產品用戶體驗方面的更廣泛努力。如今，大多數 AI 聊天機器人都有一個令人頭疼的模型選擇器，迫使用戶從幾種不同選項中進行選擇，這些選項在成本和功能上各有差異。像 Anthropic 這樣的實驗室希望用戶不必為此操心——理想情況下，一個模型就能完成所有任務。

Anthropic 表示，Claude 3.7 Sonnet 已經于周二凌晨面向所有用戶和開發者推出，但只有付費訂閱 Anthropic 高級版 Claude 聊天機器人的用戶才能訪問模型的推理功能。免費版用戶將獲得標準版的 Claude 3.7 Sonnet，Anthropic 聲稱其性能優于之前的前沿 AI 模型 Claude 3.5 Sonnet。（是的，這家公司跳過了一個數字。）

Claude 3.7 Sonnet 的價格為每百萬輸入令牌 3 美元（意味著你可以以 3 美元的價格輸入大約 75 萬詞，比整個《指環王》系列的字數還多），以及每百萬輸出令牌 15 美元。這使得它比 OpenAI 的 o3-mini（每百萬輸入令牌 1.10 美元/每百萬輸出令牌 4.40 美元）和 DeepSeek 的 R1（每百萬輸入令牌 0.55 美元/每百萬輸出令牌 2.19 美元）更昂貴，但需要注意的是，o3-mini 和 R1 是純粹的推理模型——不像 Claude 3.7 Sonnet 是混合模型。

Claude 3.7 Sonnet 比其前代產品有了重大升級。擴展思維模式使該模型在數學、物理、指令遵循、編碼和許多其他任務方面獲得了額外的提升。此外，API 用戶可以精確控制模型的思考時間。

業界首個“混合AI推理模型”！快OpenAI一步Anthropic跳版本發布：Claude3.7 Sonnet可自行決定思考時長-AI.x社區圖片

模型廠商的新趨勢：讓模型自行決定思考多久，減少回答問題的等待時間

Claude 3.7 Sonnet 是 Anthropic 第一款能夠“推理”的 AI 模型，這是許多 AI 實驗室在傳統提升 AI 性能的方法逐漸失效時轉向的一種技術。

像 o3-mini、R1、谷歌的 Gemini 2.0 Flash Thinking 和 xAI 的 Grok 3（Think）這樣的推理模型，在回答問題之前會花費更多時間和計算資源。這些模型將問題分解為更小的步驟，這通常會提高最終答案的準確性。推理模型并不一定像人類那樣真正“思考”或“推理”，但它們的過程是基于演繹法建模的。

Anthropic 的產品與研究主管 Dianne Penn 在接受采訪時透露，最終，Anthropic 希望 Claude 能夠自行決定需要“思考”多久來回答問題，而無需用戶提前選擇控制選項。

Anthropic 在一篇分享的博客文章中寫道：“類似于人類不會為可以立即回答的問題和需要深思熟慮的問題配備兩個不同的大腦，我們認為推理只是前沿模型應具備的能力之一，并應與其他能力無縫集成，而不是通過單獨的模型提供。”

Anthropic 表示，它允許 Claude 3.7 Sonnet 通過“可見草稿板”展示其內部規劃階段。用戶可以看到 Claude 對大多數提示的完整思考過程，但出于信任和安全原因，部分內容可能會被隱藏。

業界首個“混合AI推理模型”！快OpenAI一步Anthropic跳版本發布：Claude3.7 Sonnet可自行決定思考時長-AI.x社區 Claude 在 claude 應用中的思考過程

重點聚焦于現實世界中的任務，而非各種競賽

Anthropic 表示，它優化了 Claude 的思維模式以應對現實世界中的任務，例如復雜的編碼問題或代理任務。使用 Anthropic API 的開發者可以控制“思考預算”，在速度和成本之間權衡答案的質量。

在一項衡量真實世界編碼任務的測試 SWE-Bench 中，Claude 3.7 Sonnet 的準確率為 62.3%，而 OpenAI 的 o3-mini 模型得分為 49.3%。在另一項測試 TAU-Bench 中，該測試衡量 AI 模型在零售環境中與模擬用戶和外部 API 交互的能力，Claude 3.7 Sonnet 得分為 81.2%，而 OpenAI 的 o1 模型得分為 73.5%。

業界首個“混合AI推理模型”！快OpenAI一步Anthropic跳版本發布：Claude3.7 Sonnet可自行決定思考時長-AI.x社區圖片

Anthropic 指出，Claude 3.7 Sonnet 是用于編碼和代理工具使用的最先進的模型。“ 在開發它的過程中，我們針對數學和計算機科學競賽問題的優化較少，而是將重點轉向更能反映用戶需求的現實任務。”

Anthropic 還表示，Claude 3.7 Sonnet 拒絕回答問題的頻率將低于其之前的模型，聲稱該模型能夠更細致地區分有害和無害的提示。Anthropic 表示，與 Claude 3.5 Sonnet 相比，它減少了 45% 的不必要拒絕。這正值一些其他 AI 實驗室重新考慮限制其 AI 聊天機器人回答的方式之際。

Claude Code：開發者直接可執行特定任務

除了 Claude 3.7 Sonnet，Anthropic 還發布了一款名為 Claude Code 的代理編碼工具。作為研究預覽版發布的這款工具，允許開發者直接從終端通過 Claude 執行特定任務。

在一次演示中，Anthropic 員工展示了如何通過簡單的命令（如“解釋這個項目結構”）讓 Claude Code 分析一個編碼項目。開發者可以使用命令行中的普通英語修改代碼庫。Claude Code 會在更改時描述其編輯內容，甚至可以測試項目錯誤或將項目推送到 GitHub 倉庫。

業界首個“混合AI推理模型”！快OpenAI一步Anthropic跳版本發布：Claude3.7 Sonnet可自行決定思考時長-AI.x社區圖片

甚至Anthropic內部也在用這款“提效神器”。Anthropic海外媒體官方賬號上稱：

“Claude Code 已經成為我們團隊不可或缺的工具。在早期測試中，Claude 一次性完成了通常需要 45 分鐘以上手動操作才能完成的任務。”

Anthropic 發言人日前表示，Claude Code 最初將以“先到先得”的方式向有限數量的用戶開放。

寫在最后

Anthropic 在 AI 實驗室以極快速度推出新 AI 模型的時期發布了 Claude 3.7 Sonnet。Anthropic 歷來采取更為系統化、注重安全性的方法。但這一次，該公司希望引領潮流。

“我們的合伙伙伴正在努力為他們的客戶取得成果，”Anthropic 的平臺負責人 Michael Gerstenhaber 解釋說。“使用相同的模型并以不同的方式提示相同的模型可以讓像 Thompson Reuters 這樣的人進行法律研究，讓我們的編碼合作伙伴（如 Cursor 或 GitHub）能夠開發應用程序并實現這些目標。”

Anthropic 的混合方法既代表了技術演變，也代表了戰略博弈。OpenAI 為不同的功能維護單獨的模型，而 DeepSeek 專注于成本效益，而 Anthropic 正在尋求能夠處理日常任務和復雜推理的統一系統。這種理念可以重塑企業部署 AI 的方式，并消除處理多個專業模型的需要。

不過問題是，這種領先能持續多久？OpenAI 可能即將發布自己的混合 AI 模型；該公司的首席執行官 Sam Altman 表示，這一模型將在“幾個月內”推出。

本文轉載自??51CTO技術棧??，作者：星璇

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

OpenAI

Anthropic

已于2025-2-25 13:58:36修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂