成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="kiwec"></rt>

<abbr id="kiwec"><source id="kiwec"></source></abbr>

<rt id="kiwec"></rt>

<li id="kiwec"><input id="kiwec"></input></li>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

剛剛，全球首個混合推理模型Claude 3.7降世！最強編程大腦暴擊DeepSeek R1

作者：新智元 2025-02-25 09:13:16

人工智能新聞

就在剛剛，Anthropic祭出首個混合推理Claude 3.7 Sonnet，堪稱擴展思考模式的最強模型。在最新編碼測試中，新模型暴擊o3-mini、DeepSeek R1，AI編碼王者出世了。

憋了大半年，Anthropic終于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登場！

這是Claude系列中，迄今為止最智能的模型，幾乎能夠及時響應，并進行可擴展的、逐步的思考。

簡言之，一個模型，兩種思考方式。

假設你想破解一個博弈論數學問題——蒙提霍爾問題，扔給Claude 3.7 Sonnet，然后同時選擇「Extended」模式。

它便會展示詳細CoT過程，用時52秒就完成了。

最關鍵的是，Claude 3.7 Sonnet目前所有人免費可用，目前「擴展思考」模式還沒有上線。

在多項基準測試中，「擴展思考」模式加持下的Claude 3.7 Sonnet，在數學、物理、指令執行、編程等刷新SOTA。

相較于上一代Claude 3.5 Sonnet，數學、編碼能力更是暴漲10%以上。

除了數學，Claude 3.7 Sonnet（64k extended thinking）幾乎完全碾壓o3-mini，DeepSeek R1，與Grok 3不相上下。

API用戶可以精確控制模型的思考時間

可以說，Claude 3.7 Sonnet完全是一個最強「軟件工程AI」。在SWE-bench上，創下了70.3%的高分。

與此同時，首款「智能體編程」工具Claude Code（預覽版）也在今天問世了。

如今，它已經成為Anthropic內部，不可或缺的工具。在早期測試中，Claude一次性就完成人類需要45分鐘的任務。

也就是說，你做產品經理，AI給你打工寫代碼。

雖沒有Claude 4，Anthropic這波突如其來的打法，實屬給AI界又一震撼。

這半個月，注定是2025開年以來AI含金量最高的。

Grok 3上周剛發布，這周DeepSeek連續開源5天，OpenAI GPT-4.5據稱也要上線，再加上Claude 3.7 Sonnet，大模型領域的混戰又開始了。

全球首款「混合推理」模型誕生

在官方博文中，Anthropic稱，Claude 3.7 Sonnet是Anthropic迄今為止最智能的模型，也是市場上首個混合推理模型。

Claude 3.7 Sonnet能夠產生幾乎即時的響應或逐步展示思考過程的詳細步驟，這些步驟對用戶是可見的。API用戶還可以精細控制模型的思考時間。

在編碼和前端網頁開發方面，Claude 3.7 Sonnet得到顯著提升。

除此之外，他們還推出了一款名為Claude Code的命令行工具，用于智能體編碼。

目前，Claude Code僅作為有限的研究預覽版提供，它使開發人員能夠直接從他們的終端將大量的工程任務委托給Claude。

推理，是一個LLM整體能力

Claude 3.7 Sonnet的設計理念與市場上其他推理模型不同。

Anthropic相信，就像人類使用一個大腦來處理快速反應和深度思考一樣，推理應該是前沿模型的整體能力，而不是一個完全獨立的模型。這種統一的方法為用戶提供了更流暢的體驗。

Claude 3.7 Sonnet在幾個方面體現了這一理念。

首先，Claude 3.7 Sonnet既是普通的語言模型（LLM），也是一個推理模型：可以選擇在什么時候希望模型正?；卮?，什么時候希望它在回答之前思考更長的時間。

在標準模式下，Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版本。

在擴展思考模式下，它在回答之前進行自我反思，這提高了在數學、物理、指令遵循、編碼和其他許多任務上的性能。

通常，兩種模式對模型的提示效果相似。

其次，通過API使用Claude 3.7 Sonnet時，用戶還可以控制思考的預算——

你可以告訴Claude在回答時最多思考N個tokens，N的最大值為128K tokens的輸出限制。這使得用戶可以在速度（和成本）與回答質量之間進行權衡。

第三，在開發推理模型時，Anthropic在數學和計算機科學競賽問題上的優化程度稍微降低，而是將重點轉向了更能反映企業實際使用LLM的現實世界任務。

Claude 3.7 Sonnet在SWE-bench Verified上刷線SOTA，該評測旨在評估AI模型解決現實世界軟件問題的能力

Claude 3.7 Sonnet在TAU-bench上刷新SOT，TAU-bench是一個測試AI智能體在復雜現實世界任務中與用戶和工具交互能力的框架

如前所述，Claude 3.7 Sonnet幾乎在各大基準測試中，性能得到了顯著提升。

相較于最新Grok 3 Beta模型，Claude 3.7 Sonnet（64k extended thinking）在推理方面幾乎打成平手。而在數學、視覺推理方面，又略遜色于Grok 3 Beta。

與o3-mini、DeepSeek R1相比，除了數學，帶有擴展思考模式的Claude 3.7 Sonnet拿下最高分。

Claude 3.7 Sonnet在任務指令跟隨、通用推理、多模態能力和自主編程方面表現出色，擴展思考模式在數學和科學領域帶來了顯著提升。除了傳統基準測試外，它甚至在寶可夢游戲測試中超越了所有先前模型

AI編碼智能體，一次完成45分鐘任務

自2024年6月以來，Sonnet系列一直是全球開發者的首選模型。

今天，Anthropic的首個智能體編碼工具Claude Code誕生，目前以限量研究預覽的形式發布。

Claude Code主動與人協作，能夠搜索和閱讀代碼、編輯文件、編寫和運行測試、提交并將代碼推送至GitHub，以及使用命令行工具——同時確保用戶在每一步都能參與其中。

此外，本次更新還改進了Claude.ai上的編碼體驗。

現在，所有Claude套餐都支持GitHub集成——開發者能夠將代碼倉庫直接連接到Claude。

作為Anthropic迄今為止最強大的編碼模型，Claude 3.7 Sonnet能更深入地理解個人項目、工作項目和開源項目，并一舉成為修復bug、開發新功能以及編寫GitHub文檔的強大助手。

目前，Claude Code還處于早期階段，但已經成為Anthropic團隊不可或缺的工具，尤其是在測試驅動開發、調試復雜問題和大規模重構方面。

在早期測試中，它能夠一次性完成了通常需要手動工作45分鐘以上的任務，顯著減少了開發時間和工作量。

在接下來的幾周里，Anthropic計劃根據使用情況不斷改進它：提升工具調用的可靠性、增加對長時間運行命令的支持、改進應用內渲染效果，并擴展Claude對自身能力的理解。

全新的測試時Scaling

Claude作為AI智能體

Claude 3.7 Sonnet具備了一項被稱為「行為擴展」（action scaling）的新特性——這種改進使其能夠迭代調用函數、響應環境變化，并持續操作直到完成開放式任務。

例如在計算機使用方面：Claude能夠通過發出虛擬鼠標點擊和鍵盤按鍵來代替用戶完成任務。與前代相比Claude 3.7 Sonnet能夠在計算機使用任務中投入更多的交互次數，同時配備更充足的時間和計算資源，因此往往能取得更好的結果。

這一進步在OSWorld評估中得到了充分體現，這是一個用于評估多模態AI智能體能力的測試平臺。

Claude 3.7 Sonnet在初始階段就展現出了較好的表現，而隨著其持續與虛擬計算機交互，其性能優勢還會隨時間推移而不斷擴大。

Claude的擴展思考模式與AI智能體訓練相結合，不僅幫助它在OSWorld等眾多標準評估中取得了更好的表現，還讓它在一些其他意想不到的任務中實現了重大突破。

以玩游戲為例——特別是在Game Boy掌機經典游戲「口袋妖怪：紅」中的表現。他們為Claude配備了基礎記憶能力、屏幕像素輸入功能，以及按鍵操作和屏幕導航的函數調用能力，使其能夠突破常規上下文限制，持續進行游戲，實現長達數萬次的持續交互。

在下圖中，他們對比了具備擴展思考能力的Claude 3.7 Sonnet與之前版本的Claude Sonnet在口袋妖怪游戲中的進度。

如圖所示，早期版本在游戲伊始就難以推進，Claude 3.0 Sonnet甚至無法走出故事起點真新鎮的初始小屋。

而Claude 3.7 Sonnet憑借改進后的AI智能體能力取得了顯著進展，成功挑戰并擊敗了三位道館館主，獲得了相應的徽章。

Claude 3.7 Sonnet在嘗試多種策略和重新審視既有假設方面表現出色，這使它能夠在游戲過程中不斷提升自身能力。

串行與并行測試時計算Scaling

當Claude 3.7 Sonnet運用其擴展思考能力時，可以說它利用了「串行測試時計算」機制。

具體而言，它會在生成最終輸出之前，執行多個連續的推理步驟，并在此過程中持續增加計算資源投入。

總體來看，這種機制能夠以可預測的方式提升其性能表現：例如，在數學問題求解方面，其準確率會隨著允許采樣的「思考Token」數量的增加呈對數增長。

Claude的研究人員還在探索使用并行測試時計算來提升模型性能。

具體方法是通過采樣多個獨立的思維過程，并在不預先知道正確答案的情況下選擇最佳結果。這可以通過多數表決或共識投票機制來實現，即選擇出現頻率最高的答案作為「最佳」答案。

另外也可以使用另一個LLM來驗證其工作成果，或采用經過訓練的評分函數來選擇最優答案。

這些優化策略（及相關研究工作）已在多個AI模型的評估報告中得到驗證。

在GPQA評估中，他們通過并行測試時計算Scaling取得了突破性進展。

具體而言，通過調用等同于256個獨立樣本的計算資源，結合訓練優化的評分模型，并設置最大64,000個Token的推理限額，Claude 3.7 Sonnet在GPQA測試中達到了84.8%的總體得分（其中物理學部分高達96.5%）。

值得注意的是，即使超出常規多數表決的限制范圍，模型性能仍在持續提升。

下圖列出了評分模型方法和多數表決方法的詳細結果。

這些方法能夠提升Claude回答的質量，而且通常無需等待其完成推理過程。同時進行多個不同的深度思維運算，Claude能夠探索更多問題解決思路，顯著提升正確答案的輸出頻率。

三步路線圖，Claude合作者已來

Claude 3.7 Sonnet和Claude Code標志著，向真正增強人類能力的人工智能系統邁出的重要一步。

憑借其深入推理、自主工作和有效協作的能力，它們讓我們更接近一個未來，在那里人工智能豐富了人類所能實現的事情。

如今，Claude合作者已來。

最新版，可以免費用了

值得一提的是，Claude 3.7 Sonnet目前已經在Claude.ai平臺上線，Web、iOS和Android用戶皆可免費體驗。

對于希望構建自定義AI解決方案的開發者，可以通過Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI進行訪問。

在標準模式和擴展思考模式下，Claude 3.7 Sonnet的價格與其前代產品相同：3美元/百萬輸入token，15 美元/百萬輸出token ——這其中包括了思考token的費用。

Anthropic套餐定價

AI大佬測試

賓夕法尼亞大學沃頓商學院的教授Ethan Mollick已經在過去幾天對Claude 3.7進行了測試，Claude 3.7經常給他帶來與第一次使用ChatGPT-4時相同的感覺：既驚嘆不已，又對它們的能力感到一絲不安。以 Claude的原生編碼能力為例，我們現在可以通過自然對話或文檔獲得可運行的程序，而無需任何編程技能。

例如，他向Claude提供了一份關于新型AI教育工具的提案，并在對話中要求它「以3D形式展示所提議的系統架構，并使其具有交互性」。結果，它生成了我們論文中核心設計的交互式可視化效果，沒有任何錯誤。

這些圖形雖然很簡潔，但并不是最令人印象深刻的部分。真正讓人驚嘆的是，Claude自主決定將其制作成一個逐步演示來解釋相關概念，而這并不是我們要求它做的。

這種對需求的預判和對新方法的思考是AI領域中的一項新突破。

再舉一個更有趣的例子，Ethan Mollick告訴Claude：「給我做一個交互式的時間機器裝置，讓我可以穿越回過去，并發生一些有趣的事情。挑選一些不尋常的時間點讓我回去...」以及「添加更多圖像。」

僅僅這兩條提示之后，就出現了一個功能齊全的交互式體驗，甚至還配有粗糙但迷人的像素圖像（這些圖像實際上令人驚訝地印象深刻——AI必須使用純代碼「繪制」這些圖像，而無法看到它正在創建的內容，就像一個被蒙住眼睛的藝術家。

責任編輯：張燕妮來源：新智元

AI 模型數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产成人午夜高潮毛片 | 日韩中文字幕一区 | 国精久久 | 日本不卡在线观看 | 一区二区精品在线 | 亚洲欧美另类在线 | 国产一区二区三区四区三区四 | 亚洲欧洲一区二区 | 久久久久国产一区二区三区 | 精品国产一区二区三区成人影院 | 精品国产一区二区三区久久 | 国产亚洲精品成人av久久ww | 国产激情视频网址 | 日韩欧美精品一区 | 在线毛片网 | 欧美视频区| 久久国产成人 | 欧美性tv | 亚洲一区二区三区在线播放 | 黄页网址在线观看 | 国产一区二区影院 | 久久精品国产久精国产 | 久久久久91| 91精品久久久久久久久99蜜臂 | 亚洲婷婷一区 | 福利色导航 | 国产成人高清成人av片在线看 | 中文字幕在线观看 | 久久一 | 亚洲免费精品一区 | 请别相信他免费喜剧电影在线观看 | 在线观看免费福利 | 久久国产区 | 一区中文字幕 | 最新国产精品视频 | 国产一区二区三区免费 | 久久日韩粉嫩一区二区三区 | 亚洲免费在线观看 | 中文字幕亚洲视频 | 香蕉91| 天天躁日日躁狠狠躁白人 |

<li id="kqisk"><input id="kqisk"></input></li>

<rt id="kqisk"><delect id="kqisk"></delect></rt>

<li id="kqisk"><source id="kqisk"></source></li>

<li id="kqisk"></li>

<cite id="kqisk"><acronym id="kqisk"></acronym></cite>

<center id="kqisk"></center>

<rt id="kqisk"><delect id="kqisk"></delect></rt><li id="kqisk"><input id="kqisk"></input></li>

<button id="kqisk"></button>

<rt id="kqisk"></rt>