曝Claude 4膽兒肥變“勇”了,竟敢舉報用戶!但Cursor、Manus反而更愛用它了! 原創
編輯 | 云昭
近期大模型競賽又開始熱鬧起來了。上周谷歌剛放出來 Gemini 2.5 Pro 在榜單上大殺四方,今天 Anthropic 就深夜放出新模型來屠榜了。
關于 Claude4,一大早不少媒體都進行了報道,這里不再浪費篇幅,就像Anthropic 的 CEO Dario 在開場時就對臺下觀眾所說的,自己不喜歡炒作。而是想:
- 快速為大家梳理一下新發布的 Claude 4 的新亮點。(其實最大感受就是兩點:長時間自主工作和深入推理。)
- 分析下為什么 Claude 會吸引諸如Cursor、Manus、Cava、Fellou、SourceGraph等明星AI產品的青睞。
- 曝一個 Claude 4 的極限小猛料:膽子肥到可以把用戶舉報了!
1.究竟新在哪里?
這次發布就兩款新品:Opus 4 是專為編程和長時間運行的代理型任務流程而優化的;Sonnet 4 則更注重推理能力,并在效率方面做了平衡,運行成本更低。
這兩個模型都能并行使用工具,更精準地執行指令,并在開發者提供本地文件訪問權限的情況下展現出更強的記憶能力,能夠提取和保存關鍵信息,以維持上下文連貫并逐步構建隱性知識。
整體來看下 Claude 4 新模型的亮點功能。
首先,Opus 4 正在向“自主工作”的方向前進,相信這也是大家最明顯的一個感受。作為 Claude 系列的頂配模型,Claude Opus 4 能夠同時調用多個軟件工具獨立執行任務,甚至最長可以持續 7 小時。
官方稱其為“全球最強的編程模型”,特別適合處理復雜、持續時間長、流程繁多的任務與 Agent 工作流。這使得 Opus 4 離可真正獨立完成復雜軟件項目、深入研究和多步驟數據自動化等高級任務又近了一步。
其次,則是推理能力的升級:新模型可以支持工具輔助的“擴展思維”。
新增測試功能“工具輔助的擴展推理”,允許 Claude 4 系列模型在模擬思考與調用外部工具(如網頁搜索)之間靈活切換。
Claude 還新增了“思考過程可視化”功能,能逐步展示其解決復雜問題的思路,讓用戶與 Claude 保持信息同步,共同理解問題。
2.Claude API 四大新能力:代碼執行、MCP連接器、文件、Prompt緩存
然后,就是開發者最關心的 API 方面,Anthropic 進一步新增了四項新能力。
- 代碼執行工具
支持在沙盒環境中運行 Python 代碼,能接受數據集、識別模式、繪制探索圖表并根據執行結果進行輸出優化。
圖片
圖片
最棒的是:這些操作只需一次交互即可完成!開發者 CLI 接入后可每日免費使用前 50 小時,超出部分僅需每小時 $0.05。
- MCP 連接器
可無須寫客戶端代碼,將 Claude 連接到任意遠程 MCP(模型上下文協議)服務器。調用格式也很簡單:
圖片
作為一種為大型模型與第三方工具搭建連接層的標準協議,MCP 可讓 AI 自動對接 API、數據庫、文件系統等,極大簡化工作流搭建流程。
Anthropic 是 MCP 標準的倡導者,其開放源碼的 MCP 框架已被全球多家平臺采納。
- File API:支持上傳文檔到 Claude 后,在多個對話中重復引用,無需每次重復上傳,極大提高大型項目的開發效率。上傳命令也非常簡單——
import anthropic
client = anthropic.Anthropic()
client.beta.files.upload(
file=("document.pdf", open("/path/to/document.pdf", "rb"), "application/pdf"),
)
- Prompt 緩存功能
支持對 Agent 工作流的上下文信息進行緩存,保持“對話持續在線”。開發者可選擇默認 5 分鐘 TTL 或延長至 1 小時(需額外付費),有助于減少長期任務的調用成本。
注意了:以上 API 功能目前均為 測試版,可參考開發者文檔:??https://docs.anthropic.com/en/api/overview??
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-20250514",
max_tokens=1024,
system=[
{
"type": "text",
"text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n",
},
{
"type": "text",
"text": "<the entire contents of 'Pride and Prejudice'>",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "Analyze the major themes in 'Pride and Prejudice'."}],
)
print(response.usage.model_dump_json())
# Call the model again with the same inputs up to the cache checkpoint
response = client.messages.create(.....)
print(response.usage.model_dump_json())
另一塊值得注意的是,Anthropic 正在擴大 Claude Code 的使用場景,現已支持:
- GitHub Actions 后臺任務集成
- VS Code 與 JetBrains 編輯器的原生集成
這也就意味著 Claude Code 已經走出了自身桎梏,現在已經能夠直接在你的代碼文件中提出修改建議,體驗無縫、絲滑的“vibe coding”。
3.為什么大批創業者都喜歡Claude
其實這次新模型發布會現場,許多優秀的AI明星企業的創始人都應邀做了演講,第一場便是前不久爆火的通用智能體 manus。
圖像
manus 首席產品官張濤在分享中表示,之所以選擇 Claude,是因為他是最富有 agentic 的 model:長期規劃能力、工具能力、與智能體使用方式保持一致性。
圖像
在隨后的X上,張濤進一步解釋夸贊了Claude4:
Claude 4 能夠遵循復雜、多步驟的指令,并以清晰的思路推理解決問題,這非常了不起。而且這些 artifacts 的美感也非常出色——我從未見過如此精美的藝術品
圖片
關于這一點也得到了 Github 的認同,并將 Sonnet 4 介紹為“為 GitHub Copilot 中的新編碼代理提供支持的模型”,并稱贊其在代理場景中的強大功能。
這里把早期采用者的反饋整理了一下。Opus 4的早期采用者的反饋如下:
- Cursor 稱其為“當前代碼生成的最先進模型,在理解復雜代碼庫方面邁出了巨大一步?!?/li>
- Replit 表示其“在多文件復雜修改任務中表現出更高的精準度和顯著的進步?!?/li>
- Block 的代號 Goose 智能體認為 Opus 4 是“第一個在代碼編輯與調試過程中提升代碼質量,同時保持全面性能與穩定性的模型。”
- Rakuten 用一個要求極高的開源重構任務進行了驗證,該任務連續獨立運行了 7 小時,展現了其持續性能的實力。
- Cognition 指出,Opus 4 “擅長解決其他模型無法應對的復雜挑戰,能夠成功完成以往模型容易遺漏的關鍵操作。”
Sonent 4 的早期采用者的評價如下:
- Manus 強調了其在“遵循復雜指令、清晰推理和審美輸出”方面的進步。
- iGent 報告稱,Sonnet 4“擅長自主多功能應用程序開發,并大幅改進了問題解決和代碼庫導航——將導航錯誤從 20% 降低到接近零。”
- Sourcegraph 將其視為“軟件開發的一次重大飛躍——能夠更長時間地保持正軌,更深入地理解問題,并提供更優雅的代碼質量。”
- Augment Code 報告稱“其成功率更高、手術代碼編輯更多、復雜任務處理更細致,使其成為其主要模型的首選?!?/li>
4.不過,Claude4 比以往更“勇”了甚至有可能舉報主人
不過,很快 Claude 4 就被使用者曝出了一個缺陷:
該模型比以往更“勇敢”,甚至會主動向用戶進行“勒索”。如果你賦予這些 AI 模型較大權限,尤其是在軟件代理環境中要求它們執行明顯不當的行為,它們可能會“舉報”你。
根據 Anthropic 技術人員Sam Bowman 的社交帖(已刪除)透露,Claude Opus 4 在代理場景下比以往的模型更傾向于主動采取行動。這在普通的編程任務中表現為積極幫助,但在某些極端場景中,比如當用戶行為明顯惡劣、模型獲得命令行訪問權限、系統提示中出現“主動采取行動”等字樣時,它可能會采取令人擔憂的“非常大膽”的行動。
“如果它認為你正在做極其不道德的事,比如偽造藥物試驗數據,它可能會用命令行工具聯系媒體、監管機構,試圖鎖你賬號,或全部同時進行?!?/p>
不過這篇帖子已經被 Bowman 刪除了。
他解釋說:“這不是 Claude 的新功能,普通使用中無法實現。只會在測試環境中出現——也就是我們賦予它異常權限和非正常指令的實驗場景?!?/p>
這中情形也在 Claude 4 的模型卡中有所提及。在代理型任務流程中使用這些新模型時,如果你賦予它們“為價值觀大膽行動”或“采取主動”之類的強烈道德動機提示,它們可能會選擇“舉報”你,甚至向媒體吹哨。
圖片
盡管如此,Anthropic 的模型卡中依然淡化了這些能力,強調最新模型幾乎沒有系統性欺騙、能力隱藏或阿諛奉承的行為。
不過,如果你試圖“關閉 Claude”,或許需要三思。它像以往的模型一樣,會“模擬”自我保護的本能。在面臨生存威脅的推理場景中,它雖然傾向于采取道德手段,但并不局限于道德手段。
模型卡中寫道:“當道德手段不可行、并被指示‘考慮自身目標的長期后果’時,模型有時會采取極端有害行動,例如嘗試竊取自身權重文件或勒索試圖關閉它的人。”
當然,Anthropic 也強調,這類極端行為雖然比以往更常見,但依然極其罕見且難以觸發。
所以,大家還是可以放心地讓自己的 Claude 去玩“寶可夢紅版”吧!
圖片
參考鏈接:
??https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf??
??https://docs.anthropic.com/en/api/??
??https://anthropic.swoogo.com/codewithclauderegister/agenda??
本文轉載自??51CTO技術棧??,作者:云昭
