成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Claude 悄悄進化:全新“思考”工具解鎖,AI 也能像人一樣“停下來想想”了

人工智能 新聞
研究表明,“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執行需要在長鏈工具調用中遵守政策和推理的復雜任務時的性能 。

Claude 模型搞了個新玩意兒,叫 “think tool”(思考工具)

簡單來說,這個工具就像給 Claude 加了個 “暫停鍵” 和 “草稿紙”,可以在復雜任務期間為結構化思考創造專用空間

圖片

這和之前他們說的 “extended thinking”(擴展思考)還不一樣。“擴展思考” 是模型在 開始生成答案前 的預先思考和迭代。而 “think tool” 是在 生成答案過程中,讓 Claude 可以隨時停下來,審視已有的信息,判斷是否需要進一步分析

這個 “思考” 有啥用?

Anthropic 官方說,這招特別適合 復雜工具調用 的場景。比如:

信息過載時: Claude 需要處理多個工具的返回結果,信息量太大容易懵, “思考工具” 可以幫它慢下來,仔細分析

規則繁瑣時: 面對復雜的政策或指南,Claude 需要逐條核對,確保操作合規,“思考工具” 可以輔助它進行策略梳理

步步為營時: 在多步驟任務中,每一步都建立在前一步的基礎上,一旦出錯代價很高,“思考工具” 可以幫助 Claude 在關鍵節點停下來,評估風險

技術細節:JSON 配置,簡單易用

Anthropic 還貼心地給出了 “think tool” 的 JSON 配置示例,開發者可以輕松集成到自己的應用中。配置非常簡潔,核心就是定義工具的名稱、描述和輸入參數(一個名為 “thought” 的字符串)

{
  "name":"think",
"description":"Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
"input_schema":{
    "type":"object",
    "properties":{
      "thought":{
        "type":"string",
        "description":"A thought to think about."
      }
    },
    "required":["thought"]
}
}

效果實測:性能提升顯著

為了驗證 “think tool” 的效果,Anthropic 用了 T-Bench 和 SWE-Bench 兩個基準測試。

T-Bench (客戶服務場景): 在模擬客戶服務對話中,“think tool” 配合優化后的 prompt,在 Airline 領域的 pass@1 指標上提升了 54%! Retail 領域也有明顯提升

圖片

圖片


SWE-Bench (軟件工程場景): 在軟件工程任務中,加入 “think tool” 后,性能平均提升了 1.6%

何時用,何時不用

“think tool” 雖然好用,但也不是萬能藥。Anthropic 也給出了使用建議:

推薦使用場景:

工具輸出分析

政策合規環境

連續決策任務

不推薦使用場景:

非連續工具調用

簡單指令跟隨

寫在最后

研究表明,“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執行需要在長鏈工具調用中遵守政策和推理的復雜任務時的性能 。 “思考”并不是一個萬能的解決方案,但它為正確的用例提供了實質性的好處,而且實現復雜性極低

責任編輯:張燕妮 來源: AI寒武紀
相關推薦

2024-11-11 10:46:05

2021-08-12 06:08:15

CSS 技巧組件狀態

2025-05-26 04:00:00

AI編程開發

2021-04-23 15:13:16

算法模型技術

2015-04-09 11:27:34

2022-07-12 14:56:30

AI模型研究

2022-11-24 12:22:39

2024-10-23 08:54:07

2025-06-16 10:00:00

C++代碼Python

2017-11-22 15:11:33

Java線程停止

2011-10-27 09:42:19

ASP.NET

2023-11-16 16:08:05

CIOCEO

2021-10-31 08:09:07

網絡攻擊黑客網絡安全

2022-09-27 14:45:51

安全服務商黑客

2020-10-11 21:39:35

計算機互聯網 技術

2024-10-28 10:30:00

AI開源模型

2021-04-12 10:20:20

Java微服務Go

2020-09-30 17:12:09

人工智能技術數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线精品一区二区 | 精品国产免费一区二区三区五区 | a级免费观看视频 | 免费视频二区 | 色婷婷综合久久久中字幕精品久久 | 九九精品在线 | 2022精品国偷自产免费观看 | aaa精品| 日韩精品一区二区三区在线播放 | 日韩欧美在 | 国产精品爱久久久久久久 | 中文字幕一区二区在线观看 | 97人人澡人人爽91综合色 | 欧美日韩电影免费观看 | 亚洲视频免费观看 | 日韩午夜一区二区三区 | 亚洲视频免费一区 | 成人在线小视频 | 男人的天堂中文字幕 | 日韩一区二区久久 | 91精品国产一区二区三区动漫 | 成年免费在线观看 | 国产成人网 | 国产第一亚洲 | 国产精品综合一区二区 | 国产欧美一区二区三区久久 | 亚洲视频精品 | 亚洲精品福利在线 | 欧美精品在欧美一区二区 | 免费国产一区 | 91精品国产综合久久精品图片 | 中文字幕av在线 | 午夜欧美a级理论片915影院 | 久久国产电影 | 精品国产91久久久久久 | 一本久久a久久精品亚洲 | 91精品国产91久久久久福利 | 色噜噜色综合 | a级毛片免费高清视频 | 亚洲精品电影在线观看 | 亚洲激情在线观看 |