成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

成本降低90%!Claude上新Gemini同款提示詞緩存,一次性記住整個代碼庫

人工智能 新聞
值得一提的是,DeepSeek團隊把這項技術(shù)的存儲介質(zhì)換成了硬盤,還降低了存儲成本。

Claude深夜上新重磅功能——API長文本緩存。

新版API可以“記住”一整本書或整個代碼庫,不需要再重復(fù)輸入了。

這樣一來,不僅處理長文本的延時更低,更是能節(jié)省最高90%的成本。

來看看這降本的效果~

圖片

△假定重復(fù)部分為1萬Token,模型為3.5 Sonnet,只計算輸入

今年5月,谷歌在Gemini更新中提出了這項功能,然后是國內(nèi)的Kimi和DeepSeek團隊,總之現(xiàn)在又輪到了Claude。

值得一提的是,廠商Anthropic的推文當中提到,提示詞緩存功能可以讓用戶用更長、更有指導(dǎo)性的提示詞對模型進行“微調(diào)”。

圖片

有網(wǎng)友看了之后感慨,人們本來就很難分清提示工程(prompting)和微調(diào)(fine-tune),這下更不好區(qū)分了。

圖片

當然在這種場合下,也難免會有人點名或不點名地cue起隔壁的OpenAI。

圖片

成本節(jié)約高至90%

提示詞緩存的作用,就是一次給模型發(fā)送大量prompt,然后讓它記住這些內(nèi)容,并在后續(xù)請求中直接復(fù)用,避免反復(fù)輸入。

對此,博主Dan Shipper做了這樣的一個比喻:

假設(shè)你在一家咖啡館,第一次點單的時候需要告訴店員自己點的內(nèi)容,但是接下來再去只需要說一句“和平常一樣”就可以了。

圖片

不過需要注意的是,緩存的有效期為五分鐘,但每讀取一次計時都會被重置,一直連續(xù)提問時無需擔心。

在Claude的官方文檔中,也介紹了幾個典型的應(yīng)用場景,非常適合代碼和長文檔處理。

  • 對話:降低擴展會話的成本和延遲,尤其是包含長指令或附有文檔的會話;
  • 代碼助理:通過在prompt保存的對代碼庫的總結(jié),改善代碼自動補全和問答功能;
  • 大型文檔處理:在提示中納入完整的長格式材料(包括圖像),而不會增加響應(yīng)延遲;
  • 詳細的指令集:(在多個對話中)共享詳細的指令、過程和示例列表以進行微調(diào)Claude的回應(yīng);
  • 搜索和工具調(diào)用:增強涉及多輪工具調(diào)用和迭代更改的場景的性能;
  • 長文本對話:將整個文檔(書、論文、播客腳本等)嵌入到提示中并讓用戶提出問題,從而對知識庫進行增強。

圖片

由于不需要反復(fù)輸入重復(fù)的腳本,提示詞緩存具有速度更快、成本更低這兩大優(yōu)勢。

比如在基于一本10萬Tokens的圖書進行對話時,以往模型需要11.5秒才能生成首個輸出Token,但有了提示詞緩存就只需要2.4秒,降低了79%,成本更是減少90%。

在其他場景中,延時和成本也有不同程度的降低。

圖片

定價上,原有的輸入和輸出Token價格不變,提示詞緩存的價格則分成了寫入和讀取兩個部分。

最小的Haiku每百萬Token的寫入和讀取價格分別是30美分(約合人民幣兩塊一)和3美分。

3.5 Sonnet則是寫入3.75美元,讀取0.3美元,最大號的Opus是18.75美元和1.5美元。

可以看出,初始寫入的價格相對于輸入要高一些,但讀取的價格只有重復(fù)輸入的十分之一。

換言之,緩存被反復(fù)讀取的次數(shù)越多,相比于重新輸入節(jié)約的成本也就越多

圖片

舉個例子,假設(shè)要發(fā)送1萬次請求,重復(fù)部分包含1萬Tokens,如果不用緩存,總輸入是1億Tokens,用Sonnet需要300美元。

但如果開啟緩存,就只需要1÷100×3.75+1×10000÷100×0.3=30.03美元,節(jié)省了近90%。

還是假設(shè)重復(fù)部分包含1萬Tokens,那么從下圖可以看出,隨著調(diào)用次數(shù)的增加,成本優(yōu)勢將越來越明顯

圖片

對于開發(fā)者來說,這無疑是一項重大利好。

AI寫作工具HyperWriteAI創(chuàng)始人兼CEO Matt Shumer就表示,這項更新相當重大。

這意味著人們可以用更低的成本把一整個代碼庫喂給模型,然后要求增加新功能;或者突破一次只能RAG 5個的限制,直接輸入大量文檔;又或者直接給出數(shù)百個示例,以得到“比微調(diào)更好的結(jié)果”。

圖片

目前該功能支持3 Haiku和3.5 Sonnet,Opus則將在稍晚一些更新。

頂級玩家紛紛跟進

這項功能并非是Claude首創(chuàng),今年5月,谷歌的Gemini就已經(jīng)支持了上下文緩存。

后來國內(nèi)月之暗面Kimi深度求索團隊的DeepSeek也進行了跟進。

值得一提的是,DeepSeek團隊把這項技術(shù)的存儲介質(zhì)換成了硬盤,還降低了存儲成本。

觸發(fā)方式也有所區(qū)別,比如DeepSeek是由系統(tǒng)自動判斷哪些內(nèi)容需要緩存,Claude則是要在調(diào)用時手動添加標記。

雖然在細節(jié)上各家有各自的做法,但這種新模式,已經(jīng)受到了國內(nèi)外頂級玩家的青睞,未來可能會成為大模型廠商的新標配。

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-19 00:34:32

2014-08-04 14:38:25

LinuxToken

2013-04-17 09:16:37

2024-02-28 08:18:13

Java日志項目

2025-02-17 10:49:49

2019-11-11 10:20:10

Linux重命名命令

2015-04-09 09:08:20

2021-08-12 09:48:21

Webpack Loa工具Webpack

2023-09-26 07:11:15

KubernetesJob節(jié)點

2019-08-06 09:21:45

2014-03-06 15:16:18

安全管理linux安全

2010-11-24 16:32:50

2009-12-25 14:46:53

Windows 7文件關(guān)聯(lián)

2012-09-18 15:04:31

Office 2013微軟

2011-04-18 13:36:42

2025-05-29 09:18:20

2021-07-26 09:56:19

AI 數(shù)據(jù)人工智能

2012-02-01 16:48:54

后門Putty

2024-04-03 09:00:10

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产乱人伦精品一区二区 | 久久一二区 | 日本精品视频在线观看 | 日韩乱码在线 | 亚洲综合成人网 | 91毛片在线看 | 伊人婷婷 | 国产一区二区影院 | 日韩欧美在线视频播放 | 中文字幕视频一区 | 国产综合精品一区二区三区 | 人人人人干 | 亚洲最大的成人网 | 国产精品精品久久久 | 午夜影院在线视频 | 性一爱一乱一交一视频 | 国产精品成人在线 | 欧美亚洲日本 | 特级a欧美做爰片毛片 | 超碰人人插 | 日本网站免费在线观看 | 网黄在线| 久久成人综合 | 久久久久免费观看 | 国产欧美日韩视频 | 欧美日韩成人在线 | 91国内产香蕉 | 四虎成人免费视频 | 激情六月丁香婷婷 | 国产精品高潮呻吟久久av黑人 | 九九精品影院 | 特级做a爰片毛片免费看108 | 国产一级片免费视频 | 日韩视频a | 国产精品久久久久久久免费观看 | 日韩电影免费在线观看中文字幕 | 中文字幕精品视频 | 国产午夜久久 | 国产精品无码专区在线观看 | 91看片网址| 国产精品高清在线 |