成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

檢索增強生成(RAG)過時了,緩存增強生成(CAG)上位

譯文 精選
人工智能
檢索增強生成(RAG)已成為為定制信息定制大語言模型(LLM)的事實上的方法。然而RAG帶來了前期技術成本,并且速度可能很慢。由于長上下文LLM方面取得的進步,企業可以通過在提示中插入所有的專有信息來繞過RAG。

譯者 | 布加迪

審校 | 重樓

檢索增強生成(RAG)已成為為定制信息定制大語言模型(LLM)的事實上的方法。然而RAG帶來了前期技術成本,并且速度可能很慢。由于長上下文LLM方面取得的進步,企業可以通過在提示中插入所有專有信息來繞過RAG

臺灣政治大學的一項新研究表明,如果使用長上下文LLM和緩存技術,就可以創建定制的應用程序,性能卻比RAG管道更勝一籌。這種方法就叫作緩存增強生成(CAG),可以在知識語料庫能裝入到模型上下文窗口企業環境簡單而有效地替代RAG。

RAG的局限性

RAG是處理開放領域問題和專門任務的一種有效方法。它使用檢索算法來收集與請求相關的文檔,并添加上下文使LLM能夠生成更準確的響應。

然而RAGLLM應用帶來幾個限制。添加的檢索步驟引入了延遲,這會降低用戶體驗。結果還取決于文檔選擇和排序步驟的質量。在許多情況下,用于檢索的模型具有的局限性要求將文檔分解為更小的塊,這可能會影響檢索過程。

此外,RAG通常增添LLM應用的復雜性,需要開發、集成和維護額外的組件。增加的開銷減慢了開發過程。

緩存增強檢索

圖1. RAG(上)與CAG(下)(來源:arXiv)圖1. RAG(上)與CAG(下)(來源:arXiv)

開發RAG管道的替代方法是將整個文檔語料庫插入到提示中,讓模型選擇哪些部分與請求相關。這種方法消除了RAG管道的復雜性以及檢索錯誤引起的問題。

然而,將所有文檔預先加載到提示中存在三個關鍵挑戰。首先,長提示會減慢模型的速度,增加推理的成本。其次,LLM上下文窗口的長度限制了插入到提示中的文檔數量。最后,提示添加不相關的信息會導致模型混淆,降低其響應的質量。因此,僅僅將所有文檔塞入到提示而不是選擇最相關的文檔,最終會降低模型的性能。

提議CAG方法利用以下三個關鍵趨勢來克服這些挑戰。

首先,先進的緩存技術使處理提示模板變得更快速、更省錢CAG的前提是知識文檔將包含在發送給模型的每個提示中。因此,可以提前計算其詞元(token)注意力值,而不是在接收請求時這做。這種預先計算縮短了處理用戶請求所需的時間。

OpenAIAnthropic和谷歌領先的LLM提供商為提示的重復部分提供提示緩存功能,包括在提示開頭插入的知識文檔和指令Anthropic為例如果使用提示的緩存部分就可以減少高達90%的成本和85%的延遲。廠商們已為開源LLM托管平臺開發相應的緩存功能。

其次,長上下文LLM使更多文檔和知識更容易插入到提示。Claude 3.5 Sonnet支持多達20詞元,而GPT-40支持128000個詞元,Gemini支持多達200萬個詞元因此就有可能在提示中插入多個文檔或整本書。

最后,先進的訓練方法使模型面對很長的序列能夠執行更好的檢索、推理和問答。在去年,研究人員已為長序列任務開發了幾個LLM基準測試,包括BABILong、LongICLBench和RULER。這些基準測試可以測試LLM在多次檢索和多跳問答等難題上的表現。這領域仍有改進的空間,但AI實驗室仍在不斷取得進展。

隨著新一代模型繼續擴展上下文窗口,它們將能夠處理更龐大的知識。此外,我們可以期望模型繼續提升從長上下文中提取和使用相關信息的能力。

研究人員寫道:這兩趨勢將大大擴展我們這種方法的可用性,使其能夠處理更復雜、更多樣化的應用。因此,我們的方法很有希望成為處理知識密集型任務的強大而通用的解決方案利用下一代LLM不斷增強功能

RAG vs CAG

為了比較RAG和CAG,研究人員針對兩個廣泛認可的問答基準測試SQuAD和HotPotQA進行了實驗:前者側重于單個文檔的上下文感知問答,后者需要跨多個文檔進行多跳推理。

他們使用了Llama-3.1-8B模型,具有128000個詞元上下文窗口。針對RAG,他們將LLM與兩個檢索系統相結合以獲得與問題相關的段落:基本的BM25算法和OpenAI嵌入。針對CAG,他們多個文檔基準測試插入到提示中,讓模型自決定使用哪些段落來回答問題。他們的實驗表明,CAG在大多數情況下的表現都優于RAG系統。

圖2. CAG的表現優于稀疏RAG (BM25檢索)和密集RAG(OpenAI嵌入)圖2. CAG的表現優于稀疏RAG (BM25檢索)和密集RAG(OpenAI嵌入)

研究人員寫道:通過從測試集預加載整個上下文,我們的系統消除了檢索錯誤,并確保了針對所有相關信息的整體推理。在RAG系統可能檢索不完整或不相關的段落、導致答案生成不盡如人意的情況下,這種優勢來得明顯。

CAG還顯著縮短了生成答案的時間,特別是當參考文本長度增加時。

圖3. CAG的答案生成時間比RAG短得多(來源:arXiv)圖3. CAG的答案生成時間比RAG短得多(來源:arXiv)

話雖如此,CAG并非靈丹妙藥,應該謹慎使用。它非常適合這類場景:知識庫不經常改變,又小到足以入到模型上下文窗口。企業還應該注意文檔包含基于文檔上下文的沖突事實的情況,這可能會在推理過程中導致模型混淆

確定CAG是否適合使用場景,最佳方法是試驗一番。幸,CAG的實現簡單,在致力于需要更多開發工作的RAG解決方案之前,應該始終將試用CAG視為第一步。

原文標題:Beyond RAG: How cache-augmented generation reduces latency, complexity for smaller workloads,作者:Ben Dickson

責任編輯:華軒 來源: 51CTO
相關推薦

2023-10-14 17:46:17

RAG提示工程GPT-3

2025-02-27 10:55:44

2024-05-20 08:31:33

檢索增強生成LLM大型語言模型

2025-04-01 09:25:09

2025-04-29 08:20:51

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT

2024-09-05 08:24:09

2024-11-19 13:05:40

2025-05-28 01:25:00

RAG人工智能語言模型

2024-10-31 14:46:31

2025-06-13 02:25:00

2023-09-11 09:00:00

檢索增強生成大數據模型自然語言處理

2025-01-23 16:23:30

2025-04-27 00:30:00

RAG檢索增強生成AI

2024-05-28 09:24:32

2024-04-19 14:27:26

檢索增強生成大型語言模型

2025-02-13 09:01:03

2023-10-27 10:23:35

大語言模型人工智能

2024-06-18 15:36:50

2024-01-17 09:00:00

大型語言模型機器學習向量搜索引擎
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美v日韩v | 性福视频在线观看 | av在线一区二区三区 | 亚洲欧美国产精品久久 | 久久精品99 | 九九免费观看视频 | 国产精品久久久久久久免费观看 | 在线欧美视频 | 日韩色图在线观看 | 欧美一级α片 | 成人av网页 | av永久免费 | aaaaaaa片毛片免费观看 | 午夜在线小视频 | 在线观看特色大片免费网站 | 成人在线国产 | 欧美一级做性受免费大片免费 | 久久精品国产一区二区电影 | 毛片com | 亚洲精品视频在线观看视频 | 一级片网址 | 欧美黑人巨大videos精品 | 国产精品1区2区3区 中文字幕一区二区三区四区 | 国产在线视频一区二区 | 成人午夜免费网站 | 成人精品一区二区三区中文字幕 | 一区二区三区在线播放 | 亚洲精品在线视频 | 老牛嫩草一区二区三区av | 国产免费福利在线 | 亚洲精品一区二三区不卡 | 亚洲精品美女视频 | 黄网站涩免费蜜桃网站 | 一区二区三区免费 | 欧美一级片在线播放 | www国产成人免费观看视频,深夜成人网 | 一区二区三区小视频 | 中文字幕在线观看视频网站 | 激情小说综合网 | 黄色一级视频免费 | 涩涩视频在线观看 |