成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<delect id="ous2u"></delect>

<acronym id="ous2u"><xmp id="ous2u">

<noscript id="ous2u"><object id="ous2u"></object></noscript>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

高效信息檢索新方法：LangChain中Retriever的多種高級策略原創

發布于 2024-11-25 09:21

瀏覽

0收藏

在當今的信息時代，如何高效檢索信息變得至關重要，尤其是在面對海量數據時。LangChain作為一個強大的工具集，通過不同類型的Retriever為用戶提供高效的信息檢索解決方案。本文將為大家介紹在LangChain中如何運用三種先進的Retriever策略，包括向量存儲檢索器（Vector Store Retriever）、多查詢檢索器（MultiQueryRetriever）、以及上下文壓縮檢索器（Contextual Compression Retriever）。無論是快速獲取相關文檔，還是針對特定上下文的精準信息提取，這些Retriever都能極大提升LLM（大型語言模型）的實用性和用戶體驗。

01、向量存儲檢索器：高效檢索的核心技術

向量存儲檢索器是一種通過向量表示來實現文檔檢索的技術，它能夠將查詢轉換為向量，與文檔庫中的向量進行比對，從而找到最相關的內容。通過向量存儲的方式，Retriever可以非常高效地從大量文檔中找到符合查詢條件的內容。

使用向量存儲作為Retriever

在LangChain中，創建向量存儲檢索器非常簡單，以下是具體步驟：

數據加載：我們從CSV文件中加載客戶評論，并進行文本分割。
創建向量存儲：使用向量化工具（如Pinecone）對文本進行向量化。
創建Retriever：將向量存儲配置為Retriever，可以進行相似度搜索或設置特定參數。

示例代碼：

from langchain_community.document_loaders import CSVLoader
from langchain_community.vectorstores import Pinecone
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 加載數據
loader = CSVLoader("customer_reviews.csv")
documents = loader.load()

# 文本分割
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
texts = text_splitter.split_documents(documents)

# 向量化
embeddings = OpenAIEmbeddings()
vectorstore = Pinecone.from_documents(texts, embeddings)

# 配置Retriever
retriever = vectorstore.as_retriever()

使用此Retriever可以方便地執行查詢，比如想要了解“用戶對電池續航的評價”，代碼如下：

docs = retriever.invoke("What do customers think about the battery life?")

通過設置不同的檢索參數，比如相似度得分閾值或結果數量（top-k），可以進一步優化檢索效果。

02、多查詢檢索器：多視角的精準檢索

多查詢檢索器（MultiQueryRetriever）是一種增強的向量數據庫檢索技術。通過自動化的提示調整，結合大型語言模型（LLM）生成多種視角的查詢，可以覆蓋不同的查詢表達方式，從而獲得更全面的檢索結果。它適用于用戶輸入模糊或存在多種解讀可能的情況。

構建多查詢檢索器的示例

以下代碼展示了如何使用多查詢檢索器來檢索“客戶在智能手機上最看重的特性”：

from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

# 創建查詢
question = "What features do customers value in smartphones?"
llm = ChatOpenAI(temperature=0)

# 初始化MultiQueryRetriever
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)
unique_docs = retriever_from_llm.invoke(question)

通過這種方法，多查詢檢索器生成了多個不同角度的查詢，以增加檢索的多樣性和相關性。這一策略尤其適用于復雜或多意圖的查詢，確保返回結果更全面。

自定義查詢提示

用戶還可以為多查詢檢索器自定義查詢提示，以更好地滿足特定應用需求。例如，我們可以使用PromptTemplate創建自定義查詢模板：

from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

# 創建查詢
question = "What features do customers value in smartphones?"
llm = ChatOpenAI(temperature=0)

# 初始化MultiQueryRetriever
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)
unique_docs = retriever_from_llm.invoke(question)

通過這種方式，多查詢檢索器在滿足用戶的查詢需求的同時，還能根據不同的需求進行自定義調整。

03、上下文壓縮檢索器：優化信息的精確提取

在大型文檔中檢索有用信息時，常常會遇到冗長且不相關的信息。上下文壓縮檢索器（Contextual Compression Retriever）能夠通過上下文壓縮技術，將檢索結果優化為用戶真正需要的內容，從而避免浪費資源。

上下文壓縮的工作原理

上下文壓縮檢索器結合了基礎檢索器和文檔壓縮器，通過提取與查詢相關的內容來壓縮檢索結果。具體步驟如下：

基礎檢索：先使用基礎的向量存儲檢索器進行初步查詢。
壓縮檢索：結合大型語言模型進一步提取與查詢最相關的信息，過濾掉無關部分。

以下是一個使用上下文壓縮檢索器的示例：

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain_openai import OpenAI

# 初始化LLM和壓縮器
llm = OpenAI(temperature=0)
compressor = LLMChainExtractor.from_llm(llm)

# 配置上下文壓縮檢索器
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)
compressed_docs = compression_retriever.invoke("What actions are being proposed to combat climate change?")

通過上下文壓縮檢索器，返回的內容更加精確且切中要害。這一技術尤其適用于需要精準回答的場景，如政策分析或新聞報道。

04、自定義檢索器：打造個性化的檢索工具

LangChain中還提供了靈活的接口，允許用戶根據自己的需求創建自定義檢索器。通過擴展BaseRetriever類并實現核心方法，用戶可以定制符合自身應用場景的檢索邏輯。以下是一個簡單的示例，展示如何實現自定義檢索器：

from typing import List
from langchain_core.documents import Document
from langchain_core.retrievers import BaseRetriever

class CustomRetriever(BaseRetriever):
    """一個簡單的檢索器，根據查詢返回包含關鍵字的文檔。"""

    documents: List[Document]
    k: int

    def _get_relevant_documents(self, query: str) -> List[Document]:
        matching_documents = [doc for doc in self.documents if query.lower() in doc.page_content.lower()]
        return matching_documents[:self.k]

# 示例
documents = [
    Document("Dogs are great companions.", {"type": "dog"}),
    Document("Cats are independent pets.", {"type": "cat"}),
]
retriever = CustomRetriever(documents=documents, k=1)
result = retriever.invoke("dog")
print(result[0].page_content)  # Output: "Dogs are great companions."

這種自定義檢索器可以應用于特定場景，比如公司內部資料或特定主題的文檔搜索，滿足多樣化的應用需求。

05、結論：靈活高效的信息檢索

在LangChain框架中，Retriever是實現高效信息檢索的核心組件。通過學習和運用不同的Retriever類型——向量存儲檢索器、多查詢檢索器和上下文壓縮檢索器，開發者可以根據不同的應用場景選擇合適的工具，優化信息檢索的準確性和效率。此外，LangChain還提供了靈活的自定義功能，使得開發者能夠基于特定需求構建個性化的檢索器。

掌握這些Retriever策略，可以幫助開發者在LLM應用中更好地管理大數據集，提升用戶體驗，實現高效的知識訪問和信息提取。無論是在客戶服務、教育還是金融等領域，這些技術都能為復雜應用場景提供便捷、高效的信息解決方案。

參考：

??https://python.langchain.com/v0.1/docs/modules/data_connection/retrievers/??

本文轉載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/FZXDe9oFXZUjigGtNTsf8Q??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

LangChain框架

已于2024-11-25 09:29:17修改

贊

收藏

回復

舉報

回復

相關推薦

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質量單目動態重建新方法

kcoufee ? 3106瀏覽 ? 0回復
檢索感知微調（RAFT），提升領域RAG效果的新方法

Syrupup ? 4680瀏覽 ? 0回復
無需訓練，這個新方法實現了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 2821瀏覽 ? 0回復
改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調效果

輕薄滴假象 ? 2705瀏覽 ? 0回復
檢索感知微調（RAFT），提升領域RAG效果的新方法

Syrupup ? 3140瀏覽 ? 0回復
“一模型雙任務” | Face-Adapter:超越基于GAN和Diffusion的最新方法

angel ? 5348瀏覽 ? 0回復
上交聯合OPPO發布新標準和新方法

angel ? 2854瀏覽 ? 0回復
如何解決模型的災難性遺忘問題？清華大學提出新方法！

AI論文解讀 ? 5372瀏覽 ? 0回復
LLM 預訓練加速的新方法：八種模型增長方案總結

amei2000go ? 4899瀏覽 ? 0回復
上大、騰訊等提出3D服裝合成新方法：ClotheDreamer

angel ? 3343瀏覽 ? 0回復
解決大型多模態模型的幻覺問題，新方法AITuning助力AI更可靠

AI論文解讀 ? 3033瀏覽 ? 0回復
破解AI多模態理解難題：浙江大學與字節跳動聯手推出Molecule-Space新方法

AI論文解讀 ? 3031瀏覽 ? 0回復
RAG高級優化：檢索策略探討Fusion, HyDE安排上(含代碼)

恰似驚鴻 ? 4454瀏覽 ? 0回復
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 4488瀏覽 ? 0回復
時序預測數據處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 4478瀏覽 ? 0回復
一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法

51CTO內容精選 ? 2404瀏覽 ? 0回復
清華團隊提出精確學習新方法，提升AI泛化能力

AI論文解讀 ? 3037瀏覽 ? 0回復
Salesforce 新方法讓RAG效果飆升

大語言模型論文跟蹤 ? 2409瀏覽 ? 0回復
微軟、清華發布Agent創新方法，解決記憶、檢索大難題

Aceryt ? 1430瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

多模態大語言模型：從視覺故事到技術核心 2天前發布
SmolVLA來襲：用“小模型”解鎖高效機器人控制 2天前發布

熱門推薦

LLaMA 4深度解析：多模態、長文本與高效推理，AI模型的“全能戰士”誕生了！ 0回復

2025年必備的八種AI模型：別再把所有AI都叫LLM了！ 0回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

上一篇： ChatGPT Search：AI搜索引擎如何挑戰Google霸主地位？

下一篇：微軟發布LLM2CLIP：一種新型AI技術，LLM成為CLIP視覺編碼器的“老師”

社區精華內容

目錄

主站蜘蛛池模板：免费一二区 | 日韩中文字幕高清 | 人妖av | 91亚洲国产成人久久精品网站 | 亚洲精品一区二区三区蜜桃久 | 亚洲欧美精品 | 亚洲一区二区三区免费 | 国产精品久久久久久久久大全 | 久草.com| 夜色www国产精品资源站 | 国产区在线看 | 日韩精品一区二区三区中文在线 | 成年人精品视频 | av国产精品毛片一区二区小说 | 精品国产一区探花在线观看 | 一级高清免费毛片 | 久久久精彩视频 | av网址在线 | 美女在线观看av | 国产精品99久久久久久久vr | 最新午夜综合福利视频 | 国产黄色大片网站 | 国产视频一区二区 | www国产成人免费观看视频,深夜成人网 | 99re视频在线 | 国产亚洲精品精品国产亚洲综合 | 91国在线高清视频 | 色综合久久天天综合网 | 国产一区二区三区精品久久久 | 久久av网 | 国产精品精品视频一区二区三区 | 一区二区免费 | 精品粉嫩aⅴ一区二区三区四区 | 中文精品久久 | 久久久久久免费看 | 黄色一级视频 | 久久免费国产 | 在线观看午夜视频 | 亚洲精品小视频在线观看 | 一区二区精品 | 中文字幕在线观看 |

<menu id="0iamu"><small id="0iamu"></small></menu>

<optgroup id="0iamu"></optgroup>

<dl id="0iamu"><xmp id="0iamu">