成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在大模型RAG系統中應用知識圖譜

原創 精選
開發 前端
使用知識圖譜而非向量數據庫進行查詢增強的一個優點是,知識圖可以對已知關系的某些關鍵主題和概念進行一致性檢索。我們把個性化定義為用戶和矢量數據庫之間信息流的控制,但是個性化也可以理解為用戶特征的封裝。

關于大模型及其應用方面的文章層出不窮,聚焦于自己面對的問題,有針對性的閱讀會有很多的啟發,本文源自Whyhow.ai 上的一些文字和示例。對于在大模型應用過程中如何使用知識圖譜比較有參考價值,特匯總分享給大家。

在基于大模型的RAG應用中,可能會出現不同類型的問題,通過知識圖譜的輔助可以在不同階段增強RAG的效果,并具體說明在每個階段如何改進答案和查詢。知識圖譜更類似于結構化數據存儲,而不是僅僅是一個用于各種目的的結構化數據的一般存儲,可以利用它在 RAG 系統中戰略性地注入人類推理。

1. RAG簡介

對于復雜的 RAG 和多跳數據檢索的一般場景,如下圖所示, 關于RAG的更多信息可以參考《大模型系列——解讀RAG》。

圖片圖片

使用上圖所示的階段來介紹知識圖譜支持的 RAG 過程中不同的步驟:

  • 階段1——預處理: 這指的是在查詢被用于幫助從向量數據庫中提取數據塊之前對其進行處理
  • 階段2/D——數據塊提取: 這是指從數據庫中檢索最相關的信息塊
  • 階段3-5——后處理: 這指的是為準備檢索到的信息以生成答案而執行的過程

在不同階段應該使用哪些知識圖譜技術呢?

2.知識圖譜在RAG各階段的應用

2.1 階段一:查詢增強

查詢增強是 在從向量數據庫中進行檢索之前,向查詢添加上下文。此策略用于在缺少上下文的情況下增加查詢并修復錯誤查詢。這也可以用來注入一個我們的世界觀,明確如何定義或看待某些共同或基礎術語。

在許多情況下,我們可能對特定術語有自己的世界觀。例如,一家旅游科技公司可能希望確保開箱即用 LLM 能夠理解“海濱”住宅和“靠近海灘”住宅代表非常不同類型的房產,不能互換使用。在預處理階段注入這個上下文有助于確保 RAG系統中的這種區別能夠提供準確的響應。

從歷史上看,知識圖譜在企業搜索系統中的一個常見應用是幫助建立首字母縮略詞詞典,以便搜索引擎能夠有效地識別提出的問題或文檔/數據存儲中的首字母縮略詞。這在第一階段可以用于多跳推理。

2.2 階段二:數據塊提取

文檔層次結構是指創建文檔層次結構和在向量數據庫中導航塊的規則。這用于快速識別文檔層次結構中的相關塊,并使我們能夠使用自然語言創建規則,規定查詢在生成響應之前必須引用哪些文檔/塊。

此階段我們可以使用多個知識圖譜。一個知識圖譜可以是文檔描述的層次結構,引用存儲在向量數據庫中的塊。第二個知識圖可以用于規則導航文檔層次結構。例如,考慮一個風險基金的 RAG 系統。我們可以寫一個自然語言規則,確定性地應用于查詢規劃代理“回答一個關于投資者義務的問題,首先檢查投資者在投資組合清單中投資了什么,然后檢查該投資組合的法律文件。”

上下文字典創建用于在向量數據庫中導航塊的概念結構和規則,有助于理解哪些文檔塊包含重要主題。這類似于書后的索引。上下文詞典本質上是元數據的知識圖譜。此字典可用于維護塊導航規則,可以包括一個自然語言規則,例如“任何與快樂概念相關的問題,你必須詳盡地搜索所有相關的數據塊,由上下文字典定義。由 Query Planning Agent 中的 LLM 代理將其轉換為知識圖譜的查詢,以增加要提取的塊。這種規則的建立還可以確保塊提取的一致性。

這與簡單的元數據搜索有何不同?除了提高速度之外,如果文檔是簡單的,可能意義不大。但是,在某些情況下,我們可能希望確保將特定的信息塊標記為與某個概念相關,即使該概念可能未在該塊中提及或暗示。這可能發生在討論正交信息(即與特定概念有爭議或不一致的信息)的情況。上下文詞典使得與不明顯的信息塊建立明確的關聯變得容易。

2.3 階段三:遞歸知識圖譜查詢

這是用來結合信息提取和存儲連貫的答案。LLM 向知識圖譜查詢答案。這在功能上類似于CoT過程,其中外部信息存儲在知識圖譜中,以幫助確定下一步的調查。

基本上是一次又一次的運行數據塊提取,檢索提取的信息,并存儲在一個知識圖譜中,以強制連接來揭示關系。建立關系并將信息保存在知識圖譜中之后,再次使用從知識圖譜中提取的完整上下文運行查詢。如果上下文不足,請再次將提取的答案保存在相同的知識圖譜中,以強制執行更多的連接并清洗。

如果數據不斷地流入系統,并且希望確保隨著時間的推移使用新的上下文更新答案,那么這一點尤其有用。

2.4 階段四之一:響應增強

響應增強是根據最初從矢量數據庫生成的查詢添加上下文。這用于添加必須存在于任何答案中的附加信息,這些附加信息涉及一個未能檢索到或在矢量數據庫中不存在的特定概念。這對于在基于提到或觸發的某些概念的回答中包含免責聲明或警告特別有用。

一個有趣的推測途徑也可以包括使用答案增強作為一種方式,對于面向消費者的 RAG 系統,當某些答案提到某些產品時,可以包含個性化廣告的答案。

2.5 階段四之二:響應規則

響應規則是根據知識圖譜設置的規則重新排序。這是用來強制執行關于可以生成的答案的一致規則。這對信任和安全有影響,我們可能希望消除已知的錯誤或危險的答案。

Llamaindex 有一個有趣的例子,它使用維基百科的知識圖譜來復核一個 LLM 的基本真理。盡管 Wikipedia 不能作為內部 RAG 系統的基本事實的來源,但是您可以使用客觀的行業或常識知識圖譜來防止 LLM 的幻覺。

2.6 階段五:數據塊訪問控制和個性化

知識圖譜可以強制執行關于用戶可以根據其權限檢索哪些塊的規則。例如,假設一家醫療保健公司正在構建一個 RAG 系統,該系統包含對敏感臨床試驗數據的訪問。他們只希望擁有特權的員工能夠從向量存儲中檢索敏感數據。通過將這些訪問規則作為屬性存儲在知識圖譜的數據上,它們可以告訴 RAG 系統只檢索特權塊(如果允許用戶這樣做的話)。

知識圖譜可用于為用戶的每個響應實現個性化。例如,考慮一個企業 RAG 系統,如果希望為每個辦公室的每個員工、團隊或部門定制響應。當生成一個答案時,RAG 系統可以咨詢 知識圖譜,以了解哪些塊包含基于用戶角色和位置的最相關信息。

我們需要同時包含上下文,以及上下文對于每個答案意味著什么。然后,可能希望將該上下文作為提示或答案增強包括在內。該策略可以建立在塊訪問控制的基礎上。一旦 RAG 系統確定了與該特定用戶最相關的數據,它還可以確保該用戶確實擁有訪問該數據的權限。

3.一個用例

用醫學領域的一個例子來進一步闡述RAG系統中如何應用知識圖譜。示例問題如下: “阿爾茨海默病治療的最新研究是什么?” 然后可以采取以下步驟,以知識圖譜增強RAG 系統。我們不認為每個 RAG 系統都必須需要以下所有步驟,但這些用例在復雜的 RAG 用例中相對常見。

圖片圖片

在這里,描述知識圖譜在所有技術(查詢增強、數據塊提取規則、遞歸知識圖譜查詢、響應增強、響應控制、塊訪問控制)環節的應用示例。

3.1 查詢增強

對于“阿爾茨海默氏癥治療的最新研究是什么?” 這個query,通過訪問知識圖譜,LLM 代理可以持續檢索關于最新的阿爾茨海默病治療的結構化數據,如“膽堿酯酶抑制劑”和“鹽酸美金胺”,RAG 系統將進一步提出更具體的問題: “關于膽堿酯酶抑制劑和鹽酸美金胺治療阿爾茨海默病的最新研究是什么?”

3.2 文件層次和矢量數據庫檢索

使用文檔層次結構,識別哪些文檔和數據塊與“膽堿酯酶抑制劑”和“鹽酸美金胺”最相關,并返回相關的答案。

關于“膽堿酯酶抑制劑”的相關塊提取規則有助于指導查詢引擎提取最有用的塊。文檔層次結構幫助查詢引擎快速識別與副作用相關的文檔,并開始提取文檔中的塊。上下文字典幫助查詢引擎快速識別與“膽堿酯酶抑制劑”相關的塊,并開始提取與此主題相關的塊。一條關于“膽堿酯酶抑制劑”的既定規則指出,查詢膽堿酯酶抑制劑的副作用也應檢查與 X 酶相關的塊。這是因為 X 酶是一個眾所周知的副作用,不能被忽略,并相應地包括相關的塊。

3.3 遞歸知識圖譜查詢

使用遞歸知識圖譜查詢,初始查詢返回稱為“ XYZ 效應”的“記憶時間”的副作用。“ XYZ 效應”作為上下文存儲在一個單獨的知識圖中,用于遞歸上下文。LLM 被要求使用 XYZ 效果的附加上下文檢查新增加的查詢。根據過去格式化的答案來衡量結果,它確定需要更多關于 XYZ 效應的信息來構成一個令人滿意的答案。然后,它在知識圖譜中的 XYZ 效應節點內執行更深入的搜索,從而執行多跳查詢。

在 XYZ 效應節點中,它發現關于臨床試驗 A 和臨床試驗 B 的信息,它可以包括在答案中。

3.4 數據塊控制訪問

盡管臨床試驗 A & B 都包含有益的上下文,但是與臨床試驗 B 節點相關的元數據標簽指出,用戶對該節點的訪問受到限制。因此,一個常設的控制訪問規則可以防止臨床試驗 B 節點被包含在對用戶的響應中。

只有關于臨床試驗 A 的信息才會返回給 LLM,以幫助其制定返回的答案。

3.5 響應增強

作為后處理步驟,還可以選擇使用特定于醫療行業的知識圖譜來增強后處理輸出。例如,您可以包括特定于鹽酸美金胺治療的默認健康警告,或包括與臨床試驗 A 相關的任何其他信息。

3.6 數據塊個性化

由于用戶是研發部門的初級員工,臨床試驗 B 的信息不對用戶開放,所以附加了一個說明,禁止用戶訪問臨床試驗 B 的信息,并要求向高級經理詢問更多信息。

4. 一點思考

使用知識圖譜而非向量數據庫進行查詢增強的一個優點是,知識圖可以對已知關系的某些關鍵主題和概念進行一致性檢索。我們把個性化定義為用戶和矢量數據庫之間信息流的控制,但是個性化也可以理解為用戶特征的封裝。

知識圖譜可以反映更廣泛的用戶特征集合的存儲,可以用于一系列的個性化工作。在某種程度上,一個知識圖譜是一個外部數據存儲(即外部 LLM 模型) ,它更容易以一致的形式提取(即知識圖譜數據能夠以一種更模塊化的方式插入,播放和刪除)。如果實現了物聯網中的數字孿生,知識圖譜很可能成為代表這種系統和模型之間的模型個性化的最佳手段。

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關推薦

2024-01-09 14:05:15

大型語言模型RAG向量數據庫

2023-09-27 09:00:00

大型語言模型自然語言處理

2024-06-17 07:49:53

2024-01-29 00:25:59

人工智能結構化編碼

2024-05-16 08:23:26

大語言模型知識圖譜人工智能

2024-10-07 08:49:25

2021-01-18 10:50:29

知識圖譜人工智能深度學習

2024-08-06 08:43:17

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2017-03-06 16:48:56

知識圖譜構建存儲

2025-03-06 10:41:32

2025-05-15 09:43:15

知識圖譜向量數據庫RAG

2025-06-09 03:00:00

人工智能AI知識圖譜

2025-01-09 10:52:23

RAG知識圖譜人工智能

2023-08-22 15:34:01

Python開發

2021-01-25 10:36:32

知識圖譜人工智能

2025-05-28 01:50:00

2023-03-17 06:14:20

2023-03-17 07:13:43

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧洲亚洲视频 | 成人国产精品久久久 | 亚洲成人精选 | 成人亚洲网站 | 一二三四在线视频观看社区 | 综合激情av | 欧美一级在线免费观看 | 亚洲精品成人av | 精品国产成人 | 色综合久久久 | 精品一区二区三 | 又爽又黄axxx片免费观看 | 国产精品久久777777 | 婷婷毛片 | 求毛片| 亚洲黄色一级毛片 | 久久精品免费一区二区三 | 亚洲国产激情 | 久久天天综合 | 狠狠av | 成人av一区| 亚洲午夜精品在线观看 | 日韩av在线一区二区三区 | 国偷自产av一区二区三区 | 日韩精品三区 | 成人在线中文字幕 | 色视频www在线播放国产人成 | 在线看av网址 | 午夜欧美日韩 | 午夜欧美一区二区三区在线播放 | 区一区二在线观看 | 亚洲成人久久久 | 亚洲第一区久久 | 亚洲国产精品久久 | 欧美成人免费电影 | 老妇激情毛片免费 | 成人国产精品免费观看 | 亚洲成人精品一区二区 | 亚洲一区二区三区在线播放 | 亚洲国产成人在线观看 | www.日韩|