基于圖的 RAG 方法總結(GraphRAG、 GraphReader、LightRAG、HippoRAG和KAG)
在自然語言處理領域,檢索增強生成(RAG)技術通過結合外部知識庫與語言模型,顯著提升了模型在知識密集型任務中的表現。近年來,基于圖結構的 RAG 方法成為研究熱點,通過引入知識圖譜的實體關系建模能力,有效解決了傳統 RAG 在多跳推理、長文本理解和全局語義捕捉中的局限性。本文詳細分析五種代表性方法:GraphRAG、GraphReader、LightRAG、HippoRAG和KAG ,從實現細節、優缺點及適用場景展開對比。
1、GraphRAG
微軟提出GraphRAG, 通過 “從局部到全局” 的層次抽象,填補了傳統 RAG 在宏觀語義理解中的空白,尤其適合需要 “鳥瞰式” 知識整合的場景。
項目地址:https://github.com/microsoft/graphrag
論文地址:https://arxiv.org/pdf/2404.16130
方法介紹
GraphRAG 的目標是通過層次化圖結構實現對大規模文本的全局理解,其核心流程分為索引構建階段(離線)和查詢響應階段(在線),具體如下:
索引構建階段:先將源文檔分割為帶重疊的文本塊,利用 LLM 提取實體、關系和協變量,構建無模式知識圖;再通過 Leiden 算法對圖進行多層社區劃分,形成 “主題→子主題→具體實體” 的層次結構,最后自底向上生成各層社區摘要,低層聚焦細節,高層整合主題共性,壓縮文本量以提升檢索效率。
查詢響應階段:解析查詢提取關鍵詞,匹配包含相關關鍵詞的社區,將社區摘要分塊后利用 LLM 并行生成中間答案,按評分合并生成最終全局答案,必要時可遞歸調用低層社區檢索補充細節。
優點
全局理解能力強:層次社區結構支持從局部到全局的多粒度摘要,適合宏觀問題(如 “數據集主要主題”)。
高效摘要生成:社區摘要可并行處理,減少上下文 token 消耗(如根級摘要僅需原始文本 1% 的 token)。
領域無關性:通用圖構建流程,適用于多種文本類型(如新聞、播客、學術文獻)。
缺點
細節丟失風險:高層社區摘要可能忽略關鍵細節,影響答案準確性。
調參復雜:社區層級選擇和塊大小需根據數據集優化,缺乏通用策略。
適用場景
大規模文本摘要:如企業知識庫全局檢索、行業報告趨勢分析。
需要多粒度回答的場景:如教育領域跨章節知識點總結、市場調研多數據源整合。
2、GraphReader
阿里,上海AI Lab等,針對長上下文、復雜關系問題,提出GraphReader,通過構建基于圖的智能體系統(Graph-based Agent System),以結構化的方式組織長文本,并利用智能體自主探索該圖。概述如圖所示:
論文地址:https://arxiv.org/abs/2406.14550
方法介紹
GraphReader 的算法實現圍繞圖構建、圖探索和答案推理三個階段展開:
在圖構建階段,先將長文檔按段落分割成適配 LLM 的文本塊,再借助 LLM 從文本塊中抽取原子事實和關鍵元素,最后對關鍵元素標準化處理,構建節點并建立節點間的鏈接,形成完整圖結構。
圖探索階段,智能體拿到問題和圖后,先初始化筆記本,拆解問題制定計劃并選擇初始節點;接著依次對原子事實、文本塊和相鄰節點進行探索,在探索過程中通過不同操作函數,判斷并記錄有價值的信息,直至收集到足夠回答問題的內容。
答案推理階段,智能體完成圖探索后,將筆記本中記錄的信息進行編譯,運用思維鏈推理方式,生成最終答案。
優點
長文本處理能力強:通過圖結構壓縮長文本信息,緩解 LLM 上下文窗口限制。
自主推理靈活性:智能體可動態調整探索路徑,適應不同復雜度的查詢。
高召回率:原子事實和塊遍歷機制確保關鍵信息不遺漏,支持多跳推理。
缺點
計算成本高:智能體多輪探索和圖遍歷增加延遲,實時性較差。
初始化依賴人工:合理計劃和節點選擇需要領域知識引導,自動化程度較低。
適用場景
超長文檔分析:如法律卷宗審閱、科學論文綜述生成。
需要深度上下文理解的場景:如歷史文獻跨段落事件關聯、技術文檔故障排查。
3、HippoRAG
HippoRAG 是一種受神經生物學啟發的檢索增強生成模型,概述如圖所示:
論文地址:https://arxiv.org/abs/2405.14831
項目地址:https://github.com/OSU-NLP-Group/HippoRAG
實現細節
神經生物學啟發的知識表示:HippoRAG 模擬人類海馬體的記憶機制,通過 “模式分離” 和 “模式完成” 兩個核心操作實現知識整合。在索引構建階段,模型使用開放信息抽取(OpenIE)技術從文本中提取實體、關系和屬性,構建無模式知識圖譜(Graph)。圖中的節點表示實體,邊表示關系,并通過同義詞邊連接語義相似的實體,提升圖的連通性。例如,“蘋果公司” 和 “Apple Inc.” 通過同義詞邊關聯,增強實體鏈接能力。
單步多跳檢索機制:針對傳統 RAG 多輪檢索的低效問題,HippoRAG 提出基于個性化 PageRank(PPR)的單步多跳檢索算法。當接收到查詢時,模型首先使用 LLM 提取查詢中的命名實體作為種子節點,然后通過 PPR 算法在知識圖譜上傳播概率,一次性召回與查詢相關的多跳實體。例如,查詢 “蘋果公司創始人的教育背景” 可直接召回 “Steve Jobs” 及其畢業院校 “Reed College”,避免了傳統方法的多次迭代檢索。
混合檢索與答案生成:HippoRAG 采用向量檢索與圖檢索相結合的策略:向量檢索(如 ColBERTv2)負責召回相關文本塊,圖檢索負責捕捉實體間的結構化關系。模型將兩種檢索結果融合后,通過 LLM 生成最終答案。為提升答案的可靠性,HippoRAG 引入證據評分機制,對召回的文本塊和圖路徑進行置信度評估,優先選擇高可信度的信息作為答案依據。
知識更新與遺忘機制:受海馬體記憶鞏固過程的啟發,HippoRAG 設計了動態知識更新策略。當有新數據加入時,模型通過增量式圖構建更新知識庫,同時保留舊知識的歷史版本。為避免知識庫無限膨脹,模型引入 “遺忘” 機制,定期刪除低價值或過時的知識,通過注意力機制評估知識的重要性,確保知識庫的高效性和準確性。
優點
高效多跳檢索:單步完成多跳推理,相比傳統方法減少迭代次數,提升效率。
生物可解釋性:模擬人類記憶機制,推理過程符合認知科學規律,可解釋性較強。
缺點
依賴高質量圖譜:OpenIE 提取三元組的準確性影響整體性能,噪聲圖譜會導致檢索偏差。
復雜問題處理不足:缺乏邏輯規則支持,難以處理需要數值計算或層次推理的任務。
適用場景
實體關聯清晰、邏輯推理需求較低的事實問答場景:如學術領域人物關系查詢、歷史事件因果分析。
需要快速多跳檢索的場景:如金融欺詐關聯分析、藥物靶點相互作用預測。
4、LightRAG
北郵、港大等提出LightRAG, 一種輕量級的檢索增強生成模型,主要關注以下三個方面:全面的信息檢索、高效低成本的檢索、快速適應數據變化。
項目地址:https://github.com/HKUDS/LightRAG
論文地址:https://arxiv.org/abs/2410.05779
方法介紹
算法實現圍繞基于圖的文本索引、雙層檢索范式和檢索增強答案生成三大核心模塊展開。
在基于圖的文本索引模塊,LightRAG 先將文檔分割成小塊,利用 LLM 抽取實體與關系,構建知識圖譜。通過去重、生成鍵值對優化圖結構,并具備增量更新能力,可高效整合新文檔,提升檢索性能與信息理解深度。
雙層檢索范式是 LightRAG 的關鍵創新。低層次檢索聚焦具體實體屬性或關系,用于回答精確性問題;高層次檢索則聚合多實體關系信息,處理抽象主題查詢。通過提取本地與全局關鍵詞,結合向量數據庫匹配與子圖鄰近節點收集,實現了精準檢索與全面信息整合。
在檢索增強答案生成環節,LightRAG 將檢索到的實體、關系描述及原始文本等信息拼接后輸入通用 LLM,通過整合查詢與多源文本,生成契合用戶意圖的答案,兼顧上下文連貫性與回答質量 。
優點
輕量級設計:無需復雜邏輯推理,通過雙層檢索平衡細節與全局理解,檢索效率高。
動態適應性強:支持增量更新知識庫,適合實時數據場景(如新聞摘要、動態賽事分析)。
低成本部署:相比 KAG,減少了符號推理模塊,更易在資源受限環境中部署。
缺點
推理能力有限:依賴語義相似性,缺乏顯式邏輯規則,難以處理深層推理任務。
長文本處理不足:未顯式建模段落間依賴關系,復雜多跳問題中召回率較低。
適用場景
快速響應型問答:如智能客服、實時資訊檢索、跨領域概況總結。
需要動態更新知識的場景:如電商產品推薦、社交媒體熱點分析。
5、KAG
螞蟻集團提出KAG(Knowledge Augmented Generation),旨在解決傳統語言模型及相關技術在知識處理與復雜問題求解方面存在的一系列難題。
項目地址:https://github.com/OpenSPG/KAG
論文地址:https://arxiv.org/abs/2409.13731
方法介紹
三層架構協同運作:KAG-Builder 利用 LLMFriSPG 框架構建離線索引,實現文本塊與知識圖譜的互索引,支持無模式信息抽取和結構化知識對齊;KAG-Solver 作為邏輯形式引導的混合推理引擎,整合規劃、檢索、推理算子,可進行符號推理與數值計算;KAG-Model 則增強 LLM 的自然語言理解、推理和生成能力,支持端到端推理。
知識表示創新:LLMFriSPG 框架采用分層存儲知識,包括 KGcs 層、KGfr 層、RC 層,支持動態屬性和概念分層,解決信息損失問題;同時,通過圖結構與原始文本塊的雙向互索引機制,有效提升檢索準確性和可解釋性。
邏輯推理求解:KAG 將自然語言問題拆解為邏輯表達式,借助 ReSP 反思機制等多輪迭代,逐步逼近答案,能夠支持多跳推理和數值計算,實現復雜問題的深度推理。
優點
強推理能力:結合符號邏輯與文本檢索,擅長處理需要多跳推理、邏輯計算的專業領域問題(如法律、醫學)。
高可解釋性:互索引機制保留原始文本上下文,推理過程可追溯。
領域適應性強:通過領域知識注入和模式約束,有效減少開放信息抽取的噪聲。
缺點
構建成本高:需要專業知識構建結構化知識圖譜,依賴大量標注數據和專家人力。
計算復雜度高:邏輯形式求解和多輪迭代增加推理延遲,對算力要求較高。
適用場景
專業領域復雜問答:如法律條文解析、醫療診斷推理、科學文獻分析。
需要強邏輯推理、高準確性和可解釋性的場景:如金融風控報告生成、政策合規性檢查。
6、總結
對于一些場景的推薦算法及原因如下:
場景類型 | 推薦算法 | 核心原因 |
專業領域復雜推理 | KAG | 邏輯規則 + 領域知識注入,適合法律條文解析、醫療診斷等需要精確推理的場景 |
實時動態問答 | LightRAG | 雙層檢索響應快,支持增量更新,適合新聞熱點、電商咨詢等實時性要求高的場景 |
多跳實體關聯分析 | HippoRAG | 單步 PPR 檢索捕獲實體間隱含關系,適合學術合作網絡、社交關系挖掘等場景 |
超長文檔深度理解 | GraphReader | 圖探索 + 塊遍歷處理長距離依賴,適合法律卷宗審閱、技術文檔故障排查等場景 |
跨領域全局摘要 | GraphRAG | 層次社區整合全局主題,適合企業知識庫概覽、行業趨勢分析等需要宏觀理解的場景 |
對于RAG方法的選擇,整體來講,還是要通過任務、成本等方面來綜合考慮,沒有能夠通用一切場景的方法:
- 優先考慮任務性質:
若需邏輯嚴謹性(如金融風控),選 KAG;若需快速響應(如客服),選 LightRAG。
若問題涉及實體網絡(如人物關系),選 HippoRAG;若處理超長文本(如合同),選 GraphReader;若需全局概覽(如行業報告),選 GraphRAG。 - 平衡成本與效率:
KAG 和 GraphReader 構建成本高,適合預算充足的企業級場景;LightRAG 和 HippoRAG 輕量級,適合中小團隊快速落地。 - 結合領域數據特性:
結構化數據多的領域(如醫療記錄)適合 KAG;非結構化長文本(如用戶評論)適合 GraphReader;實體密集型數據(如學術論文)適合 HippoRAG/GraphRAG。