開源:9個GraphRAG框架大一統 精華
構建了一個涵蓋所有基于圖的 RAG 方法的統一框架,并從宏觀角度進行了總結。接著,在不同類型的問答(QA)數據集上對具有代表性的基于圖的 RAG 方法進行了全面比較,從具體問題到抽象問題,深入分析了各種方法的表現。通過實驗分析,不僅揭示了基于圖的 RAG 方法的有效性,還通過結合現有技術,在具體問答和抽象問答任務中發現了優于現有最優方法的新變體。
??https://arxiv.org/pdf/2503.04338??
一、為什么需要圖檢索增強生成(Graph-based RAG)技術?
1.1 大語言模型(LLM)的局限性
盡管大語言模型(LLM)如 GPT-4、Qwen2.5 等在理解和生成文本方面表現出色,但它們仍然存在“幻覺”問題,即生成的內容可能缺乏事實依據或準確性。這是因為 LLM 的訓練數據通常是靜態的,無法涵蓋所有領域知識或實時更新的信息。例如,當用戶詢問“2024 年美國總統大選的結果是什么?”時,LLM 可能會生成一個看似合理的答案,但該答案可能并不準確,因為它無法訪問最新的選舉數據。
1.2 檢索增強生成(RAG)的興起
為了彌補這一缺陷,檢索增強生成(RAG)技術應運而生。RAG 通過從外部知識庫中檢索相關信息,并將其與用戶查詢結合,生成更準確、可靠的回答。這種方法在醫療、金融、教育等領域得到了廣泛應用。例如,在醫療領域,RAG 可以從醫學文獻中檢索最新的研究結果,幫助醫生做出更準確的診斷。
1.3 圖檢索增強生成(Graph-based RAG)的優勢
圖片
與傳統的 RAG 相比,圖檢索增強生成(Graph-based RAG)利用圖結構來組織外部知識,能夠更好地捕捉實體之間的語義關系和鏈接信息。這種基于圖的檢索方式不僅提高了檢索效率,還能生成更具上下文關聯的回答。例如,當用戶詢問“人工智能如何影響現代教育?”時,Graph-based RAG 可以從知識圖中檢索出與人工智能和教育相關的實體及其關系,生成一個全面且邏輯連貫的答案。
圖片
二、統一GraphRAG技術框架
2.1 圖檢索增強生成的核心原理
圖片
圖檢索增強生成(Graph-based RAG)的核心思想是將外部知識庫構建成圖結構,通過檢索圖中的節點、邊或子圖來增強大語言模型(LLM)的生成能力。與傳統的檢索增強生成(RAG)不同,圖檢索增強生成方法利用圖結構來捕捉實體之間的語義關系和鏈接信息,從而生成更準確、更可信的回答。
本篇論文中,作者提出了一種新的統一框架,包含四個階段:
? 圖構建(Graph building)
? 索引構建(Index construction)
? 算子配置(Operator configuration)
? 檢索與生成(Retrieval & generation)
該框架可覆蓋所有現有基于圖的RAG方法,如下圖所示。
圖片
2.2 圖構建:從文本到圖結構
圖片
在圖構建階段,外部知識庫被分割成多個文本塊,然后通過 LLM 或其他工具提取實體和關系,構建成圖。常見的圖類型包括段落圖(Passage Graph)、樹結構(Tree)、知識圖譜(Knowledge Graph)等。
圖片
以段落圖為例,每個文本塊代表一個節點,如果兩個文本塊包含相同的實體且數量超過某個閾值,則在這兩個節點之間建立邊。而知識圖譜則通過從每個文本塊中提取實體和關系來構建,每個實體代表一個對象,關系則表示兩個實體之間的語義聯系。
例如,在構建一個關于美國總統選舉的知識圖譜時,節點可能包括“拜登”、“特朗普”等候選人,邊則可能表示“競選對手”或“獲勝者”等關系。
2.3 索引構建:高效檢索的基礎
為了支持高效的在線查詢,圖檢索增強生成方法通常包括索引構建階段。索引可以存儲節點、關系或社區信息,并通過向量數據庫進行快速檢索。常見的索引類型包括節點索引、關系索引和社區索引。
以節點索引為例,它存儲圖中的節點,并通過文本編碼模型(如 BERT 或 BGE-M3)生成節點的嵌入向量。這些嵌入向量存儲在向量數據庫中,以便在查詢時快速檢索與問題相關的節點。
例如,當用戶查詢“拜登的競選對手是誰?”時,系統可以通過節點索引快速檢索到“拜登”和“特朗普”這兩個節點,并返回它們之間的關系。
2.4 算子配置:靈活組合檢索策略
在檢索階段,圖檢索增強生成方法通過一系列操作符來檢索與用戶查詢相關的信息。這些操作符可以根據不同的檢索粒度(如節點、關系、子圖等)進行靈活組合,從而適應不同的任務需求。
常見的操作符包括節點類型操作符、關系類型操作符、塊類型操作符和子圖類型操作符。例如,節點類型操作符可以通過向量數據庫檢索與問題相關的節點,而子圖類型操作符則可以檢索與問題相關的子圖。
舉個例子,當用戶查詢“拜登和特朗普的競選關系”時,系統可以通過節點類型操作符檢索到“拜登”和“特朗普”這兩個節點,然后通過關系類型操作符檢索到它們之間的“競選對手”關系。
2.5 檢索與生成
圖片
在基于圖的檢索增強生成(Graph-based RAG)方法中,檢索與生成階段是實現知識整合與答案生成的核心環節。該階段分為兩個關鍵步驟:問題轉換和信息檢索與生成。
2.5.1 問題轉換
用戶輸入的問題(Query)首先被轉化為檢索系統可理解的“檢索原語”(Primitive)。不同方法采用不同的轉換策略:
?實體提取:如DALK、HippoRAG等方法直接從問題中抽取出實體或關鍵詞,作為檢索的錨點。
?向量編碼:多數方法(如RAPTOR、LGraphRAG)將問題編碼為向量,通過語義相似度匹配圖中的節點或子圖。
?原始問題直接使用:例如KGP直接將問題文本作為檢索輸入,依賴后續操作符處理。
2.5.2. 信息檢索與生成
根據轉換后的檢索原語,系統從構建的圖中提取相關信息(如節點、關系、子圖或社區),并組合成提示(Prompt)輸入大語言模型(LLM)生成答案。生成方式分為兩類:
?直接生成:將檢索到的信息與問題拼接,直接由LLM生成最終答案。
?分步聚合(Map-Reduce):例如GGraphRAG先對每個檢索到的社區獨立生成部分答案,再匯總成最終結果,適用于復雜抽象問題。
2.5 開源項目:GraphRAG
作者將統一框架和代碼實現開源,開源地址:https://github.com/JayLZhou/GraphRAG。
項目包含了圖構建、索引構建和檢索與生成的完整實現,還提供了多種操作符的配置示例,幫助用戶快速上手并定制自己的圖檢索增強生成系統。
三、圖檢索增強生成(Graph-based RAG)的應用與評估
3.1 在特定問答任務中的效果
圖片
基于圖的檢索增強生成(Graph-based RAG)方法在特定問答(Specific QA)任務中展現出顯著優勢,這類任務通常涉及對具體事實或細節的查詢(如“2024年美國總統是誰?”)。本節通過實驗分析不同方法在簡單與復雜問題上的表現,并總結關鍵發現。
3.1.1. 整體性能對比
圖片
實驗覆蓋6個數據集(如HotpotQA、MultihopQA等),評估指標包括準確率(Accuracy)和召回率(Recall)。
?RAG技術的必要性:相比直接使用大模型(ZeroShot),所有RAG方法均顯著提升效果。例如,在MultihopQA數據集上,VanillaRAG的準確率比ZeroShot提高3.2%,而基于圖的方法(如RAPTOR)進一步提升至56.06%。
?簡單問題:保留原始文本塊的方法(如HippoRAG)表現更優,因其直接匹配問題與文本片段。
?復雜問題:需多跳推理的任務(如MultihopQA)中,基于子圖或路徑檢索的方法(如DALK)準確率比VanillaRAG高6.57%。
?最佳方法:RAPTOR在多數數據集上領先,因其分層樹結構能同時利用底層細節和高層摘要。例如,在HotpotQA中,其準確率達55.32%,比VanillaRAG高4.5%。
3.1.2. 效率與成本分析
?圖構建成本:知識圖譜(KG)類方法(如TKG)的Token消耗比樹結構(RAPTOR)高40倍,因其需為實體和關系生成詳細描述。
?檢索效率:VanillaRAG響應最快(平均2.35秒/查詢),而基于代理的方法(如ToG)因需多次調用LLM,耗時高達69.74秒/查詢。
?性價比選擇:RAPTOR和HippoRAG在效果與效率間平衡較好,適合實際部署。
3.2 在抽象問答任務中的評估
1)圖結構對抽象任務的有效性
? 所有圖增強方法(RA、GS、LR、FG)均顯著優于VanillaRAG(平均勝率提升15%-30%),表明圖結構能有效捕捉文本塊間的語義關聯,提升抽象推理能力。
? 例如,在Legal數據集上,GGraphRAG的全面性勝率達78%,遠超VanillaRAG的42%。
2)高層摘要的關鍵作用
?GGraphRAG和RAPTOR表現最優,因其整合了社區報告或樹節點摘要等高層次信息。
? 在CS數據集中,GGraphRAG的Overall勝率為72%,而依賴低層結構的HLightRAG僅為55%。這表明抽象問題需要高層語義歸納而非細粒度實體關系。
3)社區報告與Map-Reduce策略的優勢
? GGraphRAG通過Leiden算法生成的社區報告能覆蓋更廣的主題范圍,結合Map-Reduce策略過濾無關內容,使其在Mix和Agriculture數據集上勝率穩定領先(平均勝率65% vs. 其他方法50%-58%)。
4)文本保留的必要性
? RAPTOR在部分數據集(如MultihopSum)上偶爾優于GGraphRAG,因其保留了原始文本塊的高層摘要,而社區報告可能丟失細節。這提示高層抽象與原始文本的平衡至關重要。
5)局限性
圖片
? 計算成本:GGraphRAG需離線生成大量社區報告,在HotpotQA等大規模數據集中 token 消耗顯著高于其他方法(見圖5)。
? 領域適應性:在專業領域(如Legal),社區報告的生成質量依賴預訓練LLM的領域知識,可能需進一步微調。
本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI
