什么時(shí)候用GraphRAG？RAG VS GraphRAG綜合分析原創(chuàng)

發(fā)布于 2025-6-10 10:42

瀏覽

0收藏

什么時(shí)候用GraphRAG？RAG VS GraphRAG綜合分析-AI.x社區(qū)

RAG VS GraphRAG

最近的研究報(bào)告稱，在許多實(shí)際任務(wù)中，GraphRAG的表現(xiàn)往往不如普通的RAG。因此產(chǎn)生一個(gè)問題：GraphRAG真的有效嗎？在哪些場(chǎng)景下，GraphRAG有收益？為了解決這個(gè)問題，提出GraphRAG-Bench，這是一個(gè)評(píng)測(cè)GraphRAG的基準(zhǔn)，目的是評(píng)估GraphRAG模型在層次知識(shí)檢索和深度上下文推理方面的性能。文章指出的評(píng)測(cè)方式及評(píng)測(cè)結(jié)論可以參考。

GraphRAG-Bench具有一個(gè)全面的數(shù)據(jù)集，任務(wù)難度逐漸增加，涵蓋事實(shí)檢索、復(fù)雜推理、上下文總結(jié)和創(chuàng)造性生成，并對(duì)整個(gè)流程進(jìn)行系統(tǒng)評(píng)估，從圖構(gòu)建和知識(shí)檢索到最終生成。

RAG VS GraphRAG

下面這張圖可能更清晰的看出RAG和GraphRAG的區(qū)別。

什么時(shí)候用GraphRAG？RAG VS GraphRAG綜合分析-AI.x社區(qū)

RAG VS GraphRAG

特性	RAG	GraphRAG
知識(shí)表示	使用文本塊（chunks），通過向量嵌入進(jìn)行索引。	使用圖結(jié)構(gòu)，節(jié)點(diǎn)代表實(shí)體、事件或主題，邊定義邏輯、因果或關(guān)聯(lián)關(guān)系。
檢索機(jī)制	關(guān)鍵詞匹配或向量相似度檢索。	圖遍歷，檢索直接相關(guān)節(jié)點(diǎn)及相互連接的子圖。
復(fù)雜查詢處理	適用于需要快速訪問離散信息的任務(wù)，但不擅長(zhǎng)復(fù)雜邏輯推理。	適用于需要深度上下文分析和復(fù)雜推理的任務(wù)，能夠合成來自分散數(shù)據(jù)點(diǎn)的見解。
適用場(chǎng)景	簡(jiǎn)單問答系統(tǒng)，需要快速響應(yīng)的任務(wù)。	醫(yī)學(xué)診斷、法律分析、科學(xué)推理等需要深度理解和復(fù)雜推理的任務(wù)。
復(fù)雜性	實(shí)現(xiàn)相對(duì)簡(jiǎn)單，依賴現(xiàn)有文本檢索技術(shù)。	實(shí)現(xiàn)較為復(fù)雜，需要構(gòu)建和維護(hù)圖結(jié)構(gòu)，以及高效的圖遍歷算法。
性能	在不需要復(fù)雜推理的任務(wù)上表現(xiàn)良好。	在需要復(fù)雜推理和上下文理解的任務(wù)上表現(xiàn)出色，但可能增加檢索速度和資源消耗。

評(píng)測(cè)

現(xiàn)有評(píng)測(cè)都比較簡(jiǎn)單，因此提出一個(gè)比較全面的評(píng)測(cè)基準(zhǔn)-GraphRAG-Bench，包括難度逐漸增加的任務(wù)，涵蓋事實(shí)檢索、多跳推理、上下文總結(jié)和創(chuàng)造性生成等。

什么時(shí)候用GraphRAG？RAG VS GraphRAG綜合分析-AI.x社區(qū)

按復(fù)雜性分類的任務(wù)，從事實(shí)檢索到創(chuàng)造性生成。

類別	任務(wù)名稱	簡(jiǎn)要描述	示例
第1級(jí)	事實(shí)檢索	需要檢索孤立的知識(shí)點(diǎn)，最小化推理；主要測(cè)試精確的關(guān)鍵詞匹配。	蒙特圣米歇爾位于法國的哪個(gè)地區(qū)？
第2級(jí)	復(fù)雜推理	需要通過文檔中的邏輯連接鏈接多個(gè)知識(shí)點(diǎn)。	Hinze與Felicia的協(xié)議如何影響對(duì)英格蘭統(tǒng)治者的看法？
第3級(jí)	上下文摘要	涉及將碎片化信息綜合成一個(gè)連貫、有結(jié)構(gòu)的答案；強(qiáng)調(diào)邏輯連貫性和上下文。	John Curgenven作為康沃爾船夫在探索該地區(qū)的游客中扮演什么角色？
第4級(jí)	創(chuàng)造性生成	需要超越檢索內(nèi)容的推理，通常涉及假設(shè)或新穎的場(chǎng)景。	將亞瑟王與John Curgenven的比較以及康沃爾海岸線的探索重述為新聞文章。

評(píng)估指標(biāo)

在評(píng)估GraphRAG系統(tǒng)時(shí)，引入了多種指標(biāo)來全面評(píng)估系統(tǒng)在知識(shí)圖譜構(gòu)建、檢索和生成過程中的表現(xiàn)：

1. Graph Quality (圖質(zhì)量)

什么時(shí)候用GraphRAG？RAG VS GraphRAG綜合分析-AI.x社區(qū)

2. Retrieval Performance (檢索性能)

Context Relevance（上下文相關(guān)性）：衡量檢索內(nèi)容與問題意圖的對(duì)齊程度。通過計(jì)算問題和檢索證據(jù)之間的語義相似性來量化，較高的值表示更集中和相關(guān)的信息。
Evidence Recall（證據(jù)召回率）：通過評(píng)估是否捕獲了正確回答問題所需的所有關(guān)鍵組件來衡量檢索的完整性。較高的值表示更全面的證據(jù)收集。

3. Generation Accuracy (生成準(zhǔn)確性)

Lexical Overlap（詞匯重疊）：使用最長(zhǎng)公共子序列匹配來衡量生成答案與參考答案之間的詞級(jí)相似性。
Answer Accuracy（答案準(zhǔn)確性）：評(píng)估生成答案與參考答案的語義相似性和事實(shí)一致性。
Faithfulness（忠實(shí)度）：評(píng)估長(zhǎng)篇答案中的相關(guān)知識(shí)點(diǎn)是否忠實(shí)于給定的上下文。
Evidence Coverage（證據(jù)覆蓋率）：衡量答案是否充分涵蓋了與問題相關(guān)的所有知識(shí)。

實(shí)驗(yàn)性能

GraphRAG在需要多跳推理和上下文綜合的任務(wù)中表現(xiàn)優(yōu)異，但在簡(jiǎn)單事實(shí)檢索任務(wù)中不如傳統(tǒng)RAG。

生成準(zhǔn)確性: 基本RAG在簡(jiǎn)單事實(shí)檢索任務(wù)中表現(xiàn)優(yōu)于GraphRAG，但在復(fù)雜推理、上下文摘要和創(chuàng)造性生成任務(wù)中，GraphRAG表現(xiàn)出明顯優(yōu)勢(shì)。
檢索性能: GraphRAG在復(fù)雜任務(wù)中表現(xiàn)出色，特別是在需要多跳推理和上下文綜合的任務(wù)中，能夠連接遠(yuǎn)距離文本片段，提供更全面的信息。
圖復(fù)雜性: 不同GraphRAG實(shí)現(xiàn)生成的索引圖顯示出顯著的結(jié)構(gòu)差異，HippoRAG2生成的圖更為密集，提高了信息連接性和覆蓋范圍。
效率: GraphRAG由于額外的知識(shí)檢索和圖聚合步驟，增加了提示長(zhǎng)度，導(dǎo)致效率降低，尤其是在復(fù)雜任務(wù)中。

什么時(shí)候用GraphRAG？RAG VS GraphRAG綜合分析-AI.x社區(qū)