什么時(shí)候用GraphRAG?RAG VS GraphRAG綜合分析 原創(chuàng)
RAG VS GraphRAG
最近的研究報(bào)告稱,在許多實(shí)際任務(wù)中,GraphRAG的表現(xiàn)往往不如普通的RAG。因此產(chǎn)生一個(gè)問題:GraphRAG真的有效嗎?在哪些場(chǎng)景下,GraphRAG有收益?為了解決這個(gè)問題,提出GraphRAG-Bench,這是一個(gè)評(píng)測(cè)GraphRAG的基準(zhǔn),目的是評(píng)估GraphRAG模型在層次知識(shí)檢索和深度上下文推理方面的性能。文章指出的評(píng)測(cè)方式及評(píng)測(cè)結(jié)論可以參考。
GraphRAG-Bench具有一個(gè)全面的數(shù)據(jù)集,任務(wù)難度逐漸增加,涵蓋事實(shí)檢索、復(fù)雜推理、上下文總結(jié)和創(chuàng)造性生成,并對(duì)整個(gè)流程進(jìn)行系統(tǒng)評(píng)估,從圖構(gòu)建和知識(shí)檢索到最終生成。
RAG VS GraphRAG
下面這張圖可能更清晰的看出RAG和GraphRAG的區(qū)別。
RAG VS GraphRAG
特性 | RAG | GraphRAG |
知識(shí)表示 | 使用文本塊(chunks),通過向量嵌入進(jìn)行索引。 | 使用圖結(jié)構(gòu),節(jié)點(diǎn)代表實(shí)體、事件或主題,邊定義邏輯、因果或關(guān)聯(lián)關(guān)系。 |
檢索機(jī)制 | 關(guān)鍵詞匹配或向量相似度檢索。 | 圖遍歷,檢索直接相關(guān)節(jié)點(diǎn)及相互連接的子圖。 |
復(fù)雜查詢處理 | 適用于需要快速訪問離散信息的任務(wù),但不擅長(zhǎng)復(fù)雜邏輯推理。 | 適用于需要深度上下文分析和復(fù)雜推理的任務(wù),能夠合成來自分散數(shù)據(jù)點(diǎn)的見解。 |
適用場(chǎng)景 | 簡(jiǎn)單問答系統(tǒng),需要快速響應(yīng)的任務(wù)。 | 醫(yī)學(xué)診斷、法律分析、科學(xué)推理等需要深度理解和復(fù)雜推理的任務(wù)。 |
復(fù)雜性 | 實(shí)現(xiàn)相對(duì)簡(jiǎn)單,依賴現(xiàn)有文本檢索技術(shù)。 | 實(shí)現(xiàn)較為復(fù)雜,需要構(gòu)建和維護(hù)圖結(jié)構(gòu),以及高效的圖遍歷算法。 |
性能 | 在不需要復(fù)雜推理的任務(wù)上表現(xiàn)良好。 | 在需要復(fù)雜推理和上下文理解的任務(wù)上表現(xiàn)出色,但可能增加檢索速度和資源消耗。 |
評(píng)測(cè)
現(xiàn)有評(píng)測(cè)都比較簡(jiǎn)單,因此提出一個(gè)比較全面的評(píng)測(cè)基準(zhǔn)-GraphRAG-Bench,包括難度逐漸增加的任務(wù),涵蓋事實(shí)檢索、多跳推理、上下文總結(jié)和創(chuàng)造性生成等。
按復(fù)雜性分類的任務(wù),從事實(shí)檢索到創(chuàng)造性生成。
類別 | 任務(wù)名稱 | 簡(jiǎn)要描述 | 示例 |
第1級(jí) | 事實(shí)檢索 | 需要檢索孤立的知識(shí)點(diǎn),最小化推理;主要測(cè)試精確的關(guān)鍵詞匹配。 | 蒙特圣米歇爾位于法國的哪個(gè)地區(qū)? |
第2級(jí) | 復(fù)雜推理 | 需要通過文檔中的邏輯連接鏈接多個(gè)知識(shí)點(diǎn)。 | Hinze與Felicia的協(xié)議如何影響對(duì)英格蘭統(tǒng)治者的看法? |
第3級(jí) | 上下文摘要 | 涉及將碎片化信息綜合成一個(gè)連貫、有結(jié)構(gòu)的答案;強(qiáng)調(diào)邏輯連貫性和上下文。 | John Curgenven作為康沃爾船夫在探索該地區(qū)的游客中扮演什么角色? |
第4級(jí) | 創(chuàng)造性生成 | 需要超越檢索內(nèi)容的推理,通常涉及假設(shè)或新穎的場(chǎng)景。 | 將亞瑟王與John Curgenven的比較以及康沃爾海岸線的探索重述為新聞文章。 |
評(píng)估指標(biāo)
在評(píng)估GraphRAG系統(tǒng)時(shí),引入了多種指標(biāo)來全面評(píng)估系統(tǒng)在知識(shí)圖譜構(gòu)建、檢索和生成過程中的表現(xiàn):
1. Graph Quality (圖質(zhì)量)
2. Retrieval Performance (檢索性能)
- Context Relevance(上下文相關(guān)性):衡量檢索內(nèi)容與問題意圖的對(duì)齊程度。通過計(jì)算問題和檢索證據(jù)之間的語義相似性來量化,較高的值表示更集中和相關(guān)的信息。
- Evidence Recall(證據(jù)召回率):通過評(píng)估是否捕獲了正確回答問題所需的所有關(guān)鍵組件來衡量檢索的完整性。較高的值表示更全面的證據(jù)收集。
3. Generation Accuracy (生成準(zhǔn)確性)
- Lexical Overlap(詞匯重疊):使用最長(zhǎng)公共子序列匹配來衡量生成答案與參考答案之間的詞級(jí)相似性。
- Answer Accuracy(答案準(zhǔn)確性):評(píng)估生成答案與參考答案的語義相似性和事實(shí)一致性。
- Faithfulness(忠實(shí)度):評(píng)估長(zhǎng)篇答案中的相關(guān)知識(shí)點(diǎn)是否忠實(shí)于給定的上下文。
- Evidence Coverage(證據(jù)覆蓋率):衡量答案是否充分涵蓋了與問題相關(guān)的所有知識(shí)。
實(shí)驗(yàn)性能
GraphRAG在需要多跳推理和上下文綜合的任務(wù)中表現(xiàn)優(yōu)異,但在簡(jiǎn)單事實(shí)檢索任務(wù)中不如傳統(tǒng)RAG。
- 生成準(zhǔn)確性: 基本RAG在簡(jiǎn)單事實(shí)檢索任務(wù)中表現(xiàn)優(yōu)于GraphRAG,但在復(fù)雜推理、上下文摘要和創(chuàng)造性生成任務(wù)中,GraphRAG表現(xiàn)出明顯優(yōu)勢(shì)。
- 檢索性能: GraphRAG在復(fù)雜任務(wù)中表現(xiàn)出色,特別是在需要多跳推理和上下文綜合的任務(wù)中,能夠連接遠(yuǎn)距離文本片段,提供更全面的信息。
- 圖復(fù)雜性: 不同GraphRAG實(shí)現(xiàn)生成的索引圖顯示出顯著的結(jié)構(gòu)差異,HippoRAG2生成的圖更為密集,提高了信息連接性和覆蓋范圍。
- 效率: GraphRAG由于額外的知識(shí)檢索和圖聚合步驟,增加了提示長(zhǎng)度,導(dǎo)致效率降低,尤其是在復(fù)雜任務(wù)中。
參考文獻(xiàn):When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation,https://arxiv.org/pdf/2506.05690v1
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:余俊暉
