成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考 原創

發布于 2025-6-13 08:42
瀏覽
0收藏

系統的評估總是有趣的,在前文,我們通過一個類似的benchmark得出結論:GraphRAG在需要多跳推理和上下文綜合的任務中表現優異,但在簡單事實檢索任務中不如傳統RAG。見《???什么時候用GraphRAG?RAG VS GraphRAG綜合分析??

本文,再來看一個評估工作,同樣是一個GraphRAG-bench,也再次通過評估得出GraphRAG適合多跳推理場景,并且系統的評估了九大GraphRAG(RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP和ToG)在這個benchmark上的性能,供參考。

評估設計

數據來源:從超過100本出版物中,系統地挑選出最具代表性的20本計算機科學領域的教科書。

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考-AI.x社區


數據處理:其實就是文檔解析,前面《文檔智能》專欄也介紹了很多,包含:預處理、內容解析、后處理和層次結構構建。預處理階段包括PDF分類和元數據提取;內容解析階段使用LayoutLMv3進行布局分析、公式識別和OCR;后處理階段使用MinerU重新排序和合并頁面區域;層次結構構建階段將提取的內容組織成層次化的教科書樹結構

評估問題設計:定義了五種類型的問題,每種類型都針對GraphRAG的不同推理能力。如下表,GraphRAG-bench評估問題類型的描述

問題類型

描述

填空題(FB)

要求用語義精確的術語完成上下文相關的陳述。這些題目評估模型利用局部語義依賴和圖結構知識中的實體定位,生成上下文連貫內容的能力。

多選題(MC)

提供一個問題及4個選項,包括語言上合理的干擾項。這些題目評估模型通過區分性推理識別正確答案的能力,整合實體信息和邊關系以排除語義相似但事實錯誤的選項。

多選答題(MS)

要求從4個選項中選擇2-4個正確答案,通常需要對相互關聯的概念進行推理。包含重疊干擾項的設置測試模型處理復雜查詢語義的能力,從多跳圖路徑中聚合證據,并解決相關但非必要屬性之間的沖突。

判斷題(TF)

涉及驗證陳述的正確性。這些題目衡量模型的事實準確性評估能力,要求對知識進行邏輯推理。

開放式問題(OE)

開放式問題允許廣泛的回答,要求方法生成詳細且全面的答案。這些題目評估模型的整體知識綜合能力,要求整合多學科知識以生成結構化、邏輯連貫的長篇回答。

評估指標:涵蓋圖構建、知識檢索、答案生成和推理過程的評價。圖構建評估包括效率、成本和組織性;知識檢索評估包括索引時間和平均檢索時間;生成評估引入了新的Accuracy指標,考慮語義對齊和正確性;推理評估通過LLM對生成的理由進行評分,評估其邏輯一致性。

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考-AI.x社區

實驗與結論

  • GraphRAG在大多數任務中顯著提升了LLM的推理能力。例如,在開放性問題(OE)上,GraphRAG的平均準確率達到了52.42%,而基線模型GPT-4o-mini僅為52.23%。在多跳推理任務中,GraphRAG方法如RAPTOR和HippoRAG表現尤為突出,分別在準確率和推理分數上取得了73.58%和45.53%的成績。
  • 在數學領域,GraphRAG方法的表現有所下降,這主要是因為數學問題需要嚴格的符號操作和精確的推理鏈,而GraphRAG檢索到的信息往往與問題要求不完全匹配,導致信息提取和轉換中的歧義或關鍵步驟丟失。
  • 在倫理領域,GraphRAG和LLM本身的表現均較為一般,原因是倫理問題涉及主觀價值判斷,LLM通過統計學習捕獲的符號表示難以準確建模這些模糊的倫理概念。

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考-AI.x社區

圖構建過程的比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考-AI.x社區

知識檢索過程比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考-AI.x社區

生成過程的比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考-AI.x社區

推理能力比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評估參考-AI.x社區

參考文獻:GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation,https://arxiv.org/pdf/2506.02404

repo:https://github.com/jeremycp3/GraphRAG-Bench


本文轉載自??大模型自然語言處理??   作者:余俊暉

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美日韩一区二区 | 亚洲一区二区三区在线视频 | 五月花丁香婷婷 | 亚洲免费在线观看 | 有码在线 | 五月婷婷丁香 | 欧美日韩中文在线 | 欧美在线色视频 | 麻豆精品国产免费 | 国产高清不卡 | 国产精品久久久久久久久久久久冷 | 久久久青草婷婷精品综合日韩 | 午夜久久久久久久久久一区二区 | 国产激情视频在线观看 | 日韩高清黄色 | 一区二区三区欧美 | 亚洲精品4 | 超碰天天 | 国产精品一区二区三区久久久 | 天堂一区二区三区 | 日韩久久久久 | 91成人精品视频 | 久久久看| 亚洲国产精品视频 | 久久精品视频在线免费观看 | 欧美日韩国产精品一区二区 | 日韩一区二区在线视频 | 久久香蕉网 | 色播视频在线观看 | 91视频观看| 国产精品久久久久一区二区三区 | 国产精品精品视频 | 久优草 | 日韩av一区二区在线观看 | 91深夜福利视频 | 日韩在线播放av | 日韩欧美精品 | 美女在线观看av | 国产福利在线小视频 | 精品欧美一区免费观看α√ | 一区不卡在线观看 |