一個增量式構建知識圖譜的項目:iText2KG
?iText2KG是一個開源項目,能夠利用大型語言模型(zero-shot)跨領域從文本中提取實體和關系,自動構建和更新知識圖譜,并通過Neo4j進行可視化。
iText2KG由四個主要模塊組成:文檔提取器、增量實體提取器、增量關系提取器、圖形集成器和可視化。它們協同工作,從非結構化文本構建和可視化知識圖譜。
iText2KG整體架構概述
- 文檔提取器(Document Distiller):該模塊處理原始文檔,并根據用戶定義的模式將其重新表述為語義塊。它通過關注相關信息并以預定義的格式對其進行結構化來提高信噪比。
- 增量實體提取器(Incremental Entity Extractor):此模塊從語義塊中提取唯一實體并解決歧義以確保每個實體都有明確定義。它使用余弦相似度度量將局部實體與全局實體進行匹配。
- 增量關系提取器(Incremental Relation Extractor):此模塊識別提取實體之間的關系。它可以以兩種模式運行:使用全局實體豐富圖形中的潛在信息,或使用局部實體建立更精確的關系。
- 圖形集成器和可視化(Graph Integrator and Visualization):此模塊將提取的實體和關系集成到 Neo4j 數據庫中,提供知識圖譜的可視化表示。它允許對結構化數據進行交互式探索和分析。
四個模塊中,增量實體提取器與增量關系提取器最為關鍵,采用大模型來實現,LLM提取代表一個唯一概念的實體,以避免語義混合的實體。
顯示了使用 Langchain JSON 解析器的實體和關系提取prompt。分類如下:藍色 - 由 Langchain 自動格式化的prompt;常規 - iText2KG設計的prompt;斜體 - 專門為實體和關系提取設計的prompt。(a)關系提取prompt和(b)實體提取prompt。
為了說明知識圖譜構建的結果,在三種不同場景下,將基線方法與iText2KG進行了比較:
- 基線方法在所有三種知識圖譜構建場景中都揭示了存在沒有關系的孤立節點。這種現象可能歸因于實體提取和關系提取的同時執行,這可能會在語言模型中引起幻覺效應,導致“遺忘”效應,即分離實體和關系提取的過程可以提高性能。
- 在“網站到知識圖譜”的場景中,輸入文檔數量的增加與圖中噪聲節點的出現有關。這強調了對文檔進行有效精煉和蒸餾的模塊1的關鍵需求。
- iText2KG方法在三種知識圖譜構建場景中展示了改進的實體和關系解析能力。當輸入文檔較少且由簡單、非復雜短語組成時,語言模型在實體和關系解析方面表現出高效率,如“簡歷到知識圖譜”過程中所證明的。相反,隨著數據集變得更加復雜和龐大,挑戰也隨之增加,如“網站到知識圖譜”場景所示。此外,重要的是要強調輸入文檔的分塊大小和閾值對知識圖譜構建的影響。文檔分餾器的輸入文檔可以是獨立的文檔或分塊。如果分塊大小較小,則語義塊將從文檔中捕獲更具體的詳細信息,反之亦然
在三個場景中,基線方法與iText2KG在知識圖譜構建方面的比較
https://github.com/AuvaLab/itext2kg
https://arxiv.org/pdf/2409.03284
iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models
本文轉載自??PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦