成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DrKGC:突破傳統知識圖譜補全,動態子圖檢索與大模型的創新融合

發布于 2025-7-3 07:22
瀏覽
0收藏


DrKGC:突破傳統知識圖譜補全,動態子圖檢索與大模型的創新融合-AI.x社區圖片

摘要

知識圖譜補全(KGC)旨在通過利用現有的三元組和文本信息來預測知識圖譜(KGs)中的缺失三元組。最近,生成式大型語言模型(LLMs)越來越多地被用于圖任務。然而,當前方法通常以文本形式編碼圖上下文,這未能充分利用LLMs在感知和推理圖結構方面的潛力。為了解決這一限制,我們提出了DrKGC(動態子圖檢索增強的知識圖譜補全大型語言模型)。DrKGC采用一種靈活輕量級的模型訓練策略,在KG內學習結構嵌入和邏輯規則。然后,它利用一種新穎的自下而上的圖檢索方法,根據學到的規則提取每個查詢的子圖。最后,一個圖卷積網絡(GCN)適配器使用檢索到的子圖來增強結構嵌入,然后將其整合到提示中,以實現有效的LLM微調。在兩個通用領域基準數據集和兩個生物醫學數據集上的實驗結果表明DrKGC的性能優越。此外,在生物醫學領域的現實案例研究突出了其可解釋性和實用價值。

核心速覽

研究背景

  1. 研究問題:這篇文章要解決的問題是如何在知識圖譜(KGs)中完成缺失的三元組預測。具體來說,現有的方法通常將圖上下文編碼為文本形式,這限制了大型語言模型(LLMs)在感知和推理圖結構方面的潛力。
  2. 研究難點:該問題的研究難點包括:結構信息丟失、靜態嵌入限制以及通用響應問題。生成式方法往往無法保留知識圖譜中的豐富結構信息,靜態嵌入無法適應查詢特定的上下文或動態子圖結構,而缺乏額外約束的LLMs容易生成通用且不相關的預測。
  3. 相關工作:該問題的研究相關工作有基于結構的方法(如TransE、DistMult)、基于規則的方法(如Neural-LP)、基于文本的方法(如KG-BERT)以及生成式方法(如KICGPT、KoPA)。這些方法在不同程度上解決了知識圖譜補全的問題,但仍存在各自的局限性。

研究方法

這篇論文提出了DrKGC(Dynamic Subgraph Retrieval-Augmented LLMs for Knowledge Graph Completion)用于解決知識圖譜補全問題。具體來說,

  1. 問題生成器:首先,使用自動生成的模板詞匯表將不完整的三元組轉換為自然語言問題。模板生成分為兩個階段:模板生成和問題生成。模板生成使用GPT的少樣本上下文學習生成問題模板,問題生成則將查詢關系映射到相應的問題模板并插入查詢實體。DrKGC:突破傳統知識圖譜補全,動態子圖檢索與大模型的創新融合-AI.x社區
  2. 候選者檢索器:為了減輕搜索空間過大、LLM輸入容量有限以及LLMs生成通用響應的趨勢,使用輕量級模型獲取實體排名,并收集候選實體。輕量級模型訓練不僅獲取實體的結構嵌入,還學習關系的邏輯規則,以指導后續的子圖檢索。
  3. 動態子圖RAG:提出了一種動態子圖RAG策略,包括動態子圖檢索和結構感知嵌入增強。動態子圖檢索通過檢索信息子圖來增強圖上下文,確保查詢實體和所有候選實體都在子圖中,并使用邏輯規則豐富子圖。結構感知嵌入增強利用子圖的結構信息向量化圖上下文,并通過圖卷積網絡(GCN)適配器生成局部嵌入。DrKGC:突破傳統知識圖譜補全,動態子圖檢索與大模型的創新融合-AI.x社區

公式解釋:

  • 動態子圖檢索過程中,確保查詢實體和所有候選實體都在子圖中,并檢索連接每個候選實體到查詢實體的最短路徑,按邏輯規則的置信度分數排序,直到達到預設的閾值τ。
  • 結構感知嵌入增強中,GCN適配器通過鄰域聚合機制更新節點的表示,生成局部嵌入,并與全局嵌入拼接形成最終的增強結構嵌入。

實驗設計

  1. 數據集:在兩個通用領域基準數據集(WN18RR和FB15k-237)和兩個生物醫學數據集(PharmKG和PrimeKG)上評估所提出的方法。數據集的統計細節和預處理過程在附錄中提供。
  2. 基線方法:選擇了多類別的基線方法進行比較,包括基于結構的方法(如TransE、DistMult)、基于規則的方法(如Neural-LP)、基于文本的方法(如KG-BERT)以及生成式方法(如KICGPT、COSIGN)。
  3. 實現細節:在輕量級模型訓練階段,使用NCRL挖掘邏輯規則,并使用RotatE和HRGAT分別獲取WN18RR和FB15k-237的全局結構嵌入,PharmKG和PrimeKG則直接使用HRGAT和R-GCN進行排名。候選集大小固定為20。微調階段使用了Llama-3-8B、Llama-3.2-3B、MedLlama-3-8B和Mistral-7B作為LLMs,并使用LoRA進行高效的參數調優。

結果與分析

  1. 主要結果:DrKGC在WN18RR、FB15k-237、PharmKG和PrimeKG上的表現均優于大多數基線方法。在WN18RR上,盡管在Hits@10上略遜于NCRL和GHN,但在所有評估指標上均優于所有生成式方法。在FB15k-237上,DrKGC在所有指標上均優于基線,MRR提高了7.5%,Hits@1提高了11.4%。在PharmKG和PrimeKG上,DrKGC也表現出色,顯著優于所有基線。DrKGC:突破傳統知識圖譜補全,動態子圖檢索與大模型的創新融合-AI.x社區
  2. 消融研究:通過消融研究評估了DrKGC中每個組件的貢獻。移除規則限制、局部嵌入和結構嵌入后,模型性能顯著下降,表明這些組件對模型性能至關重要。省略問題模板對生物醫學數據集的影響更大,表明關系的功能性和機制性對LLM的指令更為重要。DrKGC:突破傳統知識圖譜補全,動態子圖檢索與大模型的創新融合-AI.x社區
  3. 魯棒性分析:在WN18RR上進行歸納預測和噪聲條件下的魯棒性評估。歸納設置下,模型性能僅略有下降;注入20%的噪聲后,MRR和Hits@1的下降幅度有限,分別為7.9%和7.6%,表明DrKGC具有較好的魯棒性。
  4. 子圖大小敏感性分析:在不同子圖大小τ下的模型性能和效率進行了分析。結果表明,當τ增加時,模型性能先提高后下降,最佳結果為τ=100125,運行時間與τ線性增長。

總體結論

本文提出了一種新的知識圖譜補全框架DrKGC,充分利用圖上下文信息,靈活集成動態子圖信息聚合、嵌入注入和RAG機制,克服了先前生成式方法在結構信息丟失、靜態實體表示和通用LLM響應方面的局限性。實驗結果表明,DrKGC在通用知識圖譜和特定領域知識圖譜(如生物醫學知識圖譜)上均取得了最先進的性能。通過捕捉圖上下文生成信息性子圖,DrKGC還增強了模型的可解釋性,這在生物醫學應用中尤為有價值。

論文評價

優點與創新

  1. 新穎的框架:DrKGC提出了一個新穎且靈活的框架,能夠有效地支持通用知識圖譜和特定領域的生物醫學知識圖譜(BKG)。
  2. 結構信息整合:開發了兩個關鍵組件來有效整合圖結構信息到生成模型中。具體來說,擴展了標準的檢索增強生成方法到圖場景,利用邏輯規則獲取表示潛在興趣實體的局部子圖。然后,開發了一種技術,將圖卷積網絡應用于檢索到的子圖,以進一步生成實體的局部嵌入,有效地為基于LLM的預測提供結構信息。
  3. 實驗驗證:在基準數據集和生物醫學用例上進行了全面的實驗,評估了DrKGC的性能,并展示了其相對于最先進基線方法的顯著改進。此外,還進行了藥物再利用的生物醫學案例研究,展示了DrKGC的實際應用能力。
  4. 增強模型解釋性:通過捕捉圖上下文生成信息性子圖,DrKGC還增強了模型的可解釋性,這在生物醫學應用中尤其有價值。

不足與反思

  1. 計算密集:DrKGC依賴于微調大型語言模型,這一過程計算密集,其性能本質上受限于當前LLM和輕量級模型的能力。
  2. 優化微調效率:未來工作將集中在優化微調效率、提升LLM性能以及探索擴展到其他圖任務(如推理和問答)上。
  3. 更復雜的子圖檢索:檢索更具信息性的子圖可能會帶來額外的挑戰。雖然本文采用了輕量級的啟發式圖檢索方法,但更嚴格的基于規則的檢測和過濾技術以及替代的子圖策略(如學習驅動的子圖檢索)值得進一步研究。

關鍵問題及回答

問題1:DrKGC在動態子圖檢索過程中是如何確保查詢實體和所有候選實體都在子圖中的?

在動態子圖檢索過程中,DrKGC首先確保查詢實體和所有候選實體都在子圖中。具體步驟如下:

  1. 初始化子圖:確保查詢實體tq在子圖G中。
  2. 檢索最短路徑對于每個候選實體e∈C,檢索從etq的最短路徑,以確保它們之間的連通性。
  3. 排序邏輯規則:按照邏輯規則Lrq的置信度分數對路徑進行排序,并依次使用這些規則來搜索從etq的路徑,從而豐富子圖。
  4. 達到預設閾值:重復上述步驟直到子圖中的三元組數量達到預設的閾值τ。
  5. 補充額外三元組:如果子圖中的三元組數量仍低于τ,則通過rq及其邏輯規則補充與etq相關的額外三元組。

問題2:DrKGC的結構感知嵌入增強是如何利用子圖的結構信息來增強整體結構表示的?

  1. 初始化GCN:對于每個查詢子圖,GCN適配器首先使用所有實體的全局嵌入進行初始化。
  2. 鄰域聚合:通過鄰域聚合機制更新節點的表示,生成局部嵌入。具體來說,GCN適配器通過聚合當前節點的鄰居節點的信息來更新當前節點的嵌入。
  3. 拼接嵌入:將生成的局部嵌入與全局嵌入拼接,形成最終的增強結構嵌入。
  4. 低維空間計算:為了減少計算開銷,GCN計算在低維空間中進行,然后通過適配器將結果映射到LLM輸入維度,實現無縫集成。

通過這種方式,DrKGC能夠有效地利用子圖的結構信息來增強整體結構表示,從而提高模型在知識圖譜補全任務中的性能。

問題3:DrKGC在實驗中是如何驗證其魯棒性的?

  1. 歸納預測:在WN18RR上進行歸納預測實驗,提取所有測試三元組中實體或關系從未出現在訓練集中的情況,測量DrKGC在這些未見過的實體情況下的性能。
  2. 噪聲條件:在訓練集中注入固定比例的無隨機負三元組,評估這對DrKGC指標的影響。具體來說,將訓練集中的20%三元組替換為隨機負三元組,然后重新評估模型的性能。

實驗結果表明,在歸納設置下,DrKGC的性能僅略有下降,MRR下降了5.4%,Hits@1下降了6.7%;即使在注入20%噪聲的情況下,MRR和Hits@1的下降幅度也有限,分別為7.9%和7.6%。這表明DrKGC在處理未見過的實體和噪聲條件時具有較高的魯棒性。

本文轉載自????知識圖譜科技????,作者:知識圖譜科技

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91一区二区三区 | 亚洲精品成人网 | 在线成人www免费观看视频 | 天天草天天干 | 久久99精品久久久久子伦 | 亚洲日韩视频 | 一区二区三区亚洲 | 九九久久精品视频 | 91精品国产乱码久久久久久久 | 日日摸日日碰夜夜爽2015电影 | 一级片免费观看 | 欧美日本一区二区 | 日韩精品一区二区三区第95 | 国产精品亚洲片在线播放 | 91久久久久久久久久久 | 国产一区精品在线 | 久久手机视频 | 伊人精品 | 国产精品美女久久久 | 亚洲国产中文字幕 | 成人不卡 | 日韩中文字幕 | 国产精品亚洲第一区在线暖暖韩国 | 一区二区影院 | 国产欧美在线视频 | 成人h动漫精品一区二区器材 | 午夜精品91 | 一区二区三区四区免费视频 | 色综合99| 久久精品国产久精国产 | 久久综合一区二区 | 国产三级电影网站 | 欧美一区久久 | 久久中文字幕一区 | 成人欧美一区二区 | 一区二区三区欧美 | 国产精品欧美一区二区 | 免费视频一区 | 热久色 | 99小视频 | 日本不卡一区 |