基于KG生成語料增強(qiáng)解決RAG問答幻覺問題的簡單框架-Walk&Retrieve 原創(chuàng)
Walk&Retrieve基于知識(shí)圖譜,利用基于圖遍歷和知識(shí)表述來進(jìn)行零樣本RAG的語料庫生成。解決RAG系統(tǒng)的幻覺問題。該框架思路比較簡單,核心點(diǎn)在于零樣本RAG的語料庫生成,下面來看看,供參考。
方法架構(gòu)
語料生成
在框架中,語料生成該方法的核心步驟。該階段從知識(shí)圖譜中提取相關(guān)信息,并將其轉(zhuǎn)化為適合LLM處理的文本格式。語料生成包括以下幾個(gè)步驟:基于圖的遍歷、知識(shí)表示和索引。
1.基于圖的遍歷
隨機(jī)游走:隨機(jī)游走是一種隨機(jī)過程,從一個(gè)節(jié)點(diǎn)開始,每次以均勻的概率選擇當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn)進(jìn)行移動(dòng)。
- 優(yōu)點(diǎn):簡單易行,適用于大規(guī)模圖譜。
- 缺點(diǎn):可能會(huì)產(chǎn)生重復(fù)路徑和噪聲。
廣度優(yōu)先搜索-BFS游走:BFS是一種圖遍歷算法,從根節(jié)點(diǎn)開始,逐層訪問其鄰居節(jié)點(diǎn)。對(duì)于每個(gè)根節(jié)點(diǎn)
構(gòu)建一個(gè)層次結(jié)構(gòu),每一層的節(jié)點(diǎn)表示與根節(jié)點(diǎn)的最短路徑距離。然后,按照層次順序進(jìn)行遍歷,確保每個(gè)節(jié)點(diǎn)只被訪問一次。
其中,L0={v2},d 是最大深度。
- 優(yōu)點(diǎn):避免了重復(fù)路徑,生成的游走路徑更加多樣化。
- 缺點(diǎn):計(jì)算復(fù)雜度較高,尤其是在深層遍歷時(shí)。
2.知識(shí)表示
LLM需要文本輸入,需要將提取的圖遍歷路徑轉(zhuǎn)換為自然語言描述。使用預(yù)定義的提示模板,將每個(gè)節(jié)點(diǎn)的游走路徑轉(zhuǎn)化為自然語言句子。例如,對(duì)于一個(gè)隨機(jī)游走的路徑 ,可以生成類似“ 通過關(guān)系 連接到 ,而 通過關(guān)系 連接到 ”的句子。
預(yù)定義的提示模板
3.索引
將每個(gè)游走路徑 轉(zhuǎn)換為向量表示,并計(jì)算每個(gè)節(jié)點(diǎn)的全局表示,作為其所有游走路徑向量的拼接。將節(jié)點(diǎn)及其對(duì)應(yīng)的游走路徑向量存儲(chǔ)起來,便于在推理階段進(jìn)行快速檢索。
檢索問答
該階段不是重點(diǎn),與傳統(tǒng)的RAG相同,包括將query編碼、相似性檢索(k近鄰搜索)、上下文整合、答案生成。
答案生成prompt模板
實(shí)驗(yàn)性能
MetaQA上的性能:Walk&Retrieve-BFS在答案準(zhǔn)確性和減少虛假答案方面表現(xiàn)最佳,相對(duì)提高了38.64%。其他基于KG的RAG系統(tǒng)雖然準(zhǔn)確性高,但虛假答案更多。Walk&Retrieve-BFS在1跳、2跳和3跳問題上的真實(shí)性和減少無響應(yīng)方面表現(xiàn)優(yōu)異。
CRAG上的性能:Walk&Retrieve變體在答案準(zhǔn)確性上優(yōu)于僅使用LLM和基于文本的RAG,同時(shí)在虛假答案和無響應(yīng)率上與之相當(dāng)。由于CRAG的復(fù)雜性較高,Walk&Retrieve的性能略有下降,但仍表現(xiàn)出良好的魯棒性。
參考文獻(xiàn):Walk&Retrieve: Simple Yet Effective Zero-shot Retrieval-Augmented Generation via Knowledge Graph Walks,https://arxiv.org/pdf/2505.16849v2
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:余俊暉
