DyPRAG:即插即用動態(tài)將上下文轉(zhuǎn)化為參數(shù)知識,有效緩解RAG幻覺 原創(chuàng)
來自fans投稿,提出動態(tài)參數(shù)化RAG,即插即用無縫和RAG結(jié)合,減少RAG幻覺的發(fā)生,來看看具體思路。
檢索增強生成(RAG)通過從外部源檢索相關(guān)文檔并將其合并到上下文中來增強大語言模型(LLMs)。雖然它通過提供事實文本提高了可靠性,但隨著上下文長度的增長,顯著增加了推理成本,并引入了具有挑戰(zhàn)性的RAG幻覺問題,這主要是由于LLM中缺乏相應(yīng)的參數(shù)知識造成的。
參數(shù)化RAG (PRAG)通過離線訓練將文檔嵌入大模型參數(shù)有效地降低推理成本。然而其高昂的訓練和存儲成本以及有限的泛化能力,極大地限制了其實際應(yīng)用。
我們提出動態(tài)參數(shù)化RAG,在推理時將文檔知識動態(tài)轉(zhuǎn)化為模型參數(shù)知識,能有效補充相應(yīng)知識。并且能即插即用無縫和RAG結(jié)合,提升模型知識內(nèi)化水平同時減少RAG幻覺的發(fā)生。
論文:Better wit than wealth: Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement
鏈接:https://arxiv.org/pdf/2503.23895
項目:https://github.com/Trae1ounG/DyPRAG
方法
檢索增強生成(RAG)
參數(shù)化RAG(PRAG)
然而,PRAG的訓練成本較高,且難以適應(yīng)新文檔。因此,我們提出動態(tài)參數(shù)化RAG(DyPRAG),實現(xiàn)更高效的參數(shù)注入。
動態(tài)參數(shù)化RAG(DyPRAG)
DyPRAG的核心思路在于訓練一個輕量的參數(shù)轉(zhuǎn)換器來建模從文檔->參數(shù)的潛在映射,僅需要少量的訓練數(shù)據(jù)就能有效學習到泛化性極強的轉(zhuǎn)換器,在推理時幾乎不會引入額外的計算開銷且能提升模型性能,最少只需要2MB存儲開銷。
DyPRAG對比RAG和PRAG
1. 文檔-參數(shù)對收集(離線)
2. 訓練動態(tài)參數(shù)翻譯器(離線)
MLP超網(wǎng)絡(luò)工作流程
3. 高效推理(在線)
DyPRAG整體框架圖
實驗
分布內(nèi)QA實驗
在多個問答數(shù)據(jù)集上訓練參數(shù)轉(zhuǎn)換器并進行實驗,DyPRAG表現(xiàn)出極優(yōu)的性能:
- DyPRAG能有效注入?yún)?shù)知識:對比RAG,在沒有提供任何文檔拼接到上下文的情況下,DyPRAG表現(xiàn)出明顯優(yōu)于RAG的性能同時減少了推理開銷。
- 上下文知識+動態(tài)生成參數(shù)知識有效促進知識融合:DyPRAG-Combine將文檔加入上下文結(jié)合動態(tài)生成參數(shù)知識,在所有情況下取得最好效果,有效促進了模型知識和上下文知識的融合。
分布內(nèi)主實驗
分布外QA實驗
DyPRAG能有效轉(zhuǎn)換分布外的文檔到參數(shù)知識,在補充參數(shù)知識后始終可以作為相比RAG更強更魯棒的基線。
分布外數(shù)據(jù)集實現(xiàn)
為什么DyPRAG能減少RAG幻覺?
- RAG幻覺(或叫知識沖突)經(jīng)常由于模型內(nèi)部知識和外部提供上下文知識發(fā)生沖突導致發(fā)生。可能模型包含正確的參數(shù)知識但結(jié)合上下文知識報錯,也可能上下文知識正確但模型包含錯誤參數(shù)知識導致模型回答錯誤。
- DyPRAG首先動態(tài)將檢索文檔轉(zhuǎn)換為模型參數(shù)知識,提前讓模型“做足了功課”,在遇到相對應(yīng)的上下文內(nèi)容時就能極大程度避免知識沖突發(fā)生,這也是DyPRAG-Combine性能提升的直接來源,極低的開銷使得DyPRAG有希望成為RAG幻覺的有效解決方式。
RAG幻覺示例分析
知識內(nèi)化實驗
基于RAGTruth幻覺數(shù)據(jù)集衡量DyPRAG-Combine對知識的內(nèi)化程度(使用GPT-4o打分)。
RAGTruth中的文檔來源和訓練時完全不同并且大模型訓練時完全沒有見過——DyPRAG能有效將沒有見過知識進行內(nèi)化,內(nèi)化程度顯著優(yōu)于RAG方法。
RAGTruth數(shù)據(jù)集驗證
計算/存儲開銷
通過詳細的時間復雜度計算和實際運行時間對比,我們提出的DyPRAG能有效提升模型性能,同時減少RAG帶來的高推理開銷以及PRAG帶來的極高訓練和存儲開銷(僅1%),更證明方法即插即用提升性能的高可用性!
實際存儲和訓練開銷
理論分析推理、存儲、訓練開銷
結(jié)論
- 我們提出動態(tài)參數(shù)化RAG (Dynamic Parametric RAG),一個輕量級框架可以以即插即用的方式以最小的成本有效地將文檔轉(zhuǎn)換為參數(shù)。
- 我們提出了一個強大而實用的RAG范式:有效地將上下文知識與測試時動態(tài)生成的參數(shù)知識結(jié)合起來,實現(xiàn)更強大的知識融合。
- 實驗結(jié)果表明,DyPRAG具有極優(yōu)的泛化能力,能夠有效地注入?yún)?shù)并無縫地融合上下文知識,在減少RAG幻覺的同時提高了模型性能。
公眾號大模型自然語言處理 作者:余俊暉
