mR^2AG:基于知識的多模態檢索-反思增強生成方法淺嘗
(a1)mR2AG帶檢索:這個過程包括:a)檢索反思,用于確定是否需要檢索;b)相關性反思,用于識別證據段落;c)對多個候選答案進行后處理。(a2)mR2AG不帶檢索:當不需要檢索時的生成過程。(b)無反思的樸素mRAG:一種沒有反思的基線方法。
在基于知識的視覺問答(Knowledge-based VQA)任務中,輸入通常是一對圖像和問題 ,并且依賴于可訪問的知識庫。文章提出的框架通過兩個新穎的反思操作來解耦生成過程,從而提高答案的質量。將生成過程分為三個步驟:執行檢索反思(Retrieval-Reflection)以確定是否需要檢索,執行相關性反思(Relevance-Reflection)以識別證據段落并生成答案,以及后處理多個候選答案。
方法
檢索反思
用戶查詢可以根據輸入(I,Q)分為依賴視覺的和基于知識的。為了指導模型區分不同類型的查詢,定義了兩個特殊標記:[Retrieval] 和 [No Retrieval],用于執行檢索反思。具體步驟如下:
相關性反思
答案后處理
在一個文章中可能存在多個證據段落,導致生成多個候選答案。因此,后處理是必要的,以便得出一個最終的答案。
層級后處理:使用層級后處理來通過整合三個級別的分數對候選答案進行排序:
最后,三個級別的分數綜合考慮了答案生成過程中的每一個步驟,分別在條目、段落和答案級別評估候選答案的可靠性。通過計算這三個分數的乘積來整合它們的效果,作為排序候選答案的最終標準。模型輸出基于此標準得分最高的答案。
實驗
參考文獻
mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA,https://arxiv.org/pdf/2411.15041
本文轉載自公眾號大模型自然語言處理 作者:余俊暉
