再看多模態(tài)RAG進(jìn)行文檔問答的方案
先說(shuō)結(jié)論:這篇文章的方法和前面介紹的兩個(gè)多模態(tài)RAG的工作非常相似,可以看看往期介紹:
- ??【RAG&多模態(tài)】多模態(tài)RAG-ColPali:使用視覺語(yǔ)言模型實(shí)現(xiàn)高效的文檔檢索??
- ??【RAG&多模態(tài)】多模態(tài)RAG-VisRAG:基于視覺的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用??
M3DOCRAG同樣也指出,現(xiàn)有的方法要么專注于單頁(yè)文檔的多模態(tài)語(yǔ)言模型,要么依賴于基于文本的RAG方法,這些方法使用OCR等文本提取工具。然而,這些方法在實(shí)際應(yīng)用中存在困難,例如問題通常需要跨不同頁(yè)面或文檔的信息,而MLMs無(wú)法處理長(zhǎng)文檔;并且,文檔中重要的視覺元素(如圖、表等)往往被文本提取工具忽略。
M3DoCRAG和以往方法對(duì)比
注:文章代碼和數(shù)據(jù)集暫未開源,但都是使用ColPali和qwen2-vl實(shí)現(xiàn),筆者在前面文檔也恰好實(shí)踐了一個(gè)簡(jiǎn)單的RAG-ColPali,供參考:
??【多模態(tài)&RAG】多模態(tài)RAG ColPali實(shí)踐??
方法
- 文檔嵌入:和RAG-ColPali很相似,文檔嵌入使用ColPali將所有文檔頁(yè)面轉(zhuǎn)換為RGB圖像,并從頁(yè)面圖像中提取視覺嵌入。(ColPali是一種基于后期交互機(jī)制的多模態(tài)檢索模型,它將文本和圖像輸入編碼為統(tǒng)一的向量表示,并檢索最相關(guān)的圖像。其原理可以看看往期對(duì)ColPali的介紹《??ColPali??》)
M3DOCRAG流程
- 頁(yè)面檢索:也和RAG-ColPali使用的方法相似,也是使用MaxSim分?jǐn)?shù)計(jì)算查詢與頁(yè)面之間的相關(guān)性,并檢索與文本查詢top-K個(gè)頁(yè)面。
- 答案生成:使用多模態(tài)語(yǔ)言模型(MLM)對(duì)檢索到的頁(yè)面圖像進(jìn)行視覺問答,以獲得最終答案。該方法使用的是qwen2-vl-7b
數(shù)據(jù)集
M3DocVQA包含3,368個(gè)PDF文檔,總計(jì)41,005頁(yè),涵蓋開放域和封閉域的DocVQA任務(wù)。
M3DocVQA與現(xiàn)有DocVQA數(shù)據(jù)集對(duì)比
M3DocVQA中PDF集合的示意圖
實(shí)驗(yàn)結(jié)果
參考文獻(xiàn)
??https://arxiv.org/pdf/2411.04952v1??
本文轉(zhuǎn)載自公眾號(hào)大模型自然語(yǔ)言處理 作者:余俊暉
