一篇大模型RAG最新綜述

發(fā)布于 2024-11-8 15:48

瀏覽

0收藏

好久沒分享過(guò)綜述了，今天分享一個(gè)最新的RAG綜述，來(lái)自卡內(nèi)基梅隆大學(xué)。標(biāo)題：A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions

1. 引言

一篇大模型RAG最新綜述-AI.x社區(qū)

1.1 RAG技術(shù)概述

檢索增強(qiáng)生成技術(shù)（RAG）主要由兩個(gè)關(guān)鍵部分構(gòu)成：其一是檢索組件，主要職責(zé)是從外部數(shù)據(jù)庫(kù)（如維基百科或私有庫(kù)）中提取相關(guān)信息，通過(guò)密集向量表征進(jìn)行文檔識(shí)別；其二是生成組件，基于transformer結(jié)構(gòu)，對(duì)獲取的信息進(jìn)行處理并輸出自然語(yǔ)言文本。這種技術(shù)有效降低了內(nèi)容生成中的虛假信息，提升了文本的準(zhǔn)確性和語(yǔ)境適應(yīng)性。目前，RAG已在開放域問(wèn)答、智能對(duì)話系統(tǒng)及個(gè)性化推薦等多個(gè)方向得到應(yīng)用。

1.2 檢索與生成的融合系統(tǒng)

在RAG技術(shù)問(wèn)世以前，NLP領(lǐng)域主要采用單一的檢索或生成方法。傳統(tǒng)檢索系統(tǒng)雖能快速定位相關(guān)文檔，但缺乏信息整合能力；純生成模型盡管表達(dá)流暢富有創(chuàng)意，卻常有事實(shí)偏差。這兩種方法各有優(yōu)劣，促使研究者開始探索融合方案，其中DrQA是較早將檢索技術(shù)應(yīng)用于問(wèn)答任務(wù)的代表。

1.3 RAG系統(tǒng)的挑戰(zhàn)

該技術(shù)面臨幾個(gè)主要問(wèn)題：首先，在處理模糊查詢和專業(yè)領(lǐng)域檢索時(shí)準(zhǔn)確度不足，即使采用DPR等技術(shù)，仍可能出現(xiàn)檢索偏差；其次，檢索信息與生成內(nèi)容的整合有時(shí)顯得生硬，影響輸出質(zhì)量；再次，系統(tǒng)運(yùn)行需要大量計(jì)算資源，特別是在規(guī)模化應(yīng)用場(chǎng)景下；最后，還存在偏見傳播和透明度等倫理問(wèn)題，雖然RAG可能通過(guò)多元信息檢索減少偏見，但仍需警惕信息源本身的偏向性。

2. RAG技術(shù)架構(gòu)詳解

2.1 基本框架

RAG系統(tǒng)由檢索器和生成器兩部分組成，前者負(fù)責(zé)文檔檢索，后者整合信息生成回應(yīng)。相比傳統(tǒng)模型，RAG能夠?qū)崟r(shí)調(diào)用外部知識(shí)，性能優(yōu)于固定數(shù)據(jù)集的生成模型。

2.2 檢索技術(shù)分析

2.2.1 BM25算法

作為傳統(tǒng)檢索方法，BM25基于TF-IDF原理對(duì)文檔進(jìn)行排序。雖然在關(guān)鍵詞匹配方面表現(xiàn)優(yōu)異，但在語(yǔ)義理解上存在局限。

2.2.2 DPR技術(shù)

DPR采用雙編碼器架構(gòu)，將查詢和文檔映射至高維向量空間，通過(guò)語(yǔ)義相似度進(jìn)行匹配，在開放域問(wèn)答中展現(xiàn)出優(yōu)異性能。

2.2.3 REALM方案

REALM創(chuàng)新地將檢索過(guò)程融入語(yǔ)言模型訓(xùn)練，實(shí)現(xiàn)檢索器與生成器的協(xié)同優(yōu)化。通過(guò)同步更新機(jī)制，該方法在知識(shí)密集型任務(wù)中展現(xiàn)出優(yōu)勢(shì)。

最新研究顯示，Self-RAG和REPLUG等技術(shù)通過(guò)引入LLM提升了檢索能力。這些系統(tǒng)運(yùn)用注意力機(jī)制處理輸入和檢索文本，確保生成過(guò)程中突出重要信息，盡管計(jì)算開銷較大。

2.3 生成模塊解析

生成模塊作為RAG系統(tǒng)的重要組成部分，主要負(fù)責(zé)整合檢索信息與輸入內(nèi)容，輸出連貫的響應(yīng)結(jié)果。該模塊以大規(guī)模語(yǔ)言模型為基礎(chǔ)，確保輸出內(nèi)容的流暢性與準(zhǔn)確性，并與初始查詢保持高度相關(guān)。

2.3.1 文本轉(zhuǎn)換轉(zhuǎn)換器T5

作為文本生成的主流選擇，T5模型將所有自然語(yǔ)言處理任務(wù)統(tǒng)一為文本轉(zhuǎn)換框架。這種設(shè)計(jì)理念使其在問(wèn)答、摘要等多種任務(wù)中展現(xiàn)出優(yōu)異的適應(yīng)性。在與檢索模塊結(jié)合后，T5基礎(chǔ)的RAG系統(tǒng)在多個(gè)評(píng)測(cè)數(shù)據(jù)集上取得了顯著成果，尤其是在Natural Questions和TriviaQA等測(cè)試中的表現(xiàn)超越了傳統(tǒng)生成模型。其出色的多任務(wù)處理能力使其成為知識(shí)密集型應(yīng)用的理想選擇。

2.3.2 雙向自回歸轉(zhuǎn)換器BART

BART在處理含噪聲輸入的文本生成任務(wù)中表現(xiàn)突出，特別適合摘要和開放域問(wèn)答等應(yīng)用。其去噪自編碼機(jī)制能夠有效重構(gòu)受損文本序列，當(dāng)與檢索功能結(jié)合時(shí)，顯著提升了生成內(nèi)容的事實(shí)準(zhǔn)確度。

一篇大模型RAG最新綜述-AI.x社區(qū)

3. 多模態(tài)RAG技術(shù)探析

3.1 文本RAG技術(shù)

文本領(lǐng)域的RAG應(yīng)用最為成熟，以BERT和T5為代表的Transformer架構(gòu)為核心，通過(guò)注意力機(jī)制增強(qiáng)了文本理解能力，推動(dòng)了多種實(shí)際應(yīng)用的發(fā)展。

3.2 音頻RAG技術(shù)

音頻RAG技術(shù)將檢索增強(qiáng)生成擴(kuò)展到語(yǔ)音領(lǐng)域，借助Wav2Vec 2.0等預(yù)訓(xùn)練模型進(jìn)行特征表示，為語(yǔ)音識(shí)別等應(yīng)用提供支持。

3.3 視頻RAG技術(shù)

視頻RAG模型通過(guò)I3D TimeSformer等技術(shù)捕捉時(shí)空特征，實(shí)現(xiàn)了視覺與文本信息的融合，提升了視頻理解和字幕生成等任務(wù)的效果。

3.4 跨模態(tài)RAG應(yīng)用

跨模態(tài)RAG技術(shù)整合了多種數(shù)據(jù)形式，如Flamingo模型實(shí)現(xiàn)了文本、圖像和視頻的統(tǒng)一處理。"檢索即生成"方法通過(guò)利用大規(guī)模配對(duì)數(shù)據(jù)集，將RAG框架擴(kuò)展到了更廣泛的應(yīng)用場(chǎng)景，實(shí)現(xiàn)了高效的跨模態(tài)信息檢索與生成。

4. 現(xiàn)有RAG框架一覽

一篇大模型RAG最新綜述-AI.x社區(qū)

當(dāng)前RAG框架呈現(xiàn)多元化發(fā)展趨勢(shì)，各具特色：

智能體RAG采用分層多智能體結(jié)構(gòu)，通過(guò)小型預(yù)訓(xùn)練語(yǔ)言模型構(gòu)建的子智能體處理特定任務(wù)，主智能體負(fù)責(zé)任務(wù)分配與知識(shí)檢索，展現(xiàn)了較高的靈活性與效率。
醫(yī)學(xué)領(lǐng)域的RULE框架著重提升醫(yī)學(xué)視覺語(yǔ)言模型的準(zhǔn)確性，引入校準(zhǔn)選擇策略和偏好優(yōu)化機(jī)制，有效平衡了模型固有知識(shí)與檢索信息。
METRAG通過(guò)多層次思維增強(qiáng)方式，結(jié)合文檔相似度和實(shí)用性評(píng)估，配合任務(wù)自適應(yīng)摘要器，在知識(shí)密集型任務(wù)中展現(xiàn)優(yōu)勢(shì)。
RAFT創(chuàng)新地引入干擾文檔訓(xùn)練機(jī)制，結(jié)合思維鏈推理，增強(qiáng)模型辨別能力，在多個(gè)專業(yè)領(lǐng)域數(shù)據(jù)集上取得顯著進(jìn)展。
FILCO專注于提升上下文質(zhì)量，通過(guò)詞匯和信息論方法篩選有效信息，解決了過(guò)度依賴或忽視檢索內(nèi)容的問(wèn)題。
Self-RAG引入反思機(jī)制，通過(guò)自適應(yīng)檢索和響應(yīng)評(píng)估，使模型能夠根據(jù)具體任務(wù)需求調(diào)整行為模式。

其他創(chuàng)新框架包括：