一篇大模型RAG最新綜述
好久沒分享過(guò)綜述了,今天分享一個(gè)最新的RAG綜述,來(lái)自卡內(nèi)基梅隆大學(xué)。標(biāo)題:A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions
1. 引言
1.1 RAG技術(shù)概述
檢索增強(qiáng)生成技術(shù)(RAG)主要由兩個(gè)關(guān)鍵部分構(gòu)成:其一是檢索組件,主要職責(zé)是從外部數(shù)據(jù)庫(kù)(如維基百科或私有庫(kù))中提取相關(guān)信息,通過(guò)密集向量表征進(jìn)行文檔識(shí)別;其二是生成組件,基于transformer結(jié)構(gòu),對(duì)獲取的信息進(jìn)行處理并輸出自然語(yǔ)言文本。這種技術(shù)有效降低了內(nèi)容生成中的虛假信息,提升了文本的準(zhǔn)確性和語(yǔ)境適應(yīng)性。目前,RAG已在開放域問(wèn)答、智能對(duì)話系統(tǒng)及個(gè)性化推薦等多個(gè)方向得到應(yīng)用。
1.2 檢索與生成的融合系統(tǒng)
在RAG技術(shù)問(wèn)世以前,NLP領(lǐng)域主要采用單一的檢索或生成方法。傳統(tǒng)檢索系統(tǒng)雖能快速定位相關(guān)文檔,但缺乏信息整合能力;純生成模型盡管表達(dá)流暢富有創(chuàng)意,卻常有事實(shí)偏差。這兩種方法各有優(yōu)劣,促使研究者開始探索融合方案,其中DrQA是較早將檢索技術(shù)應(yīng)用于問(wèn)答任務(wù)的代表。
1.3 RAG系統(tǒng)的挑戰(zhàn)
該技術(shù)面臨幾個(gè)主要問(wèn)題:首先,在處理模糊查詢和專業(yè)領(lǐng)域檢索時(shí)準(zhǔn)確度不足,即使采用DPR等技術(shù),仍可能出現(xiàn)檢索偏差;其次,檢索信息與生成內(nèi)容的整合有時(shí)顯得生硬,影響輸出質(zhì)量;再次,系統(tǒng)運(yùn)行需要大量計(jì)算資源,特別是在規(guī)模化應(yīng)用場(chǎng)景下;最后,還存在偏見傳播和透明度等倫理問(wèn)題,雖然RAG可能通過(guò)多元信息檢索減少偏見,但仍需警惕信息源本身的偏向性。
2. RAG技術(shù)架構(gòu)詳解
2.1 基本框架
RAG系統(tǒng)由檢索器和生成器兩部分組成,前者負(fù)責(zé)文檔檢索,后者整合信息生成回應(yīng)。相比傳統(tǒng)模型,RAG能夠?qū)崟r(shí)調(diào)用外部知識(shí),性能優(yōu)于固定數(shù)據(jù)集的生成模型。
2.2 檢索技術(shù)分析
2.2.1 BM25算法
作為傳統(tǒng)檢索方法,BM25基于TF-IDF原理對(duì)文檔進(jìn)行排序。雖然在關(guān)鍵詞匹配方面表現(xiàn)優(yōu)異,但在語(yǔ)義理解上存在局限。
2.2.2 DPR技術(shù)
DPR采用雙編碼器架構(gòu),將查詢和文檔映射至高維向量空間,通過(guò)語(yǔ)義相似度進(jìn)行匹配,在開放域問(wèn)答中展現(xiàn)出優(yōu)異性能。
2.2.3 REALM方案
REALM創(chuàng)新地將檢索過(guò)程融入語(yǔ)言模型訓(xùn)練,實(shí)現(xiàn)檢索器與生成器的協(xié)同優(yōu)化。通過(guò)同步更新機(jī)制,該方法在知識(shí)密集型任務(wù)中展現(xiàn)出優(yōu)勢(shì)。
最新研究顯示,Self-RAG和REPLUG等技術(shù)通過(guò)引入LLM提升了檢索能力。這些系統(tǒng)運(yùn)用注意力機(jī)制處理輸入和檢索文本,確保生成過(guò)程中突出重要信息,盡管計(jì)算開銷較大。
2.3 生成模塊解析
生成模塊作為RAG系統(tǒng)的重要組成部分,主要負(fù)責(zé)整合檢索信息與輸入內(nèi)容,輸出連貫的響應(yīng)結(jié)果。該模塊以大規(guī)模語(yǔ)言模型為基礎(chǔ),確保輸出內(nèi)容的流暢性與準(zhǔn)確性,并與初始查詢保持高度相關(guān)。
2.3.1 文本轉(zhuǎn)換轉(zhuǎn)換器T5
作為文本生成的主流選擇,T5模型將所有自然語(yǔ)言處理任務(wù)統(tǒng)一為文本轉(zhuǎn)換框架。這種設(shè)計(jì)理念使其在問(wèn)答、摘要等多種任務(wù)中展現(xiàn)出優(yōu)異的適應(yīng)性。在與檢索模塊結(jié)合后,T5基礎(chǔ)的RAG系統(tǒng)在多個(gè)評(píng)測(cè)數(shù)據(jù)集上取得了顯著成果,尤其是在Natural Questions和TriviaQA等測(cè)試中的表現(xiàn)超越了傳統(tǒng)生成模型。其出色的多任務(wù)處理能力使其成為知識(shí)密集型應(yīng)用的理想選擇。
2.3.2 雙向自回歸轉(zhuǎn)換器BART
BART在處理含噪聲輸入的文本生成任務(wù)中表現(xiàn)突出,特別適合摘要和開放域問(wèn)答等應(yīng)用。其去噪自編碼機(jī)制能夠有效重構(gòu)受損文本序列,當(dāng)與檢索功能結(jié)合時(shí),顯著提升了生成內(nèi)容的事實(shí)準(zhǔn)確度。
3. 多模態(tài)RAG技術(shù)探析
3.1 文本RAG技術(shù)
文本領(lǐng)域的RAG應(yīng)用最為成熟,以BERT和T5為代表的Transformer架構(gòu)為核心,通過(guò)注意力機(jī)制增強(qiáng)了文本理解能力,推動(dòng)了多種實(shí)際應(yīng)用的發(fā)展。
3.2 音頻RAG技術(shù)
音頻RAG技術(shù)將檢索增強(qiáng)生成擴(kuò)展到語(yǔ)音領(lǐng)域,借助Wav2Vec 2.0等預(yù)訓(xùn)練模型進(jìn)行特征表示,為語(yǔ)音識(shí)別等應(yīng)用提供支持。
3.3 視頻RAG技術(shù)
視頻RAG模型通過(guò)I3D TimeSformer等技術(shù)捕捉時(shí)空特征,實(shí)現(xiàn)了視覺與文本信息的融合,提升了視頻理解和字幕生成等任務(wù)的效果。
3.4 跨模態(tài)RAG應(yīng)用
跨模態(tài)RAG技術(shù)整合了多種數(shù)據(jù)形式,如Flamingo模型實(shí)現(xiàn)了文本、圖像和視頻的統(tǒng)一處理。"檢索即生成"方法通過(guò)利用大規(guī)模配對(duì)數(shù)據(jù)集,將RAG框架擴(kuò)展到了更廣泛的應(yīng)用場(chǎng)景,實(shí)現(xiàn)了高效的跨模態(tài)信息檢索與生成。
4. 現(xiàn)有RAG框架一覽
當(dāng)前RAG框架呈現(xiàn)多元化發(fā)展趨勢(shì),各具特色:
- 智能體RAG采用分層多智能體結(jié)構(gòu),通過(guò)小型預(yù)訓(xùn)練語(yǔ)言模型構(gòu)建的子智能體處理特定任務(wù),主智能體負(fù)責(zé)任務(wù)分配與知識(shí)檢索,展現(xiàn)了較高的靈活性與效率。
- 醫(yī)學(xué)領(lǐng)域的RULE框架著重提升醫(yī)學(xué)視覺語(yǔ)言模型的準(zhǔn)確性,引入校準(zhǔn)選擇策略和偏好優(yōu)化機(jī)制,有效平衡了模型固有知識(shí)與檢索信息。
- METRAG通過(guò)多層次思維增強(qiáng)方式,結(jié)合文檔相似度和實(shí)用性評(píng)估,配合任務(wù)自適應(yīng)摘要器,在知識(shí)密集型任務(wù)中展現(xiàn)優(yōu)勢(shì)。
- RAFT創(chuàng)新地引入干擾文檔訓(xùn)練機(jī)制,結(jié)合思維鏈推理,增強(qiáng)模型辨別能力,在多個(gè)專業(yè)領(lǐng)域數(shù)據(jù)集上取得顯著進(jìn)展。
- FILCO專注于提升上下文質(zhì)量,通過(guò)詞匯和信息論方法篩選有效信息,解決了過(guò)度依賴或忽視檢索內(nèi)容的問(wèn)題。
- Self-RAG引入反思機(jī)制,通過(guò)自適應(yīng)檢索和響應(yīng)評(píng)估,使模型能夠根據(jù)具體任務(wù)需求調(diào)整行為模式。
其他創(chuàng)新框架包括:
- MK Summary:采用準(zhǔn)備-重寫-檢索-閱讀的工作流程
- CommunityKG-RAG:整合知識(shí)圖譜的社區(qū)結(jié)構(gòu)
- RAPTOR:實(shí)現(xiàn)層次化信息檢索
4.1 長(zhǎng)上下文RAG技術(shù)發(fā)展
隨著Gemini-1.5和GPT-4等支持長(zhǎng)上下文的模型出現(xiàn),RAG技術(shù)也相應(yīng)演進(jìn):
- Self-Route實(shí)現(xiàn)了RAG與長(zhǎng)上下文處理的動(dòng)態(tài)調(diào)度
- SFR-RAG提供了輕量高效的外部信息整合方案
- LA-RAG專注于提升語(yǔ)音識(shí)別能力
- HyPA-RAG通過(guò)參數(shù)自適應(yīng)優(yōu)化法律文本處理
- MemoRAG創(chuàng)新地采用雙系統(tǒng)架構(gòu)處理非結(jié)構(gòu)化知識(shí)
- NLLB-E5突破了多語(yǔ)言檢索的限制
這些框架各具特色,推動(dòng)了RAG技術(shù)在不同應(yīng)用場(chǎng)景中的發(fā)展。
以下是修改后的版本:
5. RAG技術(shù)面臨的挑戰(zhàn)
當(dāng)前RAG技術(shù)存在多個(gè)待解決的關(guān)鍵問(wèn)題:
系統(tǒng)性能方面:
- 面對(duì)海量數(shù)據(jù)時(shí)的擴(kuò)展性受限
- 實(shí)時(shí)處理和資源受限環(huán)境下的部署困難
- 檢索效率與計(jì)算資源消耗的平衡問(wèn)題
質(zhì)量控制方面:
- 檢索內(nèi)容的相關(guān)性和時(shí)效性難以保證
- 長(zhǎng)文本生成時(shí)的檢索精確度有待提升
- 檢索知識(shí)與生成內(nèi)容的連貫性存在缺陷
社會(huì)影響方面:
- 數(shù)據(jù)集固有偏見可能被系統(tǒng)放大
- 模型決策過(guò)程缺乏透明度和可解釋性
- 系統(tǒng)公平性與倫理問(wèn)題需要關(guān)注
6. 發(fā)展趨勢(shì)與前景展望
6.1 多模態(tài)技術(shù)整合
未來(lái)發(fā)展重點(diǎn)包括:
- 優(yōu)化跨模態(tài)信息的對(duì)齊與融合
- 增強(qiáng)多模態(tài)輸出的連貫性
- 提升跨模態(tài)檢索能力
6.2 性能優(yōu)化方向
關(guān)注重點(diǎn):
- 開發(fā)分布式計(jì)算解決方案
- 改進(jìn)索引技術(shù)
- 優(yōu)化計(jì)算資源利用效率
6.3 個(gè)性化服務(wù)增強(qiáng)
發(fā)展方向:
- 構(gòu)建用戶畫像驅(qū)動(dòng)的檢索策略
- 提升上下文理解能力
- 整合交互反饋機(jī)制
6.4 倫理與隱私保障
重點(diǎn)關(guān)注:
- 減少系統(tǒng)偏見
- 加強(qiáng)隱私保護(hù)
- 提高模型可解釋性
6.5 語(yǔ)言支持拓展
發(fā)展重點(diǎn):
- 增強(qiáng)跨語(yǔ)言能力
- 支持低資源語(yǔ)言
- 優(yōu)化多語(yǔ)言檢索生成
6.6 檢索機(jī)制創(chuàng)新
創(chuàng)新方向:
- 開發(fā)動(dòng)態(tài)檢索策略
- 探索混合檢索方法
- 優(yōu)化檢索效果評(píng)估
6.7 技術(shù)融合探索
未來(lái)展望:
- 與腦機(jī)接口技術(shù)結(jié)合
- 在AR/VR領(lǐng)域的應(yīng)用
- 探索新型人機(jī)交互模式
