FlashRAG:5大組件、12種RAG技術、32個數據集的開源框架,比LangChain輕量!
FlashRAG是一個用于復制和開發檢索增強生成(RAG)研究的Python工具包。它包括32個預處理的基準RAG數據集、13種最先進的RAG算法,5大RAG組件,包括檢索器、重排器、生成器、精煉器、評測器。借助FlashRAG和提供的資源,可以輕松地復制RAG領域的現有SOTA(最先進)工作,或者實現自定義的RAG流程和組件,比LangChain和LlamaIndex輕量且易操作。
FlashRAG概覽
12種RAG技術在三個數據集上進行的性能評估。優化組件表示該方法主要優化的組件,而流程表示對整個RAG過程的優化。帶有?標記的方法表示使用了經過訓練的生成器。?
在不同檢索文檔數量和檢索器數量下的標準RAG過程的結果。左圖:使用三種不同檢索器,檢索不同數量文檔,在六個數據集上的平均結果。右圖:使用E5作為檢索器,在六個數據集上的單獨結果。
32個數據集總結。FlashRAG目前包含了不同任務的多種數據集。每個數據集的樣本大小以及答案的知識來源被列出作為參考。"-"表示知識來源是常識。星號(?)表示這個數據集的任務已經被修改以適應RAG場景。?
https://github.com/RUC-NLPIR/FlashRAG
https://arxiv.org/pdf/2405.13576
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research
本文轉載自 ??PaperAgent??,作者: PaperAgent
贊
收藏 1
回復
分享
微博
QQ
微信
舉報

回復
相關推薦