放棄折騰,AutoRAG一鍵鎖定最佳RAG技術棧!
AutoRAG:RAG AutoML工具可自動為你的數據找到最佳RAG Pipeline。
市面上有許多RAG Pipeline和模塊,但不知道哪種Pipeline最適合“你自己的數據”和“你自己的用例”。制作和評估所有 RAG 模塊非常耗時且難以完成。
AutoRAG 支持一種簡單的方法來評估許多RAG模塊組合。可以使用自己的評估數據自動評估各種 RAG 模塊,并找到最適合自己用例的 RAG Pipeline。
AutoRAG支持的RAG技術棧
支持16種解析模塊、10種切塊模塊
解析模塊:PDFMiner,PDFPlumber,PyPDFium2,PyPDF,PyMuPDF,UnstructuredPDF,NaverClovaOCR,llama Parse,Upstage Document Parser,Directory,Unstructured,csv,json,unstructuredmarkdown,bshtml,unstructuredxml
切塊模塊:Token,SentenceTransformersToken,Character,RecursiveCharacter,Sentence,Konlpy ,Semantic_llama_index,SemanticDoubleMerging,SentenceWindow,SimpleFile
支持40種檢索、排序、生成模塊
重排:UPR,Tart,MonoT5,Cohere reranker,RankGPT,Jina Reranker,Sentence Transformer Reranker,Colbert Reranker,Flag Embedding Reranker,Flag Embedding LLM Reranker,Time Reranker,OpenVINO Reranker,VoyageAI Reranker,MixedBread AI Reranker,,,Ko-reranker,,,pass_reranker
Query理解:query_decompose,hyde,multi_query_expansion,pass_query_expansion
檢索:bm25,vectordb,hybrid_rrf,hybrid_cc
支持15種評價指標
Precision,Recall,F1,MRR (Mean Reciprocal Rank),MAP (Mean Average Precision),NDCG (Normalized Discounted Cumulative Gain),Token Precision,Token Recall,Token F1,BLEU,ROUGE,METEOR,Sem Score,G-Eval,Bert Score
數據創建
RAG優化需要兩種類型的數據:QA 數據集和 Corpus 數據集。
- QA數據集文件 (qa.parquet)
- 語料庫數據集文件(corpus.parquet)
QA數據集對于準確可靠的評估和優化非常重要。
語料庫數據集對于 RAG 的性能至關重要。這是因為 RAG 使用語料庫來檢索文檔并使用它生成答案。
RAG優化步驟
AutoRAG 如何優化 RAG 管道?
Set YAML File ->Run Evaluation -> ing -> Evaluation Done -> Best RAG Pipeline -> Deploy
https://github.com/Marker-Inc-Korea/AutoRAG
https://arxiv.org/pdf/2410.20878
AutoRAG: Automated Framework for optimization of Retrieval Augmented Generation P
本文轉載自??PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦