ERAGent:集成5個先進組件與技術的增強型RAG Agent,顯著提升3類問答任務效果
大型語言模型(LLMs)在多種任務中表現出色,但存在諸如幻覺(hallucinations)、時間錯位(temporal misalignments)、上下文處理問題和微調效率低下等挑戰。為了解決這些問題,研究人員通過檢索增強型生成(RAG)方法,將外部知識源與LLMs結合,顯著提高了復雜問題的準確回答能力。傳統的RAG架構包括檢索模塊和閱讀模塊,但存在檢索質量低下和生成不可靠答案的問題。
ERAGent(Enhanced RAG Agent)框架提出了幾個關鍵改進:
ERAGent整體框架
- 增強型問題改寫器(Enhanced Question Rewriter):對原始問題進行語義增強,改寫為更清晰的問題,并生成基于問題的查詢。這可能涉及到使用專業術語詞典來轉換非正式或充滿術語的表達。
在臨床醫學領域應用增強型問題重寫模塊的案例研究 - 檢索觸發器(Retrieval Trigger):使用“流行度”作為指標來估計AI助手對特定知識掌握的程度。它通過設置相似度閾值來評估查詢是否超出了當前知識范圍。
- 知識檢索器(Knowledge Retriever):利用API搜索引擎檢索技術,如Bing Search API,來利用當前在線資源。它通過BM25算法提取高相關性的文本片段。
- 知識過濾器(Knowledge Filter):使用自然語言推理(NLI)任務來過濾檢索到的知識,確保只有支持問題答案的上下文被保留。
- 個性化LLM閱讀器(Personalized LLM Reader):生成準確的回答。它不僅整合了過濾后的知識與改寫后的問題來形成提示,還結合了用戶畫像,使LLM的回答特別針對用戶的偏好。
- 經驗學習器(Experiential Learner):通過分析用戶和AI助手之間的歷史對話來擴展知識邊界,并學習用戶的主題興趣、偏好和問題需求。
RAGent通過這些模塊的協同操作,提供了一個先進的原型,以確保在實際場景中應用的便捷性和有效性。
通過在六個數據集和三類問答任務(單輪、單輪多跳、多會話多輪問答)上的嚴格評估,ERAGent在準確性、效率和個性化方面表現出色,強調了其推進RAG領域和實際系統應用的潛力。
單輪開放領域問答任務中回答準確性的評估指標
單輪多跳問答任務中回答準確性的評估指標
兩個人工智能助手:沒有用戶畫像的ERAGent(助手A)和有用戶畫像的ERAGent(助手B)對一個用戶提出的問題“給我一個增肌的飲食建議”的回答。用戶畫像是從歷史對話會話中總結出來的。GPT-4評價:助手B的回答更貼近用戶的畫像,通過特別解決用戶的環保問題、飲食限制(避免牛肉和牛奶),以及個人偏好(對機器學習和環保的興趣,以及是夜貓子)。
在多會話多輪問答(MSMTQA:Multi-Session Multi-Round QA)數據集上,助手B和助手A的回答在所有類別中的成對比較結果
響應效率和質量指標與相似性閾值 τ 的關系
- 效率與質量的平衡:ERAGent框架通過調整相似度閾值τ,展示了在回答效率和質量之間取得平衡的能力。通過實驗,發現τ=0.6時,響應時間最短,同時保持了較高的回答質量。
- 時間成本(Time Cost):當τ設置為0.6時,ERAGent框架的平均響應時間最低,這意味著在此閾值下,AI能夠更快地生成回答。
- 外部知識(External Knowledge):在τ=0.6的設置下,ERAGent幾乎不依賴外部知識,而是利用已有的經驗知識來生成回答,這有助于提高效率。
- 不相關信息(Irrelevant Knowledge):在相同的τ設置下,ERAGent還能夠有效地過濾掉不相關信息,確保了回答的相關性和質量。
- 回答質量:即使在完全依賴外部知識的τ=1.0設置下,ERAGent生成的回答也有80%達到了或超過了首次回答的質量。而當τ調整為0.8時,回答質量甚至超過了τ=1.0時的結果,這表明利用高相關性的歷史經驗可以生成更高質量的回答。
https://arxiv.org/pdf/2405.06683
ERAGent: Enhancing Retrieval-Augmented Language Models with Improved Accuracy, Efficiency, a
本文轉載自 ??PaperAgent??,作者: PaperAgent
