比GraphRAG更懂“思考”,微軟又開源PIKE-RAG:主打復雜私域知識理解和推理
繼GraphRAG之后,微軟又發布PIKE-RAG,主打在復雜企業場景中私域知識提取、推理和應用能力,PIKE-RAG 已在工業制造、采礦、制藥等領域進行了測試,顯著提升了問答準確率。
demo示例:多層次異構的知識庫構建與檢索+自我進化的領域知識學習
RAG系統在滿足現實世界應用的復雜和多樣化需求方面仍然面臨挑戰。僅依靠直接檢索不足以從專業語料庫中提取深度領域特定知識并進行邏輯推理。
企業場景復雜多樣的Query
基于此,微軟亞洲研究院提出了 PIKE-RAG (sPecalized KnowledgE and Rationale Augmented Generation) 方法,該方法專注于提取、理解和應用領域特定知識,同時構建連貫的推理邏輯,以逐步引導 LLM 獲得準確的響應。
PIKE-RAG框架主要由幾個基本模塊組成,包括文檔解析、知識抽取、知識存儲、知識檢索、知識組織、以知識為中心的推理以及任務分解與協調。通過調整主模塊內的子模塊,可以實現側重不同能力的RAG系統,以滿足現實場景的多樣化需求。
例如,在患者歷史病歷搜索中,側重于事實信息檢索能力。主要挑戰在于:
- 知識的理解和提取常常受到不恰當的知識切分的阻礙,破壞語義連貫性,導致檢索過程復雜而低效;
- 常用的基于嵌入的知識檢索受到嵌入模型對齊專業術語和別名的能力的限制,降低了系統準確率。
利用 PIKE-RAG,可以在知識提取過程中使用上下文感知切分技術、自動術語標簽對齊技術和多粒度知識提取方法來提高知識提取和檢索的準確率,從而增強事實信息檢索能力,流程:
對于像為患者制定合理的治療方案和應對措施建議這樣的復雜任務,需要更高級的能力:
- 需要強大的領域特定知識才能準確理解任務并有時合理地分解任務;
- 還需要高級數據檢索、處理和組織技術來預測潛在趨勢;
而多智能體規劃也將有助于兼顧創造力和可靠性。在這種情況下,可以初始化下面更豐富的管道來實現這一點。
與Zero-Shot CoT、Naive RAG、Self-Ask、GraphRAG Local、GraphRAG Global相比,PIKE-RAG 在準確率、F1 分數等指標上均表現出色,PIKE-RAG 在處理復雜推理任務方面具有顯著優勢,特別是在需要整合多源信息、進行多步驟推理的場景中。
首次提出了5級RAG系統能力與挑戰,針對不同系統層級的技術挑戰,PIKE-RAG框架都有針對性策略。以下縮寫被使用:“PA”代表文件解析,“KE”代表知識抽取,“RT”代表知識檢索,“KO”代表知識組織,“KR”代表以知識為中心的推理。
https://arxiv.org/abs/2501.11551
https://github.com/microsoft/PIKE-RAG
PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation
本文轉載自??PaperAgent??
