顛覆傳統RAG,創新大模型檢索增強—Insight-RAG
RAG已經成為大模型的標題,但傳統方法存在檢索深度不足、難以整合多源信息等弊端,例如,傳統 RAG 依賴表面相關性檢索文檔,容易忽略單個文檔內深埋的信息。在法律協議中,會忽略微妙的合同條款;在商業報告里,錯過隱藏的數據趨勢。
所以,Megagon實驗室的研究人員提出了一種創新框架Insight-RAG,從而更好地捕捉任務特定的細微信息,整合的數據質量也更高。
洞察力識別器是Insight-RAG框架的第一步,其核心任務是從輸入查詢中提取關鍵的信息需求。通過分析輸入的查詢和任務背景,識別出完成任務所需的核心信息。
例如,如果任務是回答一個關于特定科學概念的問題,洞察力識別器會提取出問題中涉及的關鍵實體和關系,并將其轉化為一個可以被后續模塊理解的“洞察力”。
洞察力識別器會將輸入的查詢轉化為一個句子片段,這個句子片段是一個未完成的句子,需要后續模塊來補充完整。例如,對于問題“Person X的出生地是哪里?”洞察力識別器會提取出“Person X was born in”這樣的句子片段。該格式不僅簡化了問題的表達,還為后續模塊提供了明確的檢索方向。
此外,洞察力識別器還會判斷問題的答案是否為多個。例如,如果問題是“加利福尼亞有哪些城市?”由于問題中使用了復數形式的名詞,因此答案應該是多個城市。這一判斷將作為后續模塊處理問題的依據。
洞察力挖掘器是Insight-RAG框架的第二步,其任務是根據洞察力識別器提取的句子片段,從文檔數據庫中檢索出與之高度相關的具體內容。這一模塊的核心是一個經過專門訓練的大型語言模型,該模型通過持續預訓練的方式,學習如何從大量文檔中提取與任務相關的見解。
研究人員使用LLaMA-3.2 3B模型作為洞察力挖掘器,并對其進行了持續預訓練。
預訓練過程中,模型不僅學習了原始文檔的內容,還學習了從文檔中提取的三元組信息。這種雙重訓練方式使得模型能夠更好地理解文檔中的語義關系,并能夠根據輸入的句子片段檢索出與之高度相關的具體內容。
響應生成器是Insight-RAG框架的最后一步,其任務是將原始查詢與洞察力挖掘器檢索到的具體內容結合起來,生成一個上下文豐富且準確的回答。這一模塊的核心是一個經過微調的大型語言模型,通過整合原始查詢和檢索到的見解,生成一個完整的回答。
例如,如果原始問題是“Person X的出生地是哪里?”洞察力識別器提取出的句子片段是“Person X was born in”,而洞察力挖掘器檢索到的具體內容是“New York”,那么響應生成器將生成一個完整的回答:“Person X的出生地是紐約。”
響應生成器的設計使得Insight-RAG框架能夠生成高質量的回答,不僅考慮了文檔中的表面相關性,還深入挖掘了文檔中的語義信息。這種設計使得Insight-RAG框架在處理復雜任務時表現得更加出色。
為了評估Insight-RAG框架的性能,研究人員使用了AAN和OC兩個科學論文數據集進行了綜合測試。
結果顯示,Insight-RAG框架在深層信息檢索任務中表現出色。與傳統的RAG方法相比,Insight-RAG在大多數情況下都能顯著提高準確率。例如,在AAN數據集中,Insight-RAG的準確率比傳統RAG方法提高了約60%。
Insight-RAG框架在多源信息聚合任務中同樣表現非常好。與傳統的RAG方法相比,Insight-RAG能夠更有效地聚合來自多個來源的信息,從而提高模型的性能。例如,在OC數據集中,Insight-RAG的準確率比傳統RAG方法提高了約50%。