一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體精華

AI論文解讀

發布于 2025-3-4 10:43

瀏覽

0收藏

傳統的檢索增強生成（RAG）架構依賴于靜態檢索，這使得它們在處理需要順序信息搜索的復雜問題時，效果大打折扣。雖然智能推理和搜索提供了一種更具適應性的方法，但現有的大多數方法在很大程度上都依賴于提示工程。

為了解決這一問題，本文介紹了 RAG-Gym，這是一個統一的優化框架，它通過在每個搜索步驟進行細粒度的過程監督，來提升信息搜索智能體的性能。

核心貢獻

引入 RAG-Gym，這是一個利用過程監督優化智能 RAG 的統一框架。
提出 ReSearch，這是一種全新的智能體架構，它將答案推理和搜索協同起來，比現有的基線模型取得了更優異的性能。
證明了使用經過訓練的過程獎勵模型作為驗證器，可以顯著提升搜索智能體的性能。
全面分析了過程監督的來源、獎勵模型的可遷移性，以及智能 RAG 中的縮放定律。?

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

RAG-Gym 框架

一、概述

RAG-Gym 將知識密集型問答任務構建為一個嵌套的馬爾可夫決策過程（MDP）。

過程獎勵數據是通過在每個時間步隨機抽樣動作候選，并使用外部注釋器選擇最佳動作來收集的。

RAG-Gym 中實現了不同的過程監督方法。

二、知識密集型問答作為嵌套 MDP

外部 MDP 的構建：旨在歸納各種針對知識密集型問題的語言智能體設計，具體過程如下：

狀態空間 S：在每個時間步 t，狀態 st ∈ S 由原始問題 Q 和信息搜索歷史 Ht 組成，表示為：st = (Q,Ht) ，其中 Ht = {(q1,D1), · · · , (qt?1,Dt?1)}是信息搜索查詢 q1, · · · , qt?1 以及它們對應的由環境返回的檢索文檔 D1, · · · , Dt?1 的歷史記錄。狀態空間 S 是所有可能狀態的集合：

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

其中 I 是問題空間，Aq 是所有可能搜索查詢的空間，D 是所有文檔的空間。 - 動作空間 A：在每個時間步 t，動作 at 可以是一個搜索查詢，也可以是對原始問題的預測答案。因此，我們將動作空間 A 定義為 A = Aq ∪ Ap ，其中 Aq 是所有可能查詢的集合，Ap 表示可能答案的集合。 - IR 環境：RAG-Gym 中外部 MDP 的環境由一個信息檢索（IR）系統驅動，該系統將搜索查詢 qt 作為輸入，并返回一組相關文檔 Dt 作為輸出。IR 系統可以表示為從 Aq 到 P(D)的映射，其中 P(D)是 D 的冪集。檢索過程由底層文本檢索器和特定的檢索設置（例如返回文檔的數量）決定。 - MDP 工作流程：對于給定的問題 Q，MDP 從初始狀態 s1 = (Q, ?)開始。在每個步驟 t，at 是從智能體的策略 πf(θ)(· | st)中采樣得到的，其中 πf(θ) : S → Δ(A)定義了給定狀態下的動作分布。智能體的策略由 θ（表示基礎語言模型的參數）和特定于智能體的函數 f（表示如何利用基礎 LLM 策略）組成。然后，通過添加(qt,Dt)來更新歷史記錄為 Ht+1 ，狀態轉換為 st+1 = (Q,Ht+1) 。否則，如果 at ∈ Ap ，則認為當前情節完成，MDP 終止。 - 獎勵：對于外部 MDP，一個情節的獎勵由最終預測的正確性決定。狀態-動作對(st, at)的即時獎勵為：

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

外部 MDP 中智能體的目標是最大化軌跡上的預期累積獎勵：

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

通過過程監督改進搜索智能體：通過納入過程獎勵，RAG-Gym 能夠更有效地對大語言模型（LLM）進行微調，使標記生成與高質量的搜索行為保持一致。 -過程獎勵數據的收集：數據收集流程從軌跡采樣開始，語言智能體根據其當前策略生成一系列動作。在軌跡的每個步驟中，會提出多個候選動作，并根據預定義的評估標準選擇最佳動作。我們采用基于排名的評估框架，而不是分配數值分數，以確保一致性。然后執行選定的動作，軌跡轉移到下一個狀態。這個過程反復迭代，直到軌跡終止。為了確保質量，只有最終答案正確的軌跡才會被保留，這由結果獎勵來判斷。 -使用過程監督調整智能體-監督微調（SFT）：從過程獎勵中選擇的動作用于訓練語言智能體。正式地說，SFT 的目標是最小化給定狀態下選定動作的負對數似然：
其中 D 是帶有過程獎勵標記的狀態-動作對的數據集。 -直接偏好優化（DPO）：引入了一個對比學習框架，該框架同時考慮了選定和未選定的動作。過程獎勵數據被重新組織為偏好對(a+t , a?t )，其中 a+t 是對于 st 更偏好的動作，a?t 是較不偏好的替代動作。DPO 的目標是最小化以下損失：

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

-過程獎勵建模（PRM）：訓練一個單獨的獎勵模型 r?(st, at)，以根據收集的數據預測過程獎勵。目標是最小化一個對比損失，該損失評估更偏好動作相對于較不偏好動作的質量：

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

推理與搜索（ReSearch）智能體

推理與搜索（ReSearch）智能體在一個統一的、以答案為驅動的框架中集成了推理和搜索。

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

歷史知識總結：給定狀態 st ，其中包含原始問題 Q 和歷史 Ht = {(q1,D1), . . . , (qt?1,Dt?1)}，智能體首先會將檢索到的文檔總結為對相應查詢的結構化響應，形成一個精煉的知識表示 H′t： H′t = {(q1,m1), . . . , (qt?1,mt?1)} 總結步驟會過濾掉不相關的信息，并減輕長上下文處理的挑戰，使智能體在構建答案時能夠專注于最相關的事實。
答案推理：利用這個精煉的知識 H′t ，智能體接著進行結構化推理，以推斷出問題的候選答案。然后，它會檢查推理步驟，并判斷所有的主張是否都在歷史記錄中有充分的依據。如果智能體確定答案推理中的所有主張都有檢索到的證據支持，它就會將答案作為最終動作輸出。否則，它會識別出未經驗證的主張，即那些根據現有證據缺乏充分理由的陳述。
搜索查詢生成：未經驗證的主張作為生成下一個搜索查詢的基礎，這個查詢專門用于檢索缺失的信息。從這個查詢中檢索到的文檔隨后會被添加到 Ht 中，推理過程會反復迭代，直到所有主張都得到驗證，或者檢索預算用盡。

實驗結果

過程監督方法的比較：下表展示了使用 Llama-3.1–8B-Instruct 實現的各種智能體，以及它們在 RAG-Gym 中使用不同過程監督方法進行微調后的性能。與零樣本學習（ZSL）基線相比，過程監督在所有智能體上都一致地提高了性能，證明了其在增強中間推理和查詢生成方面的有效性。在三種過程監督算法中，PRM 總體上取得了最好的結果，比 ZSL 基線的平均 F1 得分高出 25.6%（ReAct）。
ReSearch 與其他智能體的比較：結果還表明，在零樣本學習設置和有過程監督的設置中，ReSearch 始終優于其他智能體。在未經調優的情況下，ReSearch 就實現了很強的零樣本性能，證明了明確地將答案推理與查詢生成對齊的有效性。使用過程獎勵模型后，ReSearch 達到了最先進的性能，在不同數據集上的平均 EM 得分達到 54.31%，平均 F1 得分達到 62.41%。
獎勵模型的可遷移性：下圖突出顯示了使用基于 Llama-3.1–8B 的過程獎勵模型的 GPT-4o-mini 的 ReSearch 智能體的性能提升。使用獎勵模型進行動作選擇在所有任務中都帶來了一致的收益，證明了 PRM 在不同大語言模型中有效選擇高質量動作的可遷移性。

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

分析

不同獎勵來源的比較：四位領域專家對 200 個 MedQA 問題進行了注釋。在其余 800 個用 GPT-4o 注釋的訓練問題上訓練了一個獎勵模型，并將其偏好與領域專家的偏好進行了比較。下表顯示了領域專家偏好與不同來源獎勵估計之間的一致性。使用 GPT-4o 注釋訓練的獎勵模型與人類偏好的一致性最高（85.85%），顯著優于 Math-Shepherd 中引入的基于滾動的方法（71.03%）。這表明在這種情況下，GPT-4o 注釋與人類推理和決策緊密對齊。

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

訓練時間縮放：下圖展示了使用在不同數量訓練樣本上微調的過程獎勵模型的 ReSearch 智能體的性能。結果表明，ReSearch 的性能隨著訓練樣本數量的增加而提高，但隨著樣本量的增長，收益趨于收斂。

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

推理時間縮放：以 ReSearch 為測試智能體，下圖展示了我們的推理時間縮放研究結果。在多個基準測試中觀察到一致的趨勢，即增加采樣動作的數量通常會提高性能。

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體-AI.x社區

研究結論

本文介紹了 RAG-Gym，這是一個通過過程監督優化推理和搜索智能體的框架，并引入了 ReSearch，這是一種將答案推理與搜索查詢生成統一起來的智能體架構。實驗表明，RAG-Gym 在知識密集型任務上改進了搜索智能體，ReSearch 始終優于基線模型。研究還證明了使用大語言模型作為過程獎勵評判的有效性、訓練后的獎勵模型在不同大語言模型上的可遷移性，以及 ReSearch 在訓練和推理過程中的縮放模式。

本文轉載自 ??柏企科技圈??，作者：柏企

標簽

RAG

搜索

智能體

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體精華

核心貢獻

RAG-Gym 框架

一、概述

二、知識密集型問答作為嵌套 MDP

推理與搜索（ReSearch）智能體

實驗結果

分析

研究結論

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體 精華

核心貢獻

RAG-Gym 框架

一、概述

二、知識密集型問答作為嵌套 MDP

推理與搜索（ReSearch）智能體

實驗結果

分析

研究結論

目錄

一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體精華