成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體 精華

發布于 2025-3-4 10:43
瀏覽
0收藏

傳統的檢索增強生成(RAG)架構依賴于靜態檢索,這使得它們在處理需要順序信息搜索的復雜問題時,效果大打折扣。雖然智能推理和搜索提供了一種更具適應性的方法,但現有的大多數方法在很大程度上都依賴于提示工程。

為了解決這一問題,本文介紹了 RAG-Gym,這是一個統一的優化框架,它通過在每個搜索步驟進行細粒度的過程監督,來提升信息搜索智能體的性能。

核心貢獻

  • 引入 RAG-Gym,這是一個利用過程監督優化智能 RAG 的統一框架。
  • 提出 ReSearch,這是一種全新的智能體架構,它將答案推理和搜索協同起來,比現有的基線模型取得了更優異的性能。
  • 證明了使用經過訓練的過程獎勵模型作為驗證器,可以顯著提升搜索智能體的性能。
  • 全面分析了過程監督的來源、獎勵模型的可遷移性,以及智能 RAG 中的縮放定律。?

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

RAG-Gym 框架

一、概述

RAG-Gym 將知識密集型問答任務構建為一個嵌套的馬爾可夫決策過程(MDP)。

過程獎勵數據是通過在每個時間步隨機抽樣動作候選,并使用外部注釋器選擇最佳動作來收集的。

RAG-Gym 中實現了不同的過程監督方法。

二、知識密集型問答作為嵌套 MDP

  1. 外部 MDP 的構建:旨在歸納各種針對知識密集型問題的語言智能體設計,具體過程如下:
  • 狀態空間 S:在每個時間步 t,狀態 st ∈ S 由原始問題 Q 和信息搜索歷史 Ht 組成,表示為:st = (Q,Ht) ,其中 Ht = {(q1,D1), · · · , (qt?1,Dt?1)}是信息搜索查詢 q1, · · · , qt?1 以及它們對應的由環境返回的檢索文檔 D1, · · · , Dt?1 的歷史記錄。狀態空間 S 是所有可能狀態的集合:

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

其中 I 是問題空間,Aq 是所有可能搜索查詢的空間,D 是所有文檔的空間。 - 動作空間 A:在每個時間步 t,動作 at 可以是一個搜索查詢,也可以是對原始問題的預測答案。因此,我們將動作空間 A 定義為 A = Aq ∪ Ap ,其中 Aq 是所有可能查詢的集合,Ap 表示可能答案的集合。 - IR 環境:RAG-Gym 中外部 MDP 的環境由一個信息檢索(IR)系統驅動,該系統將搜索查詢 qt 作為輸入,并返回一組相關文檔 Dt 作為輸出。IR 系統可以表示為從 Aq 到 P(D)的映射,其中 P(D)是 D 的冪集。檢索過程由底層文本檢索器和特定的檢索設置(例如返回文檔的數量)決定。 - MDP 工作流程:對于給定的問題 Q,MDP 從初始狀態 s1 = (Q, ?)開始。在每個步驟 t,at 是從智能體的策略 πf(θ)(· | st)中采樣得到的,其中 πf(θ) : S → Δ(A)定義了給定狀態下的動作分布。智能體的策略由 θ(表示基礎語言模型的參數)和特定于智能體的函數 f(表示如何利用基礎 LLM 策略)組成。然后,通過添加(qt,Dt)來更新歷史記錄為 Ht+1 ,狀態轉換為 st+1 = (Q,Ht+1) 。否則,如果 at ∈ Ap ,則認為當前情節完成,MDP 終止。 - 獎勵:對于外部 MDP,一個情節的獎勵由最終預測的正確性決定。狀態-動作對(st, at)的即時獎勵為:

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

外部 MDP 中智能體的目標是最大化軌跡上的預期累積獎勵:

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

  • 通過過程監督改進搜索智能體:通過納入過程獎勵,RAG-Gym 能夠更有效地對大語言模型(LLM)進行微調,使標記生成與高質量的搜索行為保持一致。 -過程獎勵數據的收集:數據收集流程從軌跡采樣開始,語言智能體根據其當前策略生成一系列動作。在軌跡的每個步驟中,會提出多個候選動作,并根據預定義的評估標準選擇最佳動作。我們采用基于排名的評估框架,而不是分配數值分數,以確保一致性。然后執行選定的動作,軌跡轉移到下一個狀態。這個過程反復迭代,直到軌跡終止。為了確保質量,只有最終答案正確的軌跡才會被保留,這由結果獎勵來判斷。 -使用過程監督調整智能體-監督微調(SFT):從過程獎勵中選擇的動作用于訓練語言智能體。正式地說,SFT 的目標是最小化給定狀態下選定動作的負對數似然:

    一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

  • 其中 D 是帶有過程獎勵標記的狀態-動作對的數據集。 -直接偏好優化(DPO):引入了一個對比學習框架,該框架同時考慮了選定和未選定的動作。過程獎勵數據被重新組織為偏好對(a+t , a?t ),其中 a+t 是對于 st 更偏好的動作,a?t 是較不偏好的替代動作。DPO 的目標是最小化以下損失:
  • 一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

  • -過程獎勵建模(PRM):訓練一個單獨的獎勵模型 r?(st, at),以根據收集的數據預測過程獎勵。目標是最小化一個對比損失,該損失評估更偏好動作相對于較不偏好動作的質量:
  • 一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

推理與搜索(ReSearch)智能體

推理與搜索(ReSearch)智能體在一個統一的、以答案為驅動的框架中集成了推理和搜索。

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

  • 歷史知識總結:給定狀態 st ,其中包含原始問題 Q 和歷史 Ht = {(q1,D1), . . . , (qt?1,Dt?1)},智能體首先會將檢索到的文檔總結為對相應查詢的結構化響應,形成一個精煉的知識表示 H′t: H′t = {(q1,m1), . . . , (qt?1,mt?1)} 總結步驟會過濾掉不相關的信息,并減輕長上下文處理的挑戰,使智能體在構建答案時能夠專注于最相關的事實。
  • 答案推理:利用這個精煉的知識 H′t ,智能體接著進行結構化推理,以推斷出問題的候選答案。然后,它會檢查推理步驟,并判斷所有的主張是否都在歷史記錄中有充分的依據。如果智能體確定答案推理中的所有主張都有檢索到的證據支持,它就會將答案作為最終動作輸出。否則,它會識別出未經驗證的主張,即那些根據現有證據缺乏充分理由的陳述。
  • 搜索查詢生成:未經驗證的主張作為生成下一個搜索查詢的基礎,這個查詢專門用于檢索缺失的信息。從這個查詢中檢索到的文檔隨后會被添加到 Ht 中,推理過程會反復迭代,直到所有主張都得到驗證,或者檢索預算用盡。

實驗結果

  • 過程監督方法的比較:下表展示了使用 Llama-3.1–8B-Instruct 實現的各種智能體,以及它們在 RAG-Gym 中使用不同過程監督方法進行微調后的性能。與零樣本學習(ZSL)基線相比,過程監督在所有智能體上都一致地提高了性能,證明了其在增強中間推理和查詢生成方面的有效性。在三種過程監督算法中,PRM 總體上取得了最好的結果,比 ZSL 基線的平均 F1 得分高出 25.6%(ReAct)。

    一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

  • ReSearch 與其他智能體的比較:結果還表明,在零樣本學習設置和有過程監督的設置中,ReSearch 始終優于其他智能體。在未經調優的情況下,ReSearch 就實現了很強的零樣本性能,證明了明確地將答案推理與查詢生成對齊的有效性。使用過程獎勵模型后,ReSearch 達到了最先進的性能,在不同數據集上的平均 EM 得分達到 54.31%,平均 F1 得分達到 62.41%。
  • 獎勵模型的可遷移性:下圖突出顯示了使用基于 Llama-3.1–8B 的過程獎勵模型的 GPT-4o-mini 的 ReSearch 智能體的性能提升。使用獎勵模型進行動作選擇在所有任務中都帶來了一致的收益,證明了 PRM 在不同大語言模型中有效選擇高質量動作的可遷移性。

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

分析

  • 不同獎勵來源的比較:四位領域專家對 200 個 MedQA 問題進行了注釋。在其余 800 個用 GPT-4o 注釋的訓練問題上訓練了一個獎勵模型,并將其偏好與領域專家的偏好進行了比較。下表顯示了領域專家偏好與不同來源獎勵估計之間的一致性。使用 GPT-4o 注釋訓練的獎勵模型與人類偏好的一致性最高(85.85%),顯著優于 Math-Shepherd 中引入的基于滾動的方法(71.03%)。這表明在這種情況下,GPT-4o 注釋與人類推理和決策緊密對齊。

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

  • 訓練時間縮放:下圖展示了使用在不同數量訓練樣本上微調的過程獎勵模型的 ReSearch 智能體的性能。結果表明,ReSearch 的性能隨著訓練樣本數量的增加而提高,但隨著樣本量的增長,收益趨于收斂。

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

  • 推理時間縮放:以 ReSearch 為測試智能體,下圖展示了我們的推理時間縮放研究結果。在多個基準測試中觀察到一致的趨勢,即增加采樣動作的數量通常會提高性能。

一文讀懂 RAG-Gym:用過程監督優化推理與搜索智能體-AI.x社區

研究結論

本文介紹了 RAG-Gym,這是一個通過過程監督優化推理和搜索智能體的框架,并引入了 ReSearch,這是一種將答案推理與搜索查詢生成統一起來的智能體架構。實驗表明,RAG-Gym 在知識密集型任務上改進了搜索智能體,ReSearch 始終優于基線模型。研究還證明了使用大語言模型作為過程獎勵評判的有效性、訓練后的獎勵模型在不同大語言模型上的可遷移性,以及 ReSearch 在訓練和推理過程中的縮放模式。

本文轉載自 ??柏企科技圈??,作者:柏企

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 大香网伊人| 久久久爽爽爽美女图片 | 91中文字幕在线观看 | 国产日屁 | 精品视频www | 久久久久国产精品 | 亚洲成人国产精品 | 精品国产欧美 | 日韩在线一区二区三区 | 中文字幕亚洲区一区二 | 成人精品久久日伦片大全免费 | 麻豆久久久久久久 | 黄色在线免费观看视频 | 欧美精品一二三 | 欧美电影一区 | 国产在线一区二区三区 | 日本精品一区二区三区在线观看视频 | 国产午夜精品一区二区三区 | 午夜精品久久久久久久99黑人 | 91视频在线 | 欧美日韩精品区 | 视频一区 亚洲 | 国产a视频 | 精品视频成人 | 国产中文字幕在线观看 | 91精品国产高清一区二区三区 | 日韩中文字幕在线视频观看 | 国产精品一区二区三区99 | 成人黄色av网站 | 久久国产精品99久久久久 | 毛片网站在线观看 | 精品一区二区久久久久久久网站 | 日韩视频中文字幕 | 五月激情婷婷六月 | 欧美福利久久 | 欧美精选一区二区 | 91黄在线观看 | 麻豆视频在线看 | 亚洲精品久久久一区二区三区 | 国际精品久久 | 亚洲国产一区二区三区 |