成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!

發(fā)布于 2025-7-11 06:44
瀏覽
0收藏

今天分享一篇來(lái)自斯坦福大學(xué)和 Google DeepMind 的文章,標(biāo)題為:《Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use》(利用合成數(shù)據(jù)生成和多階段強(qiáng)化學(xué)習(xí)進(jìn)行推理和工具使用)。

本文提出了一種名為 SWiRL (Step-Wise Reinforcement Learning) 的方法,旨在優(yōu)化 LLMs 在復(fù)雜多步推理和工具使用任務(wù)中的表現(xiàn)。該方法分為兩個(gè)主要階段:
1.合成數(shù)據(jù)生成:通過(guò)迭代式生成多階段(Multi-step)的推理和工具使用數(shù)據(jù),并從中學(xué)習(xí)。
2.多目標(biāo)強(qiáng)化學(xué)習(xí):提出一種針對(duì)多階段優(yōu)化的強(qiáng)化學(xué)習(xí)方法。提示模型的Tool調(diào)用以及推理能力能力。

與Search-R1等方法不同,其通過(guò)合成推理的Tracing數(shù)據(jù),并基于該數(shù)據(jù)來(lái)進(jìn)行RL學(xué)習(xí),可以極大提升在復(fù)雜多步推理和工具使用任務(wù)中的表現(xiàn)。可以給后續(xù)DeepResearch的端到端的RL訓(xùn)練提供一個(gè)參考。

一、概述

?Title:Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

?URL:?? https://arxiv.org/abs/2504.04736??

?Authors:Anna Goldie, Azalia Mirhoseini, Hao Zhou, Irene Cai, Christopher D. Manning

1 Motivation

? 現(xiàn)有的LLMs 在處理需要多步驟推理和工具使用的復(fù)雜查詢時(shí)(如多跳問(wèn)答、數(shù)學(xué)問(wèn)題求解、編程等)表現(xiàn)不佳。

? 傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法(如 RLHF、RLAIF)主要關(guān)注單一步驟優(yōu)化,而多步驟任務(wù)中,中間步驟的錯(cuò)誤可能導(dǎo)致最終結(jié)果的錯(cuò)誤,因此需要對(duì)整個(gè)行動(dòng)鏈條的準(zhǔn)確性進(jìn)行優(yōu)化。

? 需要開發(fā)一種能夠處理多步驟動(dòng)作序列(例如,確定何時(shí)停止搜索以及何時(shí)綜合信息)并有效從錯(cuò)誤中恢復(fù)的優(yōu)化技術(shù)

2 Methods

SWiRL 方法旨在提升 LLM 在多步推理和工具使用任務(wù)中的表現(xiàn),避免了對(duì)人工標(biāo)注和GroundTruth的依賴,其核心在于合成數(shù)據(jù)生成和基于模型判定的分步強(qiáng)化學(xué)習(xí)。

優(yōu)點(diǎn)總結(jié):不需要Golden label,不需要人類標(biāo)注,基于model-based judgment和data生成,過(guò)濾,來(lái)做RL的訓(xùn)練。

詳細(xì)方法和步驟:

Stage 1: 多步合成數(shù)據(jù)生成與篩選 (Multi-Step Data Collection)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

1.數(shù)據(jù)生成

? 使用開源 LLM (Gemma 2) 并接入外部工具(如搜索引擎或計(jì)算器)。

? 迭代式地提示模型生成多步軌跡(trajectories)。在每一步中,模型可以生成思維鏈(chain of thought),選擇調(diào)用工具或直接給出最終答案。

? 如果模型調(diào)用工具,則查詢會(huì)被自動(dòng)提取并在環(huán)境中執(zhí)行,結(jié)果會(huì)作為下一步的上下文提供給模型。

? 軌跡在模型生成最終答案(通過(guò)特殊標(biāo)記表示)時(shí)結(jié)束。

?軌跡轉(zhuǎn)換: 將包含k個(gè)動(dòng)作的軌跡轉(zhuǎn)換為k個(gè)子軌跡,每個(gè)子軌跡包含從開始到該動(dòng)作的所有上下文。

2.數(shù)據(jù)篩選策略:探索四種篩選策略對(duì)模型性能的影響:

?No filtering (無(wú)篩選):不進(jìn)行任何篩選。

?Process filtering (過(guò)程篩選):保留每一步都被模型(Gemini 1.5 Pro Thinking)判斷為合理的軌跡。判斷標(biāo)準(zhǔn)是當(dāng)前動(dòng)作 a_i 在給定上下文 s_i 下的合理性,不使用GroundTruth。

?Outcome filtering (結(jié)果篩選):僅選擇最終答案 a_K 與GroundTruth的軌跡。

?Process and outcome filtering (過(guò)程與結(jié)果聯(lián)合篩選):同時(shí)滿足過(guò)程合理性及最終答案正確的軌跡。

3.數(shù)據(jù)集構(gòu)建規(guī)模

? 收集了 50,000 條合成軌跡(基于 10,000 個(gè) HotPotQA 訓(xùn)練集問(wèn)題,每個(gè)問(wèn)題 5 條軌跡)。

? 收集了 37,500 條合成軌跡(基于 7,500 個(gè) GSM8K 訓(xùn)練集問(wèn)題)。

? 為防止軌跡過(guò)長(zhǎng),將 HotPotQA 的最大步驟數(shù)設(shè)置為 5,GSM8K 設(shè)置為 10。

Stage 2: 分步強(qiáng)化學(xué)習(xí)優(yōu)化 (Step-Wise Reinforcement Learning Methodology)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

1.優(yōu)化目標(biāo)

? 目標(biāo)函數(shù)是期望的逐步獎(jiǎng)勵(lì)總和:??J(θ) = E[R(a|s)]???,其中??R(a|s)?? 是根據(jù)生成式獎(jiǎng)勵(lì)模型(Gemini 1.5 Pro)評(píng)估當(dāng)前動(dòng)作a在上下文s下的質(zhì)量。不使用GroundTruth label來(lái)做Reward。

? 該方法通過(guò)細(xì)粒度的、按步驟的微調(diào),使模型能夠?qū)W習(xí)局部決策(預(yù)測(cè)下一步)和全局軌跡優(yōu)化(生成最終響應(yīng)),并獲得即時(shí)反饋。

2.推理階段評(píng)估 (Step-Wise Inference-time Evaluation)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

? 在推理時(shí),模型會(huì)迭代地被提示,選擇調(diào)用工具或生成最終答案。

? 如果模型生成工具調(diào)用(如??<search_query>??? 或 ??<math_exp>?? 標(biāo)簽),則解析查詢并在環(huán)境中執(zhí)行,結(jié)果會(huì)注入到模型上下文中。

? 該過(guò)程持續(xù)直到模型生成答案(通過(guò)??<answer>?? 標(biāo)簽表示)或達(dá)到最大查詢次數(shù)限制(問(wèn)答數(shù)據(jù)集 5 次,數(shù)學(xué)推理數(shù)據(jù)集 10 次)。

Q1: 他的reward是怎么來(lái)的,如何計(jì)算?

答:作者直接采用Gemini 1.5 Pro(直接LLM as judge,這個(gè)效果好嗎?)作為reward model。其主要做法是:

?每一步生成之后,用reward model來(lái)判定本步動(dòng)作(如某條搜索查詢或推理步驟),在當(dāng)前上下文里是否“reasonable(合理)”。

? reward model的判定形式是:對(duì)于每一個(gè)action,reward model只基于該action和前面的全部上下文(包括之前的步驟和環(huán)境給出的反饋),判斷這一步的推理或操作是否靠譜,然后輸出評(píng)分(相當(dāng)于是“好/壞”標(biāo)簽,見原文 process filtering prompt)。

? 這種reward不是基于最終答案(outcome),而是基于每一個(gè)過(guò)程動(dòng)作的合理性(process-based)。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

優(yōu)點(diǎn):

?生成數(shù)據(jù)快、成本低,不用人工逐步標(biāo)注,只要評(píng)判prompt設(shè)計(jì)合理即可。

? 它能更細(xì)粒度地對(duì)每個(gè)步驟給反饋,而不是等整個(gè)問(wèn)題解完后才評(píng)判,避免“只會(huì)背答案”的問(wèn)題,提高多步推理能力。

? 這樣能充分利用現(xiàn)有強(qiáng)大LLM的理解和判斷力,不需要再訓(xùn)練一個(gè)reward模型。

Q2:如何理解強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù)?

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

  1. 各個(gè)符號(hào)的含義:

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

3 Conclusion

?多步推理與工具使用的顯著提升:SWiRL 在復(fù)雜多跳問(wèn)答和數(shù)學(xué)推理任務(wù)中,平均性能優(yōu)于基線模型達(dá) 15%。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

?數(shù)據(jù)篩選策略的有效性:該方法即使在未篩選的數(shù)據(jù)上也能有效學(xué)習(xí),但在“僅過(guò)程篩選”的數(shù)據(jù)上表現(xiàn)最佳,這表明模型可以從包含不正確最終答案的軌跡中學(xué)習(xí),甚至受益于正確和不正確最終答案的混合數(shù)據(jù)。

?Process filtering (過(guò)程篩選):指的是保留每一步都被模型(Gemini 1.5 Pro Thinking)判斷為合理的軌跡。判斷標(biāo)準(zhǔn)是當(dāng)前動(dòng)作a_i在給定上下文s_i下的合理性,不使用GroundTruth。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

?強(qiáng)大的跨任務(wù)泛化能力:SWiRL 展現(xiàn)了強(qiáng)大的泛化能力,例如,在多跳問(wèn)答(HotPotQA)上訓(xùn)練,能將數(shù)學(xué)推理(GSM8K)性能提升 16.9%,反之亦然,說(shuō)明其提升了通用的多步推理和工具使用能力。

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

4 Limitation

?模型規(guī)模限制:盡管 SWiRL 對(duì)較小的模型(如 Gemma-2-2b 和 9b)在領(lǐng)域內(nèi)數(shù)據(jù)集上有益,但它們未能展現(xiàn)與大型模型(Gemma-2-27b)相同的跨任務(wù)泛化能力。這表明 SWiRL 的有效性可能受模型規(guī)模限制,對(duì)于小模型,其泛化能力不如大模型。

5 Future Work

?探索更大模型規(guī)模和更多任務(wù):對(duì)更大模型和更多復(fù)雜任務(wù)進(jìn)行 SWiRL 的評(píng)估,以確認(rèn)其泛化能力。

?優(yōu)化獎(jiǎng)勵(lì)模型和數(shù)據(jù)生成:進(jìn)一步研究如何改進(jìn)獎(jiǎng)勵(lì)模型的設(shè)計(jì),以及如何更有效地生成高質(zhì)量的合成數(shù)據(jù),以進(jìn)一步提升性能。

?在線與離線 RL 的結(jié)合:探索結(jié)合在線和離線強(qiáng)化學(xué)習(xí)方法,以彌補(bǔ)離線方法在實(shí)時(shí)交互和適應(yīng)性方面的不足。

二、詳細(xì)內(nèi)容

1.SFT 與 SWiRL 性能比較

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

  • ?SWiRL 優(yōu)于 SFT:SWiRL 在“僅過(guò)程篩選”的軌跡中表現(xiàn)出顯著優(yōu)勢(shì),并且能夠從同時(shí)包含正確和不正確結(jié)果的軌跡中學(xué)習(xí),而 SFT 則不能。

2.SWiRL 在有無(wú)多步工具使用時(shí)的性能表現(xiàn)

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

?總結(jié)1:SWiRL 的多步工具使用推理既提升了基線模型和 SWiRL 微調(diào)模型的性能,但在后者身上提升更為顯著。

?總結(jié)2:即使沒有工具訪問(wèn),SWiRL 模型也展現(xiàn)出顯著改進(jìn),這表明 SWiRL 訓(xùn)練提高了模型將復(fù)雜問(wèn)題分解為多個(gè)可管理子任務(wù)的能力。

3.性能與合成數(shù)據(jù)集大小的關(guān)系

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

?總結(jié):即使僅有 1000 個(gè)數(shù)據(jù)點(diǎn),模型也能在域內(nèi)和域外數(shù)據(jù)集上實(shí)現(xiàn)顯著改進(jìn)。

4.SWiRL、基線模型與 Gemini 1.5 Pro 的性能比較

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

?總結(jié)1:SWiRL 顯著優(yōu)于所有基線模型,甚至在某些域外基準(zhǔn)(如 CofCA 和 BeerQA)上超越了 Gemini 1.5 Pro。

?總結(jié)2: SWiRL 不僅僅是簡(jiǎn)單地蒸餾了一個(gè)更強(qiáng)的獎(jiǎng)勵(lì)模型。

11Table 3: SWiRL 對(duì)過(guò)程正確性平均值的影響

DeepMind | 合成數(shù)據(jù)+RL,SWiRL讓大模型擁有超強(qiáng)“工具腦”!-AI.x社區(qū)

?過(guò)程正確性提升:經(jīng)過(guò) SWiRL 優(yōu)化后,模型在域內(nèi)(HotPotQA)和域外(GSM8K)任務(wù)上,每個(gè)步驟的平均正確性均有所提高。

?下游性能源于推理提升:這表明最終更高的準(zhǔn)確性歸因于改進(jìn)的多步推理。

三、總結(jié)

總結(jié)1: SwiRL + Tool use > Base Model + Tool use >> Base Model。 引入工具后還是效果提升非常大,說(shuō)明Base Model已經(jīng)具備不錯(cuò)的Tool調(diào)用的能力了。SwiRL可以改進(jìn)Tool 調(diào)用的能力。

總結(jié)2: 不需要其他標(biāo)注資源,利用現(xiàn)有的Model就可以合成數(shù)據(jù)進(jìn)行RL訓(xùn)練提升Model的Tool Use能力。 通過(guò)“過(guò)程篩選”策略,從包含合理推理軌跡(即使最終答案不正確)的數(shù)據(jù)中學(xué)習(xí),避免了對(duì)昂貴人工標(biāo)注和GroundTruth的依賴,極大地提高了數(shù)據(jù)獲取的效率和成本效益。

總結(jié)3: SwiRL訓(xùn)練后泛化能力也不錯(cuò)。 說(shuō)明Tool Use的能力是可以遷移的。例如在 HotPotQA 訓(xùn)練能將 GSM8K 性能提高 16.9%。

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-7-11 10:06:41修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美亚洲激情 | 欧美成人综合 | 中文字幕视频一区二区 | 亚洲女人天堂成人av在线 | 欧美成人免费在线 | 伊人免费网 | www.99re5.com| 国产九一精品 | aaa级片| 一区二区三区精品视频 | 干干天天| 欧美精品一区二区三区四区 | 三级国产三级在线 | 午夜免费视频 | 成人网av | 成人免费区一区二区三区 | 青青久草 | 亚洲精品福利在线 | 成人午夜免费福利视频 | 欧美一区二区三区在线 | 午夜精品久久久久久久久久久久 | 青青草精品视频 | 成人在线视频一区二区三区 | www.久久久久久久久久久 | 日韩精品一区在线观看 | 中文字幕中文字幕 | jizz视频 | 日韩一区三区 | 91直接看| 午夜精品久久久久99蜜 | 福利一区二区 | 懂色中文一区二区三区在线视频 | 99精品国产一区二区三区 | 99热播放 | 99国产精品久久久 | h视频亚洲| 99热在这里只有精品 | 欧美一区二区在线观看 | 欧美一区二区三区在线看 | 国产91久久精品一区二区 | 久久天堂网 |