成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek 技術(shù)解析:LLM 訓(xùn)練中的強(qiáng)化學(xué)習(xí)算法

人工智能
為確保本文自成體系并闡明 GRPO 的理論基礎(chǔ),我們將首先介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念,重點(diǎn)解析強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在 LLM 訓(xùn)練中的核心作用。

我們將深入探討 DeepSeek 模型訓(xùn)練策略中的關(guān)鍵創(chuàng)新之一[1, 2]:群組相對(duì)策略優(yōu)化(Grouped Relative Policy Optimization,GRPO)[3]。

為確保本文自成體系并闡明 GRPO 的理論基礎(chǔ),我們將首先介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念,重點(diǎn)解析強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在 LLM 訓(xùn)練中的核心作用。接著我們將探討不同的強(qiáng)化學(xué)習(xí)范式,包括基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí),回顧經(jīng)典算法如置信域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO),最后解析 GRPO 帶來的優(yōu)化創(chuàng)新。

本文目錄結(jié)構(gòu):

  • 技術(shù)背景:闡釋 LLM 訓(xùn)練為何需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的工作原理
  • 強(qiáng)化學(xué)習(xí)范式:解析并對(duì)比基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí)范式
  • GRPO:先回顧 TRPO 和 PPO,再詳解 GRPO 如何對(duì) PPO 進(jìn)行優(yōu)化改進(jìn)
  • 總結(jié)
  • 參考文獻(xiàn)

1.技術(shù)背景

1.1 為什么在大語言模型訓(xùn)練中需要強(qiáng)化學(xué)習(xí)

在將強(qiáng)化學(xué)習(xí)引入大語言模型訓(xùn)練之前,自然語言處理模型的訓(xùn)練通常分為兩個(gè)階段,即通常所說的「預(yù)訓(xùn)練(Pre-training)和微調(diào)(finetuning)」范式:

  • 預(yù)訓(xùn)練階段:通過在大量文本語料上進(jìn)行無監(jiān)督目標(biāo)訓(xùn)練(如預(yù)測(cè)缺失的 token),幫助模型建立對(duì)語言的整體理解。
  • 監(jiān)督微調(diào)階段:使用人工標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練,使模型適應(yīng)問題解答等特定任務(wù),生成更有用且更有條理的輸出。

然而,即使完成這兩個(gè)階段的訓(xùn)練,大語言模型生成的回答仍常常與人類的偏好不一致。典型問題包括:產(chǎn)生不準(zhǔn)確的信息(幻覺)、回答過于冗長或過于簡(jiǎn)潔、忽略隱含的上下文信息,或誤解諷刺與幽默等表達(dá)。

換言之,要讓大語言模型真正具備實(shí)用性,需要將其與人類偏好對(duì)齊,而僅靠監(jiān)督式微調(diào)難以實(shí)現(xiàn)這一目標(biāo)。

這又是為什么呢?

這背后的核心挑戰(zhàn)在于:如何將「對(duì)齊人類偏好」這種抽象概念轉(zhuǎn)化為可學(xué)習(xí)的任務(wù)目標(biāo),使其能夠被正確標(biāo)注,并用于構(gòu)建有意義的學(xué)習(xí)目標(biāo)。由于人類偏好的復(fù)雜性,想要窮舉所有可能的問題并為每種問題定義具體標(biāo)簽是不現(xiàn)實(shí)的(譯者注:例如,為“冗余回答”標(biāo)注 0,為“簡(jiǎn)潔回答”標(biāo)注 1)。

這正是強(qiáng)化學(xué)習(xí)發(fā)揮關(guān)鍵作用的地方。

1.2 強(qiáng)化學(xué)習(xí)的工作原理

機(jī)器學(xué)習(xí)算法可大致分為三類:

  • 監(jiān)督學(xué)習(xí) (Supervised Learning):通過標(biāo)注數(shù)據(jù)(每個(gè)輸入 x 對(duì)應(yīng)目標(biāo) y)訓(xùn)練模型,目標(biāo)是構(gòu)建從 x 預(yù)測(cè) y 的映射。當(dāng) y 為離散值時(shí)稱為分類問題,連續(xù)值時(shí)稱為回歸問題。
  • 無監(jiān)督學(xué)習(xí) (Unsupervised Learning):在沒有標(biāo)注數(shù)據(jù)時(shí),通過發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在模式進(jìn)行學(xué)習(xí),例如主成分分析(PCA)等降維方法,或 K-Means 等聚類算法。
  • 強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL):當(dāng)難以定義明確的學(xué)習(xí)目標(biāo)時(shí),讓 RL 模型通過與環(huán)境交互獲取獎(jiǎng)勵(lì)信號(hào)來更新模型。該方法常用于訓(xùn)練機(jī)器人保持平衡、行走等場(chǎng)景。

下圖展示了強(qiáng)化學(xué)習(xí)框架的五個(gè)核心要素:

image.pngimage.png

圖 1. 強(qiáng)化學(xué)習(xí)的五個(gè)要素:智能體、環(huán)境、獎(jiǎng)勵(lì)、狀態(tài)和動(dòng)作(Image from wiki)

以訓(xùn)練小狗坐下為例,五要素對(duì)應(yīng)如下:

  • 智能體 (Agent):學(xué)習(xí)指令的小狗
  • 環(huán)境 (Environment):小狗所處的周圍環(huán)境
  • 狀態(tài) (State):小狗當(dāng)前姿勢(shì)(是否處于坐姿)
  • 獎(jiǎng)勵(lì) (Reward):小狗正確執(zhí)行指令后獲得的零食
  • 動(dòng)作 (Action):小狗可執(zhí)行的動(dòng)作(坐下、跳躍、吠叫等)

監(jiān)督學(xué)習(xí)中的學(xué)習(xí)目標(biāo)和強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)機(jī)制有何本質(zhì)區(qū)別?

在監(jiān)督學(xué)習(xí)中,每個(gè)輸入樣本都需配備一個(gè)明確的標(biāo)準(zhǔn)答案,模型通過最小化預(yù)測(cè)值與正確答案間的損失函數(shù)(loss function)進(jìn)行優(yōu)化。而在強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境的交互來學(xué)習(xí) —— 每個(gè)動(dòng)作都沒有明確的標(biāo)準(zhǔn)答案,而是通過環(huán)境反饋的獎(jiǎng)勵(lì)信號(hào)(reward)來調(diào)整其行為。

需要注意,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)通常具有一定的延遲,而且可能非常稀少。例如下棋時(shí),只有游戲結(jié)束時(shí)才能獲得“勝利”或“失敗”的最終獎(jiǎng)勵(lì)。這意味著智能體無法立即判斷單個(gè)動(dòng)作的優(yōu)劣,必須通過長期試錯(cuò)來學(xué)習(xí)如何使累積到的獎(jiǎng)勵(lì)最大化。

這一特性使強(qiáng)化學(xué)習(xí)在缺乏明確標(biāo)準(zhǔn)答案但能獲取反饋的場(chǎng)景中極具優(yōu)勢(shì)。例如訓(xùn)練機(jī)器人行走時(shí),我們無法預(yù)先定義每個(gè)狀態(tài)下關(guān)節(jié)的“正確”角度,但當(dāng)機(jī)器人嘗試不同動(dòng)作后,若成功邁出一步,這一結(jié)果即可作為獎(jiǎng)勵(lì)信號(hào),表明其之前的動(dòng)作是有效的。

回到我們訓(xùn)練小狗的案例,強(qiáng)化學(xué)習(xí)流程如下:

  • 初始階段:小狗(智能體)不理解“坐下”指令,會(huì)在環(huán)境(家中)嘗試各種動(dòng)作(奔跑、坐下、吠叫)。
  • 獎(jiǎng)勵(lì)反饋:每次執(zhí)行坐下的動(dòng)作時(shí)獲得零食(獎(jiǎng)勵(lì))。
  • 最終結(jié)果:小狗逐漸將“坐下”動(dòng)作與獎(jiǎng)勵(lì)關(guān)聯(lián),最終學(xué)會(huì)響應(yīng)指令。

強(qiáng)化學(xué)習(xí)的核心在于通過試錯(cuò)法學(xué)習(xí),而設(shè)計(jì)合理的獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵。獎(jiǎng)勵(lì)必須與目標(biāo)高度對(duì)齊,否則模型無法習(xí)得所需的行為;同時(shí),獎(jiǎng)勵(lì)的計(jì)算應(yīng)盡可能簡(jiǎn)單高效。若獎(jiǎng)勵(lì)生成過程過于復(fù)雜或緩慢,會(huì)導(dǎo)致訓(xùn)練效率低下,難以實(shí)際應(yīng)用。

例如,在游戲場(chǎng)景中,模型的每步動(dòng)作都可從游戲環(huán)境中直接獲得分?jǐn)?shù)獎(jiǎng)勵(lì)(如擊殺敵人+10分),獎(jiǎng)勵(lì)與游戲表現(xiàn)直接掛鉤。

而在現(xiàn)實(shí)任務(wù)中,多數(shù)場(chǎng)景缺乏現(xiàn)成的獎(jiǎng)勵(lì)機(jī)制,需人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。然而,許多復(fù)雜行為難以轉(zhuǎn)化為獎(jiǎng)勵(lì)函數(shù)(如“如何讓智能體的回答更禮貌”中“禮貌”的定義包含語調(diào)、用詞、文化差異等多維度因素)。

這就引出了基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)...

1.3 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)

再次以訓(xùn)練小狗為例,假設(shè)你的小狗最終學(xué)會(huì)了坐下,但有時(shí)會(huì)邊坐邊吠叫,或先跳上沙發(fā)再坐下。此時(shí)該如何糾正?

有了 RLHF,你就不再需要每次坐下都給零食,而是通過比較它的行為給予差異化的獎(jiǎng)勵(lì)。例如:如果小狗安靜地坐在地板上,它得到的獎(jiǎng)勵(lì)就會(huì)比一邊叫一邊坐或跳到沙發(fā)上坐的獎(jiǎng)勵(lì)要多。這樣,即使沒有明確向小狗解釋“安靜”的含義,小狗也能通過獎(jiǎng)勵(lì)的不同知道安靜地坐在地板上更好。

如前文所述,簡(jiǎn)單高效的獎(jiǎng)勵(lì)機(jī)制是 RL 的關(guān)鍵,但直接依賴人類進(jìn)行實(shí)時(shí)反饋(如每次動(dòng)作都需人類評(píng)分)并不現(xiàn)實(shí)。為此,RLHF 通過以下三個(gè)階段實(shí)現(xiàn)規(guī)模化訓(xùn)練:

  • 收集人類反饋:采集模型輸出,由人類標(biāo)注員比較不同回答哪個(gè)更好(如標(biāo)注回答 A 比回答 B 更符合要求)。
  • 訓(xùn)練獎(jiǎng)勵(lì)模型:基于人類標(biāo)注員的偏好數(shù)據(jù),構(gòu)建模擬人類判斷的獎(jiǎng)勵(lì)模型(Reward Model)。
  • 強(qiáng)化學(xué)習(xí)優(yōu)化策略:使用學(xué)習(xí)到的獎(jiǎng)勵(lì)模型替代人工反饋,通過 RL 算法優(yōu)化策略(Policy)。

此處的策略(Policy)是指智能體根據(jù)環(huán)境狀態(tài)選擇動(dòng)作的決策規(guī)則。下圖展示了 InstructGPT 微調(diào)過程中 RLHF 的實(shí)現(xiàn)流程,其核心步驟與上述三階段一致:

image.pngimage.png

圖 2. InstructGPT/ChatGPT 訓(xùn)練過程中的 RLHF 步驟示意圖。(圖片來自文獻(xiàn) [6])

如圖所示,RL 過程主要發(fā)生在第 3 步,通過近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法優(yōu)化策略(policy)。

那么,PPO 算法是如何工作的呢?

為了理解這一點(diǎn),在下一節(jié)中,我們將首先解析強(qiáng)化學(xué)習(xí)的三大基礎(chǔ)范式:基于價(jià)值的方法(Value-based)、基于策略的方法(Policy-based)和 Actor-Critic 方法。

2.強(qiáng)化學(xué)習(xí)范式

在深入研究所有數(shù)學(xué)細(xì)節(jié)之前,讓我們先來解釋一下強(qiáng)化學(xué)習(xí)背景下的價(jià)值函數(shù)(value functions)和策略(policy)。

在強(qiáng)化學(xué)習(xí)中,價(jià)值函數(shù)(value functions)表示智能體在狀態(tài) s 采取動(dòng)作 a 并遵循策略 π 后,所能獲得的預(yù)期收益:

image.pngimage.png

其中

  • R_t 表示智能體在第 t 個(gè)時(shí)間步執(zhí)行某個(gè)動(dòng)作后,環(huán)境給出的即時(shí)反饋(獎(jiǎng)勵(lì))。
  • γ 稱為折扣因子,用于量化未來獎(jiǎng)勵(lì)的價(jià)值

這里需要提及幾點(diǎn):

  • 我們需要考慮未來收益的原因是:強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)通常具有延遲性,因此不能根據(jù)即時(shí)收益判斷某個(gè)動(dòng)作的好壞。
  • 引入折扣因子有助于平衡短期獎(jiǎng)勵(lì)與長期收益。它還能穩(wěn)定訓(xùn)練過程并加速模型收斂,因?yàn)楫?dāng) γ 取值在 0 到 1 之間時(shí),能確保價(jià)值函數(shù)不會(huì)無限增大,始終保持在一個(gè)合理范圍內(nèi)。
  • 上述價(jià)值函數(shù)定義涉及策略 π,它可以被視為智能體遵循的決策策略,用于決定在給定狀態(tài)下采取何種行動(dòng),通常表示為從狀態(tài)(states)到動(dòng)作概率(action probabilities)的映射

上述關(guān)于價(jià)值函數(shù)(value functions)和策略(policy)的定義表明,RL 智能體可以通過優(yōu)化價(jià)值函數(shù)或策略來進(jìn)行訓(xùn)練。這就產(chǎn)生了三種不同的訓(xùn)練范式:基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí),以及 Actor-Critic 強(qiáng)化學(xué)習(xí)。

2.1 基于價(jià)值的強(qiáng)化學(xué)習(xí)

基于價(jià)值的強(qiáng)化學(xué)習(xí)方法根據(jù)貝爾曼方程[8]更新價(jià)值函數(shù),該方程將狀態(tài)價(jià)值(the value of a state)分解為兩個(gè)部分:即時(shí)獎(jiǎng)勵(lì)(the immediate reward)和下一狀態(tài)的折扣價(jià)值(the discounted value of the next state)。

以Q-learning[7]為例,其價(jià)值函數(shù)可通過以下公式更新:

image.pngimage.png

其中

  • alpha 是用于結(jié)合即時(shí)價(jià)值與未來價(jià)值的學(xué)習(xí)率
  • Q(S_t, A_t) 表示當(dāng)前狀態(tài)的即時(shí)價(jià)值
  • R_{t+1} 表示在狀態(tài) S_t 下采取行動(dòng) A_t 后觀察到的獎(jiǎng)勵(lì)
  • Q(S_{t+1}, a) 表示在下一狀態(tài)采取行動(dòng) a 時(shí)的價(jià)值,因此對(duì) a 取 max 可得到從 S_{t+1} 狀態(tài)能獲得的最大獎(jiǎng)勵(lì)

具體而言,更新過程如下所示:

  • 初始化:我們以隨機(jī)的 Q(S_t, A_t) 值開始
  • 與環(huán)境交互:在時(shí)間步 t,智能體在狀態(tài) S_t 選擇行動(dòng) A_t,隨后從環(huán)境獲得獎(jiǎng)勵(lì) R_{t+1},并轉(zhuǎn)移到下一狀態(tài) S_{t+1}
  • 使用上述規(guī)則更新價(jià)值函數(shù)
  • 重復(fù)該過程直至收斂

然而,上述更新過程涉及 argmax 運(yùn)算,這在具有無限種可能動(dòng)作的連續(xù)動(dòng)作空間(continuous action space)中是難以實(shí)現(xiàn)的。這是因?yàn)閷?duì)所有動(dòng)作計(jì)算 argmax 需要在每個(gè)學(xué)習(xí)步驟中進(jìn)行全局優(yōu)化,計(jì)算成本極高。

當(dāng)使用 Q 網(wǎng)絡(luò)(如深度 Q 網(wǎng)絡(luò)(DQN))時(shí),這種情況還會(huì)伴隨訓(xùn)練不穩(wěn)定問題而更加復(fù)雜。由于 Q 網(wǎng)絡(luò)通常是非凸的,有時(shí) Q(s, a) 的微小更新就可能導(dǎo)致行為選擇發(fā)生巨大變化。

因此,基于價(jià)值的強(qiáng)化學(xué)習(xí)通常適用于離散的動(dòng)作空間場(chǎng)景,且最好具有較少的可選動(dòng)作,例如 Atari 游戲或 AlphaGo 中的 DQN 應(yīng)用。

但如果必須處理連續(xù)或大規(guī)模動(dòng)作空間呢?這時(shí)就需要基于策略的強(qiáng)化學(xué)習(xí)方法。

2.2 基于策略的強(qiáng)化學(xué)習(xí)

如前文所述,策略(Policy)指智能體用于決定采取何種行為的規(guī)則,是狀態(tài)到行為概率的映射:

image.pngimage.png

其中,策略 π(a|s) 通常是一個(gè)可微函數(shù),比如神經(jīng)網(wǎng)絡(luò),而 θ 就是這個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)。

因此,與基于價(jià)值的強(qiáng)化學(xué)習(xí)在動(dòng)作空間中進(jìn)行搜索不同,基于策略的強(qiáng)化學(xué)習(xí)在參數(shù)空間(θ)中進(jìn)行搜索,以最大化預(yù)期的獎(jiǎng)勵(lì)。

具體而言,基于策略的強(qiáng)化學(xué)習(xí)通過使用策略梯度算法(policy gradient)進(jìn)行梯度上升來優(yōu)化策略網(wǎng)絡(luò):

image.pngimage.png

在策略梯度算法中,梯度估計(jì)量的數(shù)學(xué)表達(dá)式通常呈現(xiàn)為:

image.pngimage.png

其中 R 是累計(jì)收益(即各時(shí)間步獎(jiǎng)勵(lì)之和)。

通過引入策略梯度算法,基于策略的強(qiáng)化學(xué)習(xí)消除了在動(dòng)作空間計(jì)算 argmax 的需求,使其更適用于大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景。

然而,策略梯度的計(jì)算仍然具有挑戰(zhàn)性。在圍棋等現(xiàn)實(shí)世界的強(qiáng)化學(xué)習(xí)任務(wù)中,收益通常取決于整個(gè)事件的累計(jì)獎(jiǎng)勵(lì),而且可能包含大量噪聲,這會(huì)導(dǎo)致策略梯度的方差較大并引發(fā)訓(xùn)練的不穩(wěn)定。

為解決該問題,Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過結(jié)合基于價(jià)值和基于策略的方法,降低方差并提升訓(xùn)練的穩(wěn)定性。

2.3 Actor-Critic 強(qiáng)化學(xué)習(xí)方法

Actor-Critic 強(qiáng)化學(xué)習(xí)方法是綜合基于價(jià)值和基于策略的強(qiáng)化學(xué)習(xí)方法的優(yōu)勢(shì)設(shè)計(jì)而成,其核心結(jié)構(gòu)包含:

  • 策略網(wǎng)絡(luò)(稱為 Actor)用于選擇動(dòng)作
  • 價(jià)值函數(shù)(稱為 Critic)用于評(píng)估動(dòng)作

由于動(dòng)作選擇由策略網(wǎng)絡(luò)處理,Actor-Critic 方法同樣適用于大規(guī)模或連續(xù)動(dòng)作空間。此外,通過引入 Critic 網(wǎng)絡(luò),該方法能夠降低策略梯度的方差并提升訓(xùn)練穩(wěn)定性。

具體而言,原始策略梯度中的累計(jì)收益 R 被優(yōu)勢(shì)函數(shù)(Advantage Function)所替代:

image.pngimage.png

其中

  • Q(s, a) 表示在狀態(tài) s 采取動(dòng)作 a 的預(yù)期收益
  • V(s) 是基線價(jià)值函數(shù),用于估計(jì)當(dāng)前狀態(tài)的預(yù)期收益

通過引入基線價(jià)值函數(shù) V(s),優(yōu)勢(shì)函數(shù)通過將每個(gè)動(dòng)作的獎(jiǎng)勵(lì)值減去該狀態(tài)下的預(yù)期收益,實(shí)現(xiàn)對(duì)獎(jiǎng)勵(lì)的“歸一化”,從而穩(wěn)定學(xué)習(xí)過程,防止因高方差獎(jiǎng)勵(lì)信號(hào)導(dǎo)致的大幅度參數(shù)更新。

基于此,策略梯度可被改寫為:

image.pngimage.png

Actor-Critic 方法被廣泛應(yīng)用于涉及大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景,例如 LLM 對(duì)齊過程中的 RLHF 訓(xùn)練,以及先進(jìn)機(jī)器人技術(shù)和自動(dòng)駕駛系統(tǒng)的開發(fā)。

盡管在許多應(yīng)用中取得成功,Actor-Critic 方法仍面臨訓(xùn)練不穩(wěn)定和超參數(shù)敏感性有關(guān)的挑戰(zhàn),因?yàn)樵摲椒ㄐ枰瑫r(shí)訓(xùn)練 Actor 和 Critic 網(wǎng)絡(luò),而保持兩者之間的平衡更新可能較為困難。

在下一節(jié),我們將解釋深度求索(DeepSeek)的 GRPO 方法如何解決這些挑戰(zhàn)。

3.群組相對(duì)策略優(yōu)化(GRPO)

為了更好地理解 GRPO,我們先來簡(jiǎn)要回顧兩種啟發(fā)它的常用 Actor-Critic 方法:置信域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO)。

3.1 置信域策略優(yōu)化(TRPO)

如前文所述,Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過用優(yōu)勢(shì)函數(shù)計(jì)算策略梯度的估計(jì)值來優(yōu)化策略網(wǎng)絡(luò),其梯度估計(jì)值可通過微分以下目標(biāo)函數(shù)獲得:

image.pngimage.png

這種方法的一個(gè)缺點(diǎn)是容易導(dǎo)致策略更新幅度過大,從而導(dǎo)致強(qiáng)化學(xué)習(xí)過程的不穩(wěn)定。為解決這一問題,TRPO [4] 通過限制策略更新的幅度,引入了一個(gè)替代目標(biāo)函數(shù)(surrogate objective function):

image.pngimage.png

其中,π_θ 和 π_(θ_old) 分別表示更新后的策略網(wǎng)絡(luò)和更新前的參考策略網(wǎng)絡(luò)。

上述目標(biāo)函數(shù)明確區(qū)分了新舊策略網(wǎng)絡(luò),并以兩者的 KL 散度作為約束條件(KL 散度常用于衡量概率分布之間的差異)。

3.2 近端策略優(yōu)化(PPO)

基于穩(wěn)定策略梯度的思想,PPO [5] 通過引入“裁剪后的替代目標(biāo)函數(shù)”(clipped surrogate objective)進(jìn)一步改進(jìn)了 TRPO。

具體而言,PPO 首先定義了新舊策略網(wǎng)絡(luò)之間的概率比:

image.pngimage.png

隨后將 TRPO 的目標(biāo)函數(shù)改寫為:

image.pngimage.png

其中 CPI 表示保守策略迭代框架(Conservative Policy Iteration)。

在此基礎(chǔ)之上,“裁剪后的替代目標(biāo)函數(shù)”可表示為:

image.pngimage.png

其中:

  • min() 中的第一項(xiàng)與 TRPO 相同,即L^{CPI}
  • min() 中的第二項(xiàng)會(huì)通過超參數(shù) ? 將概率比裁剪至區(qū)間[1 ? ?, 1 +?]

PPO 算法通過對(duì)未裁剪的和裁剪后的目標(biāo)函數(shù)應(yīng)用 min() 操作,相當(dāng)于為原始的“未裁剪目標(biāo)函數(shù)”設(shè)定一個(gè)下界,從而實(shí)現(xiàn)更保守的參數(shù)更新,避免訓(xùn)練過程中出現(xiàn)劇烈波動(dòng),從而提升整體穩(wěn)定性。

PPO 被廣泛應(yīng)用于大語言模型訓(xùn)練(如 InstructGPT [6])。然而,該方法仍然存在與前文提到的 actor-critic 方法面臨的相同挑戰(zhàn)。此外,隨著大語言模型規(guī)模的持續(xù)增長,維護(hù)獨(dú)立的價(jià)值網(wǎng)絡(luò)(value network)的成本顯著增加,因?yàn)閮r(jià)值網(wǎng)絡(luò)的規(guī)模通常與策略模型相當(dāng)。

在下一節(jié)中,我們將解釋 GRPO 如何消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求。

3.3 群組相對(duì)策略優(yōu)化(GRPO)

GRPO 的核心思想是在保持訓(xùn)練穩(wěn)定性的同時(shí)消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求,這使得 GRPO 成為一種完全基于策略的強(qiáng)化學(xué)習(xí)方法。

為清晰展示 PPO 與 GRPO 的區(qū)別,我們先將 PPO 的目標(biāo)函數(shù)改寫如下:

image.pngimage.png

其中 q 和 o 分別是從問題數(shù)據(jù)集和舊策略網(wǎng)絡(luò)中采樣的問題和輸出。該目標(biāo)函數(shù)通過基于問題樣本的組別劃分計(jì)算均值,使其更容易擴(kuò)展至 GRPO[3] 中提出的分組結(jié)構(gòu)。

具體來說:

image.pngimage.png

其中,懲罰項(xiàng)(penalty term)被定義為無偏差的 KL 散度:

image.pngimage.png

而優(yōu)勢(shì)值 A_i 的計(jì)算方式為:

image.pngimage.png

其中,r_1 至 r_G 表示每組內(nèi)各輸出對(duì)應(yīng)的獎(jiǎng)勵(lì)。這種分組結(jié)構(gòu)在 GRPO 中至關(guān)重要,因?yàn)槊總€(gè)用戶問題(query)都具有獨(dú)特性,若直接基于不同用戶問題(query)的全局獎(jiǎng)勵(lì)計(jì)算歸一化后的優(yōu)勢(shì)值,對(duì)模型更新的指導(dǎo)意義較弱。

GRPO 與 PPO 的關(guān)鍵區(qū)別在于:通過使用各組內(nèi)的相對(duì)獎(jiǎng)勵(lì)來估算優(yōu)勢(shì)函數(shù),完全消除了對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求,使其成為完全基于策略的 RL 方法而非 Actor-Critic 架構(gòu)。

如前文所述,移除價(jià)值網(wǎng)絡(luò)顯著降低了訓(xùn)練資源的需求(因?yàn)閮r(jià)值網(wǎng)絡(luò)通常與策略模型規(guī)模相當(dāng))。此外,這一設(shè)計(jì)還能通過避免優(yōu)化兩個(gè)獨(dú)立網(wǎng)絡(luò)產(chǎn)生的復(fù)雜問題,提高了訓(xùn)練過程的穩(wěn)定性。

但為什么這種方法可行呢?

請(qǐng)回顧一下優(yōu)勢(shì)函數(shù)的本質(zhì):它衡量的是特定動(dòng)作相較于給定狀態(tài)下預(yù)期收益的優(yōu)劣程度。在 PPO 中,這通過價(jià)值函數(shù) Q(s,a) 與基線價(jià)值函數(shù) V(s) 的差值來估算。

這意味著,只要定義的指標(biāo)能等價(jià)表示「當(dāng)前動(dòng)作相對(duì)于該狀態(tài)預(yù)期收益的優(yōu)劣程度」,即可直接替代傳統(tǒng)優(yōu)勢(shì)函數(shù)。

在 GRPO 中,該指標(biāo)是在每組之內(nèi)計(jì)算的(每組可視為一個(gè) query),因?yàn)閯澐值倪@些組本質(zhì)上代表智能體所處的狀態(tài)。因此,通過比較特定動(dòng)作的獎(jiǎng)勵(lì)與同組內(nèi)其他采樣動(dòng)作的獎(jiǎng)勵(lì),GRPO 能夠自然推導(dǎo)出優(yōu)勢(shì)函數(shù)的估計(jì)值。

下圖對(duì)比了 PPO 和 GRPO,注意后者沒有價(jià)值模型(value model):

圖 3.  PPO vs. GRPO。圖片引自文獻(xiàn) [3]圖 3. PPO vs. GRPO。圖片引自文獻(xiàn) [3]

以下算法總結(jié)了 GRPO 的實(shí)現(xiàn)方式:

圖 4. GRPO 算法。圖片引自文獻(xiàn)[3]圖 4. GRPO 算法。圖片引自文獻(xiàn)[3]

4.Summary

本文全面介紹了理解深度求索(DeepSeek)提出的群組相對(duì)策略優(yōu)化(Grouped Relative Policy Optimization, GRPO)技術(shù)所需的強(qiáng)化學(xué)習(xí)基礎(chǔ)概念。

我們首先從宏觀層面探討了強(qiáng)化學(xué)習(xí)對(duì)大語言模型訓(xùn)練的關(guān)鍵作用,強(qiáng)調(diào)了其在監(jiān)督學(xué)習(xí)之外實(shí)現(xiàn)模型輸出與人類偏好保持一致的價(jià)值。隨后,探討了強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的工作原理,說明獎(jiǎng)勵(lì)模型如何協(xié)助大語言模型行為與人類偏好對(duì)齊。

為建立堅(jiān)實(shí)的認(rèn)知基礎(chǔ),我們介紹強(qiáng)化學(xué)習(xí)的三大范式——基于價(jià)值(value-based)、基于策略(policy-based)以及 actor-critic 方法,分別闡述其優(yōu)勢(shì)、局限性和實(shí)際應(yīng)用場(chǎng)景。

在此基礎(chǔ)上,我們進(jìn)一步分析了兩種廣泛使用的 actor-critic 方法:置信域策略優(yōu)化(Trust Region Policy Optimization, TRPO)和近端策略優(yōu)化(Proximal Policy Optimization, PPO)。最后重點(diǎn)介紹深度求索提出的 GRPO 方法,展示其如何通過分組結(jié)構(gòu)和相對(duì)優(yōu)勢(shì)估計(jì)(relative advantage estimation)改進(jìn) PPO 框架。

Reference

[1] DeepSeek(https://www.deepseek.com/)

[2] DeepSeek-V3 Technical Report(https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)

[3] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models(https://arxiv.org/abs/2402.03300)

[4] Trust Region Policy Optimization(https://arxiv.org/abs/1502.05477)

[5] Proximal Policy Optimization Algorithms(https://arxiv.org/abs/1707.06347)

[6] Training Language Models to Follow Instructions with Human Feedback(https://arxiv.org/pdf/2203.02155)

[7] Q-learning(https://en.wikipedia.org/wiki/Q-learning)

[8] Bellman Equation(https://en.wikipedia.org/wiki/Bellman_equation#Bellman's_principle_of_optimality)

責(zé)任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2025-03-11 01:00:00

GRPO算法模型

2025-06-05 06:36:17

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-03-28 10:16:15

2025-02-17 10:40:20

2025-06-10 11:22:09

強(qiáng)化學(xué)習(xí)AI模型

2023-06-25 11:30:47

可視化

2024-09-05 08:23:58

2025-04-25 13:34:53

R1DeepSeekAgent

2025-03-07 09:24:00

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2024-01-26 08:31:49

2024-10-12 17:14:12

2025-05-12 08:24:01

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能

2020-12-02 13:24:07

強(qiáng)化學(xué)習(xí)算法

2025-05-01 10:33:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲午夜精品一区二区三区他趣 | 欧美一区不卡 | 99免费看 | a在线免费观看 | 国产精品污www一区二区三区 | 夜夜草视频 | 国产精品综合一区二区 | 国产一区二区三区在线观看免费 | 91精品在线播放 | 日本精品一区二区三区视频 | 欧美日韩电影一区二区 | 中文字幕精品一区 | 亚洲va欧美va人人爽午夜 | 日韩一区二区三区在线 | 成人免费观看男女羞羞视频 | 91观看| 国产成人精品网站 | 伊人色综合久久天天五月婷 | 成人国产午夜在线观看 | 久久精品无码一区二区三区 | 午夜影院在线观看免费 | 国产精品久久久久久久久久 | 国产黄a一级 | 国产真实精品久久二三区 | 中文字幕在线免费观看 | 九九热热九九 | 日本小电影在线 | 欧美一a一片一级一片 | 91久久精品国产91久久 | 精品视频一区二区三区在线观看 | 久久国产一区 | av天空| 日韩欧美天堂 | 精品在线一区 | 欧美 日韩 中文 | 天天草天天操 | 精品一二三区视频 | 操操操操操 | 亚洲精品无 | 久久狠狠| 在线观看第一区 |