成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從底層重構(gòu)強(qiáng)化學(xué)習(xí)訓(xùn)練框架,阿里高德開(kāi)源新方法:拋棄替代損失函數(shù),僅需優(yōu)化原始目標(biāo)

人工智能 新聞
在本文中,作者介紹了GPG,它有效地解決了強(qiáng)化微調(diào)方法(如PPO和GRPO)中現(xiàn)有的關(guān)鍵挑戰(zhàn)。

拋棄替代損失函數(shù),僅需優(yōu)化原始目標(biāo), 強(qiáng)化學(xué)習(xí)新范式來(lái)了:

消除critic和reference模型,避免KL散度約束;解決優(yōu)勢(shì)函數(shù)和梯度估計(jì)兩個(gè)偏差。

來(lái)自阿里-高德地圖的團(tuán)隊(duì)提出了一種相當(dāng)簡(jiǎn)單的強(qiáng)化學(xué)習(xí)訓(xùn)練新方法:組策略梯度優(yōu)化GPG (Group Policy Gradient)。

GPG開(kāi)創(chuàng)性地從底層重構(gòu)強(qiáng)化學(xué)習(xí)訓(xùn)練框架,僅需優(yōu)化原始目標(biāo),解決已有方法偏差,提高訓(xùn)練效率。革新強(qiáng)化學(xué)習(xí)訓(xùn)練流程,推動(dòng)智能體性能突破。

在實(shí)驗(yàn)中,GPG在單模態(tài)和多模態(tài)兩類任務(wù)中表現(xiàn)遙遙領(lǐng)先,其極簡(jiǎn)架構(gòu)高性能表現(xiàn),有望成為下一代基礎(chǔ)模型訓(xùn)練的關(guān)鍵方法。

圖片

以下是更多GPG有關(guān)細(xì)節(jié)。

背景介紹

近年來(lái),以O(shè)penAI和DeepSeek R1為代表的LLMs模型表現(xiàn)亮眼,深究成功背后,是強(qiáng)化微調(diào)技術(shù)(RFT)聯(lián)合現(xiàn)有強(qiáng)化學(xué)習(xí)方法(如PPO、GPPO)在激勵(lì)模型構(gòu)建嚴(yán)謹(jǐn)?shù)耐评礞溕习l(fā)揮了關(guān)鍵作用。

但在面對(duì)高昂的訓(xùn)練成本與性能平衡,主流方法PPO也陷入巨大瓶頸,與此同時(shí),其他研究團(tuán)隊(duì)也在嘗試使用ReMax、GRPO等簡(jiǎn)化訓(xùn)練流程,并在性能上取得了很大的突破,但他們都依然存在一些問(wèn)題。

研究團(tuán)隊(duì)認(rèn)為,當(dāng)前針對(duì)RL算法的優(yōu)化都在圍繞替代損失函數(shù)展開(kāi),但兩個(gè)核心問(wèn)題始終懸而未決:

1.能否繞過(guò)替代策略,直接優(yōu)化原始目標(biāo)函數(shù)?2.如何最大限度簡(jiǎn)化學(xué)習(xí)策略的設(shè)計(jì)?

由此,團(tuán)隊(duì)提出了GPG,其核心創(chuàng)新包括:

  • 直接目標(biāo)優(yōu)化:摒棄傳統(tǒng)替代損失函數(shù)設(shè)計(jì),直接優(yōu)化原始強(qiáng)化學(xué)習(xí)目標(biāo),突破算法效率瓶頸。
  • 極簡(jiǎn)訓(xùn)練架構(gòu):無(wú)需評(píng)論模型和參考模型支持,擺脫分布約束,為模型擴(kuò)展性提供更大空間。
  • 精準(zhǔn)梯度估計(jì)技術(shù) (AGE):首次揭示現(xiàn)有方法的獎(jiǎng)勵(lì)偏差問(wèn)題,提出輕量化且高精度的梯度估計(jì)方案,顯著提升策略穩(wěn)定性。
  • 單模態(tài)多模態(tài)任務(wù)SOTA驗(yàn)證 :在數(shù)學(xué)推理、視覺(jué)理解、跨模態(tài)推理等任務(wù)中,GPG性能全面超越現(xiàn)有方法,驗(yàn)證其通用性與魯棒性。

圖片

組策略梯度GPG方法

方法對(duì)比

各種強(qiáng)化學(xué)習(xí)方法的比較,作者以最簡(jiǎn)單的形式解釋:

圖片

下面是GPG方法和已有RL方法各個(gè)模塊的對(duì)比:

圖片

GPG方法

GPG旨在解決在沒(méi)有價(jià)值模型的情況下,策略梯度估計(jì)中的高方差問(wèn)題。通過(guò)利用group-level的獎(jiǎng)勵(lì) ,GPG穩(wěn)定了訓(xùn)練過(guò)程并增強(qiáng)了強(qiáng)化學(xué)習(xí)訓(xùn)練的魯棒性。

具體而言,GPG利用每個(gè)Group內(nèi)的平均獎(jiǎng)勵(lì)來(lái)歸一化獎(jiǎng)勵(lì),從而有效降低方差。這個(gè)方法可以移除傳統(tǒng)的價(jià)值模型,從而簡(jiǎn)化了訓(xùn)練過(guò)程并提高了計(jì)算效率。 GPG的名稱反映了作者方法核心機(jī)制,即利用group-level的平均獎(jiǎng)勵(lì)來(lái)穩(wěn)定和優(yōu)化學(xué)習(xí)。

GPG的核心優(yōu)化目標(biāo)定義為:

圖片

作者提出的GPG方法通過(guò)組內(nèi)優(yōu)勢(shì)函數(shù)計(jì)算梯度校正機(jī)制實(shí)現(xiàn)了高效穩(wěn)定的策略優(yōu)化。在優(yōu)勢(shì)函數(shù)設(shè)計(jì)上,采用組內(nèi)獎(jiǎng)勵(lì)均值歸一化方法

圖片

其中圖片可根據(jù)任務(wù)特性靈活選擇std或保持為1,這種設(shè)計(jì)有效抑制了異常值干擾。對(duì)于數(shù)學(xué)推理等二元獎(jiǎng)勵(lì)場(chǎng)景(正確1.0/錯(cuò)誤0.0),該方法展現(xiàn)出良好的適應(yīng)性。

現(xiàn)有RL方法中的兩個(gè)bias

優(yōu)勢(shì)函數(shù)中的bias

GRPO方法的優(yōu)勢(shì)函數(shù)中,圖片,這部分是PG方法中的state部分,這表明GRPO優(yōu)勢(shì)函數(shù)明確引入了獎(jiǎng)勵(lì)偏差。DR.GRPO方法圖片,但是作者發(fā)現(xiàn)它無(wú)法明顯超過(guò)GRPO方法。見(jiàn)下表:

圖片

組內(nèi)樣本全對(duì)全錯(cuò)時(shí),引入梯度估計(jì)的bias

當(dāng)一個(gè)組內(nèi)的樣本,模型預(yù)測(cè)全對(duì)或全錯(cuò)則會(huì)引入對(duì)梯度估計(jì)的bias。給定批量大小為圖片的訓(xùn)練批次,設(shè)第個(gè)樣本的梯度表示為圖片

不失一般性,假設(shè)批次中的前圖片個(gè)模型輸出的示例都正確或錯(cuò)誤,標(biāo)準(zhǔn)反向傳播(BP)算法估計(jì)梯度為:圖片。然而,前圖片個(gè)示例不適用于梯度估計(jì),并貢獻(xiàn)零梯度。

圖片

△圖 1(左)在一個(gè)組中,所有獎(jiǎng)勵(lì)都是0的簡(jiǎn)單問(wèn)題的比例和所有獎(jiǎng)勵(lì)都是1的困難問(wèn)題的比例。(右)獎(jiǎng)勵(lì)在各步驟間的標(biāo)準(zhǔn)差。

針對(duì)組內(nèi)全對(duì)/全錯(cuò)樣本的梯度估計(jì)bias問(wèn)題,GPG創(chuàng)新性地引入動(dòng)態(tài)梯度校正因子。通過(guò)圖片公式自動(dòng)調(diào)節(jié)有效樣本權(quán)重,其中圖片為批次大小,圖片為無(wú)效樣本數(shù)。

圖片

實(shí)驗(yàn)表明該機(jī)制可使模型準(zhǔn)確率從43.9%提升至47.8%,顯著改善訓(xùn)練穩(wěn)定性。

實(shí)驗(yàn)

在單模態(tài)數(shù)據(jù)集上的結(jié)果

圖片

圖片

在多模態(tài)數(shù)據(jù)集上的結(jié)果

圖片

圖片

結(jié)論

在本文中,作者介紹了GPG,它有效地解決了強(qiáng)化微調(diào)方法(如PPO和GRPO)中現(xiàn)有的關(guān)鍵挑戰(zhàn)。

通過(guò)將基于組內(nèi)的決策動(dòng)態(tài)直接納入標(biāo)準(zhǔn)的PG方法,GPG簡(jiǎn)化了訓(xùn)練過(guò)程,并顯著減少了計(jì)算開(kāi)銷(xiāo),而不削弱模型效果。這一突破為訓(xùn)練能夠進(jìn)行復(fù)雜推理的先進(jìn)LLM提供了更高效的框架,從而為更具資源效率和可擴(kuò)展性的人工智能系統(tǒng)做出了貢獻(xiàn)。

此外,團(tuán)隊(duì)將本文代碼全面開(kāi)源,希望促進(jìn)技術(shù)透明化發(fā)展,也鼓勵(lì)更多人參與到該項(xiàng)工作中來(lái)。

論文鏈接:https://arxiv.org/pdf/2504.02546代碼鏈接:https://github.com/AMAP-ML/GPG

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-03-07 09:24:00

2025-06-03 08:49:00

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2025-06-05 02:33:00

標(biāo)注數(shù)據(jù)EM優(yōu)化

2025-06-27 04:00:00

RLSC強(qiáng)化學(xué)習(xí)微調(diào)

2025-04-25 09:12:00

2017-03-28 10:15:07

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開(kāi)發(fā)

2020-11-16 08:54:05

Google 開(kāi)源技術(shù)

2021-11-26 18:37:39

技術(shù)人工智能計(jì)算機(jī)

2021-07-22 15:25:14

開(kāi)源技術(shù) 框架

2011-12-01 14:15:19

信息優(yōu)化惠普

2021-10-11 17:15:30

AI 數(shù)據(jù)人工智能

2017-02-24 13:27:37

阿里開(kāi)源

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2012-06-19 13:15:58

WANSharePoint

2023-11-15 14:55:00

2025-06-25 09:28:38

2025-06-25 13:44:09

開(kāi)源訓(xùn)練模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品久久久久婷婷二区次 | 国产精品一区二区久久久久 | 国产成人精品一区二区三区在线 | 99精品国自产在线观看 | 老司机深夜福利网站 | 成人影院一区二区三区 | 亚洲一区综合 | 欧美成ee人免费视频 | 天天精品在线 | 精品国产91亚洲一区二区三区www | 成人小视频在线观看 | 国产精品99久久久久久宅男 | 91久久久久 | 中文字幕第5页 | 91精品国产乱码麻豆白嫩 | 亚洲精品一区二区在线观看 | 天堂素人约啪 | 伊人久久伊人 | 日韩欧美一级精品久久 | 欧美一级久久 | 亚洲国产成人精品女人久久久野战 | 日本不卡一区二区三区在线观看 | 精品久久久久一区二区国产 | 日本午夜一区二区三区 | 一区二区伦理电影 | 91精品在线播放 | 精品国产欧美一区二区三区不卡 | 久久99精品国产自在现线小黄鸭 | 综合九九| 亚洲高清久久 | 狠狠狠干| 一级毛片视频免费观看 | 国精久久| 一级国产精品一级国产精品片 | 欧美日韩综合 | 久久久噜噜噜www成人网 | 欧美一级片在线 | 一区二区免费在线视频 | 国产精品久久久久久久久免费樱桃 | 欧美成人精品一区二区三区 | 99精品视频一区二区三区 |