成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SFT+RL雙管齊下:ReasonGen-R1如何破解文生圖「指令不遵」難題?

人工智能 新聞
近期,上海科技大學(xué)、微軟亞洲研究院和復(fù)旦大學(xué)提出了 ReasonGen-R1 框架,一個(gè)兩階段訓(xùn)練框架,將鏈?zhǔn)酵评肀O(jiān)督微調(diào)(Supervised Fine-tuning)與強(qiáng)化學(xué)習(xí)(Reinforcement Learning)相結(jié)合,以提升自回歸圖像生成模型的推理和創(chuàng)作能力。

近年來,鏈?zhǔn)酵评砗蛷?qiáng)化學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于大語言模型,讓大語言模型的推理能力得到了顯著提升。然而,在圖像生成模型中,這種成功經(jīng)驗(yàn)尚未得到充分探索。圖像生成模型往往直接依據(jù)給定文本生成圖像,缺乏類似人類創(chuàng)作過程中的推理,導(dǎo)致生成的圖像在語義遵循上仍有一定局限。

近期,上海科技大學(xué)、微軟亞洲研究院和復(fù)旦大學(xué)提出了 ReasonGen-R1 框架,一個(gè)兩階段訓(xùn)練框架,將鏈?zhǔn)酵评肀O(jiān)督微調(diào)(Supervised Fine-tuning)與強(qiáng)化學(xué)習(xí)(Reinforcement Learning)相結(jié)合,以提升自回歸圖像生成模型的推理和創(chuàng)作能力。ReasonGen-R1 使得自回歸圖像生成模型可以端到端地在輸出圖片之前先進(jìn)行文本「思考」,大幅提升了基座模型的語義遵循能力,并在多個(gè)語義指標(biāo)上取得突破。

目前,ReasonGen-R1 已全面開源(包括訓(xùn)練、評(píng)測(cè)代碼,訓(xùn)練數(shù)據(jù)以及模型)。

圖片

  • 論文標(biāo)題:ReasonGen-R1: CoT for Autoregressive Image Generation model through SFT and RL
  • Arxiv 地址:https://arxiv.org/abs/2505.24875
  • 代碼地址:https://github.com/Franklin-Zhang0/ReasonGen-R1
  • 項(xiàng)目主頁:https://reasongen-r1.github.io

方法概覽

ReasonGen-R1 的訓(xùn)練包括兩個(gè)核心階段:監(jiān)督微調(diào)階段(SFT)以及強(qiáng)化學(xué)習(xí)階段(RL)。

監(jiān)督微調(diào)階段首先構(gòu)建了一個(gè)大規(guī)模圖片生成推理數(shù)據(jù)集,共包含 20 萬條圖像-文本對(duì)。該數(shù)據(jù)集基于 LAION 美學(xué)子集,利用 GPT-4.1 根據(jù)圖片自動(dòng)生成兩類描述:一是多樣化的簡(jiǎn)潔圖片描述(包括常規(guī)敘述、基于標(biāo)簽和以物體為中心的敘述),二是豐富的推理式 CoT(chain-of-thought)敘述。多風(fēng)格的簡(jiǎn)潔圖片描述設(shè)計(jì)有效避免了模型在 SFT 階段對(duì)單一 prompt 模式的過擬合。

隨后,ReasonGen-R1 按照「Prompt → CoT → <img_start> → Image」的 token 順序進(jìn)行 SFT 微調(diào),使得基座模型擁有了初步的在圖像生成之前進(jìn)行文本「思考」的能力。

圖1. ReasonGen-R1 模型架構(gòu)概覽。ReasonGen-R1通過監(jiān)督微調(diào)(SFT)以及強(qiáng)化學(xué)習(xí)(RL)使得模型可以先進(jìn)行鏈?zhǔn)酵评恚偕勺罱K圖片。

強(qiáng)化學(xué)習(xí)階段通過 Group Relative Policy Optimization(GRPO)進(jìn)一步優(yōu)化模型輸出。為了有效評(píng)價(jià)生成輸出圖像的質(zhì)量和輸入文本-輸出圖像的一致性,ReasonGen-R1 采用了預(yù)訓(xùn)練視覺語言模型 Qwen-2.5-VL-7B 作為獎(jiǎng)勵(lì)模型,讓其對(duì)于每個(gè)輸出圖片,根據(jù)圖片以及輸入文本是否一致,給出 0、1 獎(jiǎng)勵(lì)。

圖片

圖2. ReasonGen-R1強(qiáng)化學(xué)習(xí)框架概覽。

此外,為確保訓(xùn)練穩(wěn)定性,ReasonGen-R1 提出了一種改進(jìn)的自適應(yīng)熵?fù)p失函數(shù),該損失函數(shù)能夠?qū)⑤敵?token 的熵動(dòng)態(tài)調(diào)節(jié)到目標(biāo)熵附近,有效防止了在文本圖像混合強(qiáng)化訓(xùn)練過程中訓(xùn)練不穩(wěn)定導(dǎo)致模式崩塌的問題。

圖片

圖3. 自適應(yīng)熵?fù)p失中用于更新熵?fù)p失參數(shù)的loss function

ReasonGen-R1 實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)基于 Janus-Pro-7B 模型對(duì) ReasonGen-R1 進(jìn)行了全方面測(cè)試,選取了三個(gè)圖像生成語義遵循指標(biāo):GenEval、DPG-Bench 以及 T2I-Benchmark。

如圖 4 所示,ReasonGen-R1 在所有指標(biāo)上都較基座模型有了顯著的提升。這些結(jié)果表明,將文本推理通過 SFT-RL 的框架應(yīng)用于圖片生成,能夠顯著提升自回歸圖像生成模型的性能。

圖片

圖4. 左圖:基座模型Janus-Pro-7B和ReasonGen-R1生成圖像可視化比較;右圖:三個(gè)指令遵循指標(biāo)上的表現(xiàn)比較。ReasonGen-R1在所有指標(biāo)上均超過了基座模型,體現(xiàn)了指令遵循能力的巨大提升。

為深入探討 ReasonGen-R1 各個(gè)模塊的貢獻(xiàn),研究還進(jìn)行了以下消融實(shí)驗(yàn):

SFT 階段的作用:為了測(cè)試 SFT 階段對(duì)于模型最終性能的影響,ReasonGen-R1 對(duì)比了直接強(qiáng)化學(xué)習(xí)的結(jié)果。如表 1 所示,僅使用強(qiáng)化學(xué)習(xí)(RL)而未進(jìn)行監(jiān)督微調(diào)(SFT)時(shí),模型表現(xiàn)顯著下降,證明了 SFT 階段對(duì)模型后續(xù)強(qiáng)化學(xué)習(xí)階段的重要性。

獎(jiǎng)勵(lì)模型規(guī)模影響:實(shí)驗(yàn)還對(duì)比了不同大小的獎(jiǎng)勵(lì)模型。如表 1 所示,較小規(guī)模的獎(jiǎng)勵(lì)模型(Qwen-2.5-VL-3B)無法提供足夠精準(zhǔn)的反饋信號(hào),嚴(yán)重影響強(qiáng)化學(xué)習(xí)階段的表現(xiàn)。因此,選擇高精度、大規(guī)模的獎(jiǎng)勵(lì)模型至關(guān)重要。

圖片

表1. ReasonGen-R1在GenEval指標(biāo)上對(duì)于架構(gòu)設(shè)計(jì)的消融實(shí)驗(yàn)

自適應(yīng)熵?fù)p失函數(shù)的穩(wěn)定作用:如圖 6 所示,在沒有熵?fù)p失的情況下,模型在經(jīng)過 100 步的訓(xùn)練后會(huì)出現(xiàn)熵爆炸,同時(shí) Reward 開始緩慢下降。另一方面,施加固定熵懲罰(–0.002)會(huì)使熵持續(xù)下降,并在第 80 步時(shí)過低,進(jìn)而引發(fā)圖片生成模式崩塌和獎(jiǎng)勵(lì)急劇下滑。這些現(xiàn)象凸顯了在交錯(cuò)文本與圖像的 RL 訓(xùn)練中,對(duì)于熵?fù)p失正則化設(shè)置的敏感性。相比之下,采用 ReasonGen-R1 提出的自適應(yīng)熵?fù)p失能夠?qū)㈧乇3衷谧罴逊秶鷥?nèi),確保訓(xùn)練過程的穩(wěn)定性以及獎(jiǎng)勵(lì)的穩(wěn)定增長(zhǎng)。

圖片

圖6. 對(duì)于各個(gè)熵正則化策略在強(qiáng)化學(xué)習(xí)中的效果比較

ReasonGen-R1 CoT 分析

圖片

圖7. 1000次CoT輸出中的單詞頻率。只有出現(xiàn)頻率高于20%的單詞被展示。出現(xiàn)頻率最高的三個(gè)’a, an, the’被移除以關(guān)注保護(hù)更多信息的詞語

圖 7 展示了 ReasonGen-R1 推理鏈的模式。首先,它通過「感知」(sense)、「場(chǎng)景」(scene)和「自然」(natural)等高頻詞(在超過 140% 的 CoT 中出現(xiàn))來奠定總體框架,強(qiáng)調(diào)整體語境和真實(shí)場(chǎng)景。接著,它細(xì)化視覺風(fēng)格:諸如「柔和」(soft)、「高光」(highlights)、「氛圍」(mood)和「流暢」(sleek)等詞匯(均在超過 100% 的 CoT 中出現(xiàn))用以描述光照質(zhì)量、情感基調(diào)和質(zhì)感。

更關(guān)鍵的是,「突出」(highlighting)和「強(qiáng)調(diào)」(emphasizing)這兩個(gè)詞各自在至少 70% 的 CoT 中出現(xiàn),表明模型有意識(shí)地聚焦于主要主體。這揭示出 ReasonGen-R1 不僅僅是在描述物體,而是在主動(dòng)規(guī)劃構(gòu)圖焦點(diǎn)。

除了核心詞匯外,ReasonGen-R1 還運(yùn)用了大量修飾詞——「背景」(background)用于建立環(huán)境氛圍;「特征」(features)用于突出顯著視覺元素;「寧?kù)o」(calm)用于渲染平和氛圍;「瞬間」(moments)用于傳達(dá)時(shí)間抓拍感;「捕捉」(captured)用于強(qiáng)調(diào)攝影真實(shí)感;等等——以在每條推理序列中注入細(xì)膩的、情境化的細(xì)節(jié)。

總體而言,ReasonGen-R1 的推理鏈通過場(chǎng)景框架、風(fēng)格細(xì)節(jié)、主體聚焦和細(xì)節(jié)修飾等要素,有效地引導(dǎo)了圖像生成過程。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2010-11-11 11:54:52

IT管理運(yùn)維管理北塔

2015-09-18 13:19:39

VMware容器技術(shù)

2014-05-16 11:13:22

2010-01-28 15:05:50

互聯(lián)網(wǎng)

2015-09-29 15:56:33

2013-05-29 09:47:54

2010-01-21 17:05:21

互聯(lián)網(wǎng)

2012-01-04 16:01:28

2011-06-09 10:54:51

2010-02-25 14:27:59

Windows CE

2010-04-21 18:33:35

2014-08-08 13:54:32

QQ瀏覽器

2016-09-21 15:15:00

APICloud

2024-11-20 10:00:00

2015-10-08 15:39:01

IT分銷商互聯(lián)網(wǎng)+

2017-05-15 18:15:39

2010-09-08 16:19:24

諾西LTE

2012-03-01 11:45:13

梭子魚云端IT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久精品99 | 一区二区av | 成人欧美一区二区三区在线观看 | 日韩欧美一区二区三区在线播放 | 亚州午夜精品 | 久久出精品 | 在线观看国产91 | 欧美国产激情 | 欧美一区二区三区在线观看视频 | 一级做a爰片性色毛片16 | av大全在线观看 | 97超碰免费 | 一本岛道一二三不卡区 | 伊伊综合网 | 亚洲第一成人av | 久久久久国产精品一区二区 | 日韩在线中文字幕 | 免费黄色录像视频 | 中文字幕av在线 | 国产农村妇女毛片精品久久麻豆 | 羞羞视频网站 | 亚洲国产成人精品女人 | 亚洲成人自拍网 | 欧美久久久久久 | 黄色免费观看网站 | 成人免费网站在线 | 亚洲一区二区三区高清 | 中文字幕一区二区三区四区五区 | 中文字幕成人av | 欧美一区二区在线播放 | 99久久久国产精品 | 欧美一区二区在线观看 | 韩日一区二区 | 亚洲精品av在线 | 黄色成人在线 | 日本三级网站在线观看 | 久久久久国产精品一区二区 | 欧美一级片在线看 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 国产成人av免费看 | 久草免费福利 |