成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 Spotlight | 清華朱軍組&NVIDIA提出DDO:擴(kuò)散/自回歸模型訓(xùn)練新范式,刷新圖像生成SOTA

人工智能 新聞
DDO 首次提出:你訓(xùn)練的似然生成模型,其實(shí)已經(jīng)是一個(gè)「隱式判別器」。

文章一作鄭凱文為清華大學(xué)三年級(jí)博士生,研究方向?yàn)樯疃壬赡P停岢隽魇綌U(kuò)散模型最大似然估計(jì)改進(jìn)技術(shù) i-DODE,擴(kuò)散模型高效采樣器 DPM-Solver-v3,擴(kuò)散橋模型采樣器 DBIM 以及掩碼式離散擴(kuò)散模型采樣器 FHS 等。

清華大學(xué)朱軍教授團(tuán)隊(duì)與 NVIDIA Deep Imagination 研究組聯(lián)合提出一種全新的視覺(jué)生成模型優(yōu)化范式 —— 直接判別優(yōu)化(DDO)。該方法將基于似然的生成模型(如擴(kuò)散模型、自回歸模型)隱式參數(shù)化為 GAN,從而設(shè)計(jì)出一種無(wú)需額外網(wǎng)絡(luò)、訓(xùn)練高效的微調(diào)方法,并大幅突破傳統(tǒng)最大似然訓(xùn)練的性能瓶頸。

圖片

  • 論文標(biāo)題:Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator
  • 論文鏈接:https://arxiv.org/abs/2503.01103
  • 代碼倉(cāng)庫(kù):https://github.com/NVlabs/DDO

背景 | 基于似然的生成模型

近年來(lái),擴(kuò)散模型(Diffusion Models)和自回歸模型(Autoregressive Models)在圖像生成中占據(jù)主導(dǎo)地位,如 NVIDIA 的 EDM 系列擴(kuò)散模型和字節(jié)跳動(dòng)以 VAR 為代表的視覺(jué)自回歸模型。相比 GAN(Generative Adversarial Networks)這類直接優(yōu)化數(shù)據(jù)生成過(guò)程的隱式生成模型,擴(kuò)散模型和自回歸模型均屬于基于似然的生成模型(Likelihood-Based Generative Model),它們顯式估計(jì)數(shù)據(jù)的對(duì)數(shù)似然(log-likelihood),具有訓(xùn)練穩(wěn)定、樣本多樣性強(qiáng)、容易規(guī)模化的特點(diǎn)。

然而,這類模型廣泛采用的最大似然估計(jì)(Maximum Likelihood Estimation, MLE)訓(xùn)練損失對(duì)應(yīng)的是正向 KL 散度,會(huì)導(dǎo)致「mode covering」問(wèn)題:模型傾向于覆蓋所有數(shù)據(jù)模式而非聚焦主要分布,并且會(huì)在低估數(shù)據(jù)集中任何樣本的似然時(shí)遭受嚴(yán)厲懲罰,從而使生成結(jié)果模糊或失真,在模型容量不足時(shí)限制了生成質(zhì)量。例如,i-DODE 作為專注于似然的模型,雖然在密度估計(jì)任務(wù)上達(dá)到了最先進(jìn)水平,但在 FID 等視覺(jué)質(zhì)量指標(biāo)下表現(xiàn)不佳。現(xiàn)有視覺(jué)生成模型也往往依賴引導(dǎo)(guidance)方法,如無(wú)需分類器的引導(dǎo)(Classifier-Free Guidance, CFG),來(lái)抑制低質(zhì)量生成樣本。

圖片

方法 | 把生成模型當(dāng)判別器用,直接優(yōu)化

為解決 MLE 的局限性,文章考慮使用 GAN 式判別的思想,在訓(xùn)練目標(biāo)中引入反向 KL 散度的成分,強(qiáng)化模型在真實(shí)數(shù)據(jù)附近的密度,同時(shí)抑制錯(cuò)誤區(qū)域,將模型分布由圖(a):強(qiáng)調(diào)密度覆蓋,微調(diào)為圖(b):強(qiáng)調(diào)密度集中,從而提高生成保真度與有限模型容量下的生成質(zhì)量。然而,直接使用 GAN 損失會(huì)引入額外的判別器網(wǎng)絡(luò)與工程優(yōu)化上的復(fù)雜性,尤其對(duì)于擴(kuò)散/自回歸模型這類需要迭代式多步生成的模型。

DDO 首次提出:你訓(xùn)練的似然生成模型,其實(shí)已經(jīng)是一個(gè)「隱式判別器」。

圖片

具體來(lái)說(shuō),DDO 引入待微調(diào)的目標(biāo)模型和一個(gè)凍結(jié)的參考模型(均初始化為預(yù)訓(xùn)練模型),使用兩個(gè)模型的對(duì)數(shù)似然比構(gòu)造「隱式判別器」,得到可直接應(yīng)用于擴(kuò)散模型和自回歸模型的 GAN 式優(yōu)化目標(biāo):

圖片

其中為模型對(duì)數(shù)似然,對(duì)于自回歸模型由于因果掩碼的存在可以通過(guò)單次網(wǎng)絡(luò)前傳準(zhǔn)確計(jì)算,而對(duì)于擴(kuò)散模型則需要結(jié)合 Jensen 不等式與證據(jù)下界(ELBO)近似估計(jì)。使用此訓(xùn)練目標(biāo)微調(diào)時(shí),真實(shí)數(shù)據(jù)來(lái)自原數(shù)據(jù)集,而假數(shù)據(jù)來(lái)自參考模型圖片的自采樣過(guò)程。根據(jù) GAN 判別損失的性質(zhì),可以證明此目標(biāo)下的最優(yōu)模型分布圖片恰為真實(shí)數(shù)據(jù)分布。

在實(shí)際訓(xùn)練時(shí),可通過(guò)多輪自對(duì)弈(self-play)進(jìn)一步提升性能,做法是將下一輪的參考模型圖片設(shè)置為上一輪表現(xiàn)最優(yōu)的模型。

DDO 為擴(kuò)散模型和自回歸模型提供了即插即用的新訓(xùn)練目標(biāo),其微調(diào)后的模型和原模型具有完全相同的網(wǎng)絡(luò)結(jié)構(gòu)和采樣方式,而在生成質(zhì)量上大大增強(qiáng)。

實(shí)驗(yàn) | 無(wú)需引導(dǎo),刷新多項(xiàng) SOTA

DDO 在多個(gè)標(biāo)準(zhǔn)圖像生成任務(wù)中顯著提升已有模型的生成質(zhì)量,并刷新現(xiàn)有 SOTA。

圖片

  • ImageNet 512×512 無(wú)引導(dǎo) FID 1.96 → 1.26。
  • ImageNet 64×64 無(wú)引導(dǎo) FID 1.58 → 0.97。
  • CIFAR-10 無(wú)引導(dǎo) FID 1.85 → 1.30。

圖片

ImageNet 512x512 生成結(jié)果。左:原模型 右:DDO 微調(diào)后的模型

肉眼觀察發(fā)現(xiàn)生成圖像的細(xì)節(jié)和真實(shí)度得到顯著提升,同時(shí)多樣性沒(méi)有受到負(fù)面影響。

圖片

DDO 用于擴(kuò)散模型時(shí),隨著多輪 self-play,F(xiàn)ID 指標(biāo)發(fā)生持續(xù)下降。

圖片

更重要的是,DDO 無(wú)需修改網(wǎng)絡(luò)結(jié)構(gòu)、不增加推理成本,且與主流 CFG 等引導(dǎo)方法兼容,可疊加使用進(jìn)一步提升性能。如在視覺(jué)自回歸模型 VAR 上,微調(diào)后的模型通過(guò)控制 CFG 的強(qiáng)度,得到的 FID-IS 曲線整體顯著優(yōu)于原模型。

展望 | 從視覺(jué)生成到語(yǔ)言模型對(duì)齊

圖片

DDO 參數(shù)化的靈感來(lái)自于語(yǔ)言模型中的直接偏好優(yōu)化(DPO, Direct Preference Optimization),但其目標(biāo)從「成對(duì)的偏好對(duì)齊」擴(kuò)展到了「分布對(duì)齊」,更為通用。DDO 雖然沒(méi)有「獎(jiǎng)勵(lì)」的概念,但其中使用自生成樣本作為負(fù)例的思想也與大語(yǔ)言模型中流行的 RL 算法如 GRPO 具有相似性,這允許模型從錯(cuò)誤中反思學(xué)習(xí)。也就是說(shuō),GRPO 中負(fù)例的作用同樣可以解釋為使用 reverse KL 散度抑制 mode covering 趨勢(shì)從而提升生成質(zhì)量,這在數(shù)學(xué)推理等任務(wù)中具有重要意義。該思路有望擴(kuò)展至多模態(tài)生成等任務(wù),構(gòu)建統(tǒng)一的對(duì)齊范式。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-28 09:00:00

2025-06-30 08:36:00

AI模型強(qiáng)化學(xué)習(xí)

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2025-05-07 13:49:19

模型AI架構(gòu)

2022-03-14 10:53:12

谷歌模型研究

2024-11-12 13:10:49

2024-04-17 13:22:55

人工智能

2024-12-05 13:00:00

2024-06-26 14:50:52

2025-04-10 09:15:03

2025-05-20 09:08:59

2025-05-14 09:17:00

2025-05-16 08:44:01

2025-06-04 13:55:03

AI模型技術(shù)

2023-06-30 13:48:00

算法AI

2025-03-21 10:08:37

2025-05-19 08:45:00

2024-04-26 12:51:48

2024-07-19 10:39:38

2022-11-14 14:08:39

計(jì)算機(jī)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产在线一区二区三区 | 欧美一级三级 | 国产高清视频 | 另类亚洲视频 | 男女羞羞视频在线看 | 国产一级在线 | 日韩黄 | 国产精品久久久久无码av | 午夜ww | 一道本不卡 | 亚洲一区二区中文字幕 | av免费在线播放 | 成人美女免费网站视频 | 精品国产乱码久久久久久牛牛 | 精品国产伦一区二区三区观看体验 | 日韩精品免费 | 激情五月婷婷综合 | 欧美成人一区二区 | 亚洲精品一区二区三区丝袜 | 国产日本精品视频 | 伊人色综合久久久天天蜜桃 | 午夜伦理影院 | 久久视频精品 | 国产精品毛片在线 | 欧美日韩专区 | 久久国内 | 国产精品一区二区无线 | 91麻豆精品国产91久久久久久 | 午夜精品一区二区三区在线视频 | 日韩中文字幕在线播放 | 福利久久 | 免费国产精品久久久久久 | 99热精品久久 | 亚州激情| 亚洲国产精品成人 | 午夜精品久久 | 福利一区二区在线 | 日本成人中文字幕 | 成人免费视频网站在线观看 | 黄频视频 | 国产精品免费在线 |