成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法

發(fā)布于 2025-6-27 00:55
瀏覽
0收藏

大家好,今天給大家分享一個圖像生成的新工作—-Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression,后面我們簡稱TransDiff。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

首先,TransDiff是目前最簡潔的、將AR Transformer與Diffusion結(jié)合用于圖像生成方法。TransDiff將離散輸入(如類別、文本等)、連續(xù)輸入(圖像等)經(jīng)過AR Transformer 編碼 為圖像語義表征,而后將表征通過一個較小的Diffusion Deocder 解碼 為圖片。

其次,我們提出了一種新的自回歸范式-- MRAR(Multi-Reference Autoregression)。此范式類似NLP領(lǐng)域的In-context Learning(ICL):通過學(xué)習(xí)上文同類別圖片生成質(zhì)量更好、更多樣的圖片,唯一的區(qū)別是上文的圖片是模型自己生成的。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

Paper: https://arxiv.org/pdf/2506.09482
Code:https://github.com/TransDiff/TransDiff
Model:  https://huggingface.co/zhendch/Transdiff

具體介紹

為了節(jié)省讀者的時間,拋棄論文的結(jié)構(gòu),用Q&A這種更簡介的方式介紹TransDiff。

問:為什么使用Transformer?我們工作中AR Transformer編碼出了什么信息?

答:早期的CLIP工作以及后來大模型時代層出不窮的VL模型已經(jīng)證明Transformer在圖像理解領(lǐng)域的優(yōu)勢。尤其是在CLIP工作中,ViT模型可以將圖片的表征對齊到語義空間(文字bert表征與圖片的ViT表征cosine相似度)。

相似的,實驗證明:TransDiff中AR Transformer也是將類別和圖片編碼至圖片的高級(對比像素)語義空間。以下將不同類別的256維特征隨機進(jìn)行拼接后生成得到圖片,不同于其他模型(VAR、LlamaGen等)的像素編輯,定性實驗展現(xiàn)出了模型的語義編輯能力。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

問:TransDiff使用較小Diffusion Deocder是否有制約? 是否優(yōu)于單純Diffusion和AR Transformer方法?

答:TransDiff的deocder使用DiT結(jié)構(gòu),使用Flow Matching范式。diffusion占總體參數(shù)的1/3,參數(shù)量顯著低于主流diffusion模型。但是對比能夠搜集到的所有單純Diffusion和AR Transformer方法,TransDiff在Benchmark上還是有一定優(yōu)勢,至少是“打的有來有回”。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

問:TransDiff很像MAR,是否只是MAR的簡單模仿?

答:TransDiff與MAR雖然結(jié)構(gòu)上很像,但是模型展現(xiàn)的特點截然不同。首先,MAR是在像素(或patch)上生成,沒有顯性的語義表征,其次由于MAR使用的Diffusion Deocder過于簡單(n層MLP Layer)導(dǎo)致decoder表現(xiàn)力有制約。 因此,從下圖可以看出:MAR無法 “一步生圖”,且圖像patch是在自回歸過程中逐步迭代“完善”。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

問:MRAR好在哪里? 對比AR Transformer中常用的Token-Level AR 和 Scale-Level AR優(yōu)勢嗎?

答:首先對比Token-Level AR和Scale-Level AR,TransDiff with MRAR在在Benchmark上有著較大的優(yōu)勢。其次,我們發(fā)現(xiàn) 語義表征多樣性越高,圖像質(zhì)量越高。而MRAR相較于Scale-Level AR可以顯著提升語義表征多樣性。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

最后放一些demo

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

One More Thing

TransDiff with MRAR在未經(jīng)視頻數(shù)據(jù)訓(xùn)練的情況下,展現(xiàn)出了連續(xù)幀生成的潛力。 所以后續(xù)也會將TransDiff應(yīng)用在視頻生成領(lǐng)域,大家敬請期待。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

本文轉(zhuǎn)載自????NLP工作站????,作者:NLP工作站

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩成人免费视频 | www精品美女久久久tv | 一区二区av | 国产人成精品一区二区三 | 丁香婷婷综合激情五月色 | 91精品国产92 | 免费在线观看91 | 成年女人免费v片 | 久久精品中文字幕 | 亚洲欧美bt | 午夜黄色影院 | av一区二区三区 | 亚洲精品国产第一综合99久久 | 婷婷福利视频导航 | 搞黄视频免费看 | 成人久久网 | 欧美精品一区二区三区四区五区 | 视频在线一区二区 | 性一爱一乱一交一视频 | 91网站在线看 | av在线视 | 久久成人免费观看 | 亚洲国产aⅴ精品 | 久久亚洲国产精品 | 久久一级| 亚洲欧美在线观看 | 美日韩视频| 一区二区三区免费 | 国产91视频播放 | 国产激情视频在线 | 亚洲a在线视频 | 亚洲免费视频播放 | 免费中文字幕日韩欧美 | 国内精品视频在线 | 天堂男人av | 国内精品视频 | 国产一区日韩在线 | 久久一区二区视频 | 日本激情视频中文字幕 | 日本电影一区二区 | www.youjizz.com日韩 |