成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="yicck"><input id="yicck"></input></button>

<code id="yicck"></code>

<li id="yicck"><dl id="yicck"></dl></li>

<bdo id="yicck"><source id="yicck"></source></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

圖像生成模型王牌——Diffusion Transformers系列工作梳理

發布于 2024-5-7 11:12

瀏覽

0收藏

圖像生成模型是目前業內研究的焦點，而目前諸如Sora等前沿生成模型，其所基于的主體架構都是Diffusion Transformers（DiT）。Diffusion Transformers（DiT）是論文Scalable Diffusion Models with Transformers（ICCV 2023）中提出的，是擴散模型和Transformer的結合，也是Sora使用的底層生成模型架構，將Diffusion Transformers從圖像生成擴展到了視頻生成。這篇文章給大家總結了目前主要的幾個DiT模型結構，帶大家梳理DiT系列模型的核心。?

更加完整的多模態生成模型技術總結，可以加入我的星球【圓圓的算法筆記】，獲取Sora底層原理解析專欄。

1.DiT

在之前的圖像生成擴散模型中，底層的網絡結構一般都是U-Net。而本文基于Vision Transformer（ViT）中的Transformer圖像分類模型結構，替代擴散模型中的U-Net，得到DiT模型，實現了更優的生成效果。

在輸入部分，基本采用了和ViT相同的方法。對輸入的圖像分成多個patch，并轉換成一個token序列，每個token拼接上相應的position embedding。這個底層的embedding序列作為后續DiT模塊的輸入。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

在擴散模型中，Transformer除了像ViT那樣輸入圖像patch token序列，往往還要輸入一些額外的信息，包括擴散模型中當前的生成時間步、文本信息的輸入等，如何將這些信息輸入到DiT中，文中嘗試了幾種方案。最簡單的方法是將這些額外的embedding直接拼接到原始的序列上。第二種是將外部的embedding單獨拼接成一個序列，和原始的圖像patch序列額外做一個cross attention。第三種方法是修改Transformer中的layer normalization模塊，將其替換成adaptive layer normalization，LN的均值和方差由外部embedding的加和生成。第四種是在第三種的基礎上，引入了基于外部embedding生成的縮放因子，對multi-head attention的輸出進行縮放。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

在經過多層的DiT模型后，需要將預測的噪聲結果還原出來，這里使用一個MLP作為Decoder，將DiT生成的結果映射到噪聲預測結果。

上述就是DiT的整體結構，主要還是Vision Transformer。用這個DiT結構，替代擴散模型中的去噪模塊，也就是噪聲預測網絡，就是DiT模型

從實驗對比中可以看出，DiT的生成效果是超過基于U-Net等之前的SOTA模型的。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

2.U-ViT

U-ViT是另一個基于ViT的擴散模型網絡。U-ViT也是將擴散模型中的噪聲預測網絡替換成Transformer結構，并且借鑒了U-Net等傳統CV模型中的殘差網絡思路，每一層的輸出都會通過龍skip connection加到更深層的網絡中。此外，文中對一些模型結構也進行了嘗試，包括殘差網絡怎么加，是直接拼接到深層+MLP還是add到生成；擴散步驟embedding怎么加入到U-ViT中；以及Transformer之后的卷積網絡怎么加。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

3.MDT

MDT發表于論文Masked diffusion transformer is a strong image synthesizer（ICCV 2023），在DiT的基礎上，引入了mask latent modeling，進一步提升了DiT的收斂速度和生成效果。

文中分析發現，DiT在學習過程中，并不能很好的學習各個語義單元之間的關系。為了解決這個問題，MDT引入了一個重構任務，對輸入的圖像的部分patch進行mask，然后使用一個Transformer模型在生成過程中，對這部分被mask掉的patch進行還原。在擴散模型中，每一層MDT輸入被mask掉一部分的token序列，只根據這部分序列進行噪聲預測。同時，使用一個Transformer網絡來還原被mask掉的部分。通過這種方式，讓模型在學習過程中強行學習patch之間的關系。同時通過position embedding的引入提升對mask token的還原能力。

由于在生成階段，decoder在處理token的時候都是沒有mask的，訓練的時候是mask的，這種不一致會影響效果。因此文中采用side-interpolater，對被mask掉的部分使用side-interpolater的預測結果，融合上沒被mask的結果，保證訓練和預測階段decoder的輸入都是沒有mask掉的。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

4.Diffit

Diffit是英偉達發表于論文Diffit: Diffusion vision transformers for image generation（2023）中的一種方法，也是Diffusion Transformer的一個變體，在模型結構上進行了改進。整體的結構類似于U-Net和Transformer的結合，通過增加downsample和upsample實現層次性的建模。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

Diffit在引入擴散步驟embedding的時候，采用了一種Time-dependent Self-Attention的方式，即將步驟embedding直接加入到輸入token序列上，讓self-attention在計算的過程中就考慮到擴散步驟的信息。在模型結構上，采用U-Shape的形式，Encoder部分每一層Transformer后做downsample，來提取不同分辨率下的圖像信息，Decoder部分再逐漸upsample。

圖像生成模型王牌——Diffusion Transformers系列工作梳理-AI.x社區

本文轉載自 ??圓圓的算法筆記??，作者： Fareise

標簽

贊

收藏

回復

舉報

回復

相關推薦

圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer！（北大&字節）

angel ? 1.4w瀏覽 ? 0回復
如何正確使用Stable Diffusion？文本到圖像擴散模型中記憶化實用分析（浙大）

angel ? 3761瀏覽 ? 0回復
2024年了,Diffusion模型還有什么可做的？

angel ? 5102瀏覽 ? 1回復
深度學習中生成模型的工作原理：解析用于數據增強的生成模型

51CTO內容精選 ? 4087瀏覽 ? 0回復
MUMU：用文本、圖像引導，多模態圖像生成模型

Aceryt ? 2873瀏覽 ? 0回復
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2517瀏覽 ? 0回復
一文梳理Transformer在時間序列預測中的發展歷程代表工作

海因斯DK ? 7805瀏覽 ? 0回復
大模型之視頻圖像生成之工作流——ComfyUI和AI煉丹師

AI探索時代 ? 4830瀏覽 ? 0回復
【大模型】圖解Transformers Encoder

魚蟲子 ? 2726瀏覽 ? 0回復
【大模型】圖解Transformers Decoder

魚蟲子 ? 3033瀏覽 ? 0回復
《解讀論文：Scaling Laws For Diffusion Transformers》

智能交互引擎 ? 2513瀏覽 ? 0回復
一文梳理大語言模型編程框架

AIGC最前線 ? 2659瀏覽 ? 0回復
大模型圖像處理技術之擴散模型——Diffusion Model

AI探索時代 ? 3186瀏覽 ? 0回復
如何使用BART模型和Hugging Face Transformers總結文本？

51CTO內容精選 ? 3078瀏覽 ? 0回復
生成式模型實現的區別——VAE、GAN、Diffusion和transformer

AI探索時代 ? 4119瀏覽 ? 0回復
大模型系列：一文帶你梳理Large Language Model發展歷程

海因斯DK ? 2358瀏覽 ? 0回復
Dify從入門到高階系列一：詳解各種工作流節點，如何降低LLM開發門檻？

AI博物院 ? 6508瀏覽 ? 1回復
大模型系列：一文匯總16個深度語言模型代表工作

海因斯DK ? 1551瀏覽 ? 0回復
TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法

NLP工作站 ? 370瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

ICML'25 | 兼容不同數據源周期性差異的時間序列基礎模型 2025-06-25 08:04:46發布
中科大&騰訊：通過提升各個專家網絡差異性提升基于MoE的CTR預估效果 2025-06-25 07:49:53發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

我把DeepSeek微調參數扒光了，顯存和性能優化的秘密都在這 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：動態可擴展的時間序列Patch劃分方法

下一篇： TFB：2024最新時間序列預測Benchmark

社區精華內容

目錄

主站蜘蛛池模板：精品熟人一区二区三区四区 | 婷婷丁香在线视频 | 色男人的天堂 | 欧美黑人一级爽快片淫片高清 | 日韩在线一区二区 | 精品网| 黄色在线观看网站 | 日韩高清一区 | 国产你懂的在线观看 | 国产在线视频一区二区董小宛性色 | 亚洲精品乱码久久久久久久久久 | 欧美日韩亚洲视频 | 中文字幕亚洲无线 | 亚洲精品久久国产高清情趣图文 | 日韩综合在线 | 国产中文一区二区三区 | 欧美一区二区三区久久精品视 | 国产精品欧美一区二区三区不卡 | 99在线精品视频 | 国产亚洲一区二区精品 | 欧美日韩在线免费观看 | 亚洲一区日韩 | 欧美日韩久久 | 亚洲品质自拍视频网站 | 91新视频 | 日本福利视频免费观看 | 99久久婷婷 | 91免费在线看 | 亚洲精品字幕 | 一区视频在线免费观看 | 精品国产乱码久久久久久丨区2区 | 九九视频在线观看 | 国产在线二区 | 亚洲精品久久久久久一区二区 | 日韩久久综合网 | 久久精品一| 欧美一区二区三区,视频 | 久久视频免费观看 | 日韩精品区 | 欧美aaa一级片 | 成人精品免费 |

<cite id="seqgq"></cite>

<button id="seqgq"></button>