成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

復(fù)旦&字節(jié)提出layout-to-image新范式,支持基于布局的MM-DiT架構(gòu)下可控圖像生成!

人工智能 新聞
為了解決先前方法在數(shù)據(jù)、模型、體驗(yàn)等方面存在的問(wèn)題,CreatiLayout 提出了針對(duì)性的解決方案,實(shí)現(xiàn)了更高質(zhì)量、更可控的布局到圖像生成。

本篇分享論文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation,是由復(fù)旦大學(xué)&字節(jié)跳動(dòng)提出的layout-to-image新范式,支持基于布局的MM-DiT架構(gòu)下的可控圖像生成!

圖片

效果示例

相關(guān)鏈接

  • 論文地址: https://arxiv.org/abs/2412.03859
  • 項(xiàng)目主頁(yè): https://creatilayout.github.io
  • 項(xiàng)目代碼: https://github.com/HuiZhang0812/CreatiLayout
  • 項(xiàng)目Demo: https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
  • 數(shù)據(jù)集: https://huggingface.co/datasets/HuiZhang0812/LayoutSAM

論文介紹

圖片

任務(wù)背景

布局到圖像生成 (Layout-to-Image, L2I) 是一種基于布局信息進(jìn)行可控圖像生成的技術(shù),其中布局信息包括實(shí)體在圖像中的空間位置和描述。例如,用戶指定了這些實(shí)體的描述與空間位置:鋼鐵俠手里拿著畫(huà)板,站在巖石上,畫(huà)板上用手繪字體寫著“CreatiLayout”,背景是海邊與日落。Layout-to-Image則能根據(jù)這些信息,生成符合用戶需求的圖像。

圖片

Layout-to-Image能進(jìn)一步釋放Text-to-Image模型的能力,為用戶進(jìn)一步提供精確控制和創(chuàng)意表達(dá)的渠道,在游戲開(kāi)發(fā)、動(dòng)畫(huà)制作、室內(nèi)設(shè)計(jì)、創(chuàng)意設(shè)計(jì)等場(chǎng)景有著廣泛的應(yīng)用前景。

先前的Layout-to-Image模型,主要存在以下問(wèn)題:

  • 布局?jǐn)?shù)據(jù)問(wèn)題:現(xiàn)有的布局?jǐn)?shù)據(jù)集存在封閉集合的小規(guī)模數(shù)據(jù)和粗粒度的實(shí)體標(biāo)注等方面的不足,這限制了模型在生成開(kāi)放集實(shí)體的泛化能力以及在生成具有復(fù)雜屬性實(shí)體的精準(zhǔn)性。
  • 模型架構(gòu)問(wèn)題:先前模型主要集中在 U-Net 架構(gòu)上,例如 SD1.5 和 SDXL。然而,隨著MM-DiT的發(fā)展,SD3、FLUX等文生圖模型開(kāi)辟了視覺(jué)質(zhì)量與文本遵循度的新高度。直接將 U-Net 的布局控制范式應(yīng)用到 MM-DiT 上會(huì)削弱布局控制的準(zhǔn)確度。因此需要為 MM-DiT 設(shè)計(jì)一個(gè)新框架,以高效融合布局信息,充分發(fā)揮其潛力。
  • 用戶體驗(yàn)問(wèn)題:許多現(xiàn)有方法只支持邊界框作為用戶指定實(shí)體位置的方式,缺乏對(duì)更靈活輸入方式(例如中心點(diǎn)、掩碼、草圖或只是語(yǔ)言描述)的處理能力,限制了用戶的使用體驗(yàn)。此外,這些方法不支持對(duì)用戶的布局進(jìn)行添加、刪除或修改等優(yōu)化。

方法簡(jiǎn)介

為了解決先前方法在數(shù)據(jù)、模型、體驗(yàn)等方面存在的問(wèn)題,CreatiLayout 提出了針對(duì)性的解決方案,實(shí)現(xiàn)了更高質(zhì)量、更可控的布局到圖像生成。

大規(guī)模&細(xì)粒度的布局?jǐn)?shù)據(jù)集

LayoutSAMCreatiLayout 構(gòu)建了自動(dòng)標(biāo)注布局的鏈路,提出了大規(guī)模布局?jǐn)?shù)據(jù)集LayoutSAM,包含了 270萬(wàn)圖像-文本對(duì)和 1070萬(wàn)個(gè)實(shí)體標(biāo)注。LayoutSAM 從 SAM 數(shù)據(jù)集中篩選而來(lái),有著開(kāi)放集的實(shí)體、細(xì)粒度的標(biāo)注和高圖像質(zhì)量等特質(zhì)。每個(gè)實(shí)體都包含邊界框和詳細(xì)描述,涵蓋顏色、形狀、紋理等復(fù)雜屬性。這為模型能夠更好地理解和學(xué)習(xí)布局信息提供了數(shù)據(jù)驅(qū)動(dòng)。基于此,CreatiLayout構(gòu)建了布局到圖像生成評(píng)估基準(zhǔn)LayoutSAM-Eval,全面評(píng)估模型在布局控制、圖像質(zhì)量和文本遵循等方面的表現(xiàn)。

圖片

將布局信息視為一種模態(tài)的模型架構(gòu)

SiamLayoutCreatiLayout 提出了 SiamLayout 框架,將布局信息引入MM-DiT的同時(shí),有效緩解了模態(tài)競(jìng)爭(zhēng)問(wèn)題,增強(qiáng)了布局的指導(dǎo)作用,相比于其他網(wǎng)絡(luò)方案取得了更精準(zhǔn)的布局控制。核心設(shè)計(jì)點(diǎn)為:

  • 將布局信息視為一種獨(dú)立的模態(tài),與文本和圖像模態(tài)同等重要,提升布局信息對(duì)圖像內(nèi)容指導(dǎo)程度
  • 布局模態(tài)與圖像模態(tài)的交互通過(guò)MM-DiT原生的MM-Attention實(shí)現(xiàn),保留了其在模態(tài)交互的優(yōu)勢(shì)
  • 將圖像、文本、布局這三個(gè)模態(tài)的交互解耦為兩個(gè)孿生的分支:圖像-文本交互分支與圖像-布局交互分支,使得文本與布局對(duì)圖像內(nèi)容的指導(dǎo)各司其職、互不干擾。圖片

支持布局生成與優(yōu)化的布局設(shè)計(jì)器

LayoutDesignerCreatiLayout 提出了 LayoutDesigner,利用大語(yǔ)言模型進(jìn)行布局規(guī)劃,能夠根據(jù)用戶輸入(中心點(diǎn)、掩碼、草圖、文本描述)生成和優(yōu)化布局,支持更靈活的用戶輸入方式,并提供布局優(yōu)化功能,例如添加、刪除、修改實(shí)體等。這使得用戶能夠更方便地表達(dá)自己的設(shè)計(jì)意圖,并生成更和諧美觀的布局。

圖片

實(shí)驗(yàn)結(jié)果

與SOTA方法在布局到圖像生成的對(duì)比實(shí)驗(yàn)

圖片

圖片

在細(xì)粒度開(kāi)放集布局到圖像生成任務(wù)上,CreatiLayout在空間定位、顏色、紋理、形狀等區(qū)域級(jí)別的屬性渲染上都優(yōu)于之前的 SOTA 方法;在整圖質(zhì)量上,CreatiLayout也展現(xiàn)出更好的視覺(jué)質(zhì)量與文本遵循度。下面的可視化結(jié)果進(jìn)一步證實(shí)了CreatiLayout 的優(yōu)勢(shì)。例如對(duì)于"HELLO FRIENDS"這一文本的更精準(zhǔn)的生成和對(duì)不同顏色的鉛筆與長(zhǎng)椅的生成等。可以在項(xiàng)目demo上進(jìn)一步感受CreatiLayout在Layout-to-Image的能力。

圖片

與SOTA方法在布局生成與優(yōu)化的對(duì)比

圖片圖片

實(shí)驗(yàn)在布局規(guī)劃任務(wù)上的定量和定性實(shí)驗(yàn),展示了不同布局優(yōu)化器在不同用戶輸入粒度下的布局生成和優(yōu)化能力。LayoutDesigner 在基于全局標(biāo)題、中心點(diǎn)和邊界框的布局規(guī)劃任務(wù)上都表現(xiàn)出色,格式準(zhǔn)確性達(dá)到 100%,這表明 它能生成符合格式要求的布局。此外,基于LayoutDesigner 規(guī)劃的布局去生成圖像,能得到更高質(zhì)量、更具美感的圖像。例如,Llama3.1 生成的布局經(jīng)常缺少關(guān)鍵元素,而 GPT4 生成的布局經(jīng)常違反基本物理定律,導(dǎo)致基于這些次優(yōu)的布局去生成圖像會(huì)得到較差的圖像質(zhì)量與較低文本遵循度。

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2025-03-27 09:24:16

2024-01-16 17:17:30

模型訓(xùn)練

2025-05-29 09:34:14

2023-03-14 14:10:00

圖像檢測(cè)

2025-02-20 09:36:45

2025-04-21 08:20:00

視覺(jué)模型訓(xùn)練

2025-05-21 13:52:39

LLM模型

2025-06-24 11:50:37

模型數(shù)據(jù)開(kāi)源

2011-04-18 09:35:59

ASP.NET MVC

2024-12-05 10:00:31

2022-12-18 19:49:45

AI

2025-01-14 09:24:46

2025-05-26 16:46:38

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2025-05-20 09:08:59

2025-02-05 12:41:21

線性新范式分辨率

2023-05-31 16:15:51

模型圖像

2025-05-20 09:13:45

2024-10-15 09:29:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美一二三区 | 国产视频久久 | 自拍偷拍一区二区三区 | 正在播放国产精品 | 操操日| 性色av香蕉一区二区 | 成人一区二区三区视频 | 日本视频一区二区 | 亚洲免费一区二区 | 中文字幕一区二区三区日韩精品 | 精品日本久久久久久久久久 | 国产男女猛烈无遮掩视频免费网站 | 四色成人av永久网址 | 午夜影院在线观看视频 | 欧美精品在线播放 | 精品蜜桃一区二区三区 | 怡红院免费的全部视频 | 亚洲激情一区二区 | 二区三区在线观看 | 亚洲一区二区三区四区av | 妖精视频一区二区三区 | 免费精品| 天堂视频中文在线 | 成人伊人 | 在线一区二区三区 | 亚洲欧美视频一区二区 | 国产高清精品一区二区三区 | 91免费视频观看 | 91玖玖 | 久久国产欧美日韩精品 | 国产片侵犯亲女视频播放 | 国产成人精品一区二区三 | 三级成人在线 | 91青娱乐在线 | 欧美一区二区三区在线视频 | 国产一区二区精品在线 | 国产精品免费在线 | 一级毛片视频在线观看 | 久久久91| 国产精品一区二区三区在线 | 亚洲一区二区久久 |