字節(jié)提出從單一主題發(fā)展到多主題定制的通用框架UNO，通過情境生成釋放更多可控性

作者：AIGC Studio 2025-05-20 09:13:45

本文提出了一種通用定制架構(gòu) UNO，它能夠解鎖擴(kuò)散變換器 (Diffusion Transformer) 的多條件上下文能力。

字節(jié)跳動(dòng)的智能創(chuàng)作團(tuán)隊(duì)提出了一個(gè)從單一主題發(fā)展到多主題定制的通用框架UNO，從少到多的泛化：通過情境生成釋放更多可控性。能夠?qū)⒉煌娜蝿?wù)統(tǒng)一在一個(gè)模型下。在單主題和多主題驅(qū)動(dòng)的生成中都能實(shí)現(xiàn)高度一致性，同時(shí)確保可控性。

舉一個(gè)例子：上傳一張人物，一身衣服，一個(gè)包，UNO就可以生成這個(gè)人穿著衣服拿著包的效果圖，效果看起來很真實(shí)！

論文介紹

UNO從少到多的泛化：通過上下文生成釋放更多可控性

盡管由于其廣泛的應(yīng)用，主題驅(qū)動(dòng)生成已在圖像生成中得到廣泛探索，但它在數(shù)據(jù)可擴(kuò)展性和主題擴(kuò)展性方面仍然存在挑戰(zhàn)。對(duì)于第一個(gè)挑戰(zhàn)，從策劃單主題數(shù)據(jù)集轉(zhuǎn)向多主題數(shù)據(jù)集并對(duì)其進(jìn)行擴(kuò)展尤其困難。對(duì)于第二個(gè)挑戰(zhàn)，大多數(shù)最新方法都集中在單主題生成上，這在處理多主題場(chǎng)景時(shí)很難應(yīng)用。在本研究中，我們提出了一種高度一致的數(shù)據(jù)合成流程來應(yīng)對(duì)這一挑戰(zhàn)。該流程利用擴(kuò)散變壓器固有的上下文生成功能，生成高一致性的多主題配對(duì)數(shù)據(jù)。此外，我們引入了UNO，它由漸進(jìn)式跨模態(tài)對(duì)齊和通用旋轉(zhuǎn)位置嵌入組成。它是一個(gè)由文本到圖像模型迭代訓(xùn)練而成的多圖像條件主題到圖像模型。大量實(shí)驗(yàn)表明，我們的方法可以在確保單主題和多主題驅(qū)動(dòng)生成的可控性的同時(shí)實(shí)現(xiàn)高度的一致性。

它是如何工作的？

它為模型引入了兩項(xiàng)關(guān)鍵增強(qiáng)功能：漸進(jìn)式跨模態(tài)對(duì)齊和通用旋轉(zhuǎn)位置嵌入（UnoPE）。漸進(jìn)式跨模態(tài)對(duì)齊分為兩個(gè)階段。在第一階段，我們使用單主體上下文生成的數(shù)據(jù)將預(yù)訓(xùn)練的T2I模型微調(diào)為S2I模型。在第二階段，我們繼續(xù)使用生成的多主體數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。UnoPE可以有效地使UNO具備在縮放視覺主體控件時(shí)緩解屬性混淆問題的能力。

泛化能力

與最先進(jìn)的方法的比較

應(yīng)用場(chǎng)景

結(jié)論

本文提出了一種通用定制架構(gòu) UNO，它能夠解鎖擴(kuò)散變換器 (Diffusion Transformer) 的多條件上下文能力。這是通過漸進(jìn)式跨模態(tài)對(duì)齊和通用旋轉(zhuǎn)位置嵌入實(shí)現(xiàn)的。UNO 的訓(xùn)練分為兩個(gè)步驟。第一步使用單幅圖像輸入來激發(fā)擴(kuò)散變換器中的主體到圖像能力。下一步是對(duì)多主體數(shù)據(jù)對(duì)進(jìn)行進(jìn)一步訓(xùn)練。我們提出的通用旋轉(zhuǎn)位置嵌入也能顯著提高主體相似度。此外還提出了一種漸進(jìn)式合成流程，該流程從單主體生成演進(jìn)到多主體上下文生成。該流程能夠生成高質(zhì)量的合成數(shù)據(jù)，有效減少復(fù)制粘貼現(xiàn)象。大量實(shí)驗(yàn)表明，UNO 在單主體和多主體定制中均實(shí)現(xiàn)了高質(zhì)量的相似度和可控性。

責(zé)任編輯：張燕妮來源： AIGC Studio

模型架構(gòu)AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看