字節(jié)提出從單一主題發(fā)展到多主題定制的通用框架UNO,通過情境生成釋放更多可控性
字節(jié)跳動(dòng)的智能創(chuàng)作團(tuán)隊(duì)提出了一個(gè)從單一主題發(fā)展到多主題定制的通用框架UNO,從少到多的泛化:通過情境生成釋放更多可控性。能夠?qū)⒉煌娜蝿?wù)統(tǒng)一在一個(gè)模型下。在單主題和多主題驅(qū)動(dòng)的生成中都能實(shí)現(xiàn)高度一致性,同時(shí)確保可控性。
舉一個(gè)例子:上傳一張人物,一身衣服,一個(gè)包,UNO就可以生成這個(gè)人穿著衣服拿著包的效果圖,效果看起來很真實(shí)!
相關(guān)鏈接
- 論文:https://arxiv.org/abs/2504.02160
- 主頁:https://bytedance.github.io/UNO/
- 代碼:https://github.com/bytedance/UNO
- ComfyUI:https://github.com/jax-explorer/ComfyUI-UNO
- 試用:https://huggingface.co/spaces/bytedance-research/UNO-FLUX
論文介紹
UNO從少到多的泛化:通過上下文生成釋放更多可控性
盡管由于其廣泛的應(yīng)用,主題驅(qū)動(dòng)生成已在圖像生成中得到廣泛探索,但它在數(shù)據(jù)可擴(kuò)展性和主題擴(kuò)展性方面仍然存在挑戰(zhàn)。對(duì)于第一個(gè)挑戰(zhàn),從策劃單主題數(shù)據(jù)集轉(zhuǎn)向多主題數(shù)據(jù)集并對(duì)其進(jìn)行擴(kuò)展尤其困難。對(duì)于第二個(gè)挑戰(zhàn),大多數(shù)最新方法都集中在單主題生成上,這在處理多主題場(chǎng)景時(shí)很難應(yīng)用。在本研究中,我們提出了一種高度一致的數(shù)據(jù)合成流程來應(yīng)對(duì)這一挑戰(zhàn)。該流程利用擴(kuò)散變壓器固有的上下文生成功能,生成高一致性的多主題配對(duì)數(shù)據(jù)。此外,我們引入了UNO,它由漸進(jìn)式跨模態(tài)對(duì)齊和通用旋轉(zhuǎn)位置嵌入組成。它是一個(gè)由文本到圖像模型迭代訓(xùn)練而成的多圖像條件主題到圖像模型。大量實(shí)驗(yàn)表明,我們的方法可以在確保單主題和多主題驅(qū)動(dòng)生成的可控性的同時(shí)實(shí)現(xiàn)高度的一致性。
它是如何工作的?
它為模型引入了兩項(xiàng)關(guān)鍵增強(qiáng)功能:漸進(jìn)式跨模態(tài)對(duì)齊和通用旋轉(zhuǎn)位置嵌入(UnoPE)。漸進(jìn)式跨模態(tài)對(duì)齊分為兩個(gè)階段。在第一階段,我們使用單主體上下文生成的數(shù)據(jù)將預(yù)訓(xùn)練的T2I模型微調(diào)為S2I模型。在第二階段,我們繼續(xù)使用生成的多主體數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。UnoPE可以有效地使UNO具備在縮放視覺主體控件時(shí)緩解屬性混淆問題的能力。
泛化能力
與最先進(jìn)的方法的比較
應(yīng)用場(chǎng)景
結(jié)論
本文提出了一種通用定制架構(gòu) UNO,它能夠解鎖擴(kuò)散變換器 (Diffusion Transformer) 的多條件上下文能力。這是通過漸進(jìn)式跨模態(tài)對(duì)齊和通用旋轉(zhuǎn)位置嵌入實(shí)現(xiàn)的。UNO 的訓(xùn)練分為兩個(gè)步驟。第一步使用單幅圖像輸入來激發(fā)擴(kuò)散變換器中的主體到圖像能力。下一步是對(duì)多主體數(shù)據(jù)對(duì)進(jìn)行進(jìn)一步訓(xùn)練。我們提出的通用旋轉(zhuǎn)位置嵌入也能顯著提高主體相似度。此外還提出了一種漸進(jìn)式合成流程,該流程從單主體生成演進(jìn)到多主體上下文生成。該流程能夠生成高質(zhì)量的合成數(shù)據(jù),有效減少復(fù)制粘貼現(xiàn)象。大量實(shí)驗(yàn)表明,UNO 在單主體和多主體定制中均實(shí)現(xiàn)了高質(zhì)量的相似度和可控性。