成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性 精華

發(fā)布于 2024-9-20 10:20
瀏覽
0收藏

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.08240
項目鏈接:https://ifadapter.github.io/

亮點直擊

  • 提出了實例特征生成任務(wù),旨在解決擴散模型在多實例生成中面臨的定位和特征準(zhǔn)確性問題。此外,引入了COCO IFG基準(zhǔn)和驗證pipeline,用于評估和比較模型性能。
  • 提出了IFAdapter,該模塊利用新的外觀tokens和實例語義圖來增強擴散模型對實例的描繪,從而實現(xiàn)高保真度的實例特征生成。
  • 全面的實驗結(jié)果表明,本模型在定量和定性評估中均優(yōu)于基線模型。
  • IFAdapter設(shè)計為即插即用的組件,能夠無縫增強各種社區(qū)模型的布局控制能力,無需重新訓(xùn)練。

總結(jié)速覽

解決的問題:
傳統(tǒng)的文本生成圖像 (T2I) 擴散模型在生成單個實例時效果很好,但在多個實例的特征生成和準(zhǔn)確定位上存在挑戰(zhàn)。盡管布局生成圖像 (L2I) 任務(wù)通過使用邊界框提供空間控制來解決定位問題,但在實例特征的精確生成上仍然不足。

提出的方案:
為了解決這一問題,提出了實例特征生成 (IFG) 任務(wù),旨在同時確保生成實例的準(zhǔn)確定位和特征保真度。為此,引入了實例特征適配器 (IFAdapter) ,作為一種模塊,能夠在不同模型中靈活應(yīng)用。該模塊通過額外的外觀tokens和實例語義圖對齊實例特征與空間位置,從而增強特征表現(xiàn)。

應(yīng)用的技術(shù):
IFAdapter 利用了外觀tokens來增強特征生成,并通過實例語義圖將實例特征與空間位置對齊。這種方法可作為擴散過程中的模塊,適配不同的社區(qū)模型。

達到的效果:
實驗結(jié)果表明,IFAdapter 在定量和定性評估中均優(yōu)于其他模型,有效提升了實例的定位準(zhǔn)確性和特征保真度。同時,為此任務(wù)貢獻了IFG 基準(zhǔn),并開發(fā)了驗證pipeline,客觀比較不同模型生成實例的能力。

方法

問題定義

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

IFAdapter

在本工作中,IFAdapter 旨在控制實例特征和位置的生成。使用開源的Stable Diffusion 作為基礎(chǔ)模型。為了解決實例特征丟失的問題,引入了外觀tokens,作為高頻信息的補充。此外,為了引入更強的空間先驗,確保對位置和特征的準(zhǔn)確控制,利用外觀tokens構(gòu)建了實例語義圖,以引導(dǎo)生成過程。

外觀tokens

L2I Stable Diffusion 通過引入局部描述和位置作為附加條件,具有豐富特征的實例?,F(xiàn)有的方法通常使用預(yù)訓(xùn)練的 CLIP 文本編碼器生成的上下文化token(即文本結(jié)束token,EoT token)來引導(dǎo)實例特征的生成。盡管 EoT token 在前景生成中起著關(guān)鍵作用,但主要用于生成粗略的結(jié)構(gòu)內(nèi)容,因此需要額外的標(biāo)記來補充高頻細節(jié)。因此,現(xiàn)有的 L2I 方法若丟棄其他所有標(biāo)記,則無法生成詳細的實例特征。


一種簡單的緩解方法是使用 CLIP 文本編碼器生成的所有 77 個 tokens作為實例級條件。然而,這種方法在推理和訓(xùn)練過程中都會顯著增加內(nèi)存需求。此外,這 77 個 tokens中包含大量的填充token,它們對生成沒有貢獻。雖然移除填充 token可以降低計算成本,但由于描述長度的不同,這種策略無法與批量訓(xùn)練兼容。為了解決這一問題,本文提出將特征信息壓縮到一小組外觀tokens中,并利用這些tokens來補充 EoT token。

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

實例語義圖引導(dǎo)生成

除了確保生成詳細的實例特征外,IFG 任務(wù)還要求在指定位置生成實例。先前的方法使用順序錨定標(biāo)記作為條件,這種方法缺乏強健的空間對應(yīng)性,可能會導(dǎo)致特征錯位或泄漏等問題。因此,引入了一種名為實例語義圖 (ISM) 的地圖,作為更強的引導(dǎo)信號。由于所有實例的生成都由 ISM 引導(dǎo),在構(gòu)建該語義圖時必須考慮兩個主要問題:

  1. 為每個實例生成詳細且準(zhǔn)確的特征,同時避免特征泄漏;
  2. 處理多個實例存在的重疊區(qū)域。

為了解決這些問題,首先獨立生成每個實例,然后在重疊區(qū)域進行聚合。以下部分將詳細解釋這些過程。

單實例特征生成

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

門控語義融合

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

學(xué)習(xí)過程

在訓(xùn)練過程中,凍結(jié)了 SD 的參數(shù),僅訓(xùn)練 IFAdapter。用于訓(xùn)練的損失函數(shù)是包含實例級條件的 LDM 損失:

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

為了使本文的方法在推理階段執(zhí)行無分類器引導(dǎo) (CFG),在訓(xùn)練期間將全局條件y和局部條件c隨機設(shè)置為 0。

實驗

實施細節(jié)

訓(xùn)練數(shù)據(jù)集。使用 COCO2014數(shù)據(jù)集和 LAION 5B 的 100 萬子集作為數(shù)據(jù)來源。利用 Grounding-DINO和 RAM對圖像中的實例位置進行標(biāo)注。然后,我們使用最先進的視覺語言模型 (VLMs) QWen和 InternVL為圖像和單個實例生成標(biāo)題。

訓(xùn)練細節(jié)。使用 SDXL,因其強大的細節(jié)生成能力,作為我們的基礎(chǔ)模型。IFAdapter 應(yīng)用于 SDXL 的中層和解碼器層的子集,這些層對前景生成貢獻顯著。使用 AdamW優(yōu)化器,以學(xué)習(xí)率 0.0001 訓(xùn)練 IFAdapter 100,000 步,批量大小為 160。在訓(xùn)練過程中,有 15% 的概率丟棄局部描述,30% 的概率丟棄全局標(biāo)題。

在推理階段,使用 EulerDiscreteScheduler進行 30 次采樣步驟,并將無分類器引導(dǎo) (CFG) 比例設(shè)置為 7.5。

實驗設(shè)置

Baselines

將本文的方法與先前的 SOTA L2I 方法進行了比較,包括基于訓(xùn)練的方法 InstanceDiffusion、MIGC和 GLIGEN,以及無訓(xùn)練方法 DenseDiffusion和 MultiDiffusion。

評估數(shù)據(jù)集

按照先前的設(shè)置(Li et al., 2023; Zhou et al., 2024b; Wang et al., 2024c),在標(biāo)準(zhǔn)的 COCO2014 數(shù)據(jù)集上構(gòu)建了 COCO IFG 基準(zhǔn)。具體而言,使用與訓(xùn)練數(shù)據(jù)相同的方法對驗證集中的位置和局部描述進行標(biāo)注。每種方法都需要生成 1,000 張圖像進行驗證。

評估指標(biāo)

對于 IFG 任務(wù)的驗證,模型必須生成具有準(zhǔn)確特征的實例,并在適當(dāng)?shù)奈恢蒙伞?/p>

  • 實例特征成功率
  • Frechet Inception Distance (FID)
  • 全局 CLIP 分?jǐn)?shù)

比較

定量分析

下表 1 展示了在 IFG 基準(zhǔn)上的定性結(jié)果,包括 IFS 率、空間準(zhǔn)確性和圖像質(zhì)量的指標(biāo)。

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

IFS 率
為了計算 IFS 率,我們利用了三個最先進的視覺-語言模型 (VLMs):QWenVL、InternVL 和 CogVL。這種多模型方法確保了更全面和嚴(yán)格的驗證。如上表 1 所示,本文的模型在所有三個 IFS 率指標(biāo)上均優(yōu)于基線模型。引入外觀tokens和在訓(xùn)練中納入密集實例描述顯著提升了我們模型生成準(zhǔn)確實例細節(jié)的能力。值得注意的是,InstanceDiffusion 在 IFS 率上表現(xiàn)優(yōu)于其他基線模型。這可能是因為其訓(xùn)練數(shù)據(jù)集也包含了密集的實例級描述。這一觀察進一步強調(diào)了高質(zhì)量實例級標(biāo)注的必要性。

空間準(zhǔn)確性
如上表 1 所示,IFAdapter 在 GroundingDINO AP 中取得了最佳結(jié)果。這一成功歸因于地圖引導(dǎo)生成設(shè)計,該設(shè)計結(jié)合了額外的空間先驗,從而實現(xiàn)了更準(zhǔn)確的實例位置生成。

圖像質(zhì)量
如前面表 1 所示,本文的方法在 CLIP 評分上表現(xiàn)更高,表明增強局部細節(jié)有助于圖像與標(biāo)題一致性的同時提高。此外,本文的方法實現(xiàn)了更低的 FID,說明本文的方法生成的圖像質(zhì)量高于基線模型。將這一改善歸因于本文模型的適配器設(shè)計,該設(shè)計使得在不顯著妨礙圖像質(zhì)量的情況下實現(xiàn)空間控制。

定性分析

在下圖 1(a) 中,我們展示了生成的具有多個復(fù)雜實例的場景結(jié)果。研究者們進一步在下圖 3 中評估了模型生成多樣化特征實例的能力。如所示,本文的方法在各種實例細節(jié)的保真度方面表現(xiàn)最佳。

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

用戶研究

盡管 VLMs 可以在一定程度上驗證實例細節(jié),但與人類感知相比仍存在差距。因此,邀請了專業(yè)標(biāo)注員進行進一步驗證。

設(shè)置
進行了一個包含 270 個問題的研究,每個問題都關(guān)聯(lián)到一個隨機抽樣的生成圖像。評估者被要求對圖像質(zhì)量、實例位置準(zhǔn)確性和實例細節(jié)進行評分??偣彩占?30 個有效響應(yīng),產(chǎn)生了 7,290 個評分。

結(jié)果
如下表 2 所示,本文的方法在所有三個維度上都達到了最高的分?jǐn)?shù)和用戶偏好率。值得注意的是,這些維度的趨勢與表 1 中的結(jié)果一致,進一步證明了 VLM 驗證的有效性。

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

與社區(qū)模型的集成

由于 IFAdapter 的即插即用設(shè)計,它可以對預(yù)訓(xùn)練的擴散模型施加空間控制,而不會顯著影響生成圖像的風(fēng)格或質(zhì)量。這使得 IFAdapter 能夠有效地與各種社區(qū)擴散模型和 LoRAs集成。如下圖 4 所示,將 IFAdapter 應(yīng)用到幾個社區(qū)模型,包括 PixlArt、LeLo-LEGO、Claymation和 BluePencil。生成的圖像不僅符合指定的布局,而且準(zhǔn)確反映了各自的風(fēng)格。

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

消融研究

本文引入外觀tokens以解決 EoT  tokens在生成高頻細節(jié)方面的不足。這個消融研究主要探討了這兩種標(biāo)記類型在實例生成中的作用。

appearance tokens. 如下表 3 所示,去除外觀tokens會導(dǎo)致模型的 IFS 率和 FID 下降,表明詳細特征的丟失。此外,如下圖 5 所示,沒有外觀tokens生成的圖像表現(xiàn)出實例特征的不匹配,進一步證明了外觀tokens主要負責(zé)生成高頻外觀特征。

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

騰訊&新加坡國立發(fā)布IFAdapter:即插即用,提升文生圖模型實例特征和位置生成準(zhǔn)確性-AI.x社區(qū)

EoT token. 在沒有 EoT token的情況下生成圖像時,IFS 率顯著下降。這主要是因為 EoT token負責(zé)生成實例的粗略語義。此外,上圖 5 指出,去除 EoT token會導(dǎo)致語義級別的問題,如實例類別錯誤和實例遺漏。

結(jié)論

本文提出了 IFAdapter,以對預(yù)訓(xùn)練的 Stable Diffusion 模型進行細粒度的實例級控制。通過引入外觀tokens,增強了模型生成詳細實例特征的能力。利用外觀tokens構(gòu)建實例語義圖,將實例級特征與空間位置對齊,從而實現(xiàn)了強大的空間控制。定性和定量結(jié)果都表明本文的方法在生成詳細實例特征方面表現(xiàn)出色。此外,由于其即插即用的特性,IFAdapter 可以作為插件無縫集成到社區(qū)模型中,而無需重新訓(xùn)練。


本文轉(zhuǎn)自  AI生成未來 ,作者: AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/QcCfJZ_EzD2jBxzz6ZunEA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 午夜精品视频 | 国产福利视频 | 欧美在线a| 91精品久久 | 人人澡人人射 | 中文字幕一区二区三区在线观看 | 99精品一区二区三区 | 久久久久国色av免费观看性色 | 91国产在线视频在线 | 国产精品一区二区三区久久 | 亚洲成人av | 久久国产一区二区 | 福利一区视频 | 国产一区久久 | 可以看黄的视频 | 国产在线观看一区二区三区 | 午夜大片| 国产高清在线 | 国产日韩欧美在线观看 | 最新国产精品精品视频 | 欧美一级在线观看 | 国产精品色av | 国产精品不卡一区 | 国产一区 | 日本久久久久久 | 一本综合久久 | 国产精品高潮呻吟久久aⅴ码 | 在线一区视频 | 久久精品国产久精国产 | www.久久 | 亚洲一区二区在线免费观看 | 青青草原综合久久大伊人精品 | 羞羞在线观看视频 | 国产午夜精品一区二区三区 | 新91视频网 | 欧美性久久 | 黄色一级大片在线免费看产 | 欧美一级片在线观看 | 国产一级在线 | 精品亚洲一区二区三区四区五区高 | 老头搡老女人毛片视频在线看 |