成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

騰訊優圖提出首個基于DiT的高保真虛擬試衣算法FitDiT

人工智能 新聞
對于豐富的紋理感知維護,我們提出了一種服裝先驗進化策略,以更好地精確掌握服裝的圖案知識,并在像素空間中采用頻譜距離損失來保留復雜的圖案。

今天介紹的文章來自公眾號粉絲投稿,騰訊優圖提出首個基于DiT的高保真虛擬試衣算法FitDiT,給定一個人像圖像和一個衣物圖像,就可以生成一個展示人物穿著所提供衣物的圖像。FitDiT 在虛擬試穿中表現出色,解決了各種場景中與紋理感知保存和尺寸感知試穿相關的挑戰。

1. 引言

基于圖像的虛擬試穿是當前電商場景流行且前景看好的圖像合成技術,能夠顯著改善消費者的購物體驗并降低服裝商家的廣告成本。顧名思義,虛擬換衣任務的目標是生成穿著給定服裝的目標模特的圖像。但是目前的基于GAN 和 U-Net Diffusion的模型在豐富紋理維持以及服裝尺寸適配方面有所欠缺,其中我們發現U-Net的擴散結構的對高分辨率潛在特征的關注較少,會導致紋理維持較差。為了解決這個問題,我們提出了 FitDiT ,是首個基于DiT結構的高保真虛擬換衣工作,通過更加關注高分辨率特征,克服了當前 U-Net 擴散模型在復雜紋理維護方面的局限性。

對于豐富的紋理感知維護,我們提出了一種服裝先驗進化策略,以更好地精確掌握服裝的圖案知識,并在像素空間中采用頻譜距離損失來保留復雜的圖案。此外,對于尺寸感知試穿,我們提出了一種擴張松弛掩模增強方法,使用粗矩形掩模來降低服裝形狀的泄漏,并使模型能夠自適應地學習服裝的整體形狀。大量的定性和定量實驗有力地證明了 FitDiT 優于最先進的虛擬試穿模型,特別是在處理尺寸不匹配的紋理豐富的服裝方面。此外,它對單個 1024 × 768 圖像的推理時間達到了 4.57 秒,超越了現有方法。這些發現是推動虛擬試穿領域發展的重要里程碑,使現實世界中更復雜的應用成為可能。

FitDiT方案相比現有的開源算法有以下優勢:

  1. 1. 更清晰的紋理信息
  2. 2. 更好的衣服版型維持能力 3.更少的推理耗時

相關鏈接

  • ? 論文地址:https://arxiv.org/pdf/2411.10499
  • ? 項目主頁:https://byjiang.com/FitDiT/
  • ? 代碼倉庫:https://github.com/BoyuanJiang/FitDiT
  • ? 體驗地址:http://demo.fitdit.byjiang.com/

2. 效果展示

圖 1. FitDiT 在虛擬試穿中表現出色,解決了各種場景中與紋理感知保存和尺寸感知試穿相關的挑戰。

圖 2. 具有復雜服裝紋理、CVDD 視覺效果。放大后效果最佳。

3. 方法介紹

3.1 模型概述

FitDiT的目標是給定一個人像圖像和一個衣物圖像,生成一個展示人物穿著所提供衣物的圖像。這一過程可以被視為一個基于示例的圖像修復任務,涉及使用衣物 作為參考來填充被掩碼的人像圖像。FitDiT采用并行分支架構,其中GarmentDiT從輸入的衣物圖像中提取詳細的衣物特征,然后通過混合注意力機制將這些特征注入到DenoisingDiT中。

3.2 DiT的定制化

原始的穩定擴散模型(SD3)是一個文本到圖像的模型,由一系列堆疊的MM-DiT塊組成。我們分析了文本到圖像和虛擬試衣任務之間的差異,并為虛擬試衣特別定制了模型。

  • ? 結構精簡:原始SD3使用OpenCLIP bigG/14, CLIP-ViT/L和T5-xxl作為文本編碼器來處理文本提示,但對于虛擬試衣,生成的圖像主要由給定的衣服決定,文本提示的影響有限。因此,我們移除了SD3中的文本編碼器,節省了約72%的參數,同時提高了模型訓練和推理的速度,并減少了內存使用。
  • ? 將服裝作為全局控制條件:在虛擬試衣任務中,不同類型的衣物(如上身、下身、連衣裙)通常使用統一的模型進行訓練,這可能會導致訓練過程中的混淆。我們提出使用OpenCLIP bigG/14,和CLIP-ViT/L的圖像編碼器將給定的衣物編碼成garment-aware embedding,然后與時間步embedding結合,產生DiT模塊中AdaLN的控制參數,以衣物感知的方式調制DiT塊中的特征。
  • ? 衣物特征注入:為了提取衣物特征,我們首先將衣物輸入到GarmentDiT中,并在時間步 t=0 時保存GarmentDiT注意力模塊中的key和value的特征,這些特征包含了豐富的衣物紋理信息。然后在每個去噪步驟中,我們使用混合注意力機制將保存的衣物特征注入到DenoisingDiT中。

3.3 擴張放松掩碼策略

傳統的跨類別試衣方法通常會遇到形狀渲染不準確的問題,因為它們通常基于人體解析輪廓嚴格構建mask。這種掩碼構建策略可能導致訓練過程中衣物形狀信息的泄露,導致模型在推理時傾向于填充整個掩碼區域。為了緩解這個問題,我們提出了一種擴張放松掩碼策略,允許模型在訓練期間自動學習目標衣物的最優長度。

3.4 衣物紋理增強

為了在試衣過程中保持豐富的紋理,我們提出了一個兩階段訓練策略。首先,我們通過衣物先驗演化階段來微調GarmentDiT,使其能夠更好的捕捉衣服的細節信息。其次是DenoisingDiT訓練,它結合了頻率損失和去噪損失。

  • ? 衣物先驗演化:衣物特征提取器在試衣任務中保持紋理細節方面起著至關重要的作用。我們提出了一個簡單而有效的衣物先驗演化策略來增強我們的GarmentDiT。
  • ? 頻率學習:我們提出了像素空間中的頻率譜距離損失,使模型在優化過程中更多地關注頻率域中存在顯著差距的部分。

4. 實驗結果

在開源數據集上的對比

在我們提出的復雜換衣數據集(CVDD)上的對比

不同算法的性能對比,統一使用H20測試,分辨率為768x1024,20步去噪。結合CPU offload技術,FitDiT推理需要的顯存可以進一步降低到6G。

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2022-03-31 10:51:20

算法訓練研究

2022-07-17 13:07:26

模型開源

2021-04-14 15:03:16

數據性能存儲

2024-11-26 09:43:37

2025-06-24 09:06:00

AI推理模型

2024-09-12 12:46:36

2024-05-15 17:30:51

開源模型

2024-12-30 08:50:00

AI數據訓練

2023-08-21 12:10:08

算法AI

2023-12-09 14:29:32

AI算法

2025-04-03 10:17:23

2025-01-23 10:08:00

虛擬數字AI

2024-12-23 15:46:59

2024-04-03 14:11:49

模型訓練

2021-01-06 10:51:56

量子互聯網網絡安全

2025-06-13 14:13:26

3D場景生成模型

2021-08-06 08:20:38

微軟Teams音樂傳輸

2025-03-10 08:47:00

模型AI訓練

2010-06-01 09:21:52

Java 7閉包

2021-06-07 09:00:00

科技深度學習技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久中文字幕一区 | 国产日韩精品久久 | 国产aⅴ爽av久久久久久久 | 成人福利视频 | 国产日韩久久久久69影院 | 亚洲www. | 欧美视频一区二区三区 | 亚洲天堂成人在线视频 | 亚洲一区二区三区四区五区午夜 | 在线播放一区 | 91免费入口| h视频免费在线观看 | 国产在线精品一区 | 中文字幕av第一页 | 亚洲国产精品一区二区三区 | 91麻豆精品国产91久久久更新资源速度超快 | 日本久久精 | 成人性生交大免费 | 一级毛片在线看 | 人人人干| 99在线免费观看 | 秋霞a级毛片在线看 | 视频精品一区二区三区 | 欧美寡妇偷汉性猛交 | 久久久91精品国产一区二区三区 | 四虎成人av | 国产午夜精品一区二区三区 | 亚洲 欧美 日韩 在线 | 丁香久久 | 一区二区三区视频在线 | 久久久国产精品 | 99国内精品久久久久久久 | 国产欧美精品一区二区三区 | 久久午夜国产精品www忘忧草 | 亚洲精品一区二区三区蜜桃久 | 伊伊综合网 | 免费特级黄毛片 | 天天看天天爽 | 免费永久av | 亚洲欧美在线一区 | 欧美日韩福利视频 |