StochSync:可在任意空間中生成高質量360°全景圖和3D網格紋理
本文經AIGC Studio公眾號授權轉載,轉載請聯系出處。
StochSync方法可以用于在任意空間中生成圖像,尤其是360°全景圖和3D網格紋理。該方法利用了預訓練的圖像擴散模型,以實現zero-shot生成,消除了對新數據收集和單獨訓練生成模型的需求。StochSync 結合了 Diffusion Synchronization(DS)和 Score Distillation Sampling(SDS)的優點,能夠在條件較弱的情況下仍然生成高質量的圖像。
使用 StochSync 生成的各類網格紋理和全景圖,包括背景中的一張(環境映射圖),它是一張 360°全景圖。StochSync 擴展了在方形空間中訓練的圖像擴散模型的能力,能夠在諸如圓柱體、球體、環面和網格表面等任意空間中生成圖像。
相關鏈接
- 論文:http://arxiv.org/abs/2501.15445v1
- 主頁:https://stochsync.github.io/
論文介紹
我們提出了一種名為 StochSync 的方法,用于生成任意空間中的圖像——例如 360°全景圖或 3D 表面上的紋理——該方法利用了一個預訓練的圖像擴散模型。主要的挑戰在于彌合擴散模型理解的二維圖像與圖像生成的目標空間之間的差距。與那些在缺乏強條件或缺乏精細細節的情況下難以取得成效的方法不同,StochSync 結合了擴散同步和得分蒸餾采樣的優勢,即使在條件較弱的情況下也能有效運行。實驗表明 StochSync 比之前的基于微調的方法表現更出色,尤其是在 360°全景圖生成方面。
方法
StochSync方法的核心在于結合了Diffusion Synchronization和Score Distillation Sampling的優勢,具體包括以下幾個方面:
- 最大隨機性:在同步過程中引入最大隨機性,優化了樣本在不同實例空間之間的連貫性。這一策略通過調整噪聲預測的方式,幫助消除樣本間的接縫,提高了圖像的整體流暢性。
- 多步去噪計算:將傳統的單步去噪預測替換為多步去噪過程,以提高生成樣本的真實感和一致性。這種方法允許在每個時間步驟上進行更精確的樣本預測,進而提升生成圖像的細節。
- 非重疊視圖采樣:在每個步驟中采用非重疊的視圖采樣策略,確保樣本在時間上的同步,同時避免了由于視圖重疊導致的真實感下降。這種方法通過交替采樣不同的視圖,提高了生成圖像的質量。
全景生成
使用 PanFusion 生成全景圖的定性結果提示。在左側列中呈現了與先前工作的比較結果,而在右側列中展示了與 StochSync 一起的消融測試案例。
L-MAGIC (Cai et al., 2024)和StochSync在水平特異性提示上的定性比較。
三維網格紋理的附加定性結果。