成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!

發(fā)布于 2025-5-21 09:52
瀏覽
0收藏

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2505.07747 
Git鏈接:https://github.com/stepfun-ai/Step1X-3D 

亮點(diǎn)直擊

  • 提出了一套全面的數(shù)據(jù)治理流程,該流程在提升生成保真度的同時(shí),深入解析了3D資產(chǎn)特性。
  • 提出了Step1X-3D,一個(gè)原生3D生成框架,實(shí)現(xiàn)了幾何與紋理合成的解耦。該框架能夠生成拓?fù)浣Y(jié)構(gòu)合理的網(wǎng)格和幾何對(duì)齊的紋理,并通過圖像與語義輸入增強(qiáng)可控性。完整框架——包括基礎(chǔ)模型、訓(xùn)練代碼和基于LoRA的適配模塊——將被開源以促進(jìn)3D研究社區(qū)的發(fā)展。
  • Step1X-3D在資產(chǎn)質(zhì)量上超越了現(xiàn)有開源3D生成方法,同時(shí)達(dá)到了與專有前沿解決方案相媲美的性能。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 數(shù)據(jù)稀缺性:現(xiàn)有開源3D數(shù)據(jù)集(如ShapeNet、Objaverse)規(guī)模有限或質(zhì)量參差不齊,制約3D生成模型的訓(xùn)練效果。
  • 算法局限性:3D生成涉及幾何(Geometry)和紋理(Texture)的復(fù)雜耦合,現(xiàn)有方法在細(xì)節(jié)保留、跨視角一致性等方面表現(xiàn)不足。
  • 生態(tài)碎片化:開源模型(如Trellis)泛化性差,商業(yè)模型(如Hunyuan3D)未開放訓(xùn)練代碼,限制了可復(fù)現(xiàn)性和可控生成。

提出的方案

  • 高質(zhì)量數(shù)據(jù)集構(gòu)建
  • 從500萬原始資產(chǎn)中篩選,構(gòu)建200萬高質(zhì)量3D數(shù)據(jù)集(含80萬公開子集),標(biāo)準(zhǔn)化幾何與紋理屬性。
  • 通過紋理分辨率、法線貼圖精度、水密性(watertight)檢測等指標(biāo)嚴(yán)格過濾。
  • 兩階段生成架構(gòu)
  • 幾何生成:混合VAE-DiT模型生成TSDF(截?cái)喾?hào)距離函數(shù)),結(jié)合感知器編碼(perceiver)和銳邊采樣保留細(xì)節(jié)。
  • 紋理合成:基于SD-XL微調(diào)的多視角擴(kuò)散模型,通過幾何條件約束和隱空間同步確保跨視角一致性。
  • 開源生態(tài)支持
  • 完整開源模型、訓(xùn)練代碼及適配模塊(如支持2D控制技術(shù)LoRA遷移至3D生成)。

應(yīng)用的技術(shù)

  • 幾何生成
  • 混合VAE-DiT:3D感知器編碼壓縮點(diǎn)云至隱空間,MMDiT(FLUX架構(gòu))作為擴(kuò)散主干。
  • 細(xì)節(jié)保留:銳邊采樣(sharp edge sampling)和DoRA雙交叉注意力機(jī)制。
  • 紋理合成
  • 多視角擴(kuò)散模型:輸入幾何渲染圖(法線/位置圖)約束生成一致性。
  • 隱空間同步:在去噪過程中對(duì)齊多視角隱變量,解決遮擋問題。
  • 后處理:Trimesh修復(fù)網(wǎng)格拓?fù)洌瑇Atlas進(jìn)行UV參數(shù)化。
  • 2D-3D協(xié)同:支持2D控制技術(shù)(如LoRA)直接遷移至3D生成。

達(dá)到的效果

  • 性能提升
  • 幾何與紋理生成質(zhì)量超越開源基線(如Trellis),媲美商業(yè)方案(Tripo、Rodin)。
  • 基準(zhǔn)測試顯示SOTA結(jié)果,尤其在細(xì)節(jié)保留和視角一致性上表現(xiàn)突出。
  • 可控性
  • 支持單視角條件生成,兼容2D適配技術(shù)(如LoRA),實(shí)現(xiàn)細(xì)粒度控制。
  • 生態(tài)貢獻(xiàn)
  • 開源數(shù)據(jù)集、訓(xùn)練框架及適配工具,推動(dòng)3D生成研究的可復(fù)現(xiàn)性。

Step1X-3D幾何生成

Step1X-3D是一種基于流的擴(kuò)散模型,旨在從圖像生成高保真3D形狀,并支持包括文本和語義標(biāo)簽在內(nèi)的多模態(tài)條件輸入。所提出的幾何生成模型建立在先前的隱空間集擴(kuò)散模型(如Shape2VecSet、CLAY、Michelangelo和Craftsman3D)的基礎(chǔ)上,利用帶有修正流的隱空間集擴(kuò)散框架進(jìn)行3D形狀生成。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

Step1X-3D的Pipeline

本節(jié)首先介紹數(shù)據(jù)治理方法以進(jìn)行預(yù)處理。接著詳細(xì)描述形狀VAE和擴(kuò)散模型組件的架構(gòu)設(shè)計(jì)。此外,受CLAY方法的啟發(fā),提出了針對(duì)3D生成的LoRA 生態(tài)系統(tǒng)的適配方案。所有訓(xùn)練代碼和采樣數(shù)據(jù)將公開提供,以支持研究和社區(qū)發(fā)展。

幾何數(shù)據(jù)清理

近年來,多個(gè)大規(guī)模開源3D數(shù)據(jù)集相繼出現(xiàn),包括Objaverse、Objaverse-XL、ABO、3D-FUTURE、ShapeNet等,這些數(shù)據(jù)集總計(jì)包含超過1000萬個(gè)3D資產(chǎn)。然而,由于這些數(shù)據(jù)大多來源于網(wǎng)絡(luò)(尤其是龐大的Objaverse-XL數(shù)據(jù)集),其質(zhì)量參差不齊。為確保數(shù)據(jù)適合訓(xùn)練,本文實(shí)施了一套全面的3D數(shù)據(jù)處理流程,通過徹底的預(yù)處理來篩選高質(zhì)量、大規(guī)模的訓(xùn)練數(shù)據(jù)集。


流程包含三個(gè)主要階段。首先,通過剔除紋理質(zhì)量差、法線錯(cuò)誤、透明材質(zhì)或單一表面的資產(chǎn)來過濾低質(zhì)量數(shù)據(jù)。其次,將非水密網(wǎng)格轉(zhuǎn)換為水密表示,以實(shí)現(xiàn)正確的幾何監(jiān)督。第三,在表面上均勻采樣點(diǎn)及其法線,為VAE和擴(kuò)散模型訓(xùn)練提供全面的覆蓋。通過這一全面的數(shù)據(jù)處理流程,從多個(gè)來源成功篩選出約200萬個(gè)高質(zhì)量3D資產(chǎn):從原始Objaverse數(shù)據(jù)集中提取32萬個(gè)有效樣本,從Objaverse-XL中額外獲取48萬個(gè)樣本,并結(jié)合來自ABO、3D-FUTURE以及部分內(nèi)部創(chuàng)建數(shù)據(jù)的精選數(shù)據(jù)。

數(shù)據(jù)過濾完整的數(shù)據(jù)過濾流程如下圖3(a)所示。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

  • 紋理質(zhì)量過濾:為每個(gè)3D模型渲染6張標(biāo)準(zhǔn)視角的反照率貼圖。這些渲染圖像隨后轉(zhuǎn)換為HSV色彩空間進(jìn)行分析。對(duì)于每個(gè)視角,計(jì)算色調(diào)(H)和明度(V)通道的直方圖。基于這些直方圖,過濾掉過暗、過亮或顏色過于均勻的紋理。接著計(jì)算這6個(gè)視角的感知分?jǐn)?shù)并據(jù)此排序,剔除排名最低的20%樣本。
  • 單一表面過濾:渲染6張標(biāo)準(zhǔn)視角的規(guī)范坐標(biāo)圖(CCM)以檢測單一表面幾何。檢查相對(duì)視角上的對(duì)應(yīng)像素是否映射到相同的3D點(diǎn)。如果此類像素匹配的比例超過閾值,則該物體被歸類為單一表面。
  • 小物體過濾:過濾掉目標(biāo)物體在前視圖中占據(jù)面積過小的數(shù)據(jù)。這發(fā)生在兩種情況下:物體方向不當(dāng)(例如仰臥的人體在前視圖中僅可見腳部),或多物體場景中經(jīng)過歸一化后物體過小。計(jì)算前視圖中有效alpha通道像素的百分比,并剔除覆蓋率低于10%的樣本。
  • 透明物體過濾:排除具有透明材質(zhì)的物體,因?yàn)檫@些物體通常使用alpha通道平面建模(例如樹葉)。這些透明表面會(huì)導(dǎo)致渲染的RGB圖像與實(shí)際幾何之間的不對(duì)齊,從而對(duì)模型訓(xùn)練產(chǎn)生負(fù)面影響。本文的過濾方法檢測并剔除Principled BSDF著色器中包含alpha通道的資產(chǎn)。
  • 錯(cuò)誤法線過濾:識(shí)別并剔除法線錯(cuò)誤的數(shù)據(jù),否則這些數(shù)據(jù)會(huì)在水密轉(zhuǎn)換過程中產(chǎn)生孔洞。本文的方法在相機(jī)空間中渲染6視角法線貼圖,并通過檢查法線向量是否與對(duì)應(yīng)相機(jī)位置形成鈍角來檢測錯(cuò)誤法線。
  • 名稱和網(wǎng)格類型過濾:通過名稱或網(wǎng)格類型過濾掉標(biāo)記為點(diǎn)云的數(shù)據(jù),因?yàn)檫@些掃描數(shù)據(jù)集通常包含噪聲幾何且難以轉(zhuǎn)換為水密網(wǎng)格。

增強(qiáng)的網(wǎng)格到SDF轉(zhuǎn)換

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

訓(xùn)練數(shù)據(jù)轉(zhuǎn)換

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

Step1X-3D形狀生成

與2D圖像生成類似,Step1X-3D形狀生成模塊由一個(gè)形狀自動(dòng)編碼器和一個(gè)Rectified Flow Transformer組成。對(duì)于采樣的點(diǎn)云P,首先使用形狀隱空間集自動(dòng)編碼器將其壓縮為一維張量,然后通過受Flux啟發(fā)的一維Rectified Flow Transformer訓(xùn)練擴(kuò)散模型。我們還支持LoRA等附加組件以增強(qiáng)靈活性。

3D形狀變分自動(dòng)編碼器

隱空間擴(kuò)散模型(LDM)的成功證明,緊湊、高效且表達(dá)能力強(qiáng)的表示對(duì)于訓(xùn)練擴(kuò)散模型至關(guān)重要。因此,我們首先將3D形狀編碼到隱空間,然后訓(xùn)練一個(gè)3D隱空間擴(kuò)散模型用于3D生成。遵循3DShape2VecSet的設(shè)計(jì),本文采用潛在向量集表示將點(diǎn)云編碼到隱空間,并將其解碼為幾何函數(shù)(例如符號(hào)距離場或占據(jù)場)。為了提高可擴(kuò)展性,采用了近期工作[29, 95]中基于Transformer的編碼器-解碼器架構(gòu)。此外,還結(jié)合了Dora提出的Sharp Edge Sampling和Dual Cross Attention技術(shù)以增強(qiáng)幾何細(xì)節(jié)保留。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

Step1X-3D擴(kuò)散主干網(wǎng)絡(luò)

基于文本到圖像擴(kuò)散模型FLUX的先進(jìn)架構(gòu),采用相同MMDiT結(jié)構(gòu)但適配1D隱空間處理(下圖4)。雙流塊中隱空間token與條件token通過獨(dú)立QKV投影和MLP處理,但仍通過交叉注意力交互;單流塊則合并兩類token并采用并行空間/通道注意力機(jī)制聯(lián)合處理。這種混合架構(gòu)在保持跨模態(tài)交互效率的同時(shí)實(shí)現(xiàn)靈活特征學(xué)習(xí)。由于ShapeVAE的隱空間集表示缺乏顯式空間對(duì)應(yīng)關(guān)系,移除了隱空間集S的位置編碼,僅保留時(shí)間步嵌入進(jìn)行調(diào)制。對(duì)于單圖像條件生成,采用帶registers的DINOv2大型圖像編碼器,從預(yù)處理后的518×518分辨率圖像(背景去除/物體居中/白底填充)提取條件token,并拼接CLIP-ViT-L/14特征以融合語義與全局特征,最終通過并行交叉注意力機(jī)制注入各流塊。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

更靈活的3D生成控制

基于VAE+D擴(kuò)散框架的結(jié)構(gòu)優(yōu)勢(shì)(與文本到圖像架構(gòu)兼容),實(shí)現(xiàn)了2D可控生成技術(shù)(如ControlNet、IP-Adapter)與LoRA等高效參數(shù)適配方法向3D網(wǎng)格合成的遷移。參考CLAY的ControlNet-UNet組合探索,在Step1x-3D框架系統(tǒng)化實(shí)現(xiàn)這些控制機(jī)制。為高效引入條件信號(hào),可采用ControlNet式條件分支或LoRA:當(dāng)前開源階段通過標(biāo)簽幾何屬性(對(duì)稱性/細(xì)節(jié)層次)訓(xùn)練LoRA模塊實(shí)現(xiàn)輕量化域適應(yīng),該模塊僅作用于條件分支。后續(xù)計(jì)劃擴(kuò)展骨架/邊界框/標(biāo)題/IP圖像等條件微調(diào)。

訓(xùn)練Rectified Flow模型

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

其中c表示條件信號(hào),采用自適應(yīng)時(shí)間步加權(quán)方案。為進(jìn)一步穩(wěn)定訓(xùn)練,引入了指數(shù)移動(dòng)平均(EMA)策略,衰減率為0.999,以平滑參數(shù)更新。訓(xùn)練分為兩個(gè)階段:初始階段為了快速收斂,使用512的隱空間集大小、1e-4的學(xué)習(xí)率,在96塊NVIDIA A800 GPU上以1920的批量大小進(jìn)行100k次迭代;隨后為提升模型容量和精度,將隱空間集大小擴(kuò)展至2048,學(xué)習(xí)率降至5e-5,批量大小減半至960再進(jìn)行100k次迭代,確保在高維數(shù)據(jù)空間中魯棒適應(yīng)的同時(shí)保持計(jì)算效率。

Step1X-3D紋理生成

通過Step1X-3D框架生成未貼圖的3D幾何后,紋理合成通過多階段流水線完成(如圖5)。首先對(duì)原始幾何進(jìn)行后處理以保證拓?fù)湟恢滦院徒Y(jié)構(gòu)完整性;接著準(zhǔn)備紋理生成所需的3D資產(chǎn);然后基于高質(zhì)量3D數(shù)據(jù)集微調(diào)多視角圖像生成模型,通過法線和位置圖引入幾何引導(dǎo);最后將生成的多視角圖像超分辨率至2048×2048再進(jìn)行UV烘焙,并通過修復(fù)完成紋理貼圖。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

幾何后處理

為實(shí)現(xiàn)高保真紋理貼圖,對(duì)幾何生成流程輸出的網(wǎng)格進(jìn)行后處理。優(yōu)化過程主要使用trimesh工具包:首先驗(yàn)證初始網(wǎng)格的密閉性,檢測到非流形幾何時(shí)實(shí)施孔洞填充算法;隨后執(zhí)行重網(wǎng)格化操作,將每個(gè)三角面細(xì)分為四個(gè)子面并施加拉普拉斯表面平滑約束,該過程確保拓?fù)渚鶆蚍植疾⒆钚』疷V接縫瑕疵;最后利用xAtlas參數(shù)化框架生成優(yōu)化UV坐標(biāo)并集成到最終網(wǎng)格表示中。此系統(tǒng)化優(yōu)化流程為后續(xù)紋理映射提供幾何魯棒性保障。

紋理數(shù)據(jù)集準(zhǔn)備

相比幾何生成,紋理生成組件不需要百萬級(jí)訓(xùn)練樣本,但對(duì)紋理質(zhì)量和美學(xué)指標(biāo)要求更高。基于清洗后的320K Objaverse數(shù)據(jù)集,進(jìn)一步篩選30K 3D資產(chǎn)用于多視角生成模型訓(xùn)練。具體使用Blender渲染每個(gè)對(duì)象的六視角(前、后、左、右、頂、底)圖像,同步輸出768×768分辨率的反照率、法線圖和位置圖。

幾何引導(dǎo)的多視角圖像生成

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

幾何引導(dǎo)的生成

為上述未貼圖3D網(wǎng)格生成合理精細(xì)的紋理,在多視角生成過程中除單視角輸入條件外,通過注入幾何信息以增強(qiáng)細(xì)節(jié)合成及紋理與網(wǎng)格表面的對(duì)齊精度。具體引入兩類幾何引導(dǎo):法線圖和3D位置圖。法線圖保留物體細(xì)粒度幾何細(xì)節(jié),3D位置圖則通過全局世界坐標(biāo)系下的三維坐標(biāo)一致性確保不同視角間紋理與網(wǎng)格頂點(diǎn)的空間對(duì)應(yīng)關(guān)系。這些幾何特征經(jīng)圖像編碼器編碼后,通過交叉注意力機(jī)制注入主干生成模型,在保持生成模型感知連貫紋理能力的同時(shí)實(shí)現(xiàn)顯式幾何條件控制。

紋理域的多視角同步

盡管跨視角注意力和雙重幾何條件項(xiàng)已實(shí)現(xiàn)令人滿意的多視角一致性,但圖像空間與UV空間的本征差異仍會(huì)導(dǎo)致合成紋理出現(xiàn)局部模糊和接縫不連續(xù)等問題。為此在推理階段擴(kuò)展MV-Adapter框架,引入紋理空間同步模塊。不同于MVPaint和SyncMVD等文本到多視角方案——它們回避了輸入條件圖像與輸出多視角圖像間風(fēng)格參考(sref)和內(nèi)容參考(cref)的顯式建模——本文的方法無需輔助精煉管線(如帶ControlNet的Stable Diffusion)即可實(shí)現(xiàn)多視角同步。該設(shè)計(jì)基于兩點(diǎn)考量:1)生成器在96×96潛在分辨率下運(yùn)行,經(jīng)驗(yàn)證已具備充足紋理表征能力;2)統(tǒng)一隱空間中的聯(lián)合優(yōu)化天然保持跨視角紋理連貫性。因此我們僅通過單一擴(kuò)散模型主干內(nèi)的隱空間對(duì)齊實(shí)現(xiàn)紋理同步,在保證視覺保真度的同時(shí)提升參數(shù)效率。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

紋理烘焙

遵循傳統(tǒng)紋理烘焙流程,本文對(duì)物體的多視角投影實(shí)施標(biāo)準(zhǔn)紋理處理操作,并復(fù)用Hunyuan3D 2.0的紋理烘焙工具。首先將多視角圖像超分辨率至2048×2048,隨后逆投影至紋理空間。由于遮擋和多視角不一致性,該過程不可避免會(huì)引入U(xiǎn)V映射紋理中的斷裂和孔洞等偽影。為此,通過迭代優(yōu)化實(shí)現(xiàn)連續(xù)性感知的紋理修復(fù),確保整個(gè)表面無縫的紋理合成。此后處理階段有效解決了拓?fù)淦缌x性,同時(shí)保留了光真實(shí)感渲染所需的高頻紋理細(xì)節(jié)。

實(shí)驗(yàn)

本節(jié)全面評(píng)估Step1X-3D的生成性能。首先詳細(xì)展示其基于單張輸入圖像生成幾何與紋理的能力;接著驗(yàn)證模型的靈活性與可控性;最后將Step1X-3D與開源(Trellis、Hunyuan3D 2.0、TripoSG)和商用方案(Meshy-4、Tripo-v2.5、Rodin-v1.5)在定量指標(biāo)、用戶研究和視覺質(zhì)量三個(gè)維度進(jìn)行系統(tǒng)對(duì)比。

Step1X-3D生成資產(chǎn)的視覺質(zhì)量

為評(píng)估Step1X-3D,圖6和圖7分別展示幾何與紋理維度的生成結(jié)果。為突出幾何細(xì)節(jié),渲染生成網(wǎng)格的多視角法線圖進(jìn)行3D幾何可視化。如下圖6所示,第1、6列為輸入圖像,其余列為不同物體的多視角表現(xiàn)。測試對(duì)象涵蓋多種風(fēng)格(卡通、素描、照片級(jí))、幾何復(fù)雜度(平面、空心結(jié)構(gòu)、細(xì)節(jié)豐富物體)和空間配置(單物體與多物體組合)。面對(duì)多樣化輸入,Step1X-3D幾何生成模型不僅保持3D網(wǎng)格與輸入圖像的高度相似性,還能為遮擋區(qū)域重建合理的空間結(jié)構(gòu)與幾何細(xì)節(jié)。這些結(jié)果證明了我們專門設(shè)計(jì)的3D擴(kuò)散模型與VAE架構(gòu)的關(guān)鍵作用,以及大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)對(duì)泛化能力的顯著提升。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

下圖7進(jìn)一步通過帶紋理3D網(wǎng)格的多視角渲染展示紋理生成能力。紋理生成模型在各類輸入風(fēng)格下產(chǎn)出風(fēng)格一致的紋理,同時(shí)高度還原輸入圖像的紋理細(xì)節(jié)。對(duì)于輸入圖像的遮擋區(qū)域,通過保留SD-XL原始參數(shù)并引入目標(biāo)模型法線圖與位置圖作為幾何引導(dǎo),Step1X-3D實(shí)現(xiàn)了具有優(yōu)秀多視角一致性和精準(zhǔn)幾何-紋理對(duì)齊的合理視角補(bǔ)全。綜上,Step1X-3D生成的3D幾何兼具合理性與豐富紋理,最終帶紋理網(wǎng)格在內(nèi)容與風(fēng)格上與輸入條件圖像高度匹配。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

基于LoRA微調(diào)的高可控3D生成

在基于單圖條件進(jìn)行網(wǎng)格重建的預(yù)訓(xùn)練幾何生成模型基礎(chǔ)上,無縫集成LoRA微調(diào)以實(shí)現(xiàn)對(duì)多樣化3D生成模型的靈活控制。本實(shí)驗(yàn)聚焦實(shí)際用戶需求,專門設(shè)計(jì)兩種幾何控制策略:對(duì)稱性操縱和層級(jí)幾何細(xì)節(jié)調(diào)整。為實(shí)現(xiàn)控制,我們收集約30,000個(gè)3D模型,并利用Step1O多模態(tài)模型基于(1)對(duì)稱屬性和(2)幾何細(xì)節(jié)層級(jí)(銳利、普通、平滑)進(jìn)行標(biāo)注。圖8和圖9展示了高可控3D生成結(jié)果。為更好捕捉3D網(wǎng)格的幾何細(xì)節(jié),我們采用多視角法線圖進(jìn)行幾何表征。


下圖8展示使用“對(duì)稱”/“非對(duì)稱”標(biāo)注的幾何生成結(jié)果。第1列為輸入圖像,2-5列展示對(duì)稱條件標(biāo)注生成的3D物體四視角(前、后、左、右)結(jié)果,6-9列呈現(xiàn)非對(duì)稱條件的對(duì)應(yīng)結(jié)果。生成物體始終遵循控制指令,尤其在前/后視圖中表現(xiàn)顯著。下圖9詳細(xì)展示幾何細(xì)節(jié)的層級(jí)控制,從左至右依次為輸入圖像、“銳利”、“普通”、“平滑”標(biāo)簽的生成結(jié)果,每個(gè)物體通過前、右、后視圖的法線圖呈現(xiàn)。與先前結(jié)果一致,生成物體嚴(yán)格遵循對(duì)應(yīng)控制標(biāo)簽,進(jìn)一步驗(yàn)證了Step1X-3D微調(diào)技術(shù)的有效性及其幾何生成模型的強(qiáng)泛化能力。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

與SOTA方法的對(duì)比結(jié)果

為驗(yàn)證Step1X-3D的有效性,本文與現(xiàn)有SOTA方法進(jìn)行全面對(duì)比,包括開源方案(Trellis、Hunyuan3D 2.0、TripoSG)和商用系統(tǒng)(Tripo-v2.5、Rodin-v1.5、Meshy-4)。具體實(shí)施:(1)使用幾何與紋理指標(biāo)的定量評(píng)估;(2)通過主觀評(píng)分進(jìn)行3D感知質(zhì)量的用戶研究;(3)多樣化輸入條件下幾何與紋理結(jié)果的視覺對(duì)比。

跨SOTA方法的定量比較與用戶研究

除多樣化輸入條件的視覺對(duì)比外,本文構(gòu)建了包含110張真實(shí)場景圖像的基準(zhǔn)數(shù)據(jù)集。該基準(zhǔn)包含:(1)來自各3D生成平臺(tái)(如Tripo、Rodin等)的示例圖像;(2)Flux模型生成的覆蓋COCO數(shù)據(jù)集80個(gè)類別的圖像。基于此測試集,我們系統(tǒng)收集了各方法生成的3D資產(chǎn)用于定量評(píng)估與主觀用戶研究。


本文同樣為幾何和紋理維度設(shè)計(jì)了定量評(píng)估指標(biāo)。在幾何評(píng)估方面,利用自監(jiān)督多模態(tài)模型對(duì)輸入2D圖像與生成3D點(diǎn)云(從輸出網(wǎng)格中提取)進(jìn)行特征匹配。為確保全面公平的比較,采用兩種不同的多模態(tài)框架進(jìn)行特征提取:Uni3D和OpenShape,以余弦相似度作為相似性度量。對(duì)于采用自監(jiān)督范式的OpenShape框架,分別以SparseConv和PointBERT作為骨干架構(gòu),最終得到三個(gè)評(píng)估圖像-幾何對(duì)齊的獨(dú)立指標(biāo):Uni3D-I、OpenShapesc-I和OpenShapepb-I,分?jǐn)?shù)越高表明與輸入圖像的幾何一致性越好。紋理評(píng)估方面,采用CLIP-Score衡量語義對(duì)齊性,具體方法是從帶紋理的3D模型在30°仰角和{0°,90°,180°,270°}方位角下渲染多視角圖像,用于與輸入圖像的語義一致性評(píng)估。定量結(jié)果如下表1所示,最高分與次高分已標(biāo)出。Step1X-3D在CLIP-Score上取得最高分,并在幾何-語義匹配指標(biāo)中獲得多個(gè)次高排名,這些優(yōu)勢(shì)進(jìn)一步證明了Step1X-3D強(qiáng)大的生成能力。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

本文開展了包含20名參與者的用戶研究,評(píng)估全部110張未篩選測試圖像。針對(duì)3D模型的評(píng)估標(biāo)準(zhǔn)包括:(1)幾何合理性,(2)與輸入圖像的相似度,(3)紋理清晰度,(4)紋理-幾何對(duì)齊度。參與者采用5級(jí)李克特量表(1:最差質(zhì)量,5:最佳質(zhì)量)對(duì)每個(gè)對(duì)象評(píng)分。如下圖10所示,Step1X-3D與當(dāng)前最佳方法表現(xiàn)相當(dāng)。但值得注意的是,所有評(píng)估算法仍遠(yuǎn)未達(dá)到理論上限,表明在達(dá)到生產(chǎn)級(jí)質(zhì)量前仍有巨大改進(jìn)空間。這些發(fā)現(xiàn)強(qiáng)調(diào)了在3D研究社區(qū)開展開源協(xié)作以共同推動(dòng)技術(shù)進(jìn)步的重要性。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

跨SOTA方法的視覺對(duì)比

下圖11與圖12展示了不同方法的幾何與紋理輸出對(duì)比結(jié)果。不同于以往的視覺比較,通過統(tǒng)一評(píng)估協(xié)議解決生成3D網(wǎng)格的位姿不一致問題:(1)在Unreal Engine中對(duì)未貼圖和帶紋理模型進(jìn)行位姿歸一化對(duì)齊,(2)將多個(gè)物體合成單張渲染圖像以便直接對(duì)比。這種標(biāo)準(zhǔn)化方法表明,Step1X-3D相對(duì)于現(xiàn)有最佳方法具有相當(dāng)或更優(yōu)的表現(xiàn)。

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

超越所有開源方法!Step1X-3D開源來襲:百萬超清數(shù)據(jù)集+VAE-DiT,一鍵駕馭立體世界!-AI.x社區(qū)

結(jié)論

Step1X-3D通過引入開源高保真框架實(shí)現(xiàn)幾何與紋理合成的解耦,推動(dòng)了3D生成技術(shù)的進(jìn)步。經(jīng)過嚴(yán)格的數(shù)據(jù)篩選(200萬資產(chǎn))和混合VAE-DiT架構(gòu),該方法在實(shí)現(xiàn)優(yōu)異結(jié)果的同時(shí)支持2D到3D的控制遷移。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/Wf_nQIGJtylM1iz758MFKg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久草中文在线观看 | 精品久久久久久久 | 国产乱码精品一区二区三区五月婷 | 天堂精品视频 | 日日干夜夜操天天操 | 日韩精品一区二区三区中文在线 | 欧美aaa| av大片在线观看 | 免费视频二区 | 在线免费观看黄a | 久久久久国产精品人 | 欧美性久久| 日韩乱码在线 | 91久久精品一区二区二区 | www.中文字幕.com| 欧美一级黄| 欧美日韩国产一区二区三区 | 国产精品久久久久久亚洲调教 | 国产精品日日摸夜夜添夜夜av | 亚洲精品不卡 | 久久天天躁狠狠躁夜夜躁2014 | 国产精品久久久久久久久久 | 精品在线看 | 国外成人在线视频网站 | 久久国产精品精品国产色婷婷 | 欧美高清成人 | 成人精品一区二区 | 免费一区二区 | 日韩欧美国产一区二区三区 | 国产精品亚洲一区二区三区在线观看 | 丁香五月缴情综合网 | 亚洲一区二区三区高清 | 欧美日韩一区二区在线观看 | 一区中文字幕 | 韩国电影久久 | 狠狠亚洲 | 久久久久免费 | 亚洲福利在线观看 | 午夜tv免费观看 | 岛国毛片| 久久99视频 |