3D人臉黑科技!Pixel3DMM:單張RGB圖像秒變3D人臉,姿勢表情精準(zhǔn)還原,幾何精度碾壓競品15%!
慕尼黑工業(yè)大學(xué)和倫敦大學(xué)學(xué)院提出了一款經(jīng)過微調(diào)的 DINO ViT模型 Pixel3DMM,用于逐像素表面法線和 UV 坐標(biāo)預(yù)測。從上到下,下圖展示了 FFHQ 輸入圖像、估計的表面法線、根據(jù)預(yù)測的 UV 坐標(biāo)估計的二維頂點,以及針對上述兩個線索的 FLAME 擬合結(jié)果。
圖片
從左到右:輸入、預(yù)測法線、預(yù)測二維頂點、跟蹤覆蓋、FLAME 跟蹤。
單幅圖像重建
給定一個輸入圖像(右上),下圖展示了 DECA、FlowFace 和 Ours 相對于地面真實 COLMAP 點云的幾何重建。
給定一個輸入圖像(右上),我們展示了 DECA、FlowFace 和 Ours 相對于地面真實 COLMAP 點云的中性幾何重建。
相關(guān)鏈接
- 項目:https://simongiebenhain.github.io/pixel3dmm
- 論文:??https://simongiebenhain.github.io/pixel3dmm/static/Pixel3DMM.pdf??
論文介紹
我們致力于從單張 RGB 圖像進(jìn)行人臉的 3D 重建。為此,我們提出了 Pixel3DMM,這是一組高度泛化的視覺變換器,能夠預(yù)測每個像素的幾何線索,從而限制 3D 可變形人臉模型 (3DMM) 的優(yōu)化。我們利用 DINO 基礎(chǔ)模型的潛在特征,并引入了定制的表面法線和 uv 坐標(biāo)預(yù)測頭。我們通過將三個高質(zhì)量的 3D 人臉數(shù)據(jù)集與 FLAME 網(wǎng)格拓?fù)溥M(jìn)行配準(zhǔn)來訓(xùn)練我們的模型,最終共計生成超過 1,000 個身份和 976,000 張圖像。對于 3D 人臉重建,我們提出了一種 FLAME 擬合優(yōu)化方法,該方法可以根據(jù) uv 坐標(biāo)和法線估計值求解 3DMM 參數(shù)。為了評估我們的方法,我們引入了一個用于單圖像人臉重建的新基準(zhǔn),該基準(zhǔn)具有高度多樣化的面部表情、視角和種族特征。至關(guān)重要的是,我們的基準(zhǔn)是第一個同時評估姿勢面部和中性面部幾何形狀的基準(zhǔn)。最終,我們的方法在姿勢面部表情的幾何精度方面比最具競爭力的基線高出 15% 以上。
方法概述
- 左圖:我們的網(wǎng)絡(luò)由 DINO 主干網(wǎng)絡(luò)和輕量級預(yù)測頭組成。我們在 NPHM、FaceScape 和 Ava256 數(shù)據(jù)集上訓(xùn)練模型,并使用 FLAME 和非剛性配準(zhǔn)將這些數(shù)據(jù)集轉(zhuǎn)換為統(tǒng)一的格式。
- 右圖:在推理階段,我們使用法線和 UV 坐標(biāo)預(yù)測作為 FLAME 擬合過程中的優(yōu)化目標(biāo)。雖然法線約束很簡單,但我們首先使用最近鄰查找法預(yù)測二維頂點位置,從而將 UV 坐標(biāo)預(yù)測納入其中。
實驗結(jié)果
表面法線估計
給定一個輸入圖像(左),下圖展示了幾個表面法線估計器(右上)和誤差圖(右下)的預(yù)測
本文轉(zhuǎn)載自?????AIGC Studio?????,作者:AIGC Studio
