無需昂貴設備,單目方案生成超逼真3D頭像,清華&IDEA新研究入選CVPR2025
在數字人、虛擬主播、AR/VR等場景快速發展背景下,如何高效生成真實、可動、可重光照的3D頭像成為關鍵。
來自清華和IDEA的研究團隊,聯合開發了HRAvatar(High-Quality and Relightable Gaussian Head Avatar),一種基于單目視頻的3D高斯頭像重建方法。采用可學習形變基和線性蒙皮技術,實現靈活且精確的幾何變形,并通過精準的表情編碼器減少追蹤誤差,提升重建質量。
相關研究論文已成功被國際計算機視覺與模式識別會議CVPR 2025錄用。
HRAvatar:從單目視頻到可重光照頭像化身的突破
創建3D頭像化身對于電影、游戲、沉浸式會議、AR/VR等領域至關重要。在這些應用中,頭像化身必須滿足幾個要求:可動畫化、實時、高質量和視覺上逼真。
然而,從易獲取的單目視頻中創建高度逼真且可動畫化的頭像仍然具較大的挑戰性。盡管基于3D 高斯(3DGS)的方法在可動畫性和實時渲染方面取得進展,但其重建質量仍受三方面限制。
幾何變形靈活性不足:現有方法依賴通用參數模型(3DMM)驅動高斯點變形,難以準確捕捉個性化表情變化;
表情追蹤不準確:訓練前通過2D關鍵點擬合獲取表情參數不夠準確,直接優化表情參數則泛化性差,需在測試時進行后優化;
無法實現真實重光照:在單目未知光照下直接擬合頭像外觀顏色,無法解耦頭像本征外觀與環境光照,而難以在新環境光下實現重光照渲染。
為解決上述問題,該方法提出HRAvatar,一種基于3D高斯點實現從單目視頻到高質量、可重光照且可驅動的虛擬頭像化身重建。
該方法通過可學習的形變基與蒙皮權重策略,實現高斯點從標準姿態到各種表情和姿態的靈活變形。同時,引入端到端的表情編碼器,提升表情參數提取準確性,減少預追蹤參數誤差對重建的影響,并確保一定的泛化能力。
為實現真實重光照,該方法將頭像外觀分解為反照率、粗糙度、菲涅爾反射等材質屬性,并引入反照率偽先驗以更好解耦材質信息,使用簡化的BRDF物理模型進行著色。
整體方法在保證實時性的前提下,實現了細節豐富、表現力強且支持重光照效果的虛擬頭像重建。
HRAvatar架構剖析
精確表情追蹤
現有面部跟蹤方法獲取的表情參數不夠準確,為解決表情參數誤差影響面部重建質量的問題,該方法提出使用表情編碼器,更精確提取表情參數。
編碼器與3D頭像重建聯合優化,實現端到端的訓練,利用高斯重建損失進行監督,提高重建準確性。
幾何變形模型
該方法使用形變模型將高斯點從標準空間變換到姿態空間,實現基于表情和姿態參數的變形。
為解決通用參數模型難以還原個性化變形的問題,提出自適應學習每個點的形變基與混合蒙皮權重,實現更靈活、精確的幾何變形。
類似FLAME模型,采用可學習的線性形變基(Linear Blendshapes)建模幾何位移,對每個高斯點引入三個可學習屬性:形狀基,表情基,姿態基。
完成線性位移形變后,通過線性蒙皮將高斯點變換到姿態空間。每個高斯點配備一個可學習的混合權重屬性,用于適應個體的姿態變形。
為簡化和加速訓練收斂,該方法依賴FLAME模型的幾何與形變先驗進行初始化:對FLAME網格面進行插值,初始化高斯點位置。采用相同插值策略初始化形變基和蒙皮權重。
外觀建模
相比3DGS使用球諧函數建模點的外觀,該方法采用一種新的外觀建模方法,將外觀分解為三個屬性:反照率、粗糙度和菲涅爾基礎反射率,并采用BRDF物理渲染模型進行著色。
為提升效率,進一步引入SplitSum近似技術,對環境光照圖進行預計算,從而實現高質量、可重光照的實時渲染。
該方法使用光柵化器渲染出反照率圖、粗糙度圖、反射率圖和法線圖。接著,計算鏡面反射和漫反射圖:
并使用近似的菲涅爾方程來計算鏡面反射系數 :
最終的著色圖像由漫反射和鏡面反射圖相加得到。
法線估計。平滑且準確的法線對于物理渲染至關重要,該方法使用每個高斯點的最短軸作為其法線。為確保方向正確和幾何一致性,該方法通過深度導數獲得的法線圖來監督渲染的法線圖。
材質先驗。在恒定未知光照下解耦材質屬性具有不適定性,非均勻光照下重建容易誤將局部光照混入反照率,導致不真實重光照結果。該方法使用現有模型提取偽真實反照率,監督渲染反照率,并限制粗糙度和基礎反射率在預定義范圍內,以獲得更真實材質。
真實細節與實時性能兼得:HRAvatar 實驗結果全維度領先
實驗設置:
該方法在INSTA數據集的10個對象、HDTF數據集的8個對象和5個手機自采集對象上評估了不同方法,使用每個視頻的最后350幀(INSTA)或500幀(HDTF、自采集)作為測試集。所有方法采用相同裁剪和分割流程,確保評估一致性和可靠性。圖像質量通過 PSNR、MAE、SSIM 和 LPIPS 指標進行評估。
實驗結果:
該方法在所有指標上均優于現有方法,尤其是在LPIPS上表現突出,表明重建的頭像細節更豐富、質量更高。
此外,該方法在驅動和重光照設定下測試了渲染速度,達到約155 FPS的實時性能。
應用:
重建的頭像化身除了可進行驅動,也可以在新的環境光圖下進行重光照或簡單的材質編輯。
消融實驗:
為了驗證方法中各個組件的有效性,論文中進行了詳細的消融實驗。
以上實驗結果表明,HRAvatar在整體質量上優于現有方法,支持高質量的實時重光照和簡單的材質編輯。
HRAvatar的提出拓展了單目高斯虛擬頭像建模的應用場景,目前,相關代碼已全面開源,歡迎關注與使用。
論文地址: https://arxiv.org/pdf/2503.08224
項目主頁:https://eastbeanzhang.github.io/HRAvatar/
開源代碼:https://github.com/Pixel-Talk/HRAvatar
視頻Demo:https://www.youtube.com/watch?v=ZRwTHoXKtgc