清華朱軍團隊 | 從點云到高保真三維網格:DeepMesh突破自回歸生成瓶頸
論文有三位共同一作。趙若雯,清華大學一年級碩士生,主要研究生成模型、強化學習和具身智能,已在ICRA等會議發表論文。葉俊良,清華大學二年級碩士生,專注于3D生成和基于人類偏好的多模態強化學習研究,曾以第一作者身份在ECCV發表DreamReward,該成果能生成更符合人類偏好的3D資產。王征翊,清華大學四年級博士生,主要研究3D多模態生成模型,已在NeurIPS、ECCV、ICML、CVPR等頂級學術會議發表多篇論文。
在三維數字內容生產領域,三角形網格作為核心的幾何表示形式,其質量直接影響虛擬資產在影視、游戲和工業設計等應用場景中的表現與效率。
傳統的三維網格生成方式,如人工建模或 Marching Cubes 等算法,存在成本高、拓撲結構質量差等問題。
針對這一瓶頸,清華大學朱軍團隊近日提出了 DeepMesh 方法,通過引入創新的自回歸生成框架,顯著提升了高面片人造網格的生成能力。該方法支持生成高達 3 萬個面片的三維網格,相比現有技術提升了一個數量級。
- 論文標題:DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning
- 論文主頁:https://zhaorw02.github.io/DeepMesh/
- 論文地址:https://arxiv.org/abs/2503.15265
- 代碼:https://github.com/zhaorw02/DeepMesh
DeepMesh 基于輸入點云,采用自回歸的 Transformer 架構逐步預測面片序列,從而生成拓撲結構合理且視覺美觀的高質量三維網格。
DeepMesh 架構如圖所示,系統首先利用編碼器對輸入點云進行特征提取;提取到的特征隨后被輸入至自回歸 Transformer 模塊,該模塊通過融合自注意力與交叉注意力機制,逐步預測網格的頂點或面片序列,最終生成結構完整的高質量三維網格。
在預訓練階段,DeepMesh 引入了三級塊結構網格標記化方法:根據面片之間的連通性對網格進行分解,并將其劃分為粗、中、細多個空間層級。在此基礎上,將面片中各頂點的坐標映射為相對于所屬層級塊的偏移索引,并對重復索引進行合并處理。
該方法在確保幾何精度的同時,顯著壓縮了序列長度,從而大幅提升了訓練效率。圖中展示了采用 DeepMesh 網格標記化方法與其他方法,在訓練不同面片數量的網格數據時的耗時對比情況。
通過對訓練數據進行封裝處理,并引入融合幾何質量與結構規整度的雙重篩選機制,DeepMesh 有效解決了異常樣本引發的訓練不穩定問題,同時實現了訓練過程中的動態負載均衡。為突破長序列帶來的內存瓶頸,模型還采用了滑動窗口截斷訓練技術,支持單個網格生成高達 3 萬個面片,顯著提升了建模能力。
此外,DeepMesh 創新性地引入了「直接偏好優化(DPO)」強化學習框架,并構建了一個結合客觀幾何指標與主觀人類評價的分階段數據標注系統。
該系統首先利用幾何質量指標篩除存在明顯缺陷的 3D 樣本,隨后由人工對剩余數據進行標注,評估其拓撲結構的合理性與視覺觀賞性。基于這套高質量的標注數據,團隊對模型進行了強化訓練,從而顯著提升了生成結果在幾何完整性與拓撲美觀性方面的表現。
DeepMesh 在細節保真與結構多樣性方面表現出色,并具備對傳統生成方法所生成網格進行拓撲優化的能力。與現有方法相比,DeepMesh 在幾何精度與拓撲質量兩個維度均實現最優性能,生成的三維網格不僅在結構合理性上表現卓越,也在視覺美觀性上更具吸引力。
在多樣性生成方面,DeepMesh 能在保持輸入點云幾何一致性的前提下,對同一輸入生成多種具有高保真度且外觀風格各異的三維網格方案,展現出強大的創意生成與精度控制的能力。這一特性對于影視制作、游戲設計等需進行多版本快速迭代的應用場景具有顯著價值。
針對傳統方法(如 TRELLIS)生成的拓撲結構混亂問題,DeepMesh 可對其輸出結果進行有效的拓撲優化,顯著提升網格結構的有序性與合理性。
憑借在高保真、多樣性與拓撲優化方面的突出表現,DeepMesh 展現出在 3D 內容創作領域的顛覆性潛力,特別適用于數字游戲、虛擬現實、影視制作等對創意表達與建模效率要求極高的行業。
該研究成果發布后迅速引發廣泛關注,知名推特博主 AK 第一時間轉發支持,相關內容獲得上千點贊,引發業內與社群的熱烈討論與積極反饋。
以下展示更多由 DeepMesh 生成的三維網格示例,進一步體現模型在細節還原、拓撲合理性及多樣性方面的強大能力。