謝賽寧等新作上線,多模態理解生成大一統!思路竟與GPT-4o相似?
在不久之前機器之心報道文章《3D領域DeepSeek「源神」啟動!國產明星創業公司,一口氣開源八大項目》中,我們曾介紹到,國內專注于構建通用 3D 大模型的創業公司 VAST 將持續開源一系列 3D 生成項目。
近日,新的開源項目它來了,包括針對任意三維模型生成完整可編輯部件的 HoloPart 與通用自動綁定框架 UniRig。
今天,就讓我們一起圍觀下這兩個新的3D開源項目。
HoloPart:為任意三維模型生成完整、可編輯的部件
- 論文標題:HoloPart: Generative 3D Part Amodal Segmentation
- 論文地址: https://arxiv.org/abs/2504.07943
- 項目主頁: https://vast-ai-research.github.io/HoloPart
- 代碼地址: https://github.com/VAST-AI-Research/HoloPart
- Demo: https://huggingface.co/spaces/VAST-AI/HoloPart
- huggingface daily paper:https://huggingface.co/papers/2504.07943
3D 內容生產面臨的一個關鍵痛點,是三維模型的部件及編輯挑戰。
你是否曾嘗試編輯網上下載的、掃描得到的、或是 AI 生成的三維模型?它們往往是「一整坨」的幾何體,想要調整、驅動或重新賦予某個獨立部件(比如椅子腿、角色眼鏡)不同的材質都極其困難。
現有的三維部件分割技術能識別出屬于不同部件的可見表面塊,但往往得到的是破碎、不完整的碎片,這極大地限制了它們在實際內容創作中的應用價值。
HoloPart 引入了一項新任務:三維部件完整語義分割(3D Part Amodal Segmentation)——它不僅是將三維形狀分解為可見的表面塊,而是分解成其背后完整的、包含語義信息的部件,甚至能推斷出被遮擋部分的幾何結構,即使部分被遮擋也能生成完整部件。
開發者可以在huggingface上試玩。
「看見」完整部件
HoloPart 是一種新型擴散模型,由 VAST 和港大聯合研發。受到非模式化感知(Amodal Perception,即人類即使在物體部分被遮擋時也能感知到完整物體的能力)的啟發,研究團隊通過一個實用的兩階段方法來實現:
- 初始分割:首先,利用現有的先進方法(如 SAMPart3D)獲得初始的表面塊(即不完整的部件)。
- HoloPart 部件補全:這是關鍵所在。將不完整的部件塊,連同整個形狀的上下文信息一起,輸入到新穎的 HoloPart 模型中。HoloPart 基于強大的擴散變換器(Diffusion Transformer)架構,能夠生成該部件完整且合理的 3D 幾何形狀。
HoloPart 工作原理
HoloPart 不僅僅是「填補空洞」。它基于 TripoSG 三維生成基礎模型的生成先驗構建,通過在大型數據集(如 Objaverse)上進行廣泛預訓練,并在部件 - 整體數據上進行專門微調,從而獲得了對三維幾何的深刻理解。
針對部件補全這一特定任務,HoloPart 對 TripoSG 的擴散變換器架構進行了適配。其關鍵創新在于雙重注意力機制:
- 局部注意力(Local Attention):聚焦于輸入表面塊的精細幾何細節,確保補全后的部件與可見幾何無縫銜接。
- 上下文感知注意力(Context - Aware Attention):關注整體形狀以及該部件在其中的位置。這一關鍵步驟確保補全的部件在全局上是合理的——保持比例、語義和整體形狀的一致性。
這使得 HoloPart 能夠智能地重建隱藏的幾何細節,即使對于復雜部件或存在嚴重遮擋的情況,也能尊重物體的整體結構。
在該項目中,研究團隊還利用 ABO 和 PartObjaverse - Tiny 數據集建立了新的基準測試來評估這項新任務。實驗證明,在處理這種具有挑戰性的部件補全任務時,HoloPart 的性能顯著優于現有的各種先進形狀補全方法。
從效果上看,差異是肉眼可見的:其他方法在處理復雜結構時常常失敗或產生不連貫的結果,而 HoloPart 則能持續生成高質量、高保真的完整部件,并與原始形狀完美契合。
解鎖下游應用
通過生成完整的部件,HoloPart 解鎖了一系列以前難以甚至無法自動實現的強大應用:
- 直觀編輯:輕松抓取、縮放、移動或替換完整部件(如圖中的戒指、圖中的汽車編輯)。
- 便捷的材質分配:將紋理或材質清晰地賦予給完整的組件。
- 適用于動畫的資產:生成適合綁定和動畫制作的部件。
- 更智能的幾何處理:通過處理連貫的部件,實現更魯棒的網格重劃分 (Remeshing) 等幾何操作。
- 部件感知的生成:這項工作為未來能夠在部件層面創建或操縱三維形狀的生成模型奠定了基礎。
- 幾何超分辨率:HoloPart 甚至展示了通過用高數量的 token 來表征部件,從而提升部件細節的潛力。
統一模型綁定萬物:UniRig 通用自動綁定框架
- 論文標題:One Model to Rig Them All: Diverse Skeleton Rigging with UniRig
- 論文鏈接:https://zjp-shadow.github.io/works/UniRig/static/supp/UniRig.pdf
- 代碼地址:https://github.com/VAST-AI-Research/UniRig
- 項目主頁:https://zjp-shadow.github.io/works/UniRig/
- HuggingFace 主頁:https://huggingface.co/VAST-AI/UniRig
核心方法:自回歸預測與創新的 Tokenization
UniRig 的核心在于借鑒了驅動語言和圖像生成領域進步的大型自回歸模型的力量。
但 UniRig 預測的不是像素或文字,而是 3D 骨骼的結構——逐個關節地進行預測。這種序列化的預測過程是確保生成拓撲結構有效骨骼的關鍵。
實現這一目標的關鍵創新是骨骼樹 Tokenization (Skeleton Tree Tokenization) 方法。
將具有復雜關節相互依賴關系的層級化骨骼結構,表示為適合 Transformer 處理的線性序列并非易事。UniRig 的方案高效地編碼了:
- 關節坐標:骨骼關節的離散化空間位置。
- 層級結構:明確的父子關系,確保生成有效的樹狀結構。
- 骨骼語義:使用特殊 Token 標識骨骼類型(例如,Mixamo 等標準模板骨骼,用于頭發 / 布料模擬的動態彈簧骨骼),這對于下游任務和實現逼真動畫至關重要。
這種優化的 Tokenization 方案,與樸素方法相比,序列長度減少約 30%,使得基于 OPT 架構的自回歸模型能夠有效地學習骨骼結構的內在模式,并以形狀編碼器處理后的輸入模型幾何信息作為條件。
不止骨骼:精準蒙皮與屬性預測
在預測出有效的骨骼后,UniRig 采用骨骼 - 表面交叉注意力 (Bone - Point Cross Attention) 機制來預測每個頂點的蒙皮權重。該模塊有效地捕捉了每根骨骼對其周圍模型表面的復雜影響,融合了來自模型和骨骼的幾何特征,并通過關鍵的測地線距離信息增強了空間感知能力。
此外,UniRig 還能預測骨骼特定屬性(如彈簧骨骼的剛度和重力影響),使得基于學習參數的、更符合物理規律的次級運動成為可能。研究團隊在訓練中通過可微分的物理模擬對此進行了評估,以增強最終結果的真實感。
Rig - XL 數據集:以數據驅動泛化能力
強大的模型離不開高質量數據的支撐。為了訓練 UniRig 以獲得廣泛的適用性,研究團隊還整理構建了 Rig-XL——一個全新的、包含超過 14000 個多樣化已綁定 3D 模型的大規模數據集。
Rig - XL 源自 Objaverse - XL 等資源并經過精心清洗,涵蓋多個類別(雙足、四足、鳥類、昆蟲、靜態物體等),為訓練一個真正具備泛化能力的綁定模型提供了必要的規模和多樣性。研究團隊還利用 VRoid 數據集進一步優化模型在處理包含彈簧骨骼的精細動漫風格角色上的性能。
業界最優的性能表現
UniRig 顯著提升了自動綁定技術的現有水平:
- 高精度:在多個關鍵指標上遠超現有學術界和商業方法,在具有挑戰性數據集上,綁定精度(關節預測)提升 215%,動畫精度(動畫下的網格變形)提升 194%。
- 強通用性:在廣泛的模型類別上展現出魯棒性能——精細角色、動物、復雜的有機和無機形態——這些都是以往方法經常遇到困難的領域。
- 高魯棒性:生成拓撲合理的骨骼和真實的蒙皮權重,在動畫驅動下產生優于先前學術方法及常用商業工具的變形效果。
- 高效率:優化的 Tokenization 和模型架構帶來了實用的推理速度(1-5 秒)。