謝賽寧等新作上線，多模態理解生成大一統！思路竟與GPT-4o相似？

作者：新智元 2025-04-14 09:38:00

來自Meta和NYU的團隊，剛剛提出了一種MetaQuery新方法，讓多模態模型瞬間解鎖多模態生成能力！令人驚訝的是，這種方法竟然如此簡單，就實現了曾被認為需要MLLM微調才能具備的能力。

在不久之前機器之心報道文章《3D領域DeepSeek「源神」啟動！國產明星創業公司，一口氣開源八大項目》中，我們曾介紹到，國內專注于構建通用 3D 大模型的創業公司 VAST 將持續開源一系列 3D 生成項目。

近日，新的開源項目它來了，包括針對任意三維模型生成完整可編輯部件的 HoloPart 與通用自動綁定框架 UniRig。

今天，就讓我們一起圍觀下這兩個新的3D開源項目。

HoloPart：為任意三維模型生成完整、可編輯的部件

3D 內容生產面臨的一個關鍵痛點，是三維模型的部件及編輯挑戰。

你是否曾嘗試編輯網上下載的、掃描得到的、或是 AI 生成的三維模型？它們往往是「一整坨」的幾何體，想要調整、驅動或重新賦予某個獨立部件（比如椅子腿、角色眼鏡）不同的材質都極其困難。

現有的三維部件分割技術能識別出屬于不同部件的可見表面塊，但往往得到的是破碎、不完整的碎片，這極大地限制了它們在實際內容創作中的應用價值。

HoloPart 引入了一項新任務：三維部件完整語義分割（3D Part Amodal Segmentation）——它不僅是將三維形狀分解為可見的表面塊，而是分解成其背后完整的、包含語義信息的部件，甚至能推斷出被遮擋部分的幾何結構，即使部分被遮擋也能生成完整部件。

開發者可以在huggingface上試玩。

HoloPart 是一種新型擴散模型，由 VAST 和港大聯合研發。受到非模式化感知（Amodal Perception，即人類即使在物體部分被遮擋時也能感知到完整物體的能力）的啟發，研究團隊通過一個實用的兩階段方法來實現：

初始分割：首先，利用現有的先進方法（如 SAMPart3D）獲得初始的表面塊（即不完整的部件）。
HoloPart 部件補全：這是關鍵所在。將不完整的部件塊，連同整個形狀的上下文信息一起，輸入到新穎的 HoloPart 模型中。HoloPart 基于強大的擴散變換器（Diffusion Transformer）架構，能夠生成該部件完整且合理的 3D 幾何形狀。

HoloPart 不僅僅是「填補空洞」。它基于 TripoSG 三維生成基礎模型的生成先驗構建，通過在大型數據集（如 Objaverse）上進行廣泛預訓練，并在部件 - 整體數據上進行專門微調，從而獲得了對三維幾何的深刻理解。

針對部件補全這一特定任務，HoloPart 對 TripoSG 的擴散變換器架構進行了適配。其關鍵創新在于雙重注意力機制：

局部注意力（Local Attention）：聚焦于輸入表面塊的精細幾何細節，確保補全后的部件與可見幾何無縫銜接。
上下文感知注意力（Context - Aware Attention）：關注整體形狀以及該部件在其中的位置。這一關鍵步驟確保補全的部件在全局上是合理的——保持比例、語義和整體形狀的一致性。

這使得 HoloPart 能夠智能地重建隱藏的幾何細節，即使對于復雜部件或存在嚴重遮擋的情況，也能尊重物體的整體結構。

在該項目中，研究團隊還利用 ABO 和 PartObjaverse - Tiny 數據集建立了新的基準測試來評估這項新任務。實驗證明，在處理這種具有挑戰性的部件補全任務時，HoloPart 的性能顯著優于現有的各種先進形狀補全方法。

從效果上看，差異是肉眼可見的：其他方法在處理復雜結構時常常失敗或產生不連貫的結果，而 HoloPart 則能持續生成高質量、高保真的完整部件，并與原始形狀完美契合。