擺脫編碼器依賴!Encoder-free 3D多模態大模型,性能超越13B現有SOTA | 上海AI Lab港中文等團隊新作
無編碼器多模態大模型被拓展到3D領域——
3D編碼器的功能被融入LLM本身,無編碼器3D LMM適應不同的點云分辨率,擺脫預訓練編碼器的依賴。
來自上海AI Lab、西北工業大學、香港中文大學、清華大學等提出ENEL,在預訓練階段探索了如何使用自監督損失將3D編碼器的功能整合到LLM本身,在指令調優階段提出了一種層次幾何聚合策略,基于PointLLM首次全面研究了無編碼器架構在3D多模態大模型中的潛力。
在Objaverse基準測試中,ENEL表現突出,性能上超越目前SOTA ShapeLLM-13B。
基于編碼器架構的3D LMM的局限性
針對3D大型多模態模型(LMMs),基于編碼器的架構存在以下潛在問題:
(1)點云分辨率限制。3D編碼器通常在固定分辨率的點云數據上進行預訓練(如PointBERT中的1024個點)。然而在推理過程中,點云的分辨率可能發生變化(例如,8192或512個點),這導致訓練與推理分辨率不一致,從而在提取3D嵌入時丟失空間信息,影響LLM的理解能力,如圖(a)所示。
(2)嵌入語義差異。3D編碼器通常采用自監督學習方法(如掩碼自編碼器和對比學習)進行預訓練,但其訓練目標與LLMs的語義需求可能不完全一致,因此無法捕捉LLMs理解3D物體所需的關鍵語義信息,如圖(b)所示。
簡單的MLP通常也難以實現充分的語義轉換。從上圖可見,ENEL的無編碼器架構提供了更高的靈活性和更強的泛化性,更多關注到3D關鍵語義。
應用自監督損失將3D編碼器納入LLM本身
無編碼器結構首先面臨的問題是如何提取高層次3D語義信息,避免模型難以捕捉3D點云的復雜空間結構。可以觀察到從PointLLM中拿掉Encoder后,模型性能顯著下降。
PointLLM原生的token embedding模塊過于粗粒度,為了減少信息損失并提供精細的局部特征,團隊采用了一個來自Point-PN的輕量化變體小型網絡。
具體而言,對于點云團隊通過FPS進行下采樣,采用knn進行局部聚合,并使用可學習的線性層進行特征編碼。結果表明團隊設計的embedding模塊相比可以帶來明顯的性能提升。
為了讓LLM進一步承擔encoder的編碼功能,在預訓練階段嘗試了將LLM的前幾層設為可學習來挖掘點云特征中的高級語義信息,結果發現較小的學習率能夠帶來更好的結果。
通過以上兩種改變,無編碼器結構已經與基于編碼器的PointLLM在描述任務上持平。
當前的3D編碼器大多依靠自監督損失學習提取并編碼高層次3D語義信息, 主要分為掩蔽建模損失(a)、重建損失(b)、對比損失(c) 和知識蒸餾損失(d)。
基于編碼器架構的3D LMM在訓練時依靠對文字部分應用自回歸損失進行學習,那是否能同時對點云部分應用自監督損失,將3D編碼器的能力整合進LLM本身?
團隊在預訓練階段實現并評估了這些損失對無編碼器3D LMM的影響。
具體而言,掩蔽建模損失和重建損失分別對點云掩碼token的部分進行恢復和對全體點云token進行重建,而知識蒸餾損失采用uni3d-L在特征層面進行蒸餾。
最后團隊提出了一種混合語義損失,先對點云token進行隨機掩碼,然后將mask token拼接在visible token的后面以符合自回歸邏輯,同時對visible token計算重建損失,這種混合方法不僅能夠有效地將高層次語義信息嵌入LLM中,還能確保在整個點云學習過程中,幾何信息的一致性得以保持。
從實驗結果中可以觀察到,自監督學習損失在無編碼器3D LMM中通常具有積極影響,通過精心設計的任務促使LLM在學習過程中捕捉潛在的幾何關系以及深層次的語義信息。
其中,掩蔽建模損失展現出最為顯著的性能提升。
相較之下,知識蒸餾損失的提升效果較為有限,表現遜色于前兩種損失類型。
層次幾何聚合策略感知3D局部細節
傳統的3D編碼器往往通過將顯式的歸納偏置嵌入其架構中,逐步捕捉多層次的3D幾何特征。例如,像Point-M2AE這樣的模型采用了局部到全局的層次結構,這一結構在2D圖像處理中常見于卷積層。相比之下,無編碼器架構的LLM沒有明確的局部建模模塊,主要依賴自注意力機制來建模全局交互。
因此,如何將歸納偏置有效地整合到LLM中,以增強其對3D幾何結構的感知能力,成為一個重要問題。
基于提出的混合語義損失,在指令調優階段,團隊探索了如何促使LLM主動感知3D局部細節,同時補充其已學習的全局語義信息。為此,團隊設計了層次幾何聚合策略。
具體來說,從LLM的第二層開始,通過最遠點采樣將輸入點云token下采樣,將令牌數量減少至M/2并選取局部中心。接著,利用k-NN算法獲取鄰近點,并通過門控自注意力機制捕捉局部幾何信息。
最終,通過池化操作融合鄰近點特征,得到M/2長度的特征表示,并重復l-1次,完成幾何聚合。通過多層LLM層后,再通過l次幾何傳播將聚合后的特征從局部中心傳播至鄰近點,最終恢復為長度為M的點云特征,增強模型對局部和全局幾何結構的感知。
實驗結果:定性定量分析
定性實驗中,團隊可視化了PointLLM和ENEL最后一層中,平均文本token與點云token之間的注意力得分。
團隊選擇了三種物體類別:椅子、飛機和臺燈。
圖中紅色表示較高的注意力得分。
結果顯示,ENEL作為無編碼器架構,能夠實現兩種模態特征之間的高相關性,平均文本token聚焦于物體的關鍵幾何結構。
在Objaverse基準測試中,ENEL-7B在描述和分類任務上超越了同等規模甚至13B的模型。此外,在3D MM-Vet數據集的3D-VQA任務中,盡管訓練數據缺乏空間和具身交互信息,ENEL仍取得了42.7%的GPT得分,領先PointLLM-7B 1.5%。
定性定量結果驗證了混合語義損失和層次幾何聚合策略在無編碼器架構中的有效性。
代碼鏈接:
https://github.com/Ivan-Tang-3D/ENEL.
論文鏈接:
https://arxiv.org/pdf/2502.09620v1