無需標注數據,「3D理解」進入多模態預訓練時代!ULIP系列全面開源,刷新SOTA
通過對齊三維形狀、二維圖片以及相應的語言描述,多模態預訓練方法也帶動了3D表征學習的發展。
不過現有的多模態預訓練框架收集數據的方法缺乏可擴展性,極大限制了多模態學習的潛力,其中最主要的瓶頸在于語言模態的可擴展性和全面性。
最近,Salesforce AI聯手斯坦福大學和得克薩斯大學奧斯汀分校,發布了ULIP(CVP R2023)和ULIP-2項目,這些項目正在引領3D理解的新篇章。
論文鏈接:https://arxiv.org/pdf/2212.05171.pdf
論文鏈接:https://arxiv.org/pdf/2305.08275.pdf
代碼鏈接:https://github.com/salesforce/ULIP
研究人員采用了獨特的方法,使用3D點云、圖像和文本進行模型的預訓練,將它們對齊到一個統一的特征空間。這種方法在3D分類任務中取得了最先進的結果,并為跨領域任務(如圖像到3D檢索)開辟了新的可能性。
并且ULIP-2將這種多模態預訓練變得可以不需要任何人工標注,從而可以大規模擴展。
ULIP-2在ModelNet40的下游零樣本分類上取得了顯著的性能提升,達到74.0%的最高準確率;在現實世界的ScanObjectNN基準上,僅用140萬個參數就獲得了91.5%的總體準確率,標志著在無需人類3D標注的可擴展多模態3D表示學習方面的突破。
對齊(3D,圖像,文本)這三種特征的預訓練框架示意圖
代碼以及發布的大規模tri-modal的數據集(「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」)已經開源。
背景
3D理解是人工智能領域的重要組成部分,它讓機器能像人類一樣在三維空間中感知和互動。這種能力在自動駕駛汽車、機器人、虛擬現實和增強現實等領域都有著重要的應用。
然而,由于3D數據的處理和解釋復雜性,以及收集和注釋3D數據的成本,3D理解一直面臨著巨大的挑戰。
ULIP
Tri-modal 預訓練框架以及其下游任務
ULIP(已經被CVPR2023接收)采用了一種獨特的方法,使用3D點云、圖像和文本進行模型的預訓練,將它們對齊到一個統一的表示空間。
這種方法在3D分類任務中取得了最先進的結果,并為跨領域任務(如圖像到3D檢索)開辟了新的可能性。
ULIP的成功關鍵在于使用預先對齊的圖像和文本編碼器,如CLIP,它在大量的圖像-文本對上進行預訓練。
這些編碼器將三種模態的特征對齊到一個統一的表示空間,使模型能夠更有效地理解和分類3D對象。
這種改進的3D表示學習不僅增強了模型對3D數據的理解,而且還使得跨模態應用如zero-shot 3D分類和圖像到3D檢索成為可能,因為3D編碼器獲得了多模態上下文。
ULIP的預訓練損失函數如下:
在ULIP的默認設置中,α被設置為0, β和θ被設置為1,每兩個模態之間的對比學習損失函數的定義如下,這里M1和M2指三個模態中的任意兩個模態:
ULIP還做了由圖像到3D的retrieval的實驗,效果如下:
實驗結果可以看出ULIP預訓練的模型已經能夠學習到圖像和三維點云間有意義的多模態特征。
令人驚訝的是,相較于其他的檢索到的三維模型,第一名檢索到的三維模型與查詢圖像的外觀最為接近。
例如,當我們使用來自不同飛機類型(戰斗機和客機)的圖片進行檢索(第二行和第三行),檢索到的最接近的3D點云仍然保留了查詢圖像的微妙差異。
ULIP-2
這里是一個3D物體生成多角度文字描述的示例。首先,我們從一組視角將3D物體渲染成2D圖像,然后使用大型多模態模型為所有渲染出的圖像生成描述
ULIP-2在ULIP的基礎上,利用大型多模態模型為3D物體生成全方面對應的語言描述,從而收集可擴展的多模態預訓練數據,無需任何人工標注,使預訓練過程和訓練后的模型更加高效并且增強其適應性。
ULIP-2的方法包括為每個3D物體生成多角度不同的語言描述,然后用這些描述來訓練模型,使3D物體、2D圖像、和語言描述在特征空間對齊一致。
這個框架使得無需手動注釋就可以創建大量的三模態數據集,從而充分發揮多模態預訓練的潛力。
ULIP-2還發布了生成的大規模三模態數據集:「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」。
兩個tri-modal的datasets的一些統計數據
實驗結果
ULIP系列在多模態下游任務和3D表達的微調實驗中均取得了驚人的效果,尤其ULIP-2中的預訓練是完全不需要借助任何人工的標注就可以實現的。
ULIP-2在ModelNet40的下游零樣本分類任務中取得了顯著的提升(74.0%的top-1準確率);在真實世界的ScanObjectNN基準測試中,它僅用1.4M參數就取得了91.5%的總體準確率,這標志著在無需人工3D標注的情況下,實現了可擴展的多模態3D表示學習的突破。
消融實驗
兩篇論文均做了詳盡的消融實驗。
在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中,由于ULIP的預訓練框架有三個模態的參與,所以作者用實驗探究了究竟是只對齊其中的兩個模態好還是對齊所有三個模態好,實驗結果如下:
從實驗結果中可以看到,在不同的3D backbone中,對齊三個模態一致的比只對齊兩個模態好,這也應證了ULIP的預訓練框架的合理性。
在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中,作者探究了不同的大型多模態模型會對預訓練的框架有什么影響,結果如下:
實驗結果可以看出,ULIP-2框架預訓練的效果可以隨著使用的大型多模態模型的升級而提升,具有一定的成長性。
在ULIP-2中,作者還探索了在生成tri-modal的數據集是采用不同數量的視角會如何影響整體預訓練的表現,實驗結果如下:
實驗結果顯示,隨著使用的視角數量的增加,預訓練的模型的zero-shot classification的效果也會隨之增加。
這也應證了ULIP-2中的觀點,更全方位多樣性的語言描述會對多模態預訓練有正向的作用。
除此之外,ULIP-2還探究了取CLIP排序過的不同topk的語言描述會對多模態預訓練有什么影響,實驗結果如下:
實驗結果表明:ULIP-2的框架對不同的topk有一定的魯棒性,論文中采用了top 5作為默認設置。
結論
由Salesforce AI,斯坦福大學,得克薩斯大學奧斯汀分校聯手發布的ULIP項目(CVPR2023)和ULIP-2正在改變3D理解領域。
ULIP將不同的模態對齊到一個統一的空間,增強了3D特征的學習并啟用了跨模態應用。
ULIP-2進一步發展,為3D對象生成整體語言描述,創建并開源了大量的三模態數據集,并且這個過程無需人工標注。
這些項目在3D理解方面設定了新的基準,為機器真正理解我們三維世界的未來鋪平了道路。
團隊
Salesforce AI:
Le Xue (薛樂), Mingfei Gao (高明菲),Chen Xing(星辰),Ning Yu(于寧), Shu Zhang(張澍),Junnan Li(李俊男), Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles, Silvio savarese。
斯坦福大學:
Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吳佳俊)。
UT Austin:
Prof. Roberto Martín-Martín。