成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

人工智能 新聞
從互聯網上可以輕松獲取海量的二維圖像和相應文本的數據對,不過三維多模態數據的獲取卻非常困難,網絡上的三維資產非常稀缺,而且提供文本標注也更有挑戰。

大型語言模型(LLM)和視覺語言模型(VLM)在各種評測基準中都展現出了強大的性能,比如可以看圖說話、進行常識推理。

但這些模型的訓練過程并沒有引入3D物理世界,也就無法理解更豐富的現實概念,包括空間關系、布局、物體反饋等。

最近,加州大學洛杉磯分校、上海交大、華南理工大學、麻省理工學院等機構的研究人員聯合提出了一個全新的3D-LLM任務,把3D世界的知識注入到大型語言模型中,以3D點云及其特征作為輸入,從而可以執行各種3D相關的任務,包括描述生成、3D問題回答、任務分解、3D輔助對話、導航等。

論文鏈接:https://arxiv.org/pdf/2307.12981.pdf

基于這個思路,研究人員設計了三種類型的提示機制,收集了超過30萬的3D語言數據來支持上述任務。

為了有效地訓練3D-LLM,首先使用從渲染的多視圖圖像獲得3D特征的3D特征提取器,再用2D VLMs作為模型的骨干來訓練3D-LLM網絡;通過引入3D定位機制,3D-LLM可以更好地捕獲3D空間信息。

在ScanQA上的實驗結果表明,該模型顯著優于最先進的基線模型,例如,BLEU-1指標上的性能提升達到9%

此外,在3D描述生成、3D輔助對話等數據集上的實驗表明,該模型優于2D VLMs

定性結果也表明,該模型可以執行超出現有的LLM和VLM能力范圍的一些任務。

三維語言數據生成

從互聯網上可以輕松獲取海量的二維圖像和相應文本的數據對,不過三維多模態數據的獲取卻非常困難,網絡上的三維資產非常稀缺,而且提供文本標注也更有挑戰。

現有的三維語言數據,如ScanQA、ScanRefer等在數量和多樣性方面都很有限,而且每個數據集都僅限于一項任務,如何自動生成一個可用于各種三維相關任務的三維語言數據集非常值得深入研究。

受GPT等大型語言模型的啟發,研究人員提出利用此類模型來收集3D語言數據。

具體來說,主要有三種方法來提示純文本GPT模型來生成數據:

1. 基于boxes-demonstration-instruction的提示。

輸入三維場景中房間和物體的軸對齊包圍框(AABB),提供場景的語義和空間位置信息,然后向GPT模型提供具體指令,以生成多樣化的數據。

研究人員給GPT模型提供0-3個少樣本演示示例,用來指示生成的數據類型。

2. 基于ChatCaptioner的提示。

使用ChatGPT輸入提示詢問一系列關于圖像的有信息量的問題(informative questions),然后用BLIP-2模型回答這些問題。

為了收集三維相關數據,研究人員將不同視角的圖像輸入 BLIP-2,然后要求ChatGPT提問并收集不同區域的信息,從而形成整個場景的全局三維描述。

3. 基于revision的提示,可用于將一種三維數據遷移到到另一種類型的三維數據。

經過上述流程,GPT能夠生成各種類型的三維語言數據,主要基于下列三維資產:

1. Objaverse,包含80萬個三維物體,不過由于語言描述是從在線資源中提取的,未經人工檢查,因此大多數對象的描述都包括大量噪聲,比如網址等,或是無法生成描述。研究人員利用基于 ChatCaptioner 的提示功能為場景生成高質量的 3D 相關描述。

2. Scannet,包含約1000個3D室內場景的富標注數據集,提供了場景中物體的語義和邊界框。-

3. Habitat-Matterport (HM3D) ,具身人工智能(embodied AI)的三維環境數據集。HM3DSem為HM3D的200多個場景進一步添加了語義注釋和邊界框。

3D-LLM

3D特征抽取器

訓練3D-LLM的第一步是建立有意義的3D特征,使之可以與語言特征相匹配,但由于缺乏大規模三維資產數據集,所以無法采用預訓練的方式學習表征。

受到從二維多視角圖像中提取三維特征的方法啟發,研究人員提出通過渲染多個不同視角的三維場景來提取三維點的特征,并從渲染的圖像特征中構建三維特征。

首先提取渲染圖像的像素對齊密集特征,然后針對不同類型的三維數據,設計了三種方法從渲染圖像特征中構建三維特征:

1. 直接重建(direct reconstruction)

基于3D數據,使用真實相機矩陣,直接從三維數據渲染的rgbd圖像中重建點云,將特征直接映射到重建的三維點。

這種方法適用于具有完美相機姿勢和內在特征的 rgbd 渲染數據。

2. 特征融合(feature fusion)

使用gradslam將二維特征融合到三維映射中,與稠密映射方法不同的是,除了深度和顏色之外,模型還融合了其他特征。

這種方法適用于具有噪聲深度圖渲染或噪聲相機姿勢和內在特征的三維數據。

3. 神經場(neural field)

利用神經voxel場構建三維緊湊表征,具體來說,除了密度和顏色外,神經場中的每個voxel都有一個特征,可以利用 MSE 損失對射線中的三維特征和像素中的二維特征進行對齊。

這種方法適用于有 RGB 渲染但無深度數據的三維數據,以及有噪聲的相機姿態和本征。

訓練3D-LLMs

考慮到使用三維特征提取器可以將三維特征映射到與二維圖像相同的特征空間,因此使用這些二維視覺語言模型作為3D-LLM的骨干是合理的。

鑒于三維特征與三維特征抽取器提取的二維特征處于相同的特征空間,而且感知器能夠處理相同特征維度的任意輸入大小,因此任意大小的點云特征也可以輸入到感知機中。

因此,研究人員使用三維特征提取器在與凍結圖像編碼器特征相同的特征空間中提取三維特征,然后使用預訓練二維視覺語言模型作為骨干網絡,輸入對齊的三維特征和收集的3D語言數據集來訓練3D語言模型。

3D定位機制

除了建立與語言語義相匹配的三維特征外,捕捉三維空間信息也至關重要。

研究人員提出了一種三維定位機制,以提高三維LLMs吸收空間信息的能力。

該機制由兩部分組成:

1. 用位置嵌入增強三維特征,將所有嵌入串聯起來作為最終特征

2. 將三維位置放入嵌入詞匯表,用AABB的形式表示邊界框,連續角坐標被統一離散為voxel整數,在語言模型的輸入和輸出嵌入中解凍這些token的權重。

實驗部分

從ScanQA驗證集和測試集的實驗結果中可以看到,幾乎所有的評估指標都得到了明顯提升。

例如,對于BLEU-1指標,該模型在驗證集上比最先進的ScanQA模型高出約9%,在測試集上高出約7%。

這些結果表明,通過將3D注入LLM,模型生成的答案與真實答案更為相似。

此外,基于3D的基線使用對象檢測器(如 VoteNet)來分割對象,然后將每個對象的特征發送到它們的模型中,而文中提出的模型輸入是整體3D特征,沒有顯式的對象表征。

結果表明,即使沒有明確的對象表征,該模型也能對物體及其關系進行視覺推理。

還可以發現,以單視角圖像或多視角圖像作為輸入,二維VLM的性能會比三維VLM下降很多,也就是說多視角圖像也包含整個場景的信息,但與3D-LLM相比,3D VLM的性能仍然要低得多,可能是因為多視角圖像的特征是無序的,從而丟失了與3D有關的信息。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-25 08:00:00

3DAI

2025-01-26 10:19:21

2012-11-26 12:51:44

木材3D打

2024-12-10 09:40:00

AI3D模型

2011-08-26 14:50:23

2024-06-17 12:33:34

2025-01-14 09:24:46

2024-10-15 13:07:38

2020-08-26 10:37:21

阿里3D

2025-05-07 10:09:49

3D模型生成

2023-12-14 12:51:28

LLM3D場景

2011-10-06 13:30:45

宏碁投影儀

2025-03-27 09:26:30

2017-03-22 11:57:57

3D XPoint存儲英特爾

2011-05-26 10:05:07

優派投影機

2023-08-18 08:00:00

游戲開發3D模型

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2011-05-26 10:55:39

2011-09-22 10:07:52

奧圖碼投影儀

2024-07-04 09:26:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www久久久 | 免费精品久久久久久中文字幕 | 日韩播放 | 99re视频在线观看 | 成人三级网址 | 成人三级视频在线观看 | 久久99精品视频 | 久久国内 | 天天影视综合 | 精品乱码一区二区三四区视频 | 久久久久国产精品一区二区 | 日韩免费一级 | 午夜视频一区 | 91精品国产91久久久久久丝袜 | 日本精品在线播放 | 久久久久国产 | 日日综合 | 日本黄色高清视频 | 国产在线精品一区二区 | 欧美日韩成人网 | 另类二区| 欧美一级久久 | 九九99久久 | 久久国内 | 国产精品久久久久久久久久久新郎 | 激情欧美一区二区三区 | 福利社午夜影院 | 日本欧美视频 | av高清| 中文字幕一区二区在线观看 | 亚洲黄色av网站 | 麻豆精品国产91久久久久久 | 国产精品久久精品 | 夜夜操操操 | 色五月激情五月 | 久草热8精品视频在线观看 午夜伦4480yy私人影院 | 欧美精品99 | 一区二区日韩 | 国产美女免费视频 | 国产清纯白嫩初高生视频在线观看 | av超碰|