成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓視覺語言模型搞空間推理,谷歌又整新活了

人工智能 新聞
視覺語言模型雖然強大,但缺乏空間推理能力,最近 Google 的新論文說它的 SpatialVLM 可以做,看看他們是怎么做的。

視覺語言模型 (VLM) 已經在廣泛的任務上取得了顯著進展,包括圖像描述、視覺問答 (VQA)、具身規劃、動作識別等等。然而大多數視覺語言模型在空間推理方面仍然存在一些困難,比如需要理解目標在三維空間中的位置或空間關系的任務。

關于這一問題,研究者們常常從「人類」身上獲得啟發:通過具身體驗和進化發展,人類擁有固有的空間推理技能,可以毫不費力地確定空間關系,比如目標相對位置或估算距離和大小,而無需復雜的思維鏈或心理計算。

這種對直接空間推理任務的熟練,與當前視覺語言模型能力的局限形成鮮明對比,并引發了一個引人注目的研究問題:是否能夠賦予視覺語言模型類似于人類的空間推理能力?

最近,谷歌提出了一種具備空間推理能力的視覺語言模型:SpatialVLM。

圖片


  • 論文標題:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
  • 論文地址:https://arxiv.org/pdf/2401.12168.pdf
  • 項目主頁:https://spatial-vlm.github.io/

值得注意的是,研究者假設當前視覺語言模型在空間推理能力方面的限制并非源于其架構的局限,而更可能是由于在大規模訓練時所使用的常見數據集的限制。例如,許多視覺語言模型是在以圖像 - 描述對為特征的互聯網規模數據集上進行訓練的,這些數據集中包含的空間信息有限。存在限制的原因是獲取富含空間信息的具身數據或 3D 感知查詢的高質量人工注釋比較困難,自動數據生成和增強技術是解決該問題的一種方法,然而很多之前的數據生成研究側重于生成具有真實語義標注的照片逼真圖像,忽略了對象和 3D 關系的豐富性。

與之相反,本文研究者專注于直接從現實世界數據中提取空間信息,以捕捉真實 3D 世界的多樣性和復雜性。這一創新源自近期視覺模型方面在自動從 2D 圖像中生成 3D 空間注釋方面的進展。

SpatialVLM 系統可以實現數據生成和對視覺語言模型進行訓練,以增強它們的空間推理能力。具體而言,研究者結合面向開放詞匯的目標檢測(open-vocabulary detection)、度量深度估計、語義分割和以目標為中心的描述模型,實現了在大規模地密集注釋真實世界數據。SpatialVLM 將由視覺模型生成的數據轉換成一種可用于描述、VQA 和空間推理數據的混合體上訓練視覺語言模型的格式。

實驗證明,本文訓練的視覺語言模型表現出許多令人滿意的能力。首先,它在回答定性空間問題方面的能力得到顯著提升。其次,即使在有噪聲的訓練數據下,它也能可靠地進行定量估計。這種能力不僅使其具備關于目標大小的常識知識,還使其在重新排列任務的開放詞匯獎勵標注方面非常有用。第三,本文的空間視覺語言模型在自然語言界面的基礎上,結合強大的大型語言模型,能夠進行空間推理鏈以解決復雜的空間推理任務。

方法概覽

為了使視覺語言模型具備定性和定量的空間推理能力,研究者提出生成一個大規模的空間 VQA 數據集用于訓練視覺語言模型。具體而言,就是設計一個全面的數據生成框架,首先利用現成的計算機視覺模型,包括開放詞匯檢測、度量深度估計、語義分割和以目標為中心的描述模型,提取以目標為中心的背景信息,然后采用基于模板的方法生成質量合理的大規模空間 VQA 數據。本文中,研究者使用了生成的數據集訓練 SpatialVLM,以學習直接的空間推理能力,然后將其與 LLMs 嵌入的高層常識推理相結合,解鎖鏈式思維的空間推理。

圖片

2D 圖像的空間基準

研究者設計了一個生成包含空間推理問題的 VQA 數據的流程,具體流程如圖 2 中所示。

圖片

1、語義過濾:在本文的數據合成流程中,第一步是采用基于 CLIP 的開放詞匯分類模型對所有圖像進行分類,排除不適合的圖像。

2、2D 圖像提取以目標為中心的背景:這一步獲得由像素簇和開放詞匯描述組成的以目標為中心的實體。

3、2D 背景信息到 3D 背景信息:經過深度估計,將單眼的 2D 像素提升到度量尺度的 3D 點云。本文是第一個將互聯網規模的圖像提升至以目標為中心的 3D 點云,并用其合成帶有 3D 空間推理監督的 VQA 數據。

4、消除歧義:有時一張圖像中可能有多個相似類別的目標,導致它們的描述標簽存在歧義。因此,在詢問關于這些目標的問題之前,需要確保參考表達不含有歧義。

大規模空間推理 VQA 數據集

研究者通過使用合成數據進行預訓練,將「直觀」的空間推理能力融入 VLM。因此,合成涉及圖像中不超過兩個目標(表示為 A 和 B)的空間推理問答對。這里主要考慮以下兩類問題:

1、定性問題:詢問某些空間關系的判斷。例如「給定兩個對象 A 和 B,哪個更靠左?」

2、定量問題:詢問更精細的答案,包括數字和單位。例如「相對于對象 B,對象 A 向左多少?」、「對象 A 距離 B 有多遠?」

此處,研究者指定了 38 種不同類型的定性和定量空間推理問題,每種問題包含大約 20 個問題模板和 10 個答案模板。

圖 3 展示了本文獲取的合成問答對的示例。研究者創建了一個包括 1000 萬張圖像和 20 億個直接空間推理問答對 (50% 是定性問題,50% 是定量問題) 的龐大數據集。

圖片

學習空間推理

直接空間推理:視覺語言模型接收圖像 I 和關于空間任務的查詢 Q 作為輸入,并輸出一個答案 A,并且以文本的格式呈現,無需使用外部工具或與其他大型模型進行交互。本文采用與 PaLM-E 相同的架構和訓練流程,只是將 PaLM 的骨干替換為 PaLM 2-S。然后,使用原始 PaLM-E 數據集和作者的數據集的混合進行模型訓練,其中有 5% 的 token 用于空間推理任務。

鏈式思維空間推理:SpatialVLM 提供了自然語言接口,可用于查詢具有基礎概念的問題,當與強大的 LLM 結合使用時,可以執行復雜的空間推理。

與 Socratic Models 和 LLM 協調器中的方法類似,本文利用 LLM (text-davinci-003) 來協調與 SpatialVLM 進行通信,以鏈式思維提示的方式解決復雜問題,如圖 4 所示。

圖片

實驗及結果

研究者通過實驗證明并回答了如下的問題:

問題 1:本文設計的空間 VQA 數據生成和訓練流程,是否提高了 VLM 的一般空間推理能力?以及它的表現如何?

問題 2:充滿噪音數據的合成空間 VQA 數據和不同的訓練策略,對學習性能有何影響?

問題 3:裝備了「直接」空間推理能力的 VLM,是否能夠解鎖諸如鏈式思維推理和具身規劃等新能力?

研究者通過使用 PaLM-E 訓練集和本文設計的空間 VQA 數據集的混合來訓練模型。為了驗證 VLM 在空間推理上的局限是否是數據問題,他們選擇了當前最先進的視覺語言模型作為基線。這些模型的訓練過程中語義描述任務占據了相當的比重,而不是使用本文的空間 VQA 數據集進行訓練。

空間 VQA 表現

定性空間 VQA。對于這一問題,人工注釋的答案和 VLM 輸出均為自由形式的自然語言。因此,為了評估 VLM 的性能,研究者使用人工評定員確定答案是否正確,表 1 中展示了各個 VLM 的成功率。

圖片

定量空間 VQA。如表 2 所示,本文的模型在兩個指標上都比基線表現更好且遙遙領先。

圖片

空間 VQA 數據對通用 VQA 的影響

第二個問題是,由于與大量的空間 VQA 數據共同訓練,VLM 在其他任務上的表現是否會因此而降低。通過將本文模型與在通用 VQA 基準上沒有使用空間 VQA 數據進行訓練的基本 PaLM 2-E 進行了比較,如表 3 所總結的,本文的模型在 OKVQA 基準上達到了與 PaLM 2-E 相當的性能,其中包括了有限的空間推理問題,并且在 VQA-v2 test-dev 基準上表現略好,該基準包含了空間推理問題。

圖片

ViT 編碼器在空間推理中的影響

Frozen ViT (在對比目標上進行訓練) 是否編碼了足夠的信息來進行空間推理?為了探索這一點,研究者的實驗從第 110,000 步的訓練開始,分成兩個訓練運行,一個 Frozen ViT,另一個 Unfrozen ViT。通過對這兩個模型進行了 70,000 步的訓練,評估結果如表 4 所示。

圖片

含噪聲的定量空間答案的影響

研究者者使用機器人操作數據集訓練視覺語言模型,發現模型能夠在操作領域進行精細的距離估計 (圖 5),進一步證明了數據的準確性。

圖片

表 5 比較了不同的高斯噪聲標準差對定量空間 VQA 中整體 VLM 性能的影響。

圖片

空間推理啟發新應用

1、視覺語言模型作為密集獎勵注釋器

視覺語言模型在機器人學領域有一個重要的應用。最近的研究表明,視覺語言模型和大型語言模型可以作為機器人任務的通用開放詞匯獎勵注釋器和成功檢測器,可用于制定有效的控制策略。然而,VLM 的獎勵標注能力通常受到空間意識不足的限制。由于 SpatialVLM 能夠從圖像中定量估計距離或尺寸,因此它獨特地適用作為密集的獎勵注釋器。作者進行一項真實的機器人實驗,用自然語言指定了一個任務,并要求 SpatialVLM 為軌跡中的每一幀注釋獎勵。

圖 6 中每個點表示一個目標的位置,它們的顏色表示注釋的獎勵。隨著機器人朝著指定目標的進展,可以看到獎勵是單調增加的,表明 SpatialVLM 作為密集獎勵注釋器的能力。

圖片

2、鏈式思維空間推理

研究者還研究了 SpatialVLM 是否能夠用于執行需要多步推理的任務,考慮到它對基本空間問題的增強回答能力。作者在圖 1 和圖 4 中展示了一些例子。當大語言模型 (GPT-4) 裝備有 SpatialVLM 作為空間推理子模塊時,可以執行復雜的空間推理任務,比如回答環境中的 3 個對象是否能夠形成「等腰三角形」。

更多技術細節和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-02 11:26:55

2023-10-11 12:32:53

AI模型

2025-03-24 08:40:00

2025-06-26 09:06:59

2023-01-05 09:33:37

視覺模型訓練

2018-08-30 05:04:22

谷歌互聯網網絡

2022-03-14 09:50:29

3D技術建模

2024-04-11 11:35:03

大語言模型LLMs

2023-07-29 13:14:40

谷歌人工智能

2023-05-26 13:22:49

2022-09-23 09:53:41

機器人機器學習

2025-02-21 10:00:35

谷歌模型

2021-09-22 09:09:38

谷歌AI音樂

2024-05-27 10:09:26

2023-05-15 15:38:59

AI模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2023-05-10 17:33:56

2024-11-19 13:17:38

視覺語言模型Pytorch人工智能

2025-04-30 16:48:07

2025-05-21 13:56:37

模型圖像AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品在线播放 | 亚洲一区二区免费视频 | 精品欧美一区二区三区久久久 | 天天射网站| 日韩成人在线观看 | 天天av天天好逼 | 国产91精品网站 | 免费看的av | 国产男女猛烈无遮掩视频免费网站 | 黄色一级网 | 国产成人精品一区二区三区 | 精品国产乱码久久久久久图片 | av三级 | 日本电影网站 | 一区二区三区精品视频 | 2018天天干天天操 | 国产成人精品视频 | a黄视频| 日韩精品成人在线 | 天天看天天摸天天操 | 拍真实国产伦偷精品 | 久久蜜桃av一区二区天堂 | 国产亚洲欧美在线视频 | 自拍偷拍亚洲一区 | 日韩欧美一区二区三区免费观看 | 在线一区二区观看 | av大全在线观看 | 午夜午夜精品一区二区三区文 | 欧美亚洲视频 | 精品国产伦一区二区三区观看说明 | 国产美女在线精品免费 | 国产日韩欧美另类 | 中文字幕在线观看av | 国产乱码精品一品二品 | 成人亚洲精品久久久久软件 | 国产女人叫床高潮大片免费 | 亚洲精品在线91 | 精品国产一区二区三区久久久蜜月 | 国产成人在线看 | 国产a视频 | 在线观看免费毛片 |