成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個精通3D任務(wù)的具身通才智能體:感知、推理、規(guī)劃、行動統(tǒng)統(tǒng)拿下

人工智能 新聞
今年以來,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等為代表的多模態(tài)大語言模型(Multi-modal Large Language Model)在自然語言處理、視覺理解、機器人等任務(wù)上取得了顯著的成功,但這類模型都是基于二維圖片文本數(shù)據(jù)訓(xùn)練得到,在理解三維世界和與三維世界交互方面能力欠缺。

想要邁向通用人工智能,必須要構(gòu)建一個能夠理解人類生活的真實世界,并掌握豐富技能的具身通用智能體。

今年以來,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等為代表的多模態(tài)大語言模型(Multi-modal Large Language Model)在自然語言處理、視覺理解、機器人等任務(wù)上取得了顯著的成功,但這類模型都是基于二維圖片文本數(shù)據(jù)訓(xùn)練得到,在理解三維世界和與三維世界交互方面能力欠缺。

為解決這一問題,北京通用人工智能研究院聯(lián)合北京大學(xué)、卡耐基梅隆大學(xué)和清華大學(xué)的研究人員提出了首個三維世界中的具身多任務(wù)多模態(tài)的通才智能體 LEO


  • 論文鏈接:https://arxiv.org/abs/2311.12871
  • 項目主頁:https://embodied-generalist.github.io/
  • 代碼鏈接:https://github.com/embodied-generalist/embodied-generalist

通才智能體 LEO 以大語言模型為基礎(chǔ),可以完成感知(perception)、定位(grounding)、推理(reasoning)、規(guī)劃(planning)和動作執(zhí)行(acting)等任務(wù)。

LEO 的三維視覺語言理解、具身推理和動作執(zhí)行能力在現(xiàn)實世界中有廣泛的應(yīng)用場景與巨大的應(yīng)用價值。作為未來的家庭助理,LEO 可以與人交互,回答與場景相關(guān)的問題,例如根據(jù)用戶喜好調(diào)整家居布局、幫助用戶找到特定物品、為用戶的各種問題提供建議。LEO 的導(dǎo)航能力可用于購物中心、辦公樓中的智能引導(dǎo),其操控能力可用于家居自動化任務(wù),如打掃、整理或簡單廚房任務(wù),以及倉庫和物流中心的物品整理和搬運。

研究概述

圖片

圖 1. LEO 能力示意圖

通才智能體 LEO 以 LLM 為基礎(chǔ),在不同任務(wù)之間采用共享的架構(gòu)和權(quán)重,經(jīng)由如下兩個階段訓(xùn)練得到:

1)三維視覺 - 語言對齊 

2)視覺 - 語言 - 動作指令微調(diào)。

為完成上述兩階段的訓(xùn)練,作者收集并生成了包括物體級別(object-level)和場景級別(scene-level)的大規(guī)模數(shù)據(jù)集,并在問答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身導(dǎo)航(embodied navigation)、機器人操作(robotic manipulation)多個任務(wù)上展示了 LEO 杰出的能力。

該工作的主要貢獻可以總結(jié)如下:

1)構(gòu)建了第一個能夠在三維世界中進行感知、定位、推理、規(guī)劃和動作執(zhí)行的具身智能體 LEO。

2)提出了高效的學(xué)習(xí)策略,將以物體為中心(object-centric)的三維表征與 LLM 連接起來,同時加入具身動作任務(wù),在三維世界中打通視覺 - 語言 - 動作(vision-language-action)。

3)提出了生成高質(zhì)量三維視覺語言數(shù)據(jù)的方法,構(gòu)建了視覺 - 語言 - 動作(vision-language-action)指令微調(diào)的大規(guī)模數(shù)據(jù)集。

模型介紹

圖片

圖 2. LEO 的通用任務(wù)序列和自回歸式訓(xùn)練目標

LEO 模型的整體設(shè)計思想圍繞兩個核心點:

1)在統(tǒng)一的框架內(nèi)處理第一視角的二維圖片、三維場景信息和自然語言指令,并同時支持文本與動作的輸出;

2)能夠充分利用預(yù)訓(xùn)練語言模型的先驗信息來促進下游任務(wù)。基于上述兩個原則,作者設(shè)計了如圖 2 所示的模型框架,將所有的多模態(tài)(2D、3D、text)輸入都對齊到 LLM 的文本空間。

其中,作者利用 PointNet++ 提取出場景點云中物體級別的特征,隨后用空間編碼器(Spatial Transformer)對空間位置關(guān)系進行建模,從而得到三維場景級別(scene-level)的特征。輸入中的二維圖像則經(jīng)過預(yù)訓(xùn)練模型 OpenCLIP ConvNext 處理得到第一視角的視覺特征。二維和三維的視覺特征最后分別經(jīng)過 projector 映射到文本空間中。

具體過程如圖 3 所示。

圖片圖 3. 圖片和三維場景特征提取示意圖

LLM 方面,作者采用 Vicuna-7B 作為預(yù)訓(xùn)練語言模型來處理 token 序列,訓(xùn)練中,利用 LoRA 方法來微調(diào) LLM,訓(xùn)練目標如圖 2 中所示。

數(shù)據(jù)集

數(shù)據(jù)集概況

根據(jù)兩階段的訓(xùn)練策略,作者分別收集了相應(yīng)的數(shù)據(jù),其整體概況如圖 4 所示。數(shù)據(jù)集涵蓋了大規(guī)模的三維物體數(shù)據(jù),如 Objaverse,以及三維場景數(shù)據(jù)集,如 ScanNet、3RScan、Matterport3D 等,還包括了機器人操作相關(guān)的數(shù)據(jù)集 CLIPort,表 1 則給出了兩階段訓(xùn)練中所有數(shù)據(jù)的來源和數(shù)量統(tǒng)計。

圖 4. LEO 數(shù)據(jù)集示意圖

圖片

表 1. 數(shù)據(jù)集統(tǒng)計

LLM 輔助數(shù)據(jù)生成

為了解決當前三維場景視覺語言指令微調(diào)數(shù)據(jù)不足、現(xiàn)有的生成方法得到的數(shù)據(jù)質(zhì)量不高的問題,作者提出了基于三維在場景圖(scene graph)的數(shù)據(jù)生成方法,以及精煉過程(refinement procedures)來生成高質(zhì)量的數(shù)據(jù)。具體過程如圖 5 所示。

圖片

圖 5. 基于 LLM 的三維視覺 - 語言指令微調(diào)數(shù)據(jù)生成

為了提高 LLM 生成數(shù)據(jù)的可靠性,作者提出了物體為中心的思維鏈(Object-centric Chain-Of-Thought)方法,提高生成回答和場景的關(guān)聯(lián),減少了輸出中的幻覺(hallucination),并進一步通過精煉過程(Refinement Procedures)糾正生成數(shù)據(jù)中的錯誤。經(jīng)過這一流程,最終得到了高質(zhì)量的指令微調(diào)數(shù)據(jù),更多關(guān)于數(shù)據(jù)集生成方法的細節(jié)和統(tǒng)計結(jié)果參見論文的附錄部分。

模型能力

三維視覺語言理解和具身推理

視頻 1. LEO 在 ScanQA, Scan2Cap, SQA 等任務(wù)上的表現(xiàn)

作者在三維場景問答數(shù)據(jù)集 ScanQA、三維物體描述數(shù)據(jù)集 Scan2Cap、三維場景具身推理數(shù)據(jù)集 SQA3D 上測試了模型的能力,這幾類任務(wù)都以三維場景、自然語言指令為輸入,其中 SQA3D 任務(wù)上還包括了提問時所處的位置和朝向,基于這些輸入模型需要給出相應(yīng)的回答,如上面的視頻所示。

作者比較了之前各個數(shù)據(jù)集上的 SOTA 方法,如 3D-VisTA [4],3D-LLM [5],結(jié)果表 2 所示,實驗結(jié)果表明 LEO 在三維視覺語言理解的任務(wù)上的多個指標明顯優(yōu)于之前的方法。

圖片

表 2 - 表 4. LEO 在三維視覺語言理解任務(wù)上的性能表現(xiàn)

三維世界中的具身動作執(zhí)行

視頻 2. LEO 在 manipulation 和 object navigation 任務(wù)上的表現(xiàn)

作者測試了 LEO 在機器人操作數(shù)據(jù)集 CLIPort 上的表現(xiàn),該任務(wù)要求模型根據(jù)三維、二維感知結(jié)果和自然語言指令輸出機械臂操作指令,如視頻 2 所示。作者比較了 CLIPort 的基線方法 [6],結(jié)果如表 3 所示,證明了提出方法的優(yōu)越性。另外,作者還測試了 LEO 在 MP3D(in domain)和 HM3D(out of distribution)這兩個數(shù)據(jù)集上的表現(xiàn),這一任務(wù)以三維場景、第一視角圖片和自然語言指令作為輸入,模型需要給出下一步的動作,如視頻 3 所示。

論文與近期的相關(guān)工作 [7][8] 進行了比較,如表 4 所示。可以看出所提方法在學(xué)習(xí)最短路徑數(shù)據(jù)下的表現(xiàn)可圈可點,在 SPL 指標上超越了先前的基準方法,而由于 LEO 的模型沒有采用 recurrence 的結(jié)構(gòu),因此在學(xué)習(xí) 70k human demonstrations 的設(shè)定下表現(xiàn)出的能力有限。

圖片

圖 6. LEO 的能力可視化

三維場景中的對話和規(guī)劃

圖 6 給出了 LEO 在多種任務(wù)中的可視化結(jié)果,可以看出,由于經(jīng)過了指令微調(diào)訓(xùn)練的過程,LEO 可以進行多輪的場景對話,如按照用戶需求在場景中尋找物體、按照不同的要求描述房間中的物體、給出建議等。還可以根據(jù)場景信息進行任務(wù)規(guī)劃,如將房間整理為一個學(xué)習(xí)空間、打掃房間、重新裝飾房間等,更多的例子可以在項目主頁中進一步了解。

實驗分析

圖片

圖 7. 消融實驗結(jié)果

為了研究所提出的訓(xùn)練策略有效性,作者進行了不同數(shù)據(jù)集和訓(xùn)練階段的多組對比實驗。其中圖 7-(a) 展示的是采用不同的訓(xùn)練數(shù)據(jù)得到的模型在多個任務(wù)上的表現(xiàn),圖 7-(b) 展示的是采用不同規(guī)模的 token 訓(xùn)練得到的模型對 test loss 的影響。

從實驗可以得出如下結(jié)論:1)指令微調(diào)訓(xùn)練遵循 scaling law [9] 的規(guī)律。2)所提出的兩階段訓(xùn)練策略是重要的,對齊階段的缺失會造成性能的明顯下降。3)簡單將模型參數(shù)規(guī)模從 7B 擴大至 13B 會造成性能的降低。

結(jié)論

本文提出的智能體 LEO 將當前的 LLM 模型能力拓展到了三維世界以及動作執(zhí)行任務(wù)上,這一工作為構(gòu)建通用具身智能體邁出了重要的一步。

基于這一工作,作者認為未來可以在如下方面進一步進行探索:

1)通過大規(guī)模的場景 - 文本數(shù)據(jù)對提升三維視覺 - 語言定位能力;

2)填補視覺 - 語言能力和動作執(zhí)行能力之間的差距;

3)探索具身通用智能體的對齊和安全問題。

團隊介紹

論文核心團隊來自北京通用人工智能研究院通用視覺實驗室,團隊負責人黃思遠博士長期從事關(guān)于三維場景理解、具身智能體、視覺機器人等方向的相關(guān)工作。該團隊擁有包括全職研究員、工程師、以及實習(xí)生在內(nèi)的三十余人團隊,團隊的長期目標是打造未來的通用具身智能體 / 視覺機器人。

圖片

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-11-14 10:40:00

智能體模型

2024-05-09 09:29:31

3D模型自動駕駛

2025-03-07 10:24:43

2024-03-25 08:00:00

3DAI

2024-12-10 09:40:00

AI3D模型

2022-12-26 13:40:59

機器學(xué)習(xí)

2024-08-02 10:00:00

2024-06-04 09:25:51

2025-01-09 12:39:27

2025-04-25 02:30:00

機械臂大模型多模態(tài)

2025-03-31 09:10:00

開源模型智能體

2025-04-27 08:55:00

2024-01-22 13:17:00

AI模型

2025-06-06 08:52:00

機器人智能推理

2014-08-11 09:39:46

3D

2018-09-28 10:20:59

虛擬現(xiàn)實感知

2023-12-28 17:17:20

智能模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩精品影院 | 日日夜夜天天久久 | 国产精品久久99 | 国产二区视频 | 天堂在线www | 久久之精品 | 久久久久国产精品一区二区 | 午夜免费观看体验区 | 亚洲草草视频 | av黄色在线观看 | 亚洲综合色 | 99视频在线免费观看 | 91直接看 | 四虎影院新地址 | 久久精品国产久精国产 | 色av一区 | 精品一区二区三区免费毛片 | 亚洲一区二区免费 | 亚洲人成人一区二区在线观看 | 色在线免费视频 | av小说在线 | 在线免费观看黄a | 草久久免费视频 | 天天天天操 | 精品一区二区视频 | 日韩在线一区二区三区 | 国产欧美一区二区精品忘忧草 | 精品日韩欧美一区二区 | 欧美日韩中文国产一区发布 | 精品国产一区二区 | 免费av一区二区三区 | 一二三区视频 | 狠狠色综合久久婷婷 | 一区二区三区国产精品 | 欧美精品在线一区二区三区 | 久久久久一区二区三区四区 | 亚洲一区二区三区在线播放 | 久久久精品一区 | 精品无码久久久久国产 | 亚洲 欧美 日韩 精品 | 国产日韩欧美 |