成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

上海AI實(shí)驗(yàn)室造出首個(gè)「通才」機(jī)器人大腦:看懂世界+空間推理+精準(zhǔn)操控全拿下

人工智能 新聞
上海人工智能實(shí)驗(yàn)室聯(lián)合多家單位提出了一種全新的通用具身智能大腦框架:Visual Embodied Brain,簡稱VeBrain。

機(jī)器人的新大腦框架來了!

上海人工智能實(shí)驗(yàn)室聯(lián)合多家單位提出了一種全新的通用具身智能大腦框架:Visual Embodied Brain,簡稱VeBrain

該模型通過同時(shí)集成視覺感知、空間推理和機(jī)器人控制能力,可實(shí)現(xiàn)多模態(tài)大模型(MLLM)對物理實(shí)體的直接操控,使機(jī)器人能像人類一樣“看到-思考-行動(dòng)”。

圖片

相比現(xiàn)有的MLLM和視覺-語言-動(dòng)作(VLA)模型,VeBrain具備以下亮點(diǎn):

  • 統(tǒng)一三類任務(wù)的語言建模范式將機(jī)器人控制轉(zhuǎn)化為MLLM中常規(guī)的2D空間文本任務(wù),通過關(guān)鍵點(diǎn)檢測與具身技能識(shí)別等任務(wù),打通感知、推理、控制三大能力的建模路徑;
  • 提出“機(jī)器人適配器”實(shí)現(xiàn)閉環(huán)控制由關(guān)鍵點(diǎn)追蹤、動(dòng)作控制、技能執(zhí)行和動(dòng)態(tài)接管模塊組成,實(shí)現(xiàn)從文本決策到真實(shí)動(dòng)作的精準(zhǔn)映射;
  • 構(gòu)建高質(zhì)量多能力數(shù)據(jù)集VeBrain-600k涵蓋60萬條指令數(shù)據(jù),覆蓋多模態(tài)理解、視覺-空間推理、機(jī)器人操作三類任務(wù),輔以多模態(tài)鏈?zhǔn)剿季S(Multimodal CoT)標(biāo)注,提升模型組合推理能力;
  • 卓越的多模態(tài)和真機(jī)性能同時(shí)實(shí)現(xiàn)匹配同參數(shù)量下最強(qiáng)開源模型QwenVL-2.5的多模態(tài)能力,同參數(shù)量下最優(yōu)的空間推理能力,以及分別在機(jī)械臂和機(jī)器狗兩個(gè)實(shí)體上驗(yàn)證的真機(jī)控制能力。

圖片

測試結(jié)果表明,VeBrain在視覺感知、空間推理和機(jī)器人控制能力上同時(shí)取得了最先進(jìn)的性能。

VeBrain架構(gòu):統(tǒng)一感知-推理-控制建模范式

當(dāng)前MLLM在多模態(tài)感知方面表現(xiàn)卓越,但難以直接遷移到機(jī)器人控制等物理任務(wù)中,主要瓶頸在于任務(wù)目標(biāo)空間的不一致。

而VeBrain打破這一限制,提出將機(jī)器人控制重構(gòu)為兩個(gè)通用MLLM子任務(wù):

  • 關(guān)鍵點(diǎn)檢測(Keypoint Detection)以圖像為輸入,預(yù)測二維目標(biāo)位置,作為運(yùn)動(dòng)錨點(diǎn);
  • 技能識(shí)別(Skill Recognition)基于上下文生成語義動(dòng)作,如“前進(jìn)”、“夾取”、“轉(zhuǎn)身”等。

通過此類語言化的建模方式,VeBrain控制任務(wù)得以與理解和推理任務(wù)共享統(tǒng)一的輸入輸出空間,能夠有效對抗多任務(wù)沖突與災(zāi)難性遺忘。

圖片

VeBrain的另一個(gè)核心創(chuàng)新是機(jī)器人適配器模塊,其組成包括:

  • 點(diǎn)追蹤器(Point Tracker)實(shí)時(shí)更新四足機(jī)器人在運(yùn)動(dòng)過程中的視角下關(guān)鍵點(diǎn);
  • 運(yùn)動(dòng)控制器(Movement Controller)結(jié)合RGBD相機(jī)獲取深度信息,將2D坐標(biāo)轉(zhuǎn)換為3D控制指令;
  • 策略執(zhí)行器(Skill Executor)調(diào)用預(yù)訓(xùn)練的低層控制策略(如行走、夾取)完成任務(wù)執(zhí)行;
  • 動(dòng)態(tài)接管(Dynamic Takeover)在出現(xiàn)目標(biāo)丟失或策略失敗時(shí),自動(dòng)回調(diào)語言模型進(jìn)行重規(guī)劃。

該模塊實(shí)現(xiàn)了MLLM與機(jī)器人之間的閉環(huán)通信,提升了機(jī)器人在動(dòng)態(tài)環(huán)境中的穩(wěn)定性與魯棒性。

VeBrain-600k:統(tǒng)一訓(xùn)練多能力模型的高質(zhì)量數(shù)據(jù)集

為支撐模型的統(tǒng)一訓(xùn)練,VeBrain團(tuán)隊(duì)還配套了VeBrain-600k數(shù)據(jù)集,包含:

  • 20萬條多模態(tài)理解數(shù)據(jù):整合圖像、視頻與文本,來源于ShareGPT4V、MMInstruct等;
  • 31.2萬條空間推理數(shù)據(jù):結(jié)合ScanNet點(diǎn)云數(shù)據(jù),生成涉及計(jì)數(shù)、距離、尺寸等空間理解任務(wù);
  • 8.8萬條機(jī)器人控制數(shù)據(jù):由人工采集、標(biāo)注的真實(shí)機(jī)器人操作數(shù)據(jù),覆蓋四足機(jī)器人與機(jī)械臂兩類平臺(tái);

此外,大量任務(wù)引入鏈?zhǔn)剿季S(Chain-of-Thought,CoT)結(jié)構(gòu),由GPT-4o與Gemini自動(dòng)生成推理過程并經(jīng)專家復(fù)核,極大提升了數(shù)據(jù)質(zhì)量與任務(wù)復(fù)雜度。

圖片

通過消融實(shí)驗(yàn),VeBrain團(tuán)隊(duì)驗(yàn)證了VeBrain-600k數(shù)據(jù)集的豐富性和必要性。

從表格中可以看到,盡管在多模態(tài)理解方面表現(xiàn)良好,現(xiàn)有的MLLM在視覺空間推理和機(jī)器人控制方面往往表現(xiàn)不足,“復(fù)雜尋找”任務(wù)的成功率僅為0%。而在為模型配備我們的機(jī)器人適配器后,Qwen2.5-VL在兩個(gè)機(jī)器人控制任務(wù)上的成功率明顯提高。

將VeBrain與兩個(gè)常用框架,即MLLM和VLA進(jìn)行比較,發(fā)現(xiàn)MLLM由于控制能力較弱,在兩項(xiàng)任務(wù)中難以直接控制機(jī)器人;而VLA雖然在機(jī)器人控制任務(wù)中表現(xiàn)良好,但大大犧牲了多模態(tài)能力。與這些框架相比,VeBrain在所有任務(wù)中實(shí)現(xiàn)了最佳權(quán)衡性能,相較于其他框架平均提升了31.5%

性能測試結(jié)果:多模態(tài)理解+空間智能+機(jī)器人控制三位一體

VeBrain團(tuán)隊(duì)在13個(gè)多模態(tài)benchmark和5個(gè)空間推理benchmark上測試了VeBrain的性能。結(jié)果表明,VeBrain實(shí)現(xiàn)了比肩當(dāng)前最強(qiáng)開源模型Qwen2.5-VL的多模態(tài)能力,以及同參數(shù)量下最優(yōu)的視覺空間推理能力。

圖片

可以看到,VeBrain在MMVet(+5.6%)、DocVQA(94.4分)等13個(gè)基準(zhǔn)上超越GPT-4o和Qwen2.5-VL,并取得了77.1的最佳歸一化平均性能,這表明其具有更強(qiáng)的多模態(tài)能力。

圖片

模型需要強(qiáng)大的3D空間感知和推理能力來回答不同類型的問題,大多數(shù)先前方法采用了基于3D的MLLM結(jié)構(gòu),并在四個(gè)基準(zhǔn)測試上取得了有希望的結(jié)果。

相比之下,直接將2DMLLM遷移到這些任務(wù)會(huì)導(dǎo)致性能差,例如Qwen2.5-VL-7B的-50.1Acc@0.25,這表明它們在3D空間理解和推理方面的不足。與這些方法相比,GPT4Scene-HDM通過基于視頻的2DMLLM和對象標(biāo)記取得了更好的結(jié)果,但作為一個(gè)專業(yè)模型,GPT4Scene-HDM難以應(yīng)用于常見的2D多模態(tài)任務(wù)。

而VeBrain作為一個(gè)通才MLLM,在3D場景問答(ScanQA CIDEr 101.5)和物體定位(ScanRefer Acc@0.25 66.4%)上刷新了紀(jì)錄,甚至在所有任務(wù)上都能超越GPT4Scene-HDM。

圖片

進(jìn)一步診斷現(xiàn)有MLLM和VeBrain的視覺空間推理能力。可以看出,VeBrain在VSI基準(zhǔn)測試中的平均得分優(yōu)于所有現(xiàn)有的MLLM,例如,比Qwen2.5-VL-7B高出+4.0%。與GPT-4o等更大的MLLM相比,VeBrain也能表現(xiàn)更出色。

圖片圖片

為了證明VeBrain的泛化性和通用性,選擇四足機(jī)器人和機(jī)械臂作為真機(jī)驗(yàn)證的兩個(gè)實(shí)體。可以看到,在四足機(jī)器人尤其是復(fù)雜的長程任務(wù)上,VeBrain相比于現(xiàn)有的VLA模型和MLLM模型取得了+50%成功率的提升。

在機(jī)械臂尤其是長程任務(wù)上,VeBrain相比于π0模型也取得了顯著的提升。

論文鏈接:https://huggingface.co/papers/2506.00123/項(xiàng)目主頁:https://internvl.github.io/blog/2025-05-26-VeBrain/推理代碼&模型鏈接:https://internvl.github.io/blog/2025-05-26-VeBrain/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2014-04-08 20:40:01

華為OpenDayligh

2018-07-05 17:50:14

AI

2009-06-25 19:03:37

云計(jì)算IBMWeb

2023-05-29 16:08:47

人工智能模型

2024-11-28 13:40:00

模型訓(xùn)練

2025-02-21 09:06:28

2025-02-21 11:00:00

人工智能AI模型

2019-08-23 18:40:54

機(jī)器人人工智能

2021-08-04 09:48:05

數(shù)字化

2023-10-05 13:04:27

騰訊機(jī)器人RoboticX

2017-08-24 13:14:38

AI人工智能機(jī)器人

2024-06-27 10:03:27

人形機(jī)器人

2025-06-11 09:19:46

2023-12-12 12:43:19

AI訓(xùn)練

2017-03-24 08:58:23

機(jī)器學(xué)習(xí)算法預(yù)測

2023-12-08 13:17:00

數(shù)據(jù)模型

2024-12-13 07:39:22

2024-07-08 13:13:00

2011-05-25 17:51:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: av三级在线观看 | 成人免费观看男女羞羞视频 | 免费色网址 | 亚洲狠狠爱 | 国产在线观看 | 亚洲人在线观看视频 | 亚洲久视频 | 久久99精品久久久久蜜桃tv | 麻豆视频国产在线观看 | 欧美一区2区三区4区公司二百 | 精品视频一区二区三区 | 国产精品国产精品国产专区不卡 | 日韩精品成人 | 最大av在线| 亚洲成人午夜电影 | 一级在线视频 | 精品久久一区 | 亚洲一区二区三区在线 | 一级做a爰片性色毛片16 | 成人黄页在线观看 | 久久久精品天堂 | 99精品一区二区 | a级毛片免费高清视频 | 久久婷婷香蕉热狠狠综合 | 欧美综合久久久 | 亚洲视频区 | 欧美一区二区免费在线 | 国产成人免费视频网站高清观看视频 | 久久高清免费视频 | 欧美黄页 | 精品久久一 | 日日夜夜精品免费视频 | 美女一区二区在线观看 | 一区二区精品 | 亚洲精品久久久久中文字幕二区 | 久久中文字幕一区 | 玖玖国产 | 亚洲一区二区三区在线免费 | 91免费观看 | 天天躁天天操 | 天天爽天天操 |