成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全新模型RoboVLMs解鎖VLA無限可能,真實機器人實驗交出滿分答卷

人工智能 新聞
雖然 VLAs 在各種任務和場景中表現搶眼,但大家在模型設計上卻走了很多不同的路,比如用什么架構、怎么選數據、怎么調訓練策略等等,這導致領域內對 “怎么做好一個 VLA” 還沒有統一的答案。

本文作者來自清華大學、字節跳動、中科院自動化所、上海交通大學和新加坡國立大學。作者列表:李興航、李沛言、劉明桓、王棟、劉濟榕、康炳易、馬驍、孔濤、張翰博和劉華平。第一作者李興航是清華大學計算機系博士生。通訊作者是字節跳動機器人研究員孔濤,新加坡國立大學博士后張翰博和清華大學計算機系教授劉華平。

近年來,視覺語言基礎模型(Vision Language Models, VLMs)大放異彩,在多模態理解和推理上展現出了超強能力。現在,更加酷炫的視覺語言動作模型(Vision-Language-Action Models, VLAs)來了!通過為 VLMs 加上動作預測模塊,VLAs 不僅能 “看” 懂和 “說” 清,還能 “動” 起來,為機器人領域開啟了新玩法!

雖然 VLAs 在各種任務和場景中表現搶眼,但大家在模型設計上卻走了很多不同的路,比如用什么架構、怎么選數據、怎么調訓練策略等等,這導致領域內對 “怎么做好一個 VLA” 還沒有統一的答案。為了理清這些問題,我們通過一系列的實驗,提出了一個全新模型 ——RoboVLMs

圖片

  • 論文標題:Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
  • 論文地址:https://arxiv.org/pdf/2412.14058

圖片


這個模型超級簡單,但性能卻相當硬核!它不僅在三個模擬任務中取得了高分,還在真實機器人實驗中交出了滿分答卷。這篇文章就是要帶你一起看看,我們是如何用 RoboVLMs 解鎖 VLA 的無限可能!

四大靈魂拷問:RoboVLMs 是怎么煉成的?

我們圍繞四個關鍵問題,對 VLA 的設計展開了深度探索,下面就帶你看看答案!

1. 為什么要用 VLA 模型?

簡單說,通過實驗,我們發現設計合理的 VLA 不僅能輕松搞定常見的操作任務,還能在陌生場景中穩穩發揮。

仿真任務中拿下頂尖成績

在 CALVIN 和 SimplerEnv 環境里,RoboVLMs 取得了壓倒性的勝利:

  • 任務成功率:表現穩定且超越主流模型。
  • 泛化能力:即使在陌生場景中,表現依然抗打!

圖片

圖 1 SimplerEnv 仿真環境中的評測結果            

圖片

圖 2 針對視覺語言預訓練的消融實驗結果

圖片

圖片

真實機器人實驗也不輸

在真實環境中,RoboVLMs 面對更復雜的挑戰,仍然比其他模型表現更好。比如,在果蔬分類任務中,它不僅能精準識別,還能應對干擾環境,穩穩完成分類操作。無論是已知場景還是新任務,它都能輕松拿下。

圖片

圖 3 真實環境下的評測結果

對于未見過的技能描述、背景、干擾物體和目標物體,RoboVLMs 均能很好的完成任務。

圖片

2. 怎么設計一個靠譜的 VLA 架構?

這里面講究可不少!比如:

  • 動作空間:用連續動作空間比離散的好很多。
  • 歷史信息:加多步歷史信息后,模型的操作更穩準狠。
  • 歷史信息組織模塊:一個專門的模塊可以讓模型更懂 “上下文”。

經過一系列實驗,我們確認了這些設計選擇是提升模型性能和泛化能力的關鍵。進一步的實驗也表明,最優的設計來自于基于 KosMos 基座模型的架構,并且結合了專門的歷史信息組織模塊。這樣的設計在 CALVIN 中實現了出色的泛化能力,在 zero-shot 設置下僅有輕微的性能下降,而其他設計形式的模型則出現了顯著掉分。這一結論直接說明,架構設計的好壞對模型的泛化能力和效率至關重要

圖片

3. 選什么基座模型最合適?

我們對比了當前主流的 8 種視覺語言模型(VLM),結果發現 KosMos 和 Paligemma 的表現遙遙領先,輕松碾壓其他模型。無論是任務完成的精確度還是泛化能力,它們都展現出了壓倒性的優勢。究其原因,主要得益于它們經過了扎實且全面的視覺語言預訓練,從而為模型提供了強大的先驗知識和理解能力。

這一發現讓我們更加確信:選對基座模型,就是讓 VLA 模型起飛的關鍵一步!想要讓模型在多模態任務中表現驚艷,一個經過深度預訓練、具備強大視覺語言表征能力的 VLM 基座顯然能提供無與倫比的助力。而一旦打好了這個基礎,后續的設計和訓練才能真正發揮最大潛力。

圖片

4. 跨本體數據什么時候加入最合適?

實驗告訴我們一個黃金法則:在預訓練階段引入跨本體數據(如 Open-X Embodiment 數據集)可以顯著提升模型的魯棒性和少樣本場景下的表現。反之,直接將跨本體數據和微調數據混合訓練,效果就沒那么顯著了。這些結論為未來 VLA 模型的訓練策略指明了方向。

具體實驗中,我們在 WidowX+Bridge 和 Google Robot 兩大環境下分別進行了不同訓練策略的測試:

WidowX+Bridge 環境:

  • Bridge Finetune:直接在完整的 Bridge 數據集上微調(測試任務不包括在內)。
  • OXE Pre-Train:先用 OXE 數據集預訓練模型。
  • Post-Train:用經過 OXE 預訓練的模型再在 Bridge 數據集上微調。

Google Robot 環境:

  • RT-Partial Finetune:僅在特定的 RT 任務上微調。
  • RT Finetune:在完整的 RT 數據集上微調(包括測試任務)。
  • OXE Pre-Train:先用 OXE 數據集預訓練模型。
  • Post-Train:在 OXE 預訓練基礎上用 RT 數據集進一步訓練。

實驗結果進一步驗證了:在預訓練階段引入跨本體數據不僅能提升泛化能力,還能讓模型在少樣本和高復雜任務下表現更佳

圖片

展望未來:VLA 的進階之路

雖然 RoboVLMs 已經很能打了,但接下來的發展空間更讓人期待!未來可以探索:

  1. 更細化的設計優化:比如再打磨 VLM 內部結構、信息融合模塊和訓練目標,讓它更高效。
  2. 挑戰復雜任務:像 “做早餐” 這種長鏈條任務,也許是下一個突破點!
  3. 多模態協作能力:進一步讓機器人 “看懂”、“聽清”、“動得更聰明”。

RoboVLMs 的出現,驗證了視覺語言動作模型的可能性,也讓機器人更接近成為我們的全能助手。未來,它們或許不僅能理解語言和視覺,還能真正幫我們完成那些繁瑣又復雜的任務。接下來會有更多驚喜等著我們!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-05 15:48:21

2025-03-19 10:26:10

2019-11-06 11:40:19

機器人人工智能系統

2025-04-18 12:25:34

2015-11-23 18:21:45

Udesk

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2025-03-10 13:31:28

2020-10-15 15:42:00

人工智能

2024-01-10 08:14:10

Java反射工具

2023-06-08 11:22:05

2025-02-21 14:53:40

2021-04-24 20:41:26

機器人AI人工智能

2025-02-21 10:14:59

2016-02-16 10:30:32

機器人

2024-06-20 14:12:53

2021-07-22 10:17:55

加密機器人加密貨幣機器人

2025-02-27 12:12:28

2021-08-19 15:44:20

機器人人工智能機器學習

2015-07-28 09:36:11

機器人
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91在线看| 九色在线观看 | 91精品国产一区二区三区香蕉 | 欧美1区 | 一级二级三级在线观看 | 特级丰满少妇一级aaaa爱毛片 | 日韩高清一区 | 国产伦一区二区三区久久 | 久久人体 | 亚洲a人| 午夜小电影| 伊人伊成久久人综合网站 | 三级av免费 | 亚洲在线久久 | 国产日韩一区二区 | 成人午夜视频在线观看 | 免费在线看黄 | 欧美一级三级 | 日韩电影一区二区三区 | 国产精品国产a级 | 亚洲天堂影院 | 91精品无人区卡一卡二卡三 | 国产ts人妖一区二区三区 | 特黄小视频 | 国产精品久久午夜夜伦鲁鲁 | 久久久久久久久久影视 | 国产成人精品久久二区二区 | 国产免费拔擦拔擦8x高清 | 激情六月丁香 | 欧美一级在线观看 | 伊人二区 | 99久久久久久 | 亚洲九九精品 | 国产精品地址 | 99久久99久久精品国产片果冰 | 久久91精品| www.色53色.com | av在线一区二区三区 | 久久噜噜噜精品国产亚洲综合 | 欧美在线视频网站 | 在线观看视频一区 |