成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="gsigk"><xmp id="gsigk"></xmp></code>

<s id="gsigk"></s>

<s id="gsigk"></s>

<bdo id="gsigk"></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

稚暉君的「好東西」揭曉！首個通用具身基座模型，機器人告別「看得懂做不來」

作者：機器之心 2025-03-10 12:06:46

人工智能新聞

機器人訓練，苦數(shù)據(jù)難久矣。一方面是認知維度的數(shù)據(jù)：互聯(lián)網(wǎng)上海量的文本和圖片數(shù)據(jù)，幫助機器人建立基礎(chǔ)認知，理解世界是什么樣的。

上周五，稚暉君在微博上預告，「下周有好東西發(fā)布」。

還沒進入「下周」多久，智元機器人的「好東西」揭曉了，還是雙重驚喜：Vision-Language-Latent-Action (ViLLA) 架構(gòu)和通用具身基座大模型 GO-1。

機器人訓練，苦數(shù)據(jù)難久矣。一方面是認知維度的數(shù)據(jù)：互聯(lián)網(wǎng)上海量的文本和圖片數(shù)據(jù)，幫助機器人建立基礎(chǔ)認知，理解世界是什么樣的。

另一方面是動作維度的數(shù)據(jù)，主要來源有人類的操作視頻、跨本體示范視頻、在虛擬場景中練習的仿真數(shù)據(jù)，還有機器人在實際環(huán)境中實操得來的真機示教數(shù)據(jù)。

智元機器人將機器人的訓練數(shù)據(jù)劃分為四個層次

然而現(xiàn)有的 VLA（Vision-Language-Action）架構(gòu)，主要依賴真機和合成數(shù)據(jù)。

我們每天刷的短視頻有很多可供機器人學習的操作，但不能直接用，需要「翻譯」成機器人能理解的語言。

因此，機器人很難做到看完人類的視頻教程，腦子學會了，手學會了，直接上手做好了。

沒有充分激活人類 / 跨本體操作視頻數(shù)據(jù)這個寶貴的數(shù)據(jù)來源，機器人迭代的成本更高，進化的速度也更慢了。

那么，怎樣的架構(gòu)才能充分利用好這些數(shù)據(jù)呢？

智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架構(gòu)。

與 VLA 架構(gòu)相比，ViLLA 通過預測 Latent Action Tokens（隱式動作標記），讓機器人能夠?qū)⑷祟悇幼饕曨l轉(zhuǎn)化為自己可執(zhí)行的動作序列。這樣，機器人就能同時獲得認知和動作兩個維度的訓練，既知其然，也知其所以然。

這樣一來，機器人也能有效利用高質(zhì)量的 AgiBot World 數(shù)據(jù)集以及互聯(lián)網(wǎng)上廣泛的視頻數(shù)據(jù)，增強策略的泛化能力。

基于 ViLLA 架構(gòu)，智元打造了通用具身基座大模型 ——GO-1。它由 VLM (語言視覺模型) 和 MoE (專家混合模型) 組成。它整合了視覺、語言、動作、觸覺等多模態(tài)輸入，規(guī)劃具體動作，直接輸出機器人的動作執(zhí)行序列。

舉個例子來說，你告訴機器人去掛衣服，GO-1 會指導機器人理解任務(wù)要求，分解動作步驟，適應(yīng)具體環(huán)境，最終執(zhí)行操作。

但在更深的技術(shù)面，這是因為 GO-1 大模型融會貫通了機器人訓練數(shù)據(jù)的四個層次：

在訓練階段，學習了互聯(lián)網(wǎng)的大規(guī)模純文本和圖文數(shù)據(jù)，所以能理解「掛衣服」在此情此景下的含義和要求。

學習過人類操作視頻和其他機器人的各種操作視頻，所以能知道掛衣服通常包括哪些環(huán)節(jié)。

學習過仿真的不同衣服、不同衣柜、不同房間，模擬過掛衣服的操作，所以能理解環(huán)節(jié)中對應(yīng)的物體和環(huán)境并打通整個任務(wù)過程。

又因為學習過真機的示教數(shù)據(jù)，所以機器人能精準完成任務(wù)。

這樣一來，GO-1 大模型可以幫助機器人完成全面的「基礎(chǔ)教育」和「職業(yè)教育」，讓機器人具備強大的遷移學習能力。面對新場景時，機器人既有基本常識，又能根據(jù)多種多樣的環(huán)境和物體，快速上手新操作。

論文鏈接：https://agibot-world.com/blog/agibot_go1.pdf

GO-1：VLA 進化到 ViLLA

與 Vision-Language-Action (VLA) 架構(gòu)相比，ViLLA 通過預測 Latent Action Tokens (隱式動作標記)，彌合圖像 - 文本輸入與機器人執(zhí)行動作之間的鴻溝。在真實世界的靈巧操作和長時任務(wù)方面表現(xiàn)卓越，遠遠超過了已有的開源 SOTA 模型。

ViLLA 架構(gòu)是由 VLM (多模態(tài)大模型) + MoE (混合專家) 組成，其中 VLM 借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力，MoE 中的 Latent Planner (隱式規(guī)劃器) 借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力，MoE 中的 Action Expert (動作專家) 借助百萬真機數(shù)據(jù)獲得精細的動作執(zhí)行能力。

在推理時，VLM、Latent Planner 和 Action Expert 三者協(xié)同工作：

VLM 采用 InternVL-2B，接收多視角視覺圖片、力覺信號、語言輸入等多模態(tài)信息，進行通用的場景感知和指令理解
Latent Planner 是 MoE 中的一組專家，基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP (Chain of Planning，規(guī)劃鏈)，進行通用的動作理解和規(guī)劃
Action Expert 是 MoE 中的另外一組專家，基于 VLM 的中間層輸出以及 Latent Action Tokens，生成最終的精細動作序列

Latent Planner 和 Action Expert 是這個 MoE 框架里的 2 個關(guān)鍵構(gòu)成：

Latent Planner（隱式規(guī)劃器）

盡管 AgiBot World 數(shù)據(jù)集已經(jīng)是全球最大的機器人真機示教數(shù)據(jù)集，但這樣高質(zhì)量帶動作標簽的真機數(shù)據(jù)量仍然有限，遠少于互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集。

為此，智元采用 Latent Actions（隱式動作）來建模當前幀和歷史幀之間的隱式變化，然后通過 Latent Planner 預測這些 Latent Actions，從而將異構(gòu)數(shù)據(jù)源中真實世界的動作知識轉(zhuǎn)移到通用操作任務(wù)中。

Latent Action Model（LAM，隱式動作模型）主要用于獲取當前幀和歷史幀之間 Latent Actions 的 Groundtruth（真值），它由編碼器和解碼器組成。其中
編碼器采用 Spatial-temporal Transformer，并使用 Causal Temporal Masks（時序因果掩碼）。
解碼器采用 Spatial Transformer，以初始幀和離散化的 Latent Action Tokens 作為輸入。
Latent Action Tokens 通過 VQ-VAE 的方式進行量化處理。
Latent Planner 負責預測這些離散的 Latent Action Tokens，它與 VLM 主干網(wǎng)絡(luò)共享相同的 Transformer 結(jié)構(gòu)，但使用了兩套獨立的 FFN (前饋神經(jīng)網(wǎng)絡(luò)) 和 Q/K/V/O (查詢、鍵、值、輸出) 投影矩陣。Latent Planner 這組專家會逐層結(jié)合 VLM 輸出的中間信息，通過 Cross Entropy Loss（交叉熵損失）進行監(jiān)督訓練。

Action Expert（動作專家）

為了實現(xiàn) High-frequency（高頻率）且 Dexterous（靈活）的操控，智元引入了 Action Expert，其采用 Diffusion Model 作為目標函數(shù)來建模低層級動作的連續(xù)分布。

Action Expert 結(jié)構(gòu)設(shè)計上與 Latent Planner 類似，也是與 VLM 主干網(wǎng)絡(luò)共享相同的 Transformer 結(jié)構(gòu)，但使用兩套獨立的 FFN 和 Q/K/V/O 投影矩陣，它通過 Denoising Process（去噪過程）逐步回歸動作序列。
Action Expert 與 VLM、Latent Planner 分層結(jié)合，確保信息流的一致性與協(xié)同優(yōu)化。

GO-1 首個通用具身基座模型

而 GO-1 基于 ViLLA架構(gòu)。具體來說，VLM 作為通用具身基座大模型的主干網(wǎng)絡(luò)，繼承開源多模態(tài)大模型 InternVL2.5-2B 的權(quán)重，利用互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù)，讓 GO-1 大模型具備了通用的場景感知和理解能力。

隱動作專家模型作為第一個專家模型，是 GO-1 大模型中隱式的規(guī)劃器，它利用到了大規(guī)模人類操作和跨本體操作視頻，讓模型具備動作的理解能力。

GO-1 大模型的最后是作為動作預測器的動作專家模型，它利用高質(zhì)量的仿真數(shù)據(jù)、真機數(shù)據(jù)，讓模型具備了動作的精細執(zhí)行能力。

作為通用具身基座大模型，GO-1 實現(xiàn)了四項突破：

人類視頻學習：GO-1 大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學習，增強模型對人類行為的理解，更好地為人類服務(wù)。
小樣本快速泛化：GO-1 大模型具有強大的泛化能力，能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù)，降低了具身模型的使用門檻，使得后訓練成本非常低。
一腦多形：GO-1 大模型是通用機器人策略模型，能夠在不同機器人形態(tài)之間遷移，快速適配到不同本體，群體升智。
持續(xù)進化：GO-1 大模型搭配智元一整套數(shù)據(jù)回流系統(tǒng)，可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學習，越用越聰明。

實驗結(jié)果

通過 Vision-Language-Latent-Action (ViLLA) 創(chuàng)新性架構(gòu)，研究團隊在五種不同復雜度任務(wù)上測試 GO-1。

相比已有的最優(yōu)模型，GO-1 成功率大幅領(lǐng)先，平均成功率提高了 32%(46%→78%)。其中 GO-1 在倒水（Pour Water）、清理桌面（Table Bussing）和補充飲料（ Restock Beverage）任務(wù)表現(xiàn)尤為突出。

此外，他們還對 Latent Planner 進行了消融實驗，可以看到增加 Latent Planner 可以提升 12% 的成功率 (66%→78%)。

在破解機器人訓練的數(shù)據(jù)難題上，智元始終秉持開源精神，推動業(yè)界共享。

去年 12 月，智元面向全球開源了 AgiBot World 數(shù)據(jù)集大規(guī)模訓練數(shù)據(jù)集，這是首個基于真實場景和全棧硬件的平臺所采集的百萬級機器人數(shù)據(jù)集。今年 2 月，智元開源了 AgiBot Digital World 仿真數(shù)據(jù)集，還可以提供多元化的專家軌跡生成策略。

如今，隨著 ViLLA 架構(gòu)與 GO-1 大模型的重磅發(fā)布，機器人不僅擁有了海量真實和仿真數(shù)據(jù)，更具備了快速學習的遷移能力，讓機器在拓展了運動能力之外，更加具備了 AI 的能力，作業(yè)能力，是讓機器具備了真正的價值。

相信機器人將能更好地適應(yīng)千變?nèi)f化的現(xiàn)實環(huán)境，向著具備通用智能的自主體發(fā)展，在商業(yè)、工業(yè)、家居等多個領(lǐng)域大展身手。

責任編輯：張燕妮來源：機器之心

機器人訓練 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：久久久久久久一区二区三区 | 国产精品久久久久aaaa九色 | 91在线网| 久久人人网| 视频一区二区三区四区五区 | 天天干天天插天天 | 一区二区av在线 | 国产成人在线视频免费观看 | 浮生影院免费观看中文版 | 五月婷婷激情网 | 91精品国产一区二区三区动漫 | 无码一区二区三区视频 | 国产真实精品久久二三区 | 日韩国产中文字幕 | 羞羞网站在线观看 | 一区二区免费在线观看 | 久国产 | 久久久91精品国产一区二区三区 | 欧美精品一区三区 | 中文字幕av亚洲精品一部二部 | 欧美久 | 免费观看www | 美国a级毛片免费视频 | 日本免费一区二区三区四区 | 91.色| 高清国产一区二区 | 欧美色综合一区二区三区 | 羞羞色视频| a免费观看 | 亚洲精品大全 | 日韩精品久久久久久 | 日日操视频 | a级黄色网| 久久久久久黄 | 天天看片天天干 | 91亚洲国产成人久久精品网站 | 精品一区二区三区在线观看国产 | 欧美一级二级视频 | 午夜一级黄色片 | 国产91久久精品一区二区 | 国产成人短视频在线观看 |

<menu id="8ummc"><th id="8ummc"></th></menu>