成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

具身智能新高度!智元機器人推出全球首個4D世界模型EnerVerse

人工智能 新聞
針對上述難題,智元機器人團隊提出了 EnerVerse 架構,通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。

如何讓機器人在任務指引和實時觀測的基礎上規劃未來動作,一直是具身智能領域的核心科學問題。然而,這一目標的實現受兩大關鍵挑戰制約:

  1. 模態對齊:需在語言、視覺和動作等多模態空間中建立精確的對齊機制。
  2. 數據稀缺:缺乏規?;?、多模態且具備動作標簽的數據集。

針對上述難題,智元機器人團隊提出了 EnerVerse 架構,通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。不同于現有方法簡單應用視頻生成模型,EnerVerse 深度結合具身任務需求,創新性地引入稀疏記憶機制(Sparse Memory)自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時,實現了動作規劃性能的顯著突破。實驗結果表明,EnerVerse 不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。

項目主頁與論文已上線,模型與相關數據集即將開源:

圖片


  • 主頁地址:https://sites.google.com/view/enerverse/home
  • 論文地址:https://arxiv.org/abs/2501.01895

圖片

如何讓未來空間生成賦能機器人動作規劃?

機器人動作規劃的核心在于基于實時觀測和任務指令,預測并完成一系列復雜的未來操作。然而,現有方法在應對復雜具身任務時存在如下局限:

  • 通用模型局限性:當前通用視頻生成模型缺乏對具身場景的針對性優化,無法適應具身任務中的特殊需求。
  • 視覺記憶泛化能力不足:現有方法依賴稠密連續的視覺記憶,容易導致生成長程任務序列時邏輯不連貫,動作預測性能下降。

為此,EnerVerse 通過逐塊生成的自回歸擴散框架,結合創新的稀疏記憶機制與自由錨定視角(FAV)方法,解決了上述瓶頸問題。

技術方案解析

逐塊擴散生成:Next Chunk Diffusion

EnerVerse 采用逐塊生成的自回歸擴散模型,通過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括:

  • 擴散模型架構:基于結合時空注意力的 UNet 結構,每個空間塊內部通過卷積與雙向注意力建模;塊與塊之間通過單向因果邏輯(causal logic)保持時間一致性,從而確保生成序列的邏輯合理性。
  • 稀疏記憶機制:借鑒大語言模型(LLM)的上下文記憶,EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼(mask),推理階段以較大時間間隔更新記憶隊列,有效降低計算開銷,同時顯著提升長程任務的生成能力。
  • 任務結束邏輯:通過特殊的結束幀(EOS frame),實現對任務結束時機的精準監督,確保生成過程在合適節點終止。

圖片

靈活的 4D 生成:Free Anchor View (FAV)

針對具身操作中復雜遮擋環境和多視角需求,EnerVerse 提出了自由錨定視角(FAV)方法,以靈活表達 4D 空間。其核心優勢包括:

  • 自由設定視角:FAV 支持動態調整錨定視角,克服固定多視角(fixed multi-anchor view)在狹窄場景中的局限性。例如,在廚房等場景中,FAV 可輕松適應動態遮擋關系。
  • 跨視角空間一致性:基于光線投射原理(ray casting),EnerVerse 通過視線方向圖(ray direction map)作為視角控制條件,并將 2D 空間注意力擴展為跨視角的 3D 空間注意力(cross-view spatial attention),確保生成視頻的幾何一致性。
  • Sim2Real 適配:通過在仿真數據上訓練的 4D 生成模型(EnerVerse-D)與 4D 高斯潑濺 (4D Gaussian Splatting) 交替迭代,EnerVerse 構建了一個數據飛輪,為真實場景下的 FAV 生成提供偽真值支持。

圖片

高效動作規劃:Diffusion Policy Head

EnerVerse 通過在生成網絡下游集成 Diffusion 策略頭(Diffusion Policy Head),打通未來空間生成與機器人動作規劃的全鏈條。其關鍵設計包括:

  • 高效動作預測:生成網絡在逆擴散的第一步即可輸出未來動作序列,無需等待完整的空間生成過程,確保動作預測的實時性。
  • 稀疏記憶支持:在動作預測推理中,稀疏記憶隊列存儲真實或重建的 FAV 觀測結果,有效提升長程任務規劃能力。

實驗結果

1. 視頻生成性能

在短程與長程任務視頻生成中,EnerVerse 均展現出卓越的性能:

  • 在短程生成任務中,EnerVerse 表現優于現有微調視頻生成模型,如基于 DynamiCrafter 與 FreeNoise 的擴散模型。
  • 在長程生成任務中,EnerVerse 展現出更強的邏輯一致性與連續生成能力,這是現有模型無法實現的。

圖片

此外,EnerVerse 在 LIBERO 仿真場景和 AgiBot World 真實場景中生成的多視角視頻質量也得到了充分驗證。

圖片

其對應的生成視頻如下所示:

2. 動作規劃能力

在 LIBERO 基準測試中,EnerVerse 在機器人動作規劃任務中取得顯著優勢:

  • 單視角(one FAV)設定:EnerVerse 在 LIBERO 四類任務中的平均成功率已超過現有方法。
  • 多視角(three FAV)設定:進一步提升任務成功率,在每一類任務上均超越當前最佳方法。

圖片

圖片

值得注意的是,LIBERO-Long上均為需要機器多步執行的任務,如下視頻所示:

3. 消融與訓練策略分析

稀疏記憶機制:消融實驗表明,稀疏記憶對長程序列生成的邏輯合理性及長程動作預測精度至關重要。

圖片

圖片

二階段訓練策略:先進行未來空間生成訓練,再進行動作預測訓練的二階段策略,可顯著提升動作規劃性能。

圖片

4. 注意力可視化

通過可視化 Diffusion 策略頭中的交叉注意力模塊,研究發現 EnerVerse 生成的未來空間與預測的動作空間具有較強的時序一致性。這直觀體現了 EnerVerse 在未來空間生成與動作規劃任務中的相關性與優勢。

圖片

智元機器人通過 EnerVerse 架構開創了未來具身智能的新方向。通過未來空間生成引導動作規劃,EnerVerse 不僅突破了機器人任務規劃的技術瓶頸,還為多模態、長程任務的研究提供了全新范式。

作者介紹

EnerVerse 主要科研成員來自智元機器人研究院具身算法團隊。論文共同一作黃思淵是上海交通大學與上海人工智能實驗室的聯培博士生,師從 CUHK-MMLab 的李鴻升教授。博士期間的研究課題為基于多模態大模型的具身智能以及高效智能體的研究。在 CoRL、MM、 IROS、ECCV 等頂級會議上,以第一作者或共同第一作者身份發表多篇論文。另一位共同一作陳立梁是智元機器人的具身算法專家,主要負責具身空間智能與世界模型的研究。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-11 10:12:07

2024-07-04 10:16:26

2024-12-19 14:44:22

2024-03-25 08:00:00

3DAI

2023-12-23 23:16:36

機器人模型

2025-03-10 13:31:28

2024-11-01 09:45:08

2023-11-05 10:08:36

AI機器人

2025-06-25 09:04:59

2020-11-17 20:25:22

智能人機數智化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲男人网 | 精品国产一区二区国模嫣然 | 免费一二区 | 毛片免费在线 | 做a网站 | 国产精品欧美一区二区三区不卡 | 日韩欧美网 | 黄色成人在线网站 | 国产精品国产成人国产三级 | 欧美日韩国产一区二区 | 欧美精品三区 | 国产一在线观看 | 欧美日韩国产一区二区三区 | 日韩精品在线一区 | 欧美中国少妇xxx性高请视频 | 精品综合久久久 | 免费毛片网站在线观看 | 国内精品视频在线观看 | 91久久婷婷 | 一区二区三区免费看 | 亚洲在线一区二区 | 综合二区| 久久999| 欧美日韩亚洲成人 | 亚洲男女激情 | 精品视频在线观看 | 日韩精品极品视频在线观看免费 | 日韩中文字幕 | 久久精品免费观看 | 欧美日韩高清 | 久久一视频 | 日日夜精品视频 | 麻豆精品国产91久久久久久 | 国产亚洲精品久久午夜玫瑰园 | 日韩一区精品 | 欧美福利视频 | 大象视频一区二区 | 狠狠草视频 | 91干b| 欧美一区二区三区的 | 日日夜夜影院 |