成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

伯克利&Meta面向具身智能的世界模型:讓AI通過全身動作「看見」未來

人工智能 機器學習 新聞
如果一個智能體要在真實世界中行動、規劃,并且和環境互動,它需要一個怎樣的「世界模型」?

本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。

圖片

  • 論文標題:Whole-Body Conditioned Egocentric Video Prediction
  • 論文地址:https://arxiv.org/pdf/2506.21552
  • 項目地址:https://dannytran123.github.io/PEVA/
  • 參考閱讀鏈接:https://x.com/YutongBAI1002/status/1938442251866411281

幾十年來,人工智能領域一直在思考一個看似簡單但非常根本的問題:

如果一個智能體要在真實世界中行動、規劃,并且和環境互動,它需要一個怎樣的「世界模型」?

在很多早期研究中,世界模型就是一個預測引擎:只要給它一個抽象的控制指令,比如「向前走一米」或者「向左轉 30 度」,它就能模擬出未來的圖像。這類方式在實驗室環境里已經發揮過很大作用,但一旦放到真正復雜的人類生活環境,就常常捉襟見肘。

畢竟,人并不是一個漂浮在空中的攝像頭。人有四肢、有關節、有骨骼,也有著非常具體的物理限制:

  • 關節的活動范圍
  • 軀干的穩定性和平衡
  • 肌肉力量的極限

這些物理約束決定了:并不是所有動作都能被執行,很多計劃只能在可達、可平衡、可承受的范圍內完成。而正是這樣的物理性,才塑造了人類真實的動作方式,也塑造了我們能夠看到的和不能看到的信息。

舉一些例子:

  • 你想看到身后的情況,就必須轉頭或者轉身
  • 你想看清桌下的東西,就必須彎腰蹲下
  • 你想拿到高處的杯子,就必須抬起手臂并伸展身體

這些都不是憑空的,而是被身體結構和運動學約束的行為。所以如果 AI 也要像人一樣預測未來,就得學會:預測自己的身體能做到什么動作,以及由此產生的視覺后果。

為什么說視覺就是規劃的一部分?

從心理學、神經科學到行為學,人們早就發現一個規律:在執行動作之前,人會先預演接下來會看到什么。

例如:

  • 走向水杯時,腦子里會提前預測水杯什么時候出現
  • 轉過一個拐角前,會猜測即將出現的景象
  • 伸手的時候,會想象手臂何時進入視野

這種「預演」能力讓人類能及時修正動作并避免失誤。也就是說,我們并不是光靠看到的畫面做出決策,而是一直在用大腦里的「想象」,預測動作的結果。

如果未來的 AI 想在真實環境中做到和人一樣自然地計劃,就需要擁有同樣的預測機制:「我如果這樣動,接下來會看到什么?」

世界模型的老思路和新思路

世界模型并不新鮮,從 1943 年 Craik 提出「小規模大腦模型」的概念開始,到 Kalman 濾波器、LQR 等控制理論的出現,再到近年用深度學習做視覺預測,大家都在試圖回答:「我采取一個動作,未來會怎樣?」

但是這些方法往往只考慮了低維度的控制:像「前進」、「轉向」這類參數。相比人類的全身動作,它們顯得非常簡陋。因為人類的動作:

  • 有幾十個自由度的關節
  • 有清晰的分層控制結構
  • 動作對視覺的結果會隨著環境不斷改變

如果一個世界模型不能考慮身體動作如何塑造視覺信息,它很難在現實世界里生存下來。

PEVA 的小嘗試

基于這樣的背景,來自加州大學伯克利分校、Meta的研究者們提出了一個看起來簡單但非常自然的問題:「如果我真的做了一個完整的人體動作,那接下來從我的眼睛會看到什么?」

相比傳統模型只用「速度 + 方向」做預測,PEVA 把整個人的 3D 姿態(包括關節位置和旋轉)一并喂進模型,和歷史的視頻幀一起輸入,從而讓 AI 學會:身體的動作,會如何重新組織我們能看到的世界。

圖片

舉一些例子:

  • 手臂抬起 → 遮擋部分物體,同時也可能露出新的區域
  • 蹲下 → 視角高度變化,地面特征出現
  • 轉頭 → 原本背后的信息重新進入可見范圍

這就是 PEVA 的核心:預測未來,不只是預測像素,而是預測身體驅動下的視覺后果。

圖片

PEVA 的功能

PEVA 目前能做的事情包括:

  • 給定未來的 3D 全身動作,預測連續的第一視角視頻。
  • 分解復雜行為成「原子動作」,例如只控制左手或者頭部旋轉。

圖片

不僅做單次預測,還能生成最長 16 秒的視覺流。

支持「反事實」推斷:如果做另一個動作,會看到什么?

在多條動作序列之間做規劃,通過視覺相似度挑出更優方案。

在多樣化的日常環境中學習,避免過擬合在簡單場景。

一句話總結,PEVA 就像一個「身體驅動的可視化模擬器」,讓 AI 獲得更接近人類的想象方式。

技術細節

PEVA 的技術很簡單直接,主要包括:

  • 全身動作輸入(48 維度的三維姿態)
  • 條件擴散模型 + Transformer,兼顧視覺生成和時間邏輯
  • 在真實同步的視頻 + 動作(Nymeria 數據集)上訓練
  • 用時間跳躍策略預測到 16 秒
  • 做一個可行的多方案規劃:在若干個動作軌跡中,用視覺相似度挑一個最可能達成目標的方案。

圖片

研究者在文章中也用大篇幅討論了局限和展望:例如只做了單臂或部分身體的規劃,目標意圖還比較粗糙,沒法像人那樣用語言描述目標,這些都值得后續慢慢補齊。

能力小結

從評估看,PEVA 在幾個方面算是一個可行的探索:

  • 短期視覺預測,與動作對齊度高。
  • 長期可達 16 秒的視頻,仍保持較好連貫性。
  • 原子動作的控制能力,比如只預測手部動作、只預測轉身。
  • 規劃:嘗試多動作模擬,挑選最接近目標的一條。

這些能力至少證明了一個方向:用身體驅動未來的視覺預測,是走向具身智能的一種合理切入點。

展望

后續還值得探索的方向包括:

  • 語言目標和多模態輸入
  • 真實交互中的閉環控制
  • 對更復雜任務的可解釋規劃

當 AI 試著像人一樣行動時,也許它同樣需要先學會:如果我這么動,接下來會看到什么。

結語

或許可以這樣說:「人類之所以能看見未來,是因為身體在動,視覺隨之更新。」

PEVA 只是一個很小的嘗試,但希望為未來可解釋、可信任的具身智能,提供一點點啟發。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-22 15:21:00

2024-06-04 09:25:51

2024-02-05 13:28:14

AI音頻虛擬人像

2023-08-05 13:45:46

模型AI

2023-08-15 14:18:19

智能研究

2025-03-07 10:24:43

2024-07-31 15:38:00

2024-07-11 11:43:56

2022-03-28 13:25:42

AI扶貧機器之心

2025-04-18 08:42:52

模型推理AI

2024-11-11 14:00:00

AI模型

2024-03-04 08:15:00

2023-10-12 16:37:36

模型學習

2024-12-02 08:20:00

2023-05-26 17:20:29

模型工具

2025-05-28 18:43:17

AI模型數據

2024-12-18 07:20:00

2023-12-16 09:49:18

2022-07-15 14:57:43

AI語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品乱码一区二区 | 天天射视频 | 精品国产伦一区二区三区观看方式 | 一区二区片 | 国产美女自拍视频 | 久久精品视频91 | 国产精品一二三区 | 天天操夜夜操免费视频 | av电影手机在线看 | 国产一区二区欧美 | 精品国产欧美一区二区三区成人 | 亚洲高清成人在线 | 美女黄网 | 911网站大全在线观看 | 国产在线中文字幕 | 日韩欧美视频免费在线观看 | 中文字幕亚洲区一区二 | 欧美中文字幕一区二区三区亚洲 | 久久视频精品 | 在线观看成人免费视频 | 亚洲在线 | 一区二区三区国产好 | 欧美.com| 欧美性网站 | 久久在线精品 | 一区二区三区视频在线观看 | 一区二区三区视频在线 | 午夜男人天堂 | 国产成人在线免费 | 欧美在线观看黄色 | 一区二区在线免费观看 | 99成人| 在线观看深夜视频 | 91精品国产一区二区三区香蕉 | 国产成人免费视频网站视频社区 | 99久久久无码国产精品 | 99热这里都是精品 | 美女黄色在线观看 | 毛片在线看片 | 成人毛片网站 | www.亚洲视频 |