伯克利&Meta面向具身智能的世界模型:讓AI通過全身動作「看見」未來
本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。
- 論文標題:Whole-Body Conditioned Egocentric Video Prediction
- 論文地址:https://arxiv.org/pdf/2506.21552
- 項目地址:https://dannytran123.github.io/PEVA/
- 參考閱讀鏈接:https://x.com/YutongBAI1002/status/1938442251866411281
幾十年來,人工智能領域一直在思考一個看似簡單但非常根本的問題:
如果一個智能體要在真實世界中行動、規劃,并且和環境互動,它需要一個怎樣的「世界模型」?
在很多早期研究中,世界模型就是一個預測引擎:只要給它一個抽象的控制指令,比如「向前走一米」或者「向左轉 30 度」,它就能模擬出未來的圖像。這類方式在實驗室環境里已經發揮過很大作用,但一旦放到真正復雜的人類生活環境,就常常捉襟見肘。
畢竟,人并不是一個漂浮在空中的攝像頭。人有四肢、有關節、有骨骼,也有著非常具體的物理限制:
- 關節的活動范圍
- 軀干的穩定性和平衡
- 肌肉力量的極限
這些物理約束決定了:并不是所有動作都能被執行,很多計劃只能在可達、可平衡、可承受的范圍內完成。而正是這樣的物理性,才塑造了人類真實的動作方式,也塑造了我們能夠看到的和不能看到的信息。
舉一些例子:
- 你想看到身后的情況,就必須轉頭或者轉身
- 你想看清桌下的東西,就必須彎腰蹲下
- 你想拿到高處的杯子,就必須抬起手臂并伸展身體
這些都不是憑空的,而是被身體結構和運動學約束的行為。所以如果 AI 也要像人一樣預測未來,就得學會:預測自己的身體能做到什么動作,以及由此產生的視覺后果。
為什么說視覺就是規劃的一部分?
從心理學、神經科學到行為學,人們早就發現一個規律:在執行動作之前,人會先預演接下來會看到什么。
例如:
- 走向水杯時,腦子里會提前預測水杯什么時候出現
- 轉過一個拐角前,會猜測即將出現的景象
- 伸手的時候,會想象手臂何時進入視野
這種「預演」能力讓人類能及時修正動作并避免失誤。也就是說,我們并不是光靠看到的畫面做出決策,而是一直在用大腦里的「想象」,預測動作的結果。
如果未來的 AI 想在真實環境中做到和人一樣自然地計劃,就需要擁有同樣的預測機制:「我如果這樣動,接下來會看到什么?」
世界模型的老思路和新思路
世界模型并不新鮮,從 1943 年 Craik 提出「小規模大腦模型」的概念開始,到 Kalman 濾波器、LQR 等控制理論的出現,再到近年用深度學習做視覺預測,大家都在試圖回答:「我采取一個動作,未來會怎樣?」
但是這些方法往往只考慮了低維度的控制:像「前進」、「轉向」這類參數。相比人類的全身動作,它們顯得非常簡陋。因為人類的動作:
- 有幾十個自由度的關節
- 有清晰的分層控制結構
- 動作對視覺的結果會隨著環境不斷改變
如果一個世界模型不能考慮身體動作如何塑造視覺信息,它很難在現實世界里生存下來。
PEVA 的小嘗試
基于這樣的背景,來自加州大學伯克利分校、Meta的研究者們提出了一個看起來簡單但非常自然的問題:「如果我真的做了一個完整的人體動作,那接下來從我的眼睛會看到什么?」
相比傳統模型只用「速度 + 方向」做預測,PEVA 把整個人的 3D 姿態(包括關節位置和旋轉)一并喂進模型,和歷史的視頻幀一起輸入,從而讓 AI 學會:身體的動作,會如何重新組織我們能看到的世界。
舉一些例子:
- 手臂抬起 → 遮擋部分物體,同時也可能露出新的區域
- 蹲下 → 視角高度變化,地面特征出現
- 轉頭 → 原本背后的信息重新進入可見范圍
這就是 PEVA 的核心:預測未來,不只是預測像素,而是預測身體驅動下的視覺后果。
PEVA 的功能
PEVA 目前能做的事情包括:
- 給定未來的 3D 全身動作,預測連續的第一視角視頻。
- 分解復雜行為成「原子動作」,例如只控制左手或者頭部旋轉。
不僅做單次預測,還能生成最長 16 秒的視覺流。
支持「反事實」推斷:如果做另一個動作,會看到什么?
在多條動作序列之間做規劃,通過視覺相似度挑出更優方案。
在多樣化的日常環境中學習,避免過擬合在簡單場景。
一句話總結,PEVA 就像一個「身體驅動的可視化模擬器」,讓 AI 獲得更接近人類的想象方式。
技術細節
PEVA 的技術很簡單直接,主要包括:
- 全身動作輸入(48 維度的三維姿態)
- 條件擴散模型 + Transformer,兼顧視覺生成和時間邏輯
- 在真實同步的視頻 + 動作(Nymeria 數據集)上訓練
- 用時間跳躍策略預測到 16 秒
- 做一個可行的多方案規劃:在若干個動作軌跡中,用視覺相似度挑一個最可能達成目標的方案。
研究者在文章中也用大篇幅討論了局限和展望:例如只做了單臂或部分身體的規劃,目標意圖還比較粗糙,沒法像人那樣用語言描述目標,這些都值得后續慢慢補齊。
能力小結
從評估看,PEVA 在幾個方面算是一個可行的探索:
- 短期視覺預測,與動作對齊度高。
- 長期可達 16 秒的視頻,仍保持較好連貫性。
- 原子動作的控制能力,比如只預測手部動作、只預測轉身。
- 規劃:嘗試多動作模擬,挑選最接近目標的一條。
這些能力至少證明了一個方向:用身體驅動未來的視覺預測,是走向具身智能的一種合理切入點。
展望
后續還值得探索的方向包括:
- 語言目標和多模態輸入
- 真實交互中的閉環控制
- 對更復雜任務的可解釋規劃
當 AI 試著像人一樣行動時,也許它同樣需要先學會:如果我這么動,接下來會看到什么。
結語
或許可以這樣說:「人類之所以能看見未來,是因為身體在動,視覺隨之更新。」
PEVA 只是一個很小的嘗試,但希望為未來可解釋、可信任的具身智能,提供一點點啟發。