成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<blockquote id="kioye"><tr id="kioye"></tr></blockquote><s id="kioye"><dd id="kioye"></dd></s>

<input id="kioye"><source id="kioye"></source></input>

<s id="kioye"><dd id="kioye"></dd></s>

<s id="kioye"><source id="kioye"></source></s>

<pre id="kioye"></pre>

<noscript id="kioye"><abbr id="kioye"></abbr></noscript>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

伯克利&Meta面向具身智能的世界模型：讓AI通過全身動作「看見」未來

2025-07-02 08:40:00

人工智能機器學習新聞

如果一個智能體要在真實世界中行動、規劃，并且和環境互動，它需要一個怎樣的「世界模型」？

本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。

論文標題：Whole-Body Conditioned Egocentric Video Prediction
論文地址：https://arxiv.org/pdf/2506.21552
項目地址：https://dannytran123.github.io/PEVA/
參考閱讀鏈接：https://x.com/YutongBAI1002/status/1938442251866411281

幾十年來，人工智能領域一直在思考一個看似簡單但非常根本的問題：

如果一個智能體要在真實世界中行動、規劃，并且和環境互動，它需要一個怎樣的「世界模型」？

在很多早期研究中，世界模型就是一個預測引擎：只要給它一個抽象的控制指令，比如「向前走一米」或者「向左轉 30 度」，它就能模擬出未來的圖像。這類方式在實驗室環境里已經發揮過很大作用，但一旦放到真正復雜的人類生活環境，就常常捉襟見肘。

畢竟，人并不是一個漂浮在空中的攝像頭。人有四肢、有關節、有骨骼，也有著非常具體的物理限制：

關節的活動范圍
軀干的穩定性和平衡
肌肉力量的極限

這些物理約束決定了：并不是所有動作都能被執行，很多計劃只能在可達、可平衡、可承受的范圍內完成。而正是這樣的物理性，才塑造了人類真實的動作方式，也塑造了我們能夠看到的和不能看到的信息。

舉一些例子：

你想看到身后的情況，就必須轉頭或者轉身
你想看清桌下的東西，就必須彎腰蹲下
你想拿到高處的杯子，就必須抬起手臂并伸展身體

這些都不是憑空的，而是被身體結構和運動學約束的行為。所以如果 AI 也要像人一樣預測未來，就得學會：預測自己的身體能做到什么動作，以及由此產生的視覺后果。

為什么說視覺就是規劃的一部分？

從心理學、神經科學到行為學，人們早就發現一個規律：在執行動作之前，人會先預演接下來會看到什么。

例如：

走向水杯時，腦子里會提前預測水杯什么時候出現
轉過一個拐角前，會猜測即將出現的景象
伸手的時候，會想象手臂何時進入視野

這種「預演」能力讓人類能及時修正動作并避免失誤。也就是說，我們并不是光靠看到的畫面做出決策，而是一直在用大腦里的「想象」，預測動作的結果。

如果未來的 AI 想在真實環境中做到和人一樣自然地計劃，就需要擁有同樣的預測機制：「我如果這樣動，接下來會看到什么？」

世界模型的老思路和新思路

世界模型并不新鮮，從 1943 年 Craik 提出「小規模大腦模型」的概念開始，到 Kalman 濾波器、LQR 等控制理論的出現，再到近年用深度學習做視覺預測，大家都在試圖回答：「我采取一個動作，未來會怎樣？」

但是這些方法往往只考慮了低維度的控制：像「前進」、「轉向」這類參數。相比人類的全身動作，它們顯得非常簡陋。因為人類的動作：

有幾十個自由度的關節
有清晰的分層控制結構
動作對視覺的結果會隨著環境不斷改變

如果一個世界模型不能考慮身體動作如何塑造視覺信息，它很難在現實世界里生存下來。

PEVA 的小嘗試

基于這樣的背景，來自加州大學伯克利分校、Meta的研究者們提出了一個看起來簡單但非常自然的問題：「如果我真的做了一個完整的人體動作，那接下來從我的眼睛會看到什么？」

相比傳統模型只用「速度 + 方向」做預測，PEVA 把整個人的 3D 姿態（包括關節位置和旋轉）一并喂進模型，和歷史的視頻幀一起輸入，從而讓 AI 學會：身體的動作，會如何重新組織我們能看到的世界。

舉一些例子：

手臂抬起 → 遮擋部分物體，同時也可能露出新的區域
蹲下 → 視角高度變化，地面特征出現
轉頭 → 原本背后的信息重新進入可見范圍

這就是 PEVA 的核心：預測未來，不只是預測像素，而是預測身體驅動下的視覺后果。

PEVA 的功能

PEVA 目前能做的事情包括：

給定未來的 3D 全身動作，預測連續的第一視角視頻。
分解復雜行為成「原子動作」，例如只控制左手或者頭部旋轉。

不僅做單次預測，還能生成最長 16 秒的視覺流。

支持「反事實」推斷：如果做另一個動作，會看到什么？

在多條動作序列之間做規劃，通過視覺相似度挑出更優方案。

在多樣化的日常環境中學習，避免過擬合在簡單場景。

一句話總結，PEVA 就像一個「身體驅動的可視化模擬器」，讓 AI 獲得更接近人類的想象方式。

技術細節

PEVA 的技術很簡單直接，主要包括：

全身動作輸入（48 維度的三維姿態）
條件擴散模型 + Transformer，兼顧視覺生成和時間邏輯
在真實同步的視頻 + 動作（Nymeria 數據集）上訓練
用時間跳躍策略預測到 16 秒
做一個可行的多方案規劃：在若干個動作軌跡中，用視覺相似度挑一個最可能達成目標的方案。

研究者在文章中也用大篇幅討論了局限和展望：例如只做了單臂或部分身體的規劃，目標意圖還比較粗糙，沒法像人那樣用語言描述目標，這些都值得后續慢慢補齊。

能力小結

從評估看，PEVA 在幾個方面算是一個可行的探索：

短期視覺預測，與動作對齊度高。
長期可達 16 秒的視頻，仍保持較好連貫性。
原子動作的控制能力，比如只預測手部動作、只預測轉身。
規劃：嘗試多動作模擬，挑選最接近目標的一條。

這些能力至少證明了一個方向：用身體驅動未來的視覺預測，是走向具身智能的一種合理切入點。

展望

后續還值得探索的方向包括：

語言目標和多模態輸入
真實交互中的閉環控制
對更復雜任務的可解釋規劃

當 AI 試著像人一樣行動時，也許它同樣需要先學會：如果我這么動，接下來會看到什么。

結語

或許可以這樣說：「人類之所以能看見未來，是因為身體在動，視覺隨之更新。」

PEVA 只是一個很小的嘗試，但希望為未來可解釋、可信任的具身智能，提供一點點啟發。

責任編輯：張燕妮來源：機器之心

智能體 AI 模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：精品乱码一区二区 | 天天射视频 | 精品国产伦一区二区三区观看方式 | 一区二区片 | 国产美女自拍视频 | 久久精品视频91 | 国产精品一二三区 | 天天操夜夜操免费视频 | av电影手机在线看 | 国产一区二区欧美 | 精品国产欧美一区二区三区成人 | 亚洲高清成人在线 | 美女黄网 | 911网站大全在线观看 | 国产在线中文字幕 | 日韩欧美视频免费在线观看 | 中文字幕亚洲区一区二 | 欧美中文字幕一区二区三区亚洲 | 久久视频精品 | 在线观看成人免费视频 | 亚洲在线 | 一区二区三区国产好 | 欧美.com| 欧美性网站 | 久久在线精品 | 一区二区三区视频在线观看 | 一区二区三区视频在线 | 午夜男人天堂 | 国产成人在线免费 | 欧美在线观看黄色 | 一区二区在线免费观看 | 99成人| 在线观看深夜视频 | 91精品国产一区二区三区香蕉 | 国产成人免费视频网站视频社区 | 99久久久无码国产精品 | 99热这里都是精品 | 美女黄色在线观看 | 毛片在线看片 | 成人毛片网站 | www.亚洲视频 |

<strike id="q8mii"><kbd id="q8mii"></kbd></strike>

<pre id="q8mii"></pre>

<input id="q8mii"><dd id="q8mii"></dd></input>

<abbr id="q8mii"></abbr>

<samp id="q8mii"><optgroup id="q8mii"></optgroup></samp>

<input id="q8mii"><th id="q8mii"></th></input>