Meta AI發(fā)布革命性V-JEPA 2

發(fā)布于 2025-6-15 23:41

瀏覽

0收藏

近日Meta AI發(fā)布了V-JEPA 2（Video Joint-Embedding Predictive Architecture 2），這一開源世界模型的推出標志著AI從數(shù)字世界向物理世界邁出了重要一步。這個系統(tǒng)能夠從互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)中學(xué)習(xí)，實現(xiàn)強大的視覺理解、未來狀態(tài)預(yù)測和零樣本規(guī)劃能力，為智能物理代理的發(fā)展奠定了重要基礎(chǔ)。

1.基于JEPA的創(chuàng)新突破

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

V-JEPA 2建立在聯(lián)合嵌入預(yù)測架構(gòu)（JEPA）的基礎(chǔ)上，這是一種革命性的自監(jiān)督學(xué)習(xí)方法。與傳統(tǒng)的生成式預(yù)訓(xùn)練方法不同，JEPA通過在抽象表示空間中進行預(yù)測，避免了像素級預(yù)測的低效性。這種方法專注于學(xué)習(xí)可預(yù)測的場景動態(tài)，同時忽略不相關(guān)的噪聲信息。

JEPA的核心思想是通過聯(lián)合嵌入的方式，讓模型學(xué)習(xí)輸入數(shù)據(jù)的抽象表示，然后在這個表示空間中進行預(yù)測。這種方法不僅計算效率更高，還能夠?qū)W習(xí)到更加魯棒和可泛化的特征表示。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

V-JEPA 2采用了先進的視覺掩碼去噪目標來進行學(xué)習(xí)。該模型通過重建被掩碼的時空補丁來學(xué)習(xí)視頻的潛在表示。這種方法的巧妙之處在于，它迫使模型理解視頻中的時空關(guān)系和動態(tài)變化，而不僅僅是靜態(tài)的視覺特征。

在訓(xùn)練過程中，模型隨機掩蓋視頻幀中的某些區(qū)域，然后嘗試根據(jù)未被掩蓋的部分來重建這些區(qū)域。這種自監(jiān)督的學(xué)習(xí)方式使得模型能夠?qū)W習(xí)到視頻中物體的運動模式、場景的變化規(guī)律以及時間序列中的因果關(guān)系。

V-JEPA 2的訓(xùn)練規(guī)模達到了前所未有的水平，使用了超過100萬小時的互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)，結(jié)合了100萬張圖像。這種大規(guī)模的數(shù)據(jù)訓(xùn)練使得模型能夠接觸到豐富多樣的視覺場景和動態(tài)模式，為其強大的泛化能力奠定了基礎(chǔ)。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

訓(xùn)練數(shù)據(jù)集VideoMix22M包含了2200萬個樣本，來源于多個公開數(shù)據(jù)集，包括Something-Something v2 (SSv2)、Kinetics、HowTo100M、YT-Temporal-1B和ImageNet。這些數(shù)據(jù)集涵蓋了從日常生活場景到專業(yè)技能演示的各種視頻內(nèi)容，為模型提供了全面的視覺世界知識。

2.關(guān)鍵技術(shù)

數(shù)據(jù)規(guī)模化技術(shù)：構(gòu)建了包含2200萬樣本的VideoMix22M數(shù)據(jù)集，整合了多個公開數(shù)據(jù)源。這種大規(guī)模數(shù)據(jù)集的構(gòu)建不僅僅是簡單的數(shù)據(jù)堆疊，而是經(jīng)過精心設(shè)計的數(shù)據(jù)融合策略，確保了數(shù)據(jù)的多樣性和質(zhì)量。
模型規(guī)模化技術(shù)：將編碼器容量擴展到超過1B參數(shù)，使用了Vision Transformer-giant (ViT-g)架構(gòu)。這種大規(guī)模的模型設(shè)計使得V-JEPA 2能夠處理復(fù)雜的視覺模式和長期依賴關(guān)系。
訓(xùn)練策略優(yōu)化：采用了漸進式分辨率策略，將預(yù)訓(xùn)練擴展到252,000次迭代。這種訓(xùn)練策略允許模型逐步適應(yīng)不同分辨率的輸入，提高了訓(xùn)練效率和最終性能。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

在損失函數(shù)方面，采用了教師強制損失，預(yù)測器接收當前幀表征的編碼作為輸入，學(xué)習(xí)預(yù)測下一時間步的表征；另一方面，滾動損失通過將預(yù)測器的輸出反饋回輸入端，使模型能夠預(yù)測未來多個時間步的表征。通過聯(lián)合優(yōu)化這兩種損失函數(shù)的總和，V-JEPA 2-AC 顯著減少了多步推演過程中的誤差累積，從而有效提升了長期未來預(yù)測的準確性。

時空增強技術(shù)：在漸進式更長和更高分辨率的視頻片段上進行訓(xùn)練，最終達到64幀、384×384分辨率。這種時空增強技術(shù)使得模型能夠處理更加詳細和復(fù)雜的視頻內(nèi)容。

3.卓越性能

V-JEPA 2在六個主要基準測試任務(wù)中取得了平均88.2%的準確率，包括SSv2、Diving-48、Jester、Kinetics、COIN和ImageNet，全面超越了之前的基準模型。這一成績不僅體現(xiàn)了模型的強大性能，也證明了其在不同類型視覺任務(wù)中的泛化能力。

在運動理解方面，V-JEPA 2在Something-Something v2基準測試中達到了77.3%的top-1準確率，超越了InternVideo和VideoMAEv2等知名模型。這個結(jié)果特別值得關(guān)注，因為Something-Something v2是一個專門測試時序動作理解的具有挑戰(zhàn)性的數(shù)據(jù)集。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

在外觀理解方面，V-JEPA 2與最先進的圖像-文本預(yù)訓(xùn)練模型如DINOv2和PEcoreG保持了競爭力。這表明該模型不僅在動態(tài)視頻理解方面表現(xiàn)出色，在靜態(tài)視覺特征提取方面也具有強大的能力。

通過注意力探測器的評估，研究人員驗證了僅通過自監(jiān)督學(xué)習(xí)就能夠產(chǎn)生可遷移和領(lǐng)域無關(guān)的視覺特征，這些特征可以應(yīng)用于各種分類任務(wù)。這一發(fā)現(xiàn)對于計算機視覺領(lǐng)域具有重要意義，因為它表明大規(guī)模的自監(jiān)督學(xué)習(xí)可以學(xué)習(xí)到通用的視覺表示。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

為了評估時序推理能力，V-JEPA 2編碼器與多模態(tài)大語言模型進行了對齊，并在多個視頻問答任務(wù)上進行了評估。令人印象深刻的是，盡管在預(yù)訓(xùn)練期間缺乏語言監(jiān)督，該模型仍然取得了優(yōu)異的成績。

在各個測試中，V-JEPA 2表現(xiàn)出色：在PerceptionTest上達到84.0%，在TempCompass上達到76.9%，在MVP上達到44.5%，在TemporalBench上達到36.7%，在TOMATO上達到40.3%。這些結(jié)果挑戰(zhàn)了視覺-語言對齊需要從一開始就進行聯(lián)合訓(xùn)練的假設(shè)。

這一成果證明了預(yù)訓(xùn)練的視頻編碼器可以在后期與語言模型進行對齊，并展現(xiàn)出強大的泛化能力。這種方法的成功意味著我們可以先專注于視覺理解的學(xué)習(xí)，然后再添加語言理解能力，這為多模態(tài)AI系統(tǒng)的開發(fā)提供了新的思路。

4.V-JEPA 2-AC：機器人規(guī)劃的革命性突破

V-JEPA 2-AC是這次發(fā)布的關(guān)鍵創(chuàng)新，它是預(yù)訓(xùn)練編碼器的動作條件化變體。這個模型僅使用來自Droid數(shù)據(jù)集的62小時未標注機器人視頻進行微調(diào)，就學(xué)會了根據(jù)機器人的動作和姿態(tài)來預(yù)測未來的視頻嵌入。

該架構(gòu)是一個3億參數(shù)的transformer，采用塊因果注意力機制，使用教師強制和展開目標進行訓(xùn)練。這種設(shè)計使得模型能夠理解動作與環(huán)境變化之間的因果關(guān)系，為機器人的智能行為提供了基礎(chǔ)。

通過模型預(yù)測控制，V-JEPA 2-AC實現(xiàn)了零樣本規(guī)劃能力。該模型通過使用交叉熵方法（CEM）最小化想象的未來狀態(tài)與視覺目標之間的距離來推斷動作序列。這種方法使得機器人能夠在沒有看到過的環(huán)境中執(zhí)行復(fù)雜的任務(wù)。

模型在到達、抓取和拾取-放置等任務(wù)中取得了很高的成功率，這些任務(wù)在不同實驗室的未見過的機器人手臂上進行，無需任何獎勵監(jiān)督或額外的數(shù)據(jù)收集。這種零樣本能力的實現(xiàn)是機器人技術(shù)發(fā)展的重要里程碑。

與基準方法Octo（行為克隆）和Cosmos（潛在擴散世界模型）相比，V-JEPA 2-AC展現(xiàn)出了顯著的優(yōu)勢。在執(zhí)行效率方面，V-JEPA 2-AC每步執(zhí)行計劃僅需約16秒，而Cosmos需要4分鐘，效率提升了15倍。

在任務(wù)成功率方面，V-JEPA 2-AC在到達任務(wù)中達到了100%的成功率，并在各種物體類型的抓取和操作任務(wù)中超越了其他方法。這種性能的提升不僅僅是數(shù)值上的改進，更代表了實用性的重大飛躍。

值得注意的是，V-JEPA 2-AC僅使用單目RGB攝像頭運行，無需校準或環(huán)境特定的微調(diào)。這種簡單的硬件要求大大降低了部署門檻，使得該技術(shù)更容易在實際場景中應(yīng)用。

這種通用性的實現(xiàn)強化了學(xué)習(xí)世界模型的泛化能力，表明V-JEPA 2-AC不僅僅是一個實驗室的原型，而是一個可以在真實世界中部署的實用系統(tǒng)。

本文轉(zhuǎn)載自??魯班模錘??，作者：龐德公

標簽

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

Meta AI發(fā)布革命性V-JEPA 2

1.基于JEPA的創(chuàng)新突破

2.關(guān)鍵技術(shù)

3.卓越性能

4.V-JEPA 2-AC：機器人規(guī)劃的革命性突破

目錄