Meta AI發(fā)布革命性V-JEPA 2
近日Meta AI發(fā)布了V-JEPA 2(Video Joint-Embedding Predictive Architecture 2),這一開源世界模型的推出標志著AI從數(shù)字世界向物理世界邁出了重要一步。這個系統(tǒng)能夠從互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)中學(xué)習(xí),實現(xiàn)強大的視覺理解、未來狀態(tài)預(yù)測和零樣本規(guī)劃能力,為智能物理代理的發(fā)展奠定了重要基礎(chǔ)。
1.基于JEPA的創(chuàng)新突破
V-JEPA 2建立在聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的基礎(chǔ)上,這是一種革命性的自監(jiān)督學(xué)習(xí)方法。與傳統(tǒng)的生成式預(yù)訓(xùn)練方法不同,JEPA通過在抽象表示空間中進行預(yù)測,避免了像素級預(yù)測的低效性。這種方法專注于學(xué)習(xí)可預(yù)測的場景動態(tài),同時忽略不相關(guān)的噪聲信息。
JEPA的核心思想是通過聯(lián)合嵌入的方式,讓模型學(xué)習(xí)輸入數(shù)據(jù)的抽象表示,然后在這個表示空間中進行預(yù)測。這種方法不僅計算效率更高,還能夠?qū)W習(xí)到更加魯棒和可泛化的特征表示。
V-JEPA 2采用了先進的視覺掩碼去噪目標來進行學(xué)習(xí)。該模型通過重建被掩碼的時空補丁來學(xué)習(xí)視頻的潛在表示。這種方法的巧妙之處在于,它迫使模型理解視頻中的時空關(guān)系和動態(tài)變化,而不僅僅是靜態(tài)的視覺特征。
在訓(xùn)練過程中,模型隨機掩蓋視頻幀中的某些區(qū)域,然后嘗試根據(jù)未被掩蓋的部分來重建這些區(qū)域。這種自監(jiān)督的學(xué)習(xí)方式使得模型能夠?qū)W習(xí)到視頻中物體的運動模式、場景的變化規(guī)律以及時間序列中的因果關(guān)系。
V-JEPA 2的訓(xùn)練規(guī)模達到了前所未有的水平,使用了超過100萬小時的互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù),結(jié)合了100萬張圖像。這種大規(guī)模的數(shù)據(jù)訓(xùn)練使得模型能夠接觸到豐富多樣的視覺場景和動態(tài)模式,為其強大的泛化能力奠定了基礎(chǔ)。
訓(xùn)練數(shù)據(jù)集VideoMix22M包含了2200萬個樣本,來源于多個公開數(shù)據(jù)集,包括Something-Something v2 (SSv2)、Kinetics、HowTo100M、YT-Temporal-1B和ImageNet。這些數(shù)據(jù)集涵蓋了從日常生活場景到專業(yè)技能演示的各種視頻內(nèi)容,為模型提供了全面的視覺世界知識。
2.關(guān)鍵技術(shù)
- 數(shù)據(jù)規(guī)模化技術(shù):構(gòu)建了包含2200萬樣本的VideoMix22M數(shù)據(jù)集,整合了多個公開數(shù)據(jù)源。這種大規(guī)模數(shù)據(jù)集的構(gòu)建不僅僅是簡單的數(shù)據(jù)堆疊,而是經(jīng)過精心設(shè)計的數(shù)據(jù)融合策略,確保了數(shù)據(jù)的多樣性和質(zhì)量。
- 模型規(guī)模化技術(shù):將編碼器容量擴展到超過1B參數(shù),使用了Vision Transformer-giant (ViT-g)架構(gòu)。這種大規(guī)模的模型設(shè)計使得V-JEPA 2能夠處理復(fù)雜的視覺模式和長期依賴關(guān)系。
- 訓(xùn)練策略優(yōu)化:采用了漸進式分辨率策略,將預(yù)訓(xùn)練擴展到252,000次迭代。這種訓(xùn)練策略允許模型逐步適應(yīng)不同分辨率的輸入,提高了訓(xùn)練效率和最終性能。
在損失函數(shù)方面,采用了教師強制損失,預(yù)測器接收當前幀表征的編碼作為輸入,學(xué)習(xí)預(yù)測下一時間步的表征;另一方面,滾動損失通過將預(yù)測器的輸出反饋回輸入端,使模型能夠預(yù)測未來多個時間步的表征。通過聯(lián)合優(yōu)化這兩種損失函數(shù)的總和,V-JEPA 2-AC 顯著減少了多步推演過程中的誤差累積,從而有效提升了長期未來預(yù)測的準確性。
- 時空增強技術(shù):在漸進式更長和更高分辨率的視頻片段上進行訓(xùn)練,最終達到64幀、384×384分辨率。這種時空增強技術(shù)使得模型能夠處理更加詳細和復(fù)雜的視頻內(nèi)容。
3.卓越性能
V-JEPA 2在六個主要基準測試任務(wù)中取得了平均88.2%的準確率,包括SSv2、Diving-48、Jester、Kinetics、COIN和ImageNet,全面超越了之前的基準模型。這一成績不僅體現(xiàn)了模型的強大性能,也證明了其在不同類型視覺任務(wù)中的泛化能力。
在運動理解方面,V-JEPA 2在Something-Something v2基準測試中達到了77.3%的top-1準確率,超越了InternVideo和VideoMAEv2等知名模型。這個結(jié)果特別值得關(guān)注,因為Something-Something v2是一個專門測試時序動作理解的具有挑戰(zhàn)性的數(shù)據(jù)集。
在外觀理解方面,V-JEPA 2與最先進的圖像-文本預(yù)訓(xùn)練模型如DINOv2和PEcoreG保持了競爭力。這表明該模型不僅在動態(tài)視頻理解方面表現(xiàn)出色,在靜態(tài)視覺特征提取方面也具有強大的能力。
通過注意力探測器的評估,研究人員驗證了僅通過自監(jiān)督學(xué)習(xí)就能夠產(chǎn)生可遷移和領(lǐng)域無關(guān)的視覺特征,這些特征可以應(yīng)用于各種分類任務(wù)。這一發(fā)現(xiàn)對于計算機視覺領(lǐng)域具有重要意義,因為它表明大規(guī)模的自監(jiān)督學(xué)習(xí)可以學(xué)習(xí)到通用的視覺表示。
為了評估時序推理能力,V-JEPA 2編碼器與多模態(tài)大語言模型進行了對齊,并在多個視頻問答任務(wù)上進行了評估。令人印象深刻的是,盡管在預(yù)訓(xùn)練期間缺乏語言監(jiān)督,該模型仍然取得了優(yōu)異的成績。
在各個測試中,V-JEPA 2表現(xiàn)出色:在PerceptionTest上達到84.0%,在TempCompass上達到76.9%,在MVP上達到44.5%,在TemporalBench上達到36.7%,在TOMATO上達到40.3%。這些結(jié)果挑戰(zhàn)了視覺-語言對齊需要從一開始就進行聯(lián)合訓(xùn)練的假設(shè)。
這一成果證明了預(yù)訓(xùn)練的視頻編碼器可以在后期與語言模型進行對齊,并展現(xiàn)出強大的泛化能力。這種方法的成功意味著我們可以先專注于視覺理解的學(xué)習(xí),然后再添加語言理解能力,這為多模態(tài)AI系統(tǒng)的開發(fā)提供了新的思路。
4.V-JEPA 2-AC:機器人規(guī)劃的革命性突破
V-JEPA 2-AC是這次發(fā)布的關(guān)鍵創(chuàng)新,它是預(yù)訓(xùn)練編碼器的動作條件化變體。這個模型僅使用來自Droid數(shù)據(jù)集的62小時未標注機器人視頻進行微調(diào),就學(xué)會了根據(jù)機器人的動作和姿態(tài)來預(yù)測未來的視頻嵌入。
該架構(gòu)是一個3億參數(shù)的transformer,采用塊因果注意力機制,使用教師強制和展開目標進行訓(xùn)練。這種設(shè)計使得模型能夠理解動作與環(huán)境變化之間的因果關(guān)系,為機器人的智能行為提供了基礎(chǔ)。
通過模型預(yù)測控制,V-JEPA 2-AC實現(xiàn)了零樣本規(guī)劃能力。該模型通過使用交叉熵方法(CEM)最小化想象的未來狀態(tài)與視覺目標之間的距離來推斷動作序列。這種方法使得機器人能夠在沒有看到過的環(huán)境中執(zhí)行復(fù)雜的任務(wù)。
模型在到達、抓取和拾取-放置等任務(wù)中取得了很高的成功率,這些任務(wù)在不同實驗室的未見過的機器人手臂上進行,無需任何獎勵監(jiān)督或額外的數(shù)據(jù)收集。這種零樣本能力的實現(xiàn)是機器人技術(shù)發(fā)展的重要里程碑。
與基準方法Octo(行為克隆)和Cosmos(潛在擴散世界模型)相比,V-JEPA 2-AC展現(xiàn)出了顯著的優(yōu)勢。在執(zhí)行效率方面,V-JEPA 2-AC每步執(zhí)行計劃僅需約16秒,而Cosmos需要4分鐘,效率提升了15倍。
在任務(wù)成功率方面,V-JEPA 2-AC在到達任務(wù)中達到了100%的成功率,并在各種物體類型的抓取和操作任務(wù)中超越了其他方法。這種性能的提升不僅僅是數(shù)值上的改進,更代表了實用性的重大飛躍。
值得注意的是,V-JEPA 2-AC僅使用單目RGB攝像頭運行,無需校準或環(huán)境特定的微調(diào)。這種簡單的硬件要求大大降低了部署門檻,使得該技術(shù)更容易在實際場景中應(yīng)用。
這種通用性的實現(xiàn)強化了學(xué)習(xí)世界模型的泛化能力,表明V-JEPA 2-AC不僅僅是一個實驗室的原型,而是一個可以在真實世界中部署的實用系統(tǒng)。
本文轉(zhuǎn)載自??魯班模錘??,作者:龐德公
