成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta AI發(fā)布革命性V-JEPA 2

發(fā)布于 2025-6-15 23:41
瀏覽
0收藏

近日Meta AI發(fā)布了V-JEPA 2(Video Joint-Embedding Predictive Architecture 2),這一開源世界模型的推出標志著AI從數(shù)字世界向物理世界邁出了重要一步。這個系統(tǒng)能夠從互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)中學(xué)習(xí),實現(xiàn)強大的視覺理解、未來狀態(tài)預(yù)測和零樣本規(guī)劃能力,為智能物理代理的發(fā)展奠定了重要基礎(chǔ)。

1.基于JEPA的創(chuàng)新突破

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

V-JEPA 2建立在聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的基礎(chǔ)上,這是一種革命性的自監(jiān)督學(xué)習(xí)方法。與傳統(tǒng)的生成式預(yù)訓(xùn)練方法不同,JEPA通過在抽象表示空間中進行預(yù)測,避免了像素級預(yù)測的低效性。這種方法專注于學(xué)習(xí)可預(yù)測的場景動態(tài),同時忽略不相關(guān)的噪聲信息。

JEPA的核心思想是通過聯(lián)合嵌入的方式,讓模型學(xué)習(xí)輸入數(shù)據(jù)的抽象表示,然后在這個表示空間中進行預(yù)測。這種方法不僅計算效率更高,還能夠?qū)W習(xí)到更加魯棒和可泛化的特征表示。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

V-JEPA 2采用了先進的視覺掩碼去噪目標來進行學(xué)習(xí)。該模型通過重建被掩碼的時空補丁來學(xué)習(xí)視頻的潛在表示。這種方法的巧妙之處在于,它迫使模型理解視頻中的時空關(guān)系和動態(tài)變化,而不僅僅是靜態(tài)的視覺特征。

在訓(xùn)練過程中,模型隨機掩蓋視頻幀中的某些區(qū)域,然后嘗試根據(jù)未被掩蓋的部分來重建這些區(qū)域。這種自監(jiān)督的學(xué)習(xí)方式使得模型能夠?qū)W習(xí)到視頻中物體的運動模式、場景的變化規(guī)律以及時間序列中的因果關(guān)系。

V-JEPA 2的訓(xùn)練規(guī)模達到了前所未有的水平,使用了超過100萬小時的互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù),結(jié)合了100萬張圖像。這種大規(guī)模的數(shù)據(jù)訓(xùn)練使得模型能夠接觸到豐富多樣的視覺場景和動態(tài)模式,為其強大的泛化能力奠定了基礎(chǔ)。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

訓(xùn)練數(shù)據(jù)集VideoMix22M包含了2200萬個樣本,來源于多個公開數(shù)據(jù)集,包括Something-Something v2 (SSv2)、Kinetics、HowTo100M、YT-Temporal-1B和ImageNet。這些數(shù)據(jù)集涵蓋了從日常生活場景到專業(yè)技能演示的各種視頻內(nèi)容,為模型提供了全面的視覺世界知識。

2.關(guān)鍵技術(shù)

  • 數(shù)據(jù)規(guī)模化技術(shù):構(gòu)建了包含2200萬樣本的VideoMix22M數(shù)據(jù)集,整合了多個公開數(shù)據(jù)源。這種大規(guī)模數(shù)據(jù)集的構(gòu)建不僅僅是簡單的數(shù)據(jù)堆疊,而是經(jīng)過精心設(shè)計的數(shù)據(jù)融合策略,確保了數(shù)據(jù)的多樣性和質(zhì)量。
  • 模型規(guī)模化技術(shù):將編碼器容量擴展到超過1B參數(shù),使用了Vision Transformer-giant (ViT-g)架構(gòu)。這種大規(guī)模的模型設(shè)計使得V-JEPA 2能夠處理復(fù)雜的視覺模式和長期依賴關(guān)系。
  • 訓(xùn)練策略優(yōu)化:采用了漸進式分辨率策略,將預(yù)訓(xùn)練擴展到252,000次迭代。這種訓(xùn)練策略允許模型逐步適應(yīng)不同分辨率的輸入,提高了訓(xùn)練效率和最終性能。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

在損失函數(shù)方面,采用了教師強制損失,預(yù)測器接收當前幀表征的編碼作為輸入,學(xué)習(xí)預(yù)測下一時間步的表征;另一方面,滾動損失通過將預(yù)測器的輸出反饋回輸入端,使模型能夠預(yù)測未來多個時間步的表征。通過聯(lián)合優(yōu)化這兩種損失函數(shù)的總和,V-JEPA 2-AC 顯著減少了多步推演過程中的誤差累積,從而有效提升了長期未來預(yù)測的準確性。

  • 時空增強技術(shù):在漸進式更長和更高分辨率的視頻片段上進行訓(xùn)練,最終達到64幀、384×384分辨率。這種時空增強技術(shù)使得模型能夠處理更加詳細和復(fù)雜的視頻內(nèi)容。

3.卓越性能

V-JEPA 2在六個主要基準測試任務(wù)中取得了平均88.2%的準確率,包括SSv2、Diving-48、Jester、Kinetics、COIN和ImageNet,全面超越了之前的基準模型。這一成績不僅體現(xiàn)了模型的強大性能,也證明了其在不同類型視覺任務(wù)中的泛化能力。

在運動理解方面,V-JEPA 2在Something-Something v2基準測試中達到了77.3%的top-1準確率,超越了InternVideo和VideoMAEv2等知名模型。這個結(jié)果特別值得關(guān)注,因為Something-Something v2是一個專門測試時序動作理解的具有挑戰(zhàn)性的數(shù)據(jù)集。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

在外觀理解方面,V-JEPA 2與最先進的圖像-文本預(yù)訓(xùn)練模型如DINOv2和PEcoreG保持了競爭力。這表明該模型不僅在動態(tài)視頻理解方面表現(xiàn)出色,在靜態(tài)視覺特征提取方面也具有強大的能力。

通過注意力探測器的評估,研究人員驗證了僅通過自監(jiān)督學(xué)習(xí)就能夠產(chǎn)生可遷移和領(lǐng)域無關(guān)的視覺特征,這些特征可以應(yīng)用于各種分類任務(wù)。這一發(fā)現(xiàn)對于計算機視覺領(lǐng)域具有重要意義,因為它表明大規(guī)模的自監(jiān)督學(xué)習(xí)可以學(xué)習(xí)到通用的視覺表示。

Meta AI發(fā)布革命性V-JEPA 2-AI.x社區(qū)

為了評估時序推理能力,V-JEPA 2編碼器與多模態(tài)大語言模型進行了對齊,并在多個視頻問答任務(wù)上進行了評估。令人印象深刻的是,盡管在預(yù)訓(xùn)練期間缺乏語言監(jiān)督,該模型仍然取得了優(yōu)異的成績。

在各個測試中,V-JEPA 2表現(xiàn)出色:在PerceptionTest上達到84.0%,在TempCompass上達到76.9%,在MVP上達到44.5%,在TemporalBench上達到36.7%,在TOMATO上達到40.3%。這些結(jié)果挑戰(zhàn)了視覺-語言對齊需要從一開始就進行聯(lián)合訓(xùn)練的假設(shè)。

這一成果證明了預(yù)訓(xùn)練的視頻編碼器可以在后期與語言模型進行對齊,并展現(xiàn)出強大的泛化能力。這種方法的成功意味著我們可以先專注于視覺理解的學(xué)習(xí),然后再添加語言理解能力,這為多模態(tài)AI系統(tǒng)的開發(fā)提供了新的思路。

4.V-JEPA 2-AC:機器人規(guī)劃的革命性突破

V-JEPA 2-AC是這次發(fā)布的關(guān)鍵創(chuàng)新,它是預(yù)訓(xùn)練編碼器的動作條件化變體。這個模型僅使用來自Droid數(shù)據(jù)集的62小時未標注機器人視頻進行微調(diào),就學(xué)會了根據(jù)機器人的動作和姿態(tài)來預(yù)測未來的視頻嵌入。

該架構(gòu)是一個3億參數(shù)的transformer,采用塊因果注意力機制,使用教師強制和展開目標進行訓(xùn)練。這種設(shè)計使得模型能夠理解動作與環(huán)境變化之間的因果關(guān)系,為機器人的智能行為提供了基礎(chǔ)。

通過模型預(yù)測控制,V-JEPA 2-AC實現(xiàn)了零樣本規(guī)劃能力。該模型通過使用交叉熵方法(CEM)最小化想象的未來狀態(tài)與視覺目標之間的距離來推斷動作序列。這種方法使得機器人能夠在沒有看到過的環(huán)境中執(zhí)行復(fù)雜的任務(wù)。

模型在到達、抓取和拾取-放置等任務(wù)中取得了很高的成功率,這些任務(wù)在不同實驗室的未見過的機器人手臂上進行,無需任何獎勵監(jiān)督或額外的數(shù)據(jù)收集。這種零樣本能力的實現(xiàn)是機器人技術(shù)發(fā)展的重要里程碑。

與基準方法Octo(行為克隆)和Cosmos(潛在擴散世界模型)相比,V-JEPA 2-AC展現(xiàn)出了顯著的優(yōu)勢。在執(zhí)行效率方面,V-JEPA 2-AC每步執(zhí)行計劃僅需約16秒,而Cosmos需要4分鐘,效率提升了15倍。

在任務(wù)成功率方面,V-JEPA 2-AC在到達任務(wù)中達到了100%的成功率,并在各種物體類型的抓取和操作任務(wù)中超越了其他方法。這種性能的提升不僅僅是數(shù)值上的改進,更代表了實用性的重大飛躍。

值得注意的是,V-JEPA 2-AC僅使用單目RGB攝像頭運行,無需校準或環(huán)境特定的微調(diào)。這種簡單的硬件要求大大降低了部署門檻,使得該技術(shù)更容易在實際場景中應(yīng)用。

這種通用性的實現(xiàn)強化了學(xué)習(xí)世界模型的泛化能力,表明V-JEPA 2-AC不僅僅是一個實驗室的原型,而是一個可以在真實世界中部署的實用系統(tǒng)。

本文轉(zhuǎn)載自??魯班模錘??,作者:龐德公

已于2025-6-15 23:41:42修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日本福利视频免费观看 | 欧美日韩专区 | 日本人做爰大片免费观看一老师 | 久久久久久电影 | 亚洲一区电影 | 日韩欧美国产电影 | 国产成人午夜高潮毛片 | 91久久| 国产二区三区 | 久久久久精 | 久草视频观看 | 欧美成人一级视频 | 免费国产黄 | 国产亚洲精品91 | 国产精品视频一二三 | 人人干人人草 | 毛片一级黄色 | 国产精品无码久久久久 | 一区二区免费看 | 午夜免费视频 | 成人在线中文字幕 | 国产一级视屏 | 日韩成人av在线 | 一区二区三区视频在线观看 | 麻豆av一区二区三区久久 | 青青草原综合久久大伊人精品 | 国产精品久久国产精品 | 偷拍第一页 | 男人的天堂亚洲 | 日本一区二区高清不卡 | 日韩在线精品强乱中文字幕 | 亚洲网站在线播放 | 国产成人精品一区二区三区网站观看 | 日韩久草| 亚洲一区欧美一区 | 成人国产精品久久 | 国产三级一区二区三区 | 激情av免费看 | 久久久久久免费看 | 日本精品一区 | 亚洲精品成人免费 |