成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

楊立昆親自指導開源世界大模型,為AI Agent打造超級大腦

人工智能 新聞
與第一代相比,V-JEPA 2使用了100萬視頻+100萬圖片超大規模訓練數據集,可以讓AI Agent像人類那樣理解真實的物理世界,為智能體打造一個“超級大腦”自主學會觀察、規劃到執行全自動化能力。

今天凌晨,全球社交巨頭Meta在官網開源了一個世界大模型V-JEPA 2。

與第一代相比,V-JEPA 2使用了100萬視頻+100萬圖片超大規模訓練數據集,可以讓AI Agent像人類那樣理解真實的物理世界,為智能體打造一個“超級大腦”自主學會觀察、規劃到執行全自動化能力。

值得一提的是,圖靈獎獲得者、Meta首席科學家楊立昆(Yann LeCun)參與了該模型的開發,這在Meta開源的眾多大模型中很罕見。

圖片

開源地址:https://github.com/facebookresearch/vjepa2?tab=readme-ov-file

對于這個新模型楊立昆還特意在今天凌晨1點發文推薦了一波,看來是相當的滿意。

圖片

網友表示,感謝老楊帶來的新研究。

圖片

太棒了!我一直都在熱切期待這個成果。請問對于這種架構,scaling laws仍然適用嗎?如果適用的話,是否有計劃開發更大規模的模型?

圖片

我很期待嘗試 V-JEPA-v2 用于零樣本物理推理和機器人規劃。很好奇它在陌生場景和微妙因果事件中的泛化能力如何。非常期待測試它在實時預測任務中的速度和效率!

圖片

世界模型實際上受到人類如何形成周圍環境心理地圖的啟發,它們是邁向真正具身人工智能的一步。

圖片

V-JEPA 2的核心架構是一個自監督學習框架,通過互聯網規模的視頻數據來訓練模型,使其能夠學習到視頻中的動態和靜態信息。預訓練階段使用了超過100萬小時的視頻和100萬張圖像,這些數據涵蓋了各種動作和場景。預訓練的目標是讓模型能夠通過觀察學習到世界的背景知識,而無需依賴于大量的標注數據。

圖片

在預訓練階段使用了“掩碼去噪”, 將視頻片段分割成一系列的“管狀塊”,每個管狀塊包含了時間序列上的連續幀。然后,模型通過編碼器處理這些管狀塊,并通過預測器來預測被掩蓋部分的表示。這種訓練方式不僅讓模型能夠學習到視頻中的運動信息,還能捕捉到場景中的靜態特征。

為了提高預訓練的效率和效果,V-JEPA 2將模型的參數從300M擴展到1B參數,這使得模型能夠學習到更復雜的特征。訓練時間從90K迭代擴展到252K迭代,這使得模型能夠更充分地利用大規模數據。

此外,輸入分辨率從256×256提高到384×384,視頻長度從16幀擴展到64幀,這些改進都顯著提升了模型的性能。

在預訓練階段結束后,V-JEPA 2進一步擴展為一個動作條件的世界模型V-JEPA 2-AC,用于機器人規劃任務。這一模塊的目標是讓模型能夠根據動作和狀態預測未來的視頻幀,從而為機器人提供規劃能力。

圖片

V-JEPA 2-AC的訓練使用了來自Droid數據集的62小時未標記機器人視頻數據。這些數據包含了機器人的動作和狀態信息,但沒有明確的獎勵信號。V-JEPA 2-AC通過一個自回歸的預測器來學習這些動作的效果,預測器使用了一個塊因果注意力機制,能夠根據當前的動作和狀態預測未來的視頻幀表示。

V-JEPA 2-AC的預測器是一個300M參數的Transformer網絡,它能夠自回歸地預測未來視頻幀的表示。在訓練過程中,模型不僅使用了教師強制(teacher-forcing)損失,還使用了rollout損失來提高模型在推理時的自回歸能力。這種訓練方式使得V-JEPA 2-AC能夠在給定子目標的情況下,通過規劃實現零樣本的機器人任務執行。

圖片

在實際部署中,V-JEPA 2-AC能夠通過模型預測控制來規劃機器人的動作。具體來說,模型會在每個時間步規劃一個動作序列,然后執行第一個動作,觀察新的狀態,并重復這一過程。這種規劃方式類似于人類在執行任務時的視覺反饋控制。

在實驗中,V-JEPA 2-AC被部署在兩個不同實驗室中的Franka機器人手臂上,這些實驗室的環境并未出現在訓練數據中。V-JEPA 2-AC能夠通過規劃實現零樣本的抓取和放置任務,而無需在這些環境中收集任何數據,也無需進行特定于任務的訓練或獎勵。

這一結果表明,V-JEPA 2-AC能夠有效地將從互聯網規模數據中學習到的知識應用于實際的機器人任務中。

圖片

此外,V-JEPA 2還展示了其在視頻問答任務上的能力。通過與大模型對齊,V-JEPA 2能夠處理視頻問答任務,這需要模型能夠理解視頻內容并用自然語言回答問題。V-JEPA 2的視頻問答能力通過一個多模態大模型實現,該模型使用V-JEPA 2作為視覺編碼器,并將視覺特征與語言模型的輸入對齊。

在視頻問答任務中,V-JEPA 2的性能在多個基準測試中達到了新的高度。例如,在PerceptionTest上,它達到了84.0%的準確率;在TempCompass上,達到了76.9%的多選準確率。這些成績證明了V-JEPA 2在結合視覺和語言理解方面的強大能力。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2023-06-16 15:23:23

AIChatGPT

2023-10-20 09:54:00

人工智能AI

2023-12-04 10:00:05

Meta人工智能

2024-06-11 12:38:12

2024-12-13 16:41:23

2024-11-21 13:00:00

2025-05-29 09:57:38

2024-11-08 09:11:24

2023-12-28 15:18:37

MetaOpenAI

2024-04-18 12:16:37

MetaAIOpenEQA

2023-07-25 13:47:27

AI數據庫

2024-09-26 00:10:00

Agent大模型AI

2024-05-28 14:54:51

2023-07-06 13:50:47

AI智能

2025-05-29 10:32:32

2023-04-07 11:33:24

AIAI大模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄视频国产| 成人一区二区三区在线观看 | 亚洲视频免费在线播放 | 一级高清 | 日韩毛片在线视频 | 久久高清免费视频 | 免费看的黄网站 | 久久狠狠| 国产性网| 天天操天天操 | 五月香婷婷 | 国产精品一区二区在线 | 成人在线亚洲 | 国产精品一区二区视频 | 成人精品一区二区三区中文字幕 | 久久99国产精品 | 欧美高清视频一区 | 精品国产乱码久久久久久闺蜜 | 欧美久久天堂 | 亚洲国产免费 | av黄色免费在线观看 | 欧美激情一区二区 | 国产欧美视频一区二区三区 | 成人av一区二区三区 | 精品在线观看一区 | 综合久久综合久久 | 国产成人精品免费视频 | 少妇av片 | 日韩视频免费看 | 国产在线观看一区二区三区 | .国产精品成人自产拍在线观看6 | 国产激情在线播放 | 国产剧情久久 | 丁香久久 | 日韩欧美精品在线 | 国产一级在线视频 | 久久久成人精品 | 国产一区二区三区四区三区四 | 日韩中文字幕 | 久久精品视频免费观看 | 亚洲免费人成在线视频观看 |