Meta開(kāi)源V-JEPA 2:楊立昆顛覆生成式AI,世界模型性能碾壓英偉達(dá)30倍 原創(chuàng)
“通過(guò)生成像素來(lái)模擬真實(shí)世界,不僅是一種浪費(fèi),更是注定失敗。”2024年2月,當(dāng)OpenAI的Sora驚艷全球時(shí),圖靈獎(jiǎng)得主楊立昆的這句炮轟猶如在AI界投下一顆炸彈。
?
?
這位Meta首席AI科學(xué)家與網(wǎng)友展開(kāi)了數(shù)天的唇槍舌戰(zhàn),甚至憤怒表示:“我從沒(méi)想過(guò)會(huì)看到這么多從未為AI或機(jī)器學(xué)習(xí)做過(guò)任何事情的人告訴我,我對(duì)AI的觀點(diǎn)是錯(cuò)誤、愚蠢、盲目的。”
?
十五個(gè)月后的今天,楊立昆用行動(dòng)證明了自己的堅(jiān)持。他親自發(fā)布了V-JEPA 2——Meta迄今最強(qiáng)大的開(kāi)源世界模型,一個(gè)讓AI真正理解物理世界的智能引擎。
?
?
預(yù)測(cè)而非生成:一條少有人走的路
?
此前,當(dāng)OpenAI的Sora憑借驚艷的視頻生成能力被冠以“世界模型”稱號(hào)時(shí),楊立昆的反對(duì)聲顯得格外刺耳。在他看來(lái),生成像素與理解世界存在本質(zhì)差異。
?
“視頻生成似是而非的空間非常大,只需要產(chǎn)生一個(gè)合理的樣本就能視為成功,而真實(shí)視頻的合理延續(xù)空間要小得多。”楊立昆在社交媒體上不斷強(qiáng)調(diào)這一觀點(diǎn)。他堅(jiān)持認(rèn)為,真正的世界模型應(yīng)該模擬人類(lèi)的理解方式 ——通過(guò)被動(dòng)觀察建立概念認(rèn)知,而非像素級(jí)的重建。
?
這一理念源于他2022年提出的JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))理論。
?
?
與傳統(tǒng)生成模型不同,JEPA的核心是預(yù)測(cè)而非重建。如同嬰兒通過(guò)觀察學(xué)習(xí)世界運(yùn)行規(guī)律,JEPA架構(gòu)通過(guò)觀察視頻,在抽象層面預(yù)測(cè)世界狀態(tài)變化,而非生成具體像素。
?
“人類(lèi)最初對(duì)世界的理解,是從最自然的‘觀察’開(kāi)始,在此基礎(chǔ)上進(jìn)行學(xué)習(xí),總結(jié)經(jīng)驗(yàn),形成認(rèn)知模型。”楊立昆曾這樣解釋自己的設(shè)計(jì)哲學(xué)。
?
而V-JEPA 2正是這一理念的最新結(jié)晶。模型包含兩大核心組件:一個(gè)編碼器負(fù)責(zé)提取視頻特征,一個(gè)預(yù)測(cè)器基于這些特征預(yù)測(cè)未來(lái)狀態(tài)。
?
這種設(shè)計(jì)讓AI能在抽象層面理解世界運(yùn)行規(guī)律,而非糾纏于像素細(xì)節(jié)。
?
V-JEPA 2的突破:速度與理解的革命性飛躍
?
今天開(kāi)源的V-JEPA 2交出了一份令人震驚的成績(jī)單。這個(gè)擁有12億參數(shù)的模型,在超過(guò)100萬(wàn)小時(shí)的視頻訓(xùn)練后,實(shí)現(xiàn)了物理世界理解的質(zhì)的飛躍。
?
?
最引人注目的是其效率突破。根據(jù)Meta測(cè)試數(shù)據(jù),V-JEPA 2執(zhí)行任務(wù)時(shí)每個(gè)步驟的規(guī)劃用時(shí)縮短至英偉達(dá)Cosmos模型的三十分之一,同時(shí)成功率更高。這一突破對(duì)需要實(shí)時(shí)決策的自動(dòng)駕駛和機(jī)器人領(lǐng)域具有重要意義。
?
?
在實(shí)際應(yīng)用中,V-JEPA 2展現(xiàn)出類(lèi)人的物理直覺(jué)。
?
它可以預(yù)測(cè)人類(lèi)舀起一勺東西后將放入另一個(gè)容器的意圖:
?
?
它甚至能拆解運(yùn)動(dòng)員復(fù)雜跳水動(dòng)作的每個(gè)階段,理解連續(xù)動(dòng)作間的因果關(guān)系:
?
?
在機(jī)器人測(cè)試中,V-JEPA 2在觸碰(Reach)、抓取(Grasp)、選擇和擺放物體(Pick-and-place)三類(lèi)任務(wù)中的成功率分別達(dá)到100%、45%和73%——這一切都不需要海量的機(jī)器人數(shù)據(jù)或針對(duì)性訓(xùn)練。
?
?
“在世界模型的幫助下,AI不再需要數(shù)百萬(wàn)次的訓(xùn)練才能掌握一項(xiàng)新的能力,”楊立昆在發(fā)布視頻中強(qiáng)調(diào),“世界模型直接告訴了AI世界是怎樣運(yùn)行的,這可以極大提升效率。”
?
楊立昆描繪了V-JEPA 2將如何重塑現(xiàn)實(shí)世界:
?
在輔助技術(shù)領(lǐng)域,搭載世界模型的AI助手可幫助視障人士“看見(jiàn)”并理解物理環(huán)境,識(shí)別障礙物和潛在危險(xiǎn);
在教育領(lǐng)域,混合現(xiàn)實(shí)頭顯中的AI導(dǎo)師能理解學(xué)生的操作,提供個(gè)性化指導(dǎo);
在工業(yè)自動(dòng)化中,機(jī)器人將獲得真正的環(huán)境理解能力, 在無(wú)需海量訓(xùn)練數(shù)據(jù)的前提下完成復(fù)雜任務(wù)。
他認(rèn)為,世界模型將為機(jī)器人開(kāi)啟一個(gè)新時(shí)代,讓現(xiàn)實(shí)世界中的人工智能助手能夠在不需要海量訓(xùn)練數(shù)據(jù)的情況下,幫助人們完成家務(wù)和體力勞動(dòng)。
?
為推動(dòng)整個(gè)行業(yè)進(jìn)步,Meta同時(shí)發(fā)布了三個(gè)創(chuàng)新的基準(zhǔn)測(cè)試工具:IntPhys 2(復(fù)雜合成環(huán)境中的直觀物理理解測(cè)試)、基于最小視頻對(duì)的物理理解視頻問(wèn)答基準(zhǔn)、以及CausalVQA(視頻模型的物理基礎(chǔ)因果推理測(cè)試)。
?
這些工具將幫助研究界客觀評(píng)估模型對(duì)物理世界的理解能力。
?
物理理解:通往AGI的必經(jīng)之路
為何物理理解如此重要?因?yàn)樗砹薃I從數(shù)字世界走向物理世界的關(guān)鍵一步。
?
“理解世界物理規(guī)律聽(tīng)起來(lái)并不復(fù)雜,但這是AI與人類(lèi)差距非常大的一個(gè)方面,”Meta在技術(shù)說(shuō)明中指出。人類(lèi)天生理解重力作用、物體持久性和運(yùn)動(dòng)軌跡預(yù)測(cè),這些直覺(jué)對(duì)AI卻異常困難。
?
楊立昆一直強(qiáng)調(diào),物理理解是實(shí)現(xiàn)AGI(人工通用智能)的基礎(chǔ)。真正的智能體需要構(gòu)建理解物理世界的“心理模型”,才能像人類(lèi)一樣預(yù)測(cè)行為后果并規(guī)劃行動(dòng)。
?
隨著谷歌DeepMind的Genie、李飛飛的World Labs等團(tuán)隊(duì)紛紛投入世界模型研發(fā),物理理解已成為AI巨頭競(jìng)逐的下一個(gè)前沿。
?
而Meta憑借V-JEPA 2,在這一關(guān)鍵賽道占據(jù)了領(lǐng)先位置。
?
大家怎么看?歡迎在評(píng)論區(qū)留言討論~
