Meta科學(xué)家LeCun:當(dāng)前 AI 模型缺乏四項(xiàng)關(guān)鍵人類智能特質(zhì)
在巴黎舉行的AI行動(dòng)峰會(huì)上,Meta首席AI科學(xué)家Yann LeCun提出一個(gè)問(wèn)題:“什么才是智能的基本構(gòu)成?”
在與IBM AI負(fù)責(zé)人Anthony Annunziata的對(duì)話中,他提出四項(xiàng)標(biāo)準(zhǔn):理解物理世界、擁有持續(xù)的記憶、具備推理能力,以及可以進(jìn)行分層規(guī)劃。
這四項(xiàng)能力在LeCun看來(lái),是任何一種具備智能的生命體所共有的基礎(chǔ)能力。相比之下,當(dāng)前主流人工智能系統(tǒng),尤其是以語(yǔ)言模型為代表的架構(gòu),在這些方面仍顯不足。
這不是他第一次表達(dá)類似看法。作為深度學(xué)習(xí)早期的關(guān)鍵推動(dòng)者,LeCun一直在強(qiáng)調(diào)當(dāng)前模型能力的局限性。
他一直認(rèn)為,現(xiàn)有AI模型在“智能”的核心能力上存在結(jié)構(gòu)性缺陷。
“補(bǔ)丁式增強(qiáng)”與架構(gòu)爭(zhēng)議
LeCun指出,目前業(yè)界在提升AI功能時(shí),往往采用“組合式”的增強(qiáng)路徑。例如,為了讓語(yǔ)言模型理解視覺(jué)信息,就外接一個(gè)視覺(jué)系統(tǒng);為了讓模型“記住”過(guò)往內(nèi)容,就增加檢索增強(qiáng)生成(RAG)模塊;推理能力不足,則通過(guò)擴(kuò)大模型參數(shù)來(lái)彌補(bǔ)。
在他看來(lái),這些做法更像是“功能層的修補(bǔ)”,而非能力本身的根本突破。
“理解世界不是把一個(gè)視覺(jué)模型綁在語(yǔ)言模型上那么簡(jiǎn)單,”LeCun說(shuō)。他用“hack(補(bǔ)丁)”一詞來(lái)形容這種工程式集成方式。
Meta近年來(lái)持續(xù)投入的“世界模型”(world-based models)思路,正是對(duì)這種路徑的回應(yīng)。這一類模型的目標(biāo)不在于生成內(nèi)容,而是試圖建立一種內(nèi)部的世界表示,通過(guò)預(yù)測(cè)行為與結(jié)果之間的關(guān)系來(lái)實(shí)現(xiàn)認(rèn)知。
LeCun對(duì)此有一個(gè)具體的定義框架:“你有對(duì)世界某一狀態(tài)的理解,你想象一個(gè)可能的動(dòng)作,然后模型預(yù)測(cè)在該動(dòng)作之后,世界會(huì)發(fā)生什么。”這類似于一種面向動(dòng)態(tài)系統(tǒng)的因果建模方式。
圖注:V-JEPA論文:重訪特征預(yù)測(cè):從視頻中學(xué)習(xí)視覺(jué)表征的方法
Meta在2024年發(fā)布的V-JEPA模型,是上述思路的初步實(shí)現(xiàn)。該模型并非直接生成圖像或視頻內(nèi)容,而是試圖在抽象層面預(yù)測(cè)視頻中被遮擋或缺失的信息。這種方式類似“填空”,但預(yù)測(cè)發(fā)生在更高層級(jí)的表示空間,而非具體像素。
LeCun解釋說(shuō):“我們不預(yù)測(cè)像素,而是在抽象表示中進(jìn)行預(yù)測(cè)。理想情況下,這種表示會(huì)自動(dòng)過(guò)濾掉那些不可預(yù)測(cè)或無(wú)關(guān)的細(xì)節(jié)。”
這一構(gòu)想與科學(xué)研究中“抽象層級(jí)”建立的過(guò)程相似。正如物理學(xué)中通過(guò)粒子、原子、分子、材料的層層抽象來(lái)理解世界,LeCun認(rèn)為,AI系統(tǒng)也需要通過(guò)構(gòu)建中間表征來(lái)實(shí)現(xiàn)有效的認(rèn)知與推理。
這種方式的優(yōu)點(diǎn)之一在于,它減少了對(duì)海量數(shù)據(jù)的依賴,并提升了系統(tǒng)對(duì)不可預(yù)測(cè)變化的適應(yīng)能力。不過(guò),V-JEPA目前仍處于早期階段,其抽象層級(jí)的表達(dá)力、泛化能力和可交互性仍需進(jìn)一步驗(yàn)證。
對(duì)主流路徑的間接回應(yīng)
當(dāng)前,幾乎所有主流AI企業(yè)都在圍繞大模型展開(kāi)產(chǎn)品構(gòu)建與能力擴(kuò)展。OpenAI、Anthropic、Google DeepMind的研究路線大多圍繞大語(yǔ)言模型展開(kāi),通過(guò)RAG、多模態(tài)融合或系統(tǒng)集成來(lái)增強(qiáng)模型在記憶、推理等方面的表現(xiàn)。
在這個(gè)語(yǔ)境下,LeCun所倡導(dǎo)的“世界模型”策略,可以視為對(duì)主流趨勢(shì)的補(bǔ)充乃至修正。他所強(qiáng)調(diào)的“具備結(jié)構(gòu)性推理與預(yù)測(cè)能力的AI”,并不完全依賴大規(guī)模的語(yǔ)言語(yǔ)料與模式識(shí)別能力,而更注重內(nèi)在模型結(jié)構(gòu)與表達(dá)形式的可解釋性和可推理性。
盡管Meta已在該方向上進(jìn)行嘗試,但從V-JEPA本身的功能定義來(lái)看,它仍屬于“前期架構(gòu)驗(yàn)證”階段。模型尚未廣泛部署,相關(guān)評(píng)估標(biāo)準(zhǔn)和實(shí)際應(yīng)用場(chǎng)景也仍在摸索之中。
目前,對(duì)世界模型的定義在學(xué)界和產(chǎn)業(yè)界尚無(wú)共識(shí)。有觀點(diǎn)認(rèn)為,這類模型最終需結(jié)合具身智能,模擬實(shí)體與環(huán)境的持續(xù)交互;也有研究強(qiáng)調(diào),它可以通過(guò)抽象表示與模擬環(huán)境實(shí)現(xiàn)更高效的訓(xùn)練過(guò)程。
LeCun本人則強(qiáng)調(diào),真正的挑戰(zhàn)在于如何構(gòu)建一個(gè)“足夠抽象、又足夠有預(yù)測(cè)力”的中間世界。換言之,不是追求還原世界的所有細(xì)節(jié),而是捕捉那些在行動(dòng)決策中最關(guān)鍵的信息層。