了解世界還是預(yù)測(cè)未來(lái)?一場(chǎng)關(guān)于自動(dòng)駕駛世界模型的祛魅(清華最新綜述)!
寫在前面 & 筆者的個(gè)人理解
清華大學(xué)最新的綜述。由于多模態(tài)大語(yǔ)言模型(如GPT-4)和視頻生成模型(如Sora)的進(jìn)步,世界模型的概念受到了極大的關(guān)注,這是追求通用人工智能的核心。這項(xiàng)調(diào)查對(duì)世界模型的文獻(xiàn)進(jìn)行了全面的回顧。一般來(lái)說(shuō),世界模型被視為理解世界現(xiàn)狀或預(yù)測(cè)其未來(lái)動(dòng)態(tài)的工具。本綜述對(duì)世界模型進(jìn)行了系統(tǒng)分類,強(qiáng)調(diào)了兩個(gè)主要方向:
- 構(gòu)建內(nèi)部表征以理解世界的機(jī)制;
- 預(yù)測(cè)未來(lái)狀態(tài)以模擬和指導(dǎo)決策。
首先,我們考察這兩個(gè)方向的當(dāng)前進(jìn)展。然后探討了世界模型在關(guān)鍵領(lǐng)域的應(yīng)用,包括自動(dòng)駕駛、機(jī)器人和社會(huì)模擬,重點(diǎn)是每個(gè)領(lǐng)域如何利用這些方面。最后,我們概述了主要挑戰(zhàn),并提供了對(duì)未來(lái)潛在研究方向的見(jiàn)解。
簡(jiǎn)介
科學(xué)界長(zhǎng)期以來(lái)一直渴望開(kāi)發(fā)一種統(tǒng)一的模型,以復(fù)制其在追求通用人工智能(AGI)的過(guò)程中的基本世界動(dòng)態(tài)。2024年,多模態(tài)大語(yǔ)言模型(LLM)和Sora的出現(xiàn)加劇了圍繞此類世界模型的討論。雖然這些模型展示了捕捉世界知識(shí)方面的新興能力,例如Sora生成的視頻,這些視頻似乎完全符合物理定律,但關(guān)于它們是否真正符合綜合世界模型的問(wèn)題仍然存在。因此,當(dāng)我們展望人工智能時(shí)代的新突破時(shí),對(duì)世界模型研究的最新進(jìn)展、應(yīng)用和未來(lái)方向進(jìn)行系統(tǒng)回顧是及時(shí)和必要的。
世界模型的定義仍然是一個(gè)持續(xù)爭(zhēng)論的主題,通常分為兩個(gè)主要觀點(diǎn):理解世界和預(yù)測(cè)未來(lái)。如圖1所示,Ha和Schmidhuber的早期工作側(cè)重于抽象外部世界,以深入了解其潛在機(jī)制。相比之下,LeCun認(rèn)為,世界模型不僅應(yīng)該感知和模擬現(xiàn)實(shí)世界,還應(yīng)該具備設(shè)想未來(lái)可能狀態(tài)的能力,為決策提供信息。Sora等視頻生成模型代表了一種專注于模擬未來(lái)世界演變的方法,因此與世界模型的預(yù)測(cè)方面更加一致。這就提出了一個(gè)問(wèn)題,即世界模型應(yīng)該優(yōu)先考慮理解當(dāng)前狀態(tài)還是預(yù)測(cè)未來(lái)狀態(tài)。本文從這兩個(gè)角度對(duì)文獻(xiàn)進(jìn)行了全面回顧,重點(diǎn)介紹了關(guān)鍵方法和挑戰(zhàn)。
世界模型的潛在應(yīng)用涵蓋了廣泛的領(lǐng)域,每個(gè)領(lǐng)域?qū)斫夂皖A(yù)測(cè)能力都有不同的要求。例如,在自動(dòng)駕駛中,世界模型需要實(shí)時(shí)感知道路狀況并準(zhǔn)確預(yù)測(cè)其演變,特別關(guān)注即時(shí)的環(huán)境意識(shí)和復(fù)雜趨勢(shì)的預(yù)測(cè)。對(duì)于機(jī)器人來(lái)說(shuō),世界模型對(duì)于導(dǎo)航、物體檢測(cè)和任務(wù)規(guī)劃等任務(wù)至關(guān)重要,需要精確理解外部動(dòng)態(tài)和生成交互式和實(shí)體環(huán)境的能力。在虛擬社會(huì)系統(tǒng)的模擬領(lǐng)域,世界模型必須捕捉和預(yù)測(cè)更抽象的行為動(dòng)態(tài),如社會(huì)互動(dòng)和人類決策過(guò)程。因此,對(duì)這些能力的進(jìn)展進(jìn)行全面審查,同時(shí)探索未來(lái)的研究方向和趨勢(shì),是及時(shí)和必要的。
現(xiàn)有的世界模型調(diào)查一般可分為兩類,如表1所示。第一類主要側(cè)重于描述世界模型在特定領(lǐng)域的應(yīng)用,如視頻處理和生成、自動(dòng)駕駛和基于代理的應(yīng)用。第二類側(cè)重于從能夠處理各種模態(tài)數(shù)據(jù)的多模態(tài)模型到世界模型的技術(shù)轉(zhuǎn)型。然而,這些論文往往缺乏對(duì)世界模型的精確構(gòu)成以及不同的現(xiàn)實(shí)世界應(yīng)用對(duì)這些模型的要求的系統(tǒng)研究。在這篇文章中,我們的目的是正式定義和分類世界模型,回顧最近的技術(shù)進(jìn)展,并探索它們的廣泛應(yīng)用。
本次調(diào)查的主要貢獻(xiàn)可以概括如下:(1)我們提出了一種新的世界模型分類系統(tǒng),該系統(tǒng)圍繞兩個(gè)主要功能構(gòu)建:構(gòu)建隱式表示以理解外部世界的機(jī)制和預(yù)測(cè)外部世界的未來(lái)狀態(tài)。第一類側(cè)重于開(kāi)發(fā)學(xué)習(xí)和內(nèi)化世界知識(shí)以支持后續(xù)決策的模型,而后者則強(qiáng)調(diào)從視覺(jué)感知中增強(qiáng)物理世界的預(yù)測(cè)和模擬能力。(2)基于這種分類,我們對(duì)包括自動(dòng)駕駛機(jī)器人和社會(huì)模擬在內(nèi)的各種關(guān)鍵應(yīng)用領(lǐng)域如何強(qiáng)調(diào)世界模型的不同方面進(jìn)行了分類。(3)我們強(qiáng)調(diào)了能夠適應(yīng)更廣泛實(shí)際應(yīng)用的世界模型的未來(lái)研究方向和趨勢(shì)。
背景和分類
在本節(jié)中,我們探討了文獻(xiàn)中世界模型的演變概念,并將構(gòu)建世界模型的努力分為兩個(gè)不同的分支:內(nèi)部表示和未來(lái)預(yù)測(cè)。
2018年,Ha等人首次將世界模型的概念系統(tǒng)地引入人工智能界。本文將世界模型概念的起源追溯到1971年建立的“心理模型”的心理學(xué)原理,該原理提出人類將外部世界抽象為簡(jiǎn)單的元素及其相互關(guān)系來(lái)感知它。這一原理表明,當(dāng)從深層次的內(nèi)部角度看時(shí),我們對(duì)世界的描述通常涉及構(gòu)建一個(gè)抽象的表示,不需要詳細(xì)的描述。基于這一概念框架,作者引入了一個(gè)受人類認(rèn)知系統(tǒng)啟發(fā)的代理模型,如圖1所示。在這個(gè)開(kāi)創(chuàng)性的模型中,代理從現(xiàn)實(shí)世界環(huán)境中接收反饋,然后將其轉(zhuǎn)換為一系列訓(xùn)練模型的輸入。該模型擅長(zhǎng)模擬外部環(huán)境中特定行動(dòng)后的潛在結(jié)果。本質(zhì)上,它創(chuàng)建了一個(gè)對(duì)未來(lái)世界潛在進(jìn)化的心理模擬,并根據(jù)這些狀態(tài)的預(yù)測(cè)結(jié)果做出決策。這種方法與基于模型的強(qiáng)化學(xué)習(xí)(MBRL)方法非常相似,其中兩種策略都涉及模型生成外部世界的內(nèi)部表示。這些表示有助于在現(xiàn)實(shí)世界中導(dǎo)航和解決各種決策任務(wù)。
在2022年關(guān)于自主機(jī)器智能發(fā)展的富有遠(yuǎn)見(jiàn)的文章中,Yann LeCun介紹了聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA),這是一個(gè)反映人腦結(jié)構(gòu)的框架。如圖1所示,JEPA包括一個(gè)處理感官數(shù)據(jù)的感知模塊,以及一個(gè)評(píng)估這些信息的認(rèn)知模塊,有效地體現(xiàn)了世界模型。該模型允許大腦評(píng)估行為,并確定最適合現(xiàn)實(shí)世界應(yīng)用的反應(yīng)。LeCun的框架很有趣,因?yàn)樗Y(jié)合了雙系統(tǒng)概念,反映了“快”和“慢”的思維。系統(tǒng)1涉及直觀、本能的反應(yīng):在沒(méi)有世界模型的情況下快速做出決定,比如本能地躲避迎面而來(lái)的人。相比之下,系統(tǒng)2采用深思熟慮、經(jīng)過(guò)計(jì)算的推理,考慮世界的未來(lái)狀態(tài)。它超越了即時(shí)的感官輸入,模擬了潛在的未來(lái)場(chǎng)景,比如預(yù)測(cè)未來(lái)十分鐘房間里的事件并相應(yīng)地調(diào)整行動(dòng)。這種程度的遠(yuǎn)見(jiàn)需要構(gòu)建一個(gè)世界模型,根據(jù)預(yù)期的環(huán)境動(dòng)態(tài)和演變有效地指導(dǎo)決策。在這個(gè)框架中,世界模型對(duì)于理解和表示外部世界至關(guān)重要。它使用潛在變量對(duì)世界狀態(tài)進(jìn)行建模,這些變量在過(guò)濾冗余的同時(shí)捕獲關(guān)鍵信息。這種方法可以高效、簡(jiǎn)潔地表示世界,促進(jìn)對(duì)未來(lái)情景的最佳決策和規(guī)劃。
模型捕捉世界知識(shí)的能力對(duì)于其在各種現(xiàn)實(shí)世界任務(wù)中的有效表現(xiàn)至關(guān)重要。從2023年開(kāi)始,在最近一波關(guān)于大語(yǔ)言模型的研究中,有幾項(xiàng)研究證明了潛在世界知識(shí)的存在。換句話說(shuō),這些模型捕獲了直觀的知識(shí),包括空間和時(shí)間理解,這使它們能夠?qū)ΜF(xiàn)實(shí)世界的場(chǎng)景進(jìn)行預(yù)測(cè)。此外,LLM能夠通過(guò)認(rèn)知地圖對(duì)外部世界進(jìn)行建模,正如最近的研究所表明的那樣,揭示了嵌入其中的大腦樣結(jié)構(gòu)。這些模型甚至可以根據(jù)先前的經(jīng)驗(yàn)學(xué)習(xí)預(yù)測(cè)未來(lái)的事件,從而增強(qiáng)它們?cè)诂F(xiàn)實(shí)世界中的實(shí)用性和適用性。
上述世界模型主要代表了對(duì)外部世界的隱式理解。然而,在2024年2月,OpenAI引入了Sora模型,這是一種視頻生成模型,在很大程度上被認(rèn)為是一種世界模擬器。Sora輸入真實(shí)世界的視覺(jué)數(shù)據(jù),并輸出預(yù)測(cè)未來(lái)世界演變的視頻幀。值得注意的是,它展示了卓越的建模能力,例如在相機(jī)移動(dòng)和旋轉(zhuǎn)過(guò)程中保持3D視頻模擬的一致性。它還可以產(chǎn)生物理上合理的結(jié)果,比如在漢堡包上留下咬痕,并模擬數(shù)字環(huán)境,例如在Minecraft游戲中渲染第一人稱視圖。這些能力表明,Sora不僅模仿了模擬場(chǎng)景中的真實(shí)世界動(dòng)態(tài),還對(duì)其進(jìn)行了建模,專注于真實(shí)地模擬動(dòng)態(tài)世界變化,而不僅僅是表示靜態(tài)世界狀態(tài)。
無(wú)論是專注于學(xué)習(xí)外部世界的內(nèi)部表征還是模擬其運(yùn)作原理,這些概念都凝聚成了一個(gè)共同的共識(shí):世界模型的基本目的是理解世界的動(dòng)態(tài)并預(yù)測(cè)未來(lái)的情景。從這個(gè)角度來(lái)看,我們對(duì)世界模型的最新進(jìn)展進(jìn)行了徹底的研究,通過(guò)以下鏡頭對(duì)其進(jìn)行分析,如圖1所示。
- 外部世界的隱式表征:本研究類別構(gòu)建了一個(gè)環(huán)境變化模型,以實(shí)現(xiàn)更明智的決策,最終旨在預(yù)測(cè)未來(lái)狀態(tài)的演變。它通過(guò)將外部現(xiàn)實(shí)轉(zhuǎn)化為將這些元素表示為潛在變量的模型來(lái)培養(yǎng)隱式的理解。此外,隨著大語(yǔ)言模型(LLM)的出現(xiàn),這些模型對(duì)世界知識(shí)的詳細(xì)描述能力大大增強(qiáng)了以前集中在傳統(tǒng)決策任務(wù)上的努力。我們進(jìn)一步關(guān)注將世界知識(shí)整合到現(xiàn)有模型中。
- 外部世界的未來(lái)預(yù)測(cè):我們最初探索模擬外部世界的生成模型,主要使用視覺(jué)視頻數(shù)據(jù)。這些作品強(qiáng)調(diào)了所生成視頻的真實(shí)性,這些視頻反映了現(xiàn)實(shí)世界的未來(lái)狀態(tài)。隨著最近的進(jìn)展將重點(diǎn)轉(zhuǎn)向開(kāi)發(fā)一個(gè)真正互動(dòng)的物理世界。我們進(jìn)一步研究了從視覺(jué)到空間表征以及從視頻到化身的轉(zhuǎn)變。這包括全面覆蓋與反映外部世界的具身環(huán)境生成相關(guān)的研究。
- 世界模型的應(yīng)用:世界模型在各個(gè)領(lǐng)域都有廣泛的應(yīng)用,包括自動(dòng)駕駛、機(jī)器人和社會(huì)模擬。我們探討了世界模型在這些領(lǐng)域的整合如何推進(jìn)理論研究和實(shí)踐實(shí)施,強(qiáng)調(diào)了它們?cè)诂F(xiàn)實(shí)世界應(yīng)用中的變革潛力。
外部世界的隱式表征
- World Model in Decision-Making;
- World model in model-based RL
- World model with language backbone
- World Knowledge Learned by Models
- Knowledge of the Global Physical World
- Knowledge of the Local Physical World
- Knowledge of the Human Society
物理世界的未來(lái)預(yù)測(cè)
- World Model as Video Generation
- Towards Video World Models
- Capabilities of Video World Models
- World Model as Embodied Environment
- Indoor Environments
- Outdoor Environments
- Dynamic Environments
應(yīng)用
自動(dòng)駕駛
近年來(lái),隨著基于視覺(jué)的生成模型和多模態(tài)大語(yǔ)言模型的快速發(fā)展,世界模型作為理解世界狀態(tài)和預(yù)測(cè)其未來(lái)趨勢(shì)的模塊,在自動(dòng)駕駛領(lǐng)域引起了越來(lái)越多的關(guān)注。在此背景下,世界模型被定義為以多模態(tài)數(shù)據(jù)(如語(yǔ)言、圖像和軌跡)為輸入,并以車輛感知數(shù)據(jù)的形式連續(xù)輸出未來(lái)世界狀態(tài)的模型。然而,在基于世代的世界模擬器出現(xiàn)之前,自動(dòng)駕駛中的世界模型概念早已存在。現(xiàn)代自動(dòng)駕駛管道可分為四個(gè)主要組成部分:感知、預(yù)測(cè)、規(guī)劃和控制。整個(gè)過(guò)程可以看作是一個(gè)決策管道。如前文所述,感知和預(yù)測(cè)階段也代表了為車輛學(xué)習(xí)世界隱式表示的過(guò)程。這也可以被視為一種世界模態(tài)。因此,在本節(jié)中,我們將從兩個(gè)角度闡述世界模型在自動(dòng)駕駛中的應(yīng)用和發(fā)展:學(xué)習(xí)世界隱式表示的模塊和輸出車輛感知數(shù)據(jù)的世界模擬器。
- Learning Implicit Representations
- World Simulators
機(jī)器人
世界模型已經(jīng)成為機(jī)器人技術(shù)的一種變革性范式,使機(jī)器人能夠在復(fù)雜的環(huán)境中有效地感知、預(yù)測(cè)和執(zhí)行任務(wù)。這場(chǎng)機(jī)器人革命之所以成為可能,部分原因是神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)算法的進(jìn)步,使機(jī)器人能夠構(gòu)建捕捉世界關(guān)鍵組成部分的隱式表示。另一方面,預(yù)測(cè)模型能夠直接預(yù)測(cè)抽象表示之外的世界未來(lái)狀態(tài),使機(jī)器人能夠應(yīng)對(duì)可能的環(huán)境變化并主動(dòng)做出反應(yīng)。有了上述強(qiáng)大的技術(shù),機(jī)器人直接與現(xiàn)實(shí)世界環(huán)境互動(dòng)并從中學(xué)習(xí)變得越來(lái)越實(shí)用。如圖6所示,LLM和世界模型被認(rèn)為是通往通用人工智能(AGI)的可能途徑之一,因?yàn)樗鼈兛梢猿蔀闄C(jī)器理解世界基本規(guī)律的起點(diǎn)。我們?cè)诒?中總結(jié)了機(jī)器人世界模型的發(fā)展。
- Learning Implicit Representation
- Predicting Future states of Environment
社會(huì)模擬
“社會(huì)擬像”的概念最初是在中作為原型技術(shù)引入的,旨在幫助設(shè)計(jì)師創(chuàng)建一個(gè)包含許多不同代理的虛擬社會(huì)計(jì)算系統(tǒng)。基于專家定義規(guī)則或強(qiáng)化學(xué)習(xí)構(gòu)建代理的傳統(tǒng)方法面臨著行為過(guò)于簡(jiǎn)單或缺乏可解釋性等問(wèn)題。然而,LLM的出現(xiàn)為構(gòu)建更現(xiàn)實(shí)的社會(huì)擬像提供了一種變革性的工具,實(shí)現(xiàn)了更令人信服的程式化事實(shí)或準(zhǔn)確的預(yù)測(cè)。社會(huì)擬像可以被視為一種反映現(xiàn)實(shí)社會(huì)計(jì)算系統(tǒng)的世界模型。從另一個(gè)角度來(lái)看,社會(huì)擬像中的主體也發(fā)展了對(duì)外部系統(tǒng)的隱式表征;也就是說(shuō),他們建立了一個(gè)隱式的世界模型,支持他們社會(huì)行為的產(chǎn)生。世界模型與社會(huì)擬像的關(guān)系如圖7所示,代表作品匯總?cè)绫?所示。
- Building Social Simulacra Mirroring Real-world Society
- Agent’s Understanding of External World in Social Simulacra
開(kāi)放問(wèn)題和未來(lái)方向
物理規(guī)則與反事實(shí)仿真
世界模型的一個(gè)關(guān)鍵目標(biāo)是學(xué)習(xí)模擬世界的潛在因果關(guān)系,例如環(huán)境的物理規(guī)則。它們?yōu)橥茢喾词聦?shí)場(chǎng)景的未觀察結(jié)果提供了重要能力,超越了假設(shè)相同數(shù)據(jù)分布的數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)方法。這些能力對(duì)于解決數(shù)據(jù)稀缺問(wèn)題至關(guān)重要,這對(duì)于在關(guān)鍵任務(wù)應(yīng)用程序中建模罕見(jiàn)事件尤為重要。例如,模擬極端情況對(duì)于提高自動(dòng)駕駛?cè)斯ぶ悄艿聂敯粜灾陵P(guān)重要。此外,擁有物理規(guī)則的準(zhǔn)確模型還可以提高模擬環(huán)境的一致性,這對(duì)于解決許多應(yīng)用中模擬與現(xiàn)實(shí)之間的差距至關(guān)重要。此外,具有現(xiàn)實(shí)物理規(guī)則的世界模型被認(rèn)為是人工智能代理全面了解物理世界的必要訓(xùn)練環(huán)境。
最近大型生成模型的突破主要是由變壓器和擴(kuò)散模型等深度學(xué)習(xí)模型推動(dòng)的,這些模型本質(zhì)上是數(shù)據(jù)驅(qū)動(dòng)的。模擬物理規(guī)則的能力是否可以從訓(xùn)練數(shù)據(jù)的縮放中產(chǎn)生,這是一個(gè)有爭(zhēng)議的問(wèn)題。Sora展示了令人印象深刻的能力,可以生成高度逼真的物理世界視頻,包括運(yùn)動(dòng)中的物體和形狀可變的物體,如行人、狗和有咬痕的漢堡包。然而,它仍然難以準(zhǔn)確模擬重力和流體動(dòng)力學(xué)等物理規(guī)則。此外,研究人員還發(fā)現(xiàn),LLM無(wú)法充分預(yù)測(cè)物理世界的狀態(tài)轉(zhuǎn)變,例如沸水。這些觀察表明,盡管大型生成模型得到了大量數(shù)據(jù)集的支持,但在學(xué)習(xí)世界的因果表示方面仍然存在固有的局限性。一個(gè)有前景的未來(lái)方向是探索大型生成模型與物理規(guī)則模擬器的集成。這樣的解決方案可能會(huì)降低生成內(nèi)容的分辨率和質(zhì)量,但它們應(yīng)該提高對(duì)看不見(jiàn)的、偽造的場(chǎng)景的泛化能力。此外,具有明確的物理規(guī)則還可以提高世界模型的可解釋性和透明度。
豐富社會(huì)維度
對(duì)于先進(jìn)的世界模型來(lái)說(shuō),僅模擬物理元素是不夠的,因?yàn)槿祟愋袨楹蜕鐣?huì)互動(dòng)在許多重要場(chǎng)景中也起著至關(guān)重要的作用。例如,城市居民的行為對(duì)于構(gòu)建城市環(huán)境的世界模型尤為重要。先前的研究表明,LLM的類人常識(shí)推理能力為使用生成代理模擬現(xiàn)實(shí)的人類行為提供了獨(dú)特的機(jī)會(huì)。然而,設(shè)計(jì)能夠模擬真實(shí)和全面的人類行為和社會(huì)互動(dòng)的自主代理仍然是一個(gè)懸而未決的問(wèn)題。最近的研究表明,人類行為模態(tài)和認(rèn)知過(guò)程的理論可以為代理工作流程的設(shè)計(jì)提供信息,從而增強(qiáng)LLM的人類行為模擬能力,這是未來(lái)研究的一個(gè)重要方向。此外,對(duì)生成的人類行為的真實(shí)性的評(píng)估在很大程度上仍然依賴于主觀的人類評(píng)估,這很難擴(kuò)展到大規(guī)模的世界模型。開(kāi)發(fā)一個(gè)可靠且可擴(kuò)展的評(píng)估方案將是未來(lái)的另一個(gè)研究方向,可以豐富世界模型的社會(huì)維度。
結(jié)論
了解世界和預(yù)測(cè)未來(lái)一直是開(kāi)發(fā)人工生成智能的科學(xué)家的長(zhǎng)期目標(biāo),強(qiáng)調(diào)了在各個(gè)領(lǐng)域構(gòu)建世界模型的重要性。本文首次對(duì)世界模型進(jìn)行了全面的調(diào)查,系統(tǒng)地探討了它們的兩個(gè)主要功能:隱式表示和外部世界的未來(lái)預(yù)測(cè)。我們對(duì)這些核心功能的現(xiàn)有研究進(jìn)行了廣泛的總結(jié),特別強(qiáng)調(diào)了決策中的世界模型、模型學(xué)習(xí)的世界知識(shí)、作為視頻生成的世界模型和作為體現(xiàn)環(huán)境的世界模型。此外,我們還回顧了世界模型關(guān)鍵應(yīng)用的進(jìn)展,包括自動(dòng)駕駛、機(jī)器人和社會(huì)模擬。最后,認(rèn)識(shí)到這一快速發(fā)展的領(lǐng)域中尚未解決的挑戰(zhàn),我們強(qiáng)調(diào)了懸而未決的問(wèn)題,并提出了有前景的研究方向,希望促進(jìn)這一新興領(lǐng)域的進(jìn)一步研究。