在2025年初，淺淺聊一聊世界模型 World Models

作者：原野尋蹤 2025-01-27 09:37:33

World Model 最近是一個(gè)比較火的概念，最近有不少公司接二連三提出這個(gè)概念并推出相關(guān)Demo。

Update 1月10日:

感謝評論區(qū)補(bǔ)充world model在RL中的定義！感覺在RL中的定義，world model是針對一個(gè)具體子任務(wù)的模型，最近上述公司提到的World Model的尺度似乎更大、更加通用，更多從：Language Generation Model (ChatGPT)->Image Generation Model(StableDiffusion)->Video/3D Geneartion Model (二者各有側(cè)重因此平級)->World Generation Model(同時(shí)具備時(shí)序和空間序建模)這么一個(gè)趨勢。當(dāng)然這個(gè)World似乎想要包容一切，于是也并不清晰到底是什么樣的表征：是否是video sequence? 是否是3d representation? 如何表征物理? 輸入的關(guān)系如何? 這些都是 open research question.

不過隱約認(rèn)為，一個(gè)真正的World Model應(yīng)該建模下列性質(zhì)：

空間序列(X,Y,Z): 建模幾何
時(shí)間序列(t): 建模動態(tài)
稠密表征: 紋理，光照，渲染過程，物理含義
語義實(shí)例: 環(huán)境并非一個(gè)整體，而是分解成各個(gè)具體物體，從而實(shí)現(xiàn)物體級的控制和重組
生成式模型: 建模一個(gè)概率分布而非一個(gè)樣本
可微分: 梯度可以從前往后，也可以從后往前傳遞，于是能作為模塊被plug-in一個(gè)更大的復(fù)雜模型中

在上述基礎(chǔ)上最后實(shí)現(xiàn)高逼真可微分渲染，并附帶空間、時(shí)序的一致性。目前市面上一切模型都是上述最終版本的子集。

由于其復(fù)雜性，感覺可以明確的是：訓(xùn)練它需要的數(shù)據(jù)和運(yùn)算資源是空前的，人類互聯(lián)網(wǎng)上擁有的一切數(shù)據(jù)（text, image, video一切模態(tài))可能都不夠訓(xùn)這么一個(gè)模型，只能訓(xùn)練它在特定場景下的子模型。

原文回答:

World Model 最近是一個(gè)比較火的概念，最近有不少公司接二連三提出這個(gè)概念并推出相關(guān)Demo。在國內(nèi)外都引發(fā)了一些討論。國內(nèi)的公司關(guān)注點(diǎn)主要在大語言模型、人形機(jī)器人、Embodied AI，尚未有公司直接跟進(jìn)。在此淺淺點(diǎn)評一下這幾家公司的技術(shù)，就當(dāng)圖一樂。

首先World Model尚未被明確定義，因此我們可以先看看別的公司以及其Demo怎么說的：

李飛飛 World Labs

www.worldlabs.ai/blog

這是最早舉起旗幟的公司。從放出的Demo來看，X上也有人提到非常像Cat3D。走的路線是先生成2D圖像，然后通過2D圖像優(yōu)化3D表征。更早期的朋友肯定也會想到DreamFusion系列。

當(dāng)然具體細(xì)節(jié)未公布，如果基于這套方案，優(yōu)勢和缺點(diǎn)很顯然：

優(yōu)勢在于可以用上基于大規(guī)模圖像數(shù)據(jù)訓(xùn)練的圖像生成器（比如StableDiffusion），得益于大規(guī)模二維圖像數(shù)據(jù)容易獲得，可以生成非常廣闊(Diverse)、可控(Text-driven)的圖像類別，從而實(shí)現(xiàn)Diverse的三維結(jié)構(gòu)生成。

缺點(diǎn) （1）三維一致性。從給出的Demo來看，人物移動的范圍有限，這是因?yàn)閺谋举|(zhì)上，該方案恢復(fù)的三維結(jié)構(gòu)并未、而且理論并不可能，完全收斂。于是，在被約束的視角之外，必然能明顯看到幾何結(jié)構(gòu)的缺失和不一致。（2）由于需要優(yōu)化，速度很慢。一個(gè)場景甚至需要幾小時(shí)。

未來預(yù)測。該方案在短期內(nèi)能得到明顯改善，如通過微調(diào)訓(xùn)練StableDiffusion進(jìn)行更精確可控的二維圖像生成，然而，個(gè)人對這個(gè)路線比較悲觀，因?yàn)樗Ｍ麖拇罅康途S度的信息分布去恢復(fù)高維結(jié)構(gòu)信息，理論上決定了這是Local Minimum。當(dāng)然很可能有秘密武器在里面，期待公司的下一輪Update。

Google Gemini-2

deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

Google 緊隨其后推出了一個(gè)Demo。這套方案與李飛飛的World Labs方案完全不一樣。它是Next-frame Prediction。簡單來說，這個(gè)模型只根據(jù)馬爾可夫假設(shè)，只根據(jù)前幾幀的信息預(yù)測下一幀（的Token），可以理解為ChatGPT的圖像版本。因此：

（1）這個(gè)模型并不顯示建模三維信息。該模型并不具有一個(gè)3D表征，如NeRF或GS，相反，它只根據(jù)復(fù)雜的映射關(guān)系（比如一群MLP或者當(dāng)然Transformers結(jié)構(gòu)）去推測下一幀。我們能看到似乎有一定的幾何一致性，完全是大量數(shù)據(jù)暴力擬合的結(jié)果。當(dāng)然，這非常神奇！

（2）因此，該模型將非常靈活，由于不明顯建模幾何，意味著它能突破幾何限制建模更復(fù)雜的東西：如動態(tài)，物理，紋理，甚至交互關(guān)系如對輸入控制信號的condition。當(dāng)然，一切都有代價(jià)，無限的輸出空間意味著非常難以訓(xùn)練。因此個(gè)人仍然對該路線悲觀——視頻信號并不如文本/圖像信號一般易得，具有維度詛咒。我們無法得到如此大的數(shù)據(jù)去訓(xùn)練一個(gè)有效的模型。這意味著最終效果很可能局限于低分辨率，高延遲，以及簡單的世界交互復(fù)雜度。

不過考慮到Google的技術(shù)水平顯然可以繼續(xù)狠狠期待，最近Deepmind還挖走了OpenAI Sora的負(fù)責(zé)人來做World Model，肯定不久還有大更新。諾獎得主哈薩比斯加持的Deepmind，是這一波浪潮妥妥的頂級選手。

視頻生成模型，如OpenAI Sora等

sora.com/

Video Generation 模型個(gè)人一直不認(rèn)為是世界模型。當(dāng)然學(xué)術(shù)界有討論說Sora是不是World Simulators. OpenAI自然樂得大家把它看成一個(gè)World Simulators，但個(gè)人淺薄地認(rèn)為：視頻生成模型，正如Gemini-2，缺乏高維結(jié)構(gòu)的顯示建模。盡管猛地一看，都在輸出連續(xù)sequence圖像，但一個(gè)世界模型應(yīng)該具備更清晰的高維結(jié)構(gòu)，而圖像輸出只是它在某一個(gè)時(shí)刻、某一個(gè)位置的投影罷了。舉例而言，一個(gè)3D NeRF/GS是可以被以任意軌跡、相機(jī)模型和分辨率要求去渲染輸出一致的視頻的。這只是一個(gè)幾何層面的例子，世界模型的高維結(jié)構(gòu)理應(yīng)比簡單的幾何結(jié)構(gòu)復(fù)雜，甚至具備物體語義以及物理模型的理解。當(dāng)然具體如何表征，仍然是open question。

Nvidia Cosmos

www.nvidia.com/en-us/ai/cosmos/

非常應(yīng)景，Nvidia在昨天CES推出了Cosmos模型。說實(shí)話粗一看并不知道這是什么東西，這到底是一個(gè)仿真器，還是一個(gè)Video生成器，還是一個(gè)更復(fù)雜的模型？暫時(shí)沒有時(shí)間閱讀出的報(bào)告，但從一個(gè)表格里的比較來看，作者在和Video Generation模型比較，暫且歸納為text-conditioned視頻生成模型吧。

Niantics Labs

nianticlabs.com/news/largegeospatialmodel?hl=en

Niantics對比前面幾家公司沒那么出名。它的前身是Google Map，獨(dú)立出來之后做三維建圖和增強(qiáng)現(xiàn)實(shí)，它的產(chǎn)品Pokemon GO更有名氣一些。由于公司特性，它具有大量現(xiàn)實(shí)世界路標(biāo)、景點(diǎn)的掃描數(shù)據(jù)，都來自眾包的游戲玩家掃描。最近也推出了Large Geospatial Model。然而并不認(rèn)為這是世界模型，因?yàn)樗惠敵鱿鄼C(jī)定位參數(shù)，或者獲得一個(gè)三維地圖結(jié)構(gòu)，同樣缺乏復(fù)雜的交互能力。不過因?yàn)樽鴵泶笠?guī)模三維數(shù)據(jù)（地圖），如果能直接學(xué)習(xí)三維結(jié)構(gòu)或許比基于二維圖像恢復(fù)三維更有優(yōu)勢。

總結(jié)

盡管每個(gè)公司對于World Model定義不一樣，我們大概能看出這樣一個(gè)趨勢：

Data-driven: 當(dāng)然了，大量的數(shù)據(jù)，結(jié)合生成式模型的學(xué)習(xí)，希望用上Scaling Law大力出奇跡。
3D: 強(qiáng)3D，包括世界的表征具有三維一致性，結(jié)合NeRF/Gaussian Splattings進(jìn)行逼真的渲染。
可微分性，Differentiable：一個(gè)可微分的模型具有強(qiáng)悍的靈活性，能被任何更大的可微分系統(tǒng)作為模塊使用：如，感知-控制-決策-執(zhí)行的復(fù)雜機(jī)器人系統(tǒng)，想象一個(gè)世界模型與機(jī)器人控制器結(jié)合能產(chǎn)生什么樣的功能。

在2025年必然有更多公司邁入這個(gè)領(lǐng)域，而且也確實(shí)期待它在大量領(lǐng)域的潛在應(yīng)用，我們可以拭目以待。也歡迎補(bǔ)充文章缺失的World Model。

責(zé)任編輯：張燕妮來源：自動駕駛之心