成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在2025年初,淺淺聊一聊世界模型 World Models

人工智能 新聞
World Model 最近是一個(gè)比較火的概念,最近有不少公司接二連三提出這個(gè)概念并推出相關(guān)Demo。

Update 1月10日:

感謝評論區(qū)補(bǔ)充world model在RL中的定義!感覺在RL中的定義,world model是針對一個(gè)具體子任務(wù)的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多從:Language Generation Model (ChatGPT)->Image Generation Model(StableDiffusion)->Video/3D Geneartion Model (二者各有側(cè)重因此平級)->World Generation Model(同時(shí)具備時(shí)序和空間序建模)這么一個(gè)趨勢。當(dāng)然這個(gè)World似乎想要包容一切,于是也并不清晰到底是什么樣的表征:是否是video sequence? 是否是3d representation? 如何表征物理? 輸入的關(guān)系如何? 這些都是 open research question.

不過隱約認(rèn)為,一個(gè)真正的World Model應(yīng)該建模下列性質(zhì):

  • 空間序列(X,Y,Z): 建模幾何
  • 時(shí)間序列(t): 建模動態(tài)
  • 稠密表征: 紋理,光照,渲染過程,物理含義
  • 語義實(shí)例: 環(huán)境并非一個(gè)整體,而是分解成各個(gè)具體物體,從而實(shí)現(xiàn)物體級的控制和重組
  • 生成式模型: 建模一個(gè)概率分布而非一個(gè)樣本
  • 可微分: 梯度可以從前往后,也可以從后往前傳遞,于是能作為模塊被plug-in一個(gè)更大的復(fù)雜模型中

在上述基礎(chǔ)上最后實(shí)現(xiàn)高逼真可微分渲染,并附帶空間、時(shí)序的一致性。目前市面上一切模型都是上述最終版本的子集。

由于其復(fù)雜性,感覺可以明確的是:訓(xùn)練它需要的數(shù)據(jù)和運(yùn)算資源是空前的,人類互聯(lián)網(wǎng)上擁有的一切數(shù)據(jù)(text, image, video一切模態(tài))可能都不夠訓(xùn)這么一個(gè)模型,只能訓(xùn)練它在特定場景下的子模型。

原文回答:

World Model 最近是一個(gè)比較火的概念,最近有不少公司接二連三提出這個(gè)概念并推出相關(guān)Demo。在國內(nèi)外都引發(fā)了一些討論。國內(nèi)的公司關(guān)注點(diǎn)主要在大語言模型、人形機(jī)器人、Embodied AI,尚未有公司直接跟進(jìn)。在此淺淺點(diǎn)評一下這幾家公司的技術(shù),就當(dāng)圖一樂。

首先World Model尚未被明確定義,因此我們可以先看看別的公司以及其Demo怎么說的:

李飛飛 World Labs

www.worldlabs.ai/blog

這是最早舉起旗幟的公司。從放出的Demo來看,X上也有人提到非常像Cat3D。走的路線是先生成2D圖像,然后通過2D圖像優(yōu)化3D表征。更早期的朋友肯定也會想到DreamFusion系列。

當(dāng)然具體細(xì)節(jié)未公布,如果基于這套方案,優(yōu)勢和缺點(diǎn)很顯然:

優(yōu)勢在于可以用上基于大規(guī)模圖像數(shù)據(jù)訓(xùn)練的圖像生成器(比如StableDiffusion),得益于大規(guī)模二維圖像數(shù)據(jù)容易獲得,可以生成非常廣闊(Diverse)、可控(Text-driven)的圖像類別,從而實(shí)現(xiàn)Diverse的三維結(jié)構(gòu)生成。

缺點(diǎn) (1)三維一致性。從給出的Demo來看,人物移動的范圍有限,這是因?yàn)閺谋举|(zhì)上,該方案恢復(fù)的三維結(jié)構(gòu)并未、而且理論并不可能,完全收斂。于是,在被約束的視角之外,必然能明顯看到幾何結(jié)構(gòu)的缺失和不一致。(2) 由于需要優(yōu)化,速度很慢。一個(gè)場景甚至需要幾小時(shí)。

未來預(yù)測。該方案在短期內(nèi)能得到明顯改善,如通過微調(diào)訓(xùn)練StableDiffusion進(jìn)行更精確可控的二維圖像生成,然而,個(gè)人對這個(gè)路線比較悲觀,因?yàn)樗M麖拇罅康途S度的信息分布去恢復(fù)高維結(jié)構(gòu)信息,理論上決定了這是Local Minimum。當(dāng)然很可能有秘密武器在里面,期待公司的下一輪Update。

Google Gemini-2

deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

Google 緊隨其后推出了一個(gè)Demo。這套方案與李飛飛的World Labs方案完全不一樣。它是Next-frame Prediction。簡單來說,這個(gè)模型只根據(jù)馬爾可夫假設(shè),只根據(jù)前幾幀的信息預(yù)測下一幀(的Token),可以理解為ChatGPT的圖像版本。因此:

(1)這個(gè)模型并不顯示建模三維信息。該模型并不具有一個(gè)3D表征,如NeRF或GS,相反,它只根據(jù)復(fù)雜的映射關(guān)系(比如一群MLP或者當(dāng)然Transformers結(jié)構(gòu))去推測下一幀。我們能看到似乎有一定的幾何一致性,完全是大量數(shù)據(jù)暴力擬合的結(jié)果。當(dāng)然,這非常神奇!

(2)因此,該模型將非常靈活,由于不明顯建模幾何,意味著它能突破幾何限制建模更復(fù)雜的東西:如動態(tài),物理,紋理,甚至交互關(guān)系如對輸入控制信號的condition。當(dāng)然,一切都有代價(jià),無限的輸出空間意味著非常難以訓(xùn)練。因此個(gè)人仍然對該路線悲觀——視頻信號并不如文本/圖像信號一般易得,具有維度詛咒。我們無法得到如此大的數(shù)據(jù)去訓(xùn)練一個(gè)有效的模型。這意味著最終效果很可能局限于低分辨率,高延遲,以及簡單的世界交互復(fù)雜度。

不過考慮到Google的技術(shù)水平顯然可以繼續(xù)狠狠期待,最近Deepmind還挖走了OpenAI Sora的負(fù)責(zé)人來做World Model,肯定不久還有大更新。諾獎得主哈薩比斯加持的Deepmind,是這一波浪潮妥妥的頂級選手。

視頻生成模型,如OpenAI Sora等

sora.com/

Video Generation 模型個(gè)人一直不認(rèn)為是世界模型。當(dāng)然學(xué)術(shù)界有討論說Sora是不是World Simulators. OpenAI自然樂得大家把它看成一個(gè)World Simulators,但個(gè)人淺薄地認(rèn)為:視頻生成模型,正如Gemini-2,缺乏高維結(jié)構(gòu)的顯示建模。盡管猛地一看,都在輸出連續(xù)sequence圖像,但一個(gè)世界模型應(yīng)該具備更清晰的高維結(jié)構(gòu),而圖像輸出只是它在某一個(gè)時(shí)刻、某一個(gè)位置的投影罷了。舉例而言,一個(gè)3D NeRF/GS是可以被以任意軌跡、相機(jī)模型和分辨率要求去渲染輸出一致的視頻的。這只是一個(gè)幾何層面的例子,世界模型的高維結(jié)構(gòu)理應(yīng)比簡單的幾何結(jié)構(gòu)復(fù)雜,甚至具備物體語義以及物理模型的理解。當(dāng)然具體如何表征,仍然是open question。

Nvidia Cosmos

www.nvidia.com/en-us/ai/cosmos/

非常應(yīng)景,Nvidia在昨天CES推出了Cosmos模型。說實(shí)話粗一看并不知道這是什么東西,這到底是一個(gè)仿真器,還是一個(gè)Video生成器,還是一個(gè)更復(fù)雜的模型?暫時(shí)沒有時(shí)間閱讀出的報(bào)告,但從一個(gè)表格里的比較來看,作者在和Video Generation模型比較,暫且歸納為text-conditioned視頻生成模型吧。

Niantics Labs

nianticlabs.com/news/largegeospatialmodel?hl=en

Niantics對比前面幾家公司沒那么出名。它的前身是Google Map,獨(dú)立出來之后做三維建圖和增強(qiáng)現(xiàn)實(shí),它的產(chǎn)品Pokemon GO更有名氣一些。由于公司特性,它具有大量現(xiàn)實(shí)世界路標(biāo)、景點(diǎn)的掃描數(shù)據(jù),都來自眾包的游戲玩家掃描。最近也推出了Large Geospatial Model。然而并不認(rèn)為這是世界模型,因?yàn)樗惠敵鱿鄼C(jī)定位參數(shù),或者獲得一個(gè)三維地圖結(jié)構(gòu),同樣缺乏復(fù)雜的交互能力。不過因?yàn)樽鴵泶笠?guī)模三維數(shù)據(jù)(地圖),如果能直接學(xué)習(xí)三維結(jié)構(gòu)或許比基于二維圖像恢復(fù)三維更有優(yōu)勢。

總結(jié)

盡管每個(gè)公司對于World Model定義不一樣,我們大概能看出這樣一個(gè)趨勢:

  • Data-driven: 當(dāng)然了,大量的數(shù)據(jù),結(jié)合生成式模型的學(xué)習(xí),希望用上Scaling Law大力出奇跡。
  • 3D: 強(qiáng)3D,包括世界的表征具有三維一致性,結(jié)合NeRF/Gaussian Splattings進(jìn)行逼真的渲染。
  • 可微分性,Differentiable:一個(gè)可微分的模型具有強(qiáng)悍的靈活性,能被任何更大的可微分系統(tǒng)作為模塊使用:如,感知-控制-決策-執(zhí)行的復(fù)雜機(jī)器人系統(tǒng),想象一個(gè)世界模型與機(jī)器人控制器結(jié)合能產(chǎn)生什么樣的功能。

在2025年必然有更多公司邁入這個(gè)領(lǐng)域,而且也確實(shí)期待它在大量領(lǐng)域的潛在應(yīng)用,我們可以拭目以待。也歡迎補(bǔ)充文章缺失的World Model。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2021-07-16 11:48:26

模型 .NET微軟

2022-05-31 07:55:23

智能運(yùn)維模型

2021-08-26 09:31:40

Nacos配置注冊

2020-01-02 09:38:53

5G商用運(yùn)營商

2023-09-22 17:36:37

2021-01-28 22:31:33

分組密碼算法

2020-05-22 08:16:07

PONGPONXG-PON

2018-06-07 13:17:12

契約測試單元測試API測試

2023-01-09 08:48:00

IT決議結(jié)構(gòu)

2021-08-04 09:32:05

Typescript 技巧Partial

2021-01-29 08:32:21

數(shù)據(jù)結(jié)構(gòu)數(shù)組

2021-02-06 08:34:49

函數(shù)memoize文檔

2022-08-08 08:25:21

Javajar 文件

2022-11-01 08:46:20

責(zé)任鏈模式對象

2023-07-06 13:56:14

微軟Skype

2023-05-15 08:38:58

模板方法模式

2018-11-29 09:13:47

CPU中斷控制器

2020-10-15 06:56:51

MySQL排序

2019-02-13 14:15:59

Linux版本Fedora

2020-08-12 08:34:16

開發(fā)安全We
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美一区二区 | 国产在线视频三区 | 精品一区二区三区不卡 | 成人免费视频 | 毛片a| 成人av免费网站 | 成人在线视频网址 | 欧美日韩国产中文 | 99久久精品视频免费 | 在线观看www| www.蜜桃av| 亚洲高清在线 | 免费一级欧美在线观看视频 | 午夜精品一区二区三区在线观看 | 国产一级在线 | 国产福利91精品 | 7777在线视频免费播放 | 欧美福利| 在线视频 中文字幕 | 国产福利资源在线 | heyzo在线| 爱高潮www亚洲精品 中文字幕免费视频 | 亚洲精品视频免费观看 | 波多野结衣av中文字幕 | 日本午夜精品 | 伊人热久久 | 亚洲自拍一区在线观看 | 黄色免费在线观看网站 | 综合五月婷 | 国产精品久久久一区二区三区 | 国产精品日日摸夜夜添夜夜av | 最新午夜综合福利视频 | 亚洲精品福利视频 | 欧美极品在线 | 国产一区二区三区色淫影院 | 亚洲色图插插插 | av一区二区三区四区 | 男人天堂av网 | 九九天堂网 | 国产精品毛片 | 青青草社区 |