轉身世界就變樣?WorldMem用記憶讓AI生成的世界擁有了一致性
本文一作為肖澤琪,本科畢業于浙江大學,現為南洋理工大學博士生,研究方向是基于視頻生成模型的世界生成和模擬,導師為潘新鋼。個人主頁:
https://xizaoqu.github.io
近年來,基于視頻生成模型的可交互世界生成引發了廣泛關注。盡管現有方法在生成質量和交互能力上取得了顯著進展,但由于上下文時間窗口受限,生成的世界在長時序下嚴重缺乏一致性。
針對這一問題,南洋理工大學 S-Lab、北京大學與上海 AI Lab 的研究者提出了創新性的世界生成模型——WorldMem,通過引入記憶機制,實現了長時序一致的世界生成。
WorldMem 在 Minecraft 數據集上進行了大規模訓練,支持在多樣化場景中自由探索和動態變化,并在真實數據集上驗證了方法的可行性。
- 論文名稱:WorldMem: Long-term Consistent World Simulation with Memory
- 項目主頁: https://xizaoqu.github.io/worldmem
- 論文代碼:https://github.com/xizaoqu/WorldMem
- Demo:https://huggingface.co/spaces/yslan/worldmem
研究背景
世界生成模型在近期受到了廣泛關注,如谷歌的 Genie 2 [1]、阿里的 The Matrix [2]、Meta 的 Navigation World Models [4] 等。這些方法在生成質量與交互性方面取得了顯著進展,但長時一致性問題仍未得到有效解決。
舉例:當我們控制視角先向右轉,再向左轉。
在傳統方法中,回看時場景內容會發生顯著變化。
在 WorldMem 中,我們在世界生成模型中引入記憶機制,實現了一致的世界生成。
方法效果
WorldMem 通過引入記憶機制,實現了長時序下世界生成的一致性。智能體可在廣闊的動作空間中探索多樣場景,生成結果在視角和位置變化后仍保持良好的幾何一致性。
同時,WorldMem 還支持時間一致性建模。比如在雪地中放置南瓜燈,隨著時間推移,模型不僅保留該物體,還能生成其逐漸融化周圍積雪的細節,體現真實的事件演化過程。
方法
WorldMem 模型的主要結構如下圖所示,包含三大核心模塊:
- 條件生成模塊
- 記憶讀寫模塊
- 記憶融合模塊
條件生成模塊——支持交互與持續生成的條件視頻生成主干
我們基于 Oasis [5] 和 Conditional DiT [6] 構建了世界生成基模型,并采用 Diffusion Forcing [3] 訓練策略,使模型能在有限上下文下實現自回歸式長時生成。
盡管擴散模型結合自回歸訓練具備一定的長時生成能力,但仍受限于上下文窗口,易出現遺忘問題,導致生成內容逐漸失真。為此,我們引入記憶機制,以增強模型的長期一致性。
記憶讀寫模塊——負責歷史信息的存取與精準檢索
- 記憶庫(Memory Bank):構建生成的長期記憶
為緩解上下文窗口帶來的遺忘問題,我們引入了記憶機制,作為一個持續更新的外部緩沖區,幫助模型回顧過去,保持場景在時間上的連續性。
我們設計的記憶庫用于存儲生成過程中的關鍵歷史信息。每個記憶單元包含圖像幀及其對應的狀態(視角位姿與時間戳)。隨著生成推進,記憶庫不斷積累,構建起一套可檢索的時間記錄。
- 記憶檢索(Memory Retrieve):高效選出最相關的歷史幀
由于每次生成僅能參考少量歷史幀,我們設計了一種貪心匹配算法,從龐大的記憶庫中高效篩選關鍵信息:
- 計算相似度(基于視野重疊與時間差異);
- 選取與當前場景最接近的記憶單元;
- 過濾冗余,確保選出的記憶代表性強、信息多樣。
這一過程不僅提升了生成效率,也保障了歷史信息的有效利用。
記憶融合模塊——融合關鍵歷史幀,引導當前生成
在長時序視頻生成中,僅依賴當前幀難以維持場景一致性。我們引入記憶融合模塊,通過融合關鍵歷史幀,引導當前生成,使模型在視角或場景變化后,仍能還原先前內容。
不同于 StreamingT2V [7]、SlowFast [8] 等方法主要依賴高層語義特征,我們更關注細節重建與空間一致性,因此需要更精細的歷史關聯機制。
- Memory Attention:連接過去與現在
我們采用跨注意力機制,實現當前幀與歷史幀的動態交互:
- 為當前幀和記憶幀添加狀態嵌入(位姿 + 時間);
- 通過注意力計算,提取與當前場景最相關的記憶信息,生成融合特征用于引導生成。
這種方式實現了歷史信息的高效利用與精準檢索,顯著增強生成的一致性。
- 狀態嵌入設計:精細表達空間與時間
為提升融合效果,我們設計了兩類嵌入:
- 位姿嵌入:采用 Plücker 坐標表達空間位置;
- 時間嵌入:使用 MLP 映射時間戳。
二者相加構成最終狀態特征。此外,我們引入相對嵌入機制:
- 查詢幀使用零向量,僅依賴記憶幀的相對狀態;
- 并采用幀獨立檢索策略,確保每幀都能單獨提取最相關歷史信息。
整體上,記憶融合模塊顯著提升了模型的空間理解與細節保持能力,是實現穩定、連貫世界生成的關鍵組成部分。
實驗
在 Minecraft 上的結果
我們在 Minecraft 基準測試中評估了所提方法,結果顯示:
- 在短時生成中,傳統方法易出現一致性問題,而引入記憶機制后,生成質量與一致性明顯提升;
- 在長時推理中,傳統方法性能顯著下降,而我們的方法在各項指標上保持優勢,展現出良好的長期穩定性。
- 長時序生成對比
下圖展示了不同消融設置下,模型在 300 幀序列上的 PSNR 變化。結果表明:
- 缺少記憶模塊或采用隨機檢索的方法,在短時間內即出現一致性下降;
- 缺少相對位置編碼的模型,在 100 幀后性能明顯退化;
- 完整方法在 300 幀以上仍保持穩定一致性,展現出優越的長期建模能力。
- 可視化結果
與仿真數據(Ground Truth)相比,WorldMem 能夠基于記憶條件輸入,準確建模世界場景,同時支持動態變化(如降雨),并保持良好的時間一致性。
WorldMem 支持與生成世界的交互,例如在沙漠中放置干草堆或在草原上種植作物。這些事件會被寫入記憶庫,并影響后續生成。當用戶回到曾種植作物的位置時,不僅能看到作物仍在,還能觀察其從發芽到生長的過程,體現出模型對時間動態的建模能力。
- 在真實場景上的結果
我們同時也將我們的方法在真實場景數據上做了驗證,結果顯示,加入記憶機制后,我們的方法能夠增強真實世界生成的一致性。
更多定制軌跡的結果:
更多細節請參考我們的論文與項目主頁。
展望
近年來,視頻生成模型(如 WAN 2.1 [9]、Hunyuan [10] 等)展現出驚人的世界生成與仿真能力,驗證了其在理解與生成復雜環境中的潛力。
我們相信,未來交互式視頻生成模型將在虛擬仿真、交互智能等領域發揮越來越重要的作用。
WorldMem 為世界一致性建模邁出了關鍵一步,隨著技術發展,視頻生成模型有望成為構建真實、持久、交互式虛擬世界的核心引擎。