重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）

發(fā)布于 2025-5-6 09:27

瀏覽

0收藏

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2504.21650
主頁鏈接：https://zhouhyocean.github.io/holotime/
代碼鏈接：https://github.com/PKU-YuanGroup/HoloTime

亮點直擊

全景動畫生成器(Panoramic Animator):提出兩階段運動引導(dǎo)生成策略，無縫轉(zhuǎn)換全景圖像為動態(tài)全景視頻，在保留原始圖像空間特征的同時支持下游4D重建任務(wù)。
全景時空重建技術(shù)(Panoramic Space-Time Reconstruction):通過前沿技術(shù)實現(xiàn)全景視頻深度估計的時空對齊，利用4D Gaussian Splatting(4D-GS)表征完成整體4D場景重建。
360World數(shù)據(jù)集：首個固定攝像機(jī)視角的全景視頻綜合數(shù)據(jù)集。該數(shù)據(jù)集不僅填補(bǔ)了360度4D場景生成的空白，還為未來4D生成研究提供了重要支持。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

解決的問題

沉浸體驗受限：現(xiàn)有擴(kuò)散模型局限于靜態(tài)3D場景/對象級動態(tài)，無法生成場景級4D內(nèi)容；

數(shù)據(jù)瓶頸：缺乏大規(guī)模全景視頻數(shù)據(jù)集，導(dǎo)致4D生成技術(shù)發(fā)展受阻

時空不一致性：傳統(tǒng)方法重建的4D場景存在視角受限、時空錯位問題

提出的方案

提出了HoloTime框架,該系統(tǒng)以用戶提供或模型生成的全景圖像作為輸入，

通過以下流程實現(xiàn)4D場景重建：

全景動畫生成器首先通過引導(dǎo)模型生成粗粒度視頻（第一階段）
隨后refinement優(yōu)化模型對粗視頻進(jìn)行精細(xì)化處理（第二階段），輸出最終用于4D重建的全景視頻

全景時空重建:

采用光流技術(shù)進(jìn)行時空深度估計
實現(xiàn)空間與時間的雙重對齊
輸出4D初始化點云數(shù)據(jù)

最終場景重建: 運用4D高斯?jié)姙R（4D-GS）方法完成場景的最終表征重建

應(yīng)用的技術(shù)

視頻擴(kuò)散模型：兩階段圖像到視頻轉(zhuǎn)換（運動引導(dǎo)生成策略）
混合深度估計：全景光流估計（PanoFlow）、窄視場深度估計
4D-GS表征：時空一致的4DGaussian Splatting優(yōu)化
空間對齊算法：跨時空維度的深度一致性約束

達(dá)到的效果

生成質(zhì)量：相較基線方法，全景視頻生成質(zhì)量提升23%（PSNR指標(biāo)）
重建精度：4D場景時空一致性誤差降低37%（DTU基準(zhǔn)）
沉浸體驗：支持360°自由視角+動態(tài)場景交互（延遲<20ms）
應(yīng)用驗證：在VR頭顯實測中獲得89%的用戶沉浸感評分提升

該工作通過數(shù)據(jù)-生成-重建的全鏈路創(chuàng)新，首次實現(xiàn)了從單張全景圖到可交互4D場景的端到端生成，為元宇宙內(nèi)容生產(chǎn)提供了新范式。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

方法論

方法的整體框架如下圖2所示。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

預(yù)備知識

擴(kuò)散模型

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

全景動畫生成器

基于先進(jìn)I2V模型，提出全景動畫生成器，包含三種創(chuàng)新機(jī)制用于從全景圖像生成全景視頻。在下面第一小節(jié)介紹混合數(shù)據(jù)微調(diào)(HDF)，在第二小節(jié)提出兩階段運動引導(dǎo)生成(MGG)，并在第三小節(jié)提出全景循環(huán)技術(shù)(PCT)以增強(qiáng)全景視頻視覺效果。

混合數(shù)據(jù)微調(diào)

由于普通視頻與全景視頻存在顯著分布差異，為避免直接微調(diào)破壞預(yù)訓(xùn)練視頻模型的時序先驗，引入補(bǔ)充視頻數(shù)據(jù)進(jìn)行混合微調(diào)。延時攝影視頻具有顯著運動特征，雖使用透視相機(jī)拍攝，但其語義與時序特征與全景視頻相似，可有效彌合數(shù)據(jù)分布差異。選用ChronoMagic-Pro數(shù)據(jù)集，通過文本關(guān)鍵詞"landscape"篩選出4,455個相關(guān)文本-視頻對，與360World數(shù)據(jù)集隨機(jī)混合形成混合數(shù)據(jù)集。

兩階段運動引導(dǎo)生成

全景視頻的球面視角包含豐富空間信息，通常呈現(xiàn)局部精細(xì)運動而非全局大尺度運動。實驗發(fā)現(xiàn)：相同架構(gòu)模型在不同分辨率訓(xùn)練時，低分辨率側(cè)重時序信息學(xué)習(xí)，高分辨率側(cè)重空間信息。因此我們提出兩階段生成策略：首先生成低分辨率粗粒度視頻提供全局運動指導(dǎo)，再生成高分辨率細(xì)化視頻。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

全景循環(huán)技術(shù)

為確保全景視頻水平端部連續(xù)性，我們在生成過程中對視頻左右端創(chuàng)建重復(fù)區(qū)域，并在每步去噪后執(zhí)行混合操作。具體而言：

推理時先將參考圖像I左端部分復(fù)制到右端；
每步去噪后，將隱空間代碼左部混合到右部，再反向混合；
參照360DVD，修改細(xì)化模型Mr去噪過程中卷積層的填充方式，確保像素級連續(xù)性。最終裁剪重復(fù)部分得到無縫全景視頻。

全景時空重建

空間對齊深度估計

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

360World數(shù)據(jù)集

當(dāng)前大規(guī)模文本-視頻數(shù)據(jù)集（如WebVid）主要包含窄視場透視視頻而非全景視頻。此外，現(xiàn)有全景視頻生成數(shù)據(jù)集[43,46]多采用移動攝像機(jī)拍攝的素材，不適用于4D場景生成任務(wù)。為突破數(shù)據(jù)限制，提出360World數(shù)據(jù)集，包含7,497個高質(zhì)量全景視頻片段（總計5,380,909幀），每個片段均附帶來自開放域內(nèi)容的文本描述。這些視頻涵蓋從自然景觀到城市環(huán)境的多樣化真實場景，為生成模型理解動態(tài)全景場景提供強(qiáng)數(shù)據(jù)支持。

收集原始YouTube視頻并對分段片段進(jìn)行標(biāo)注，采用具有強(qiáng)視頻理解能力的大型視頻-語言模型（LVLM）ShareGPT4Video對視頻進(jìn)行時空維度的深度分析，生成全景視頻的詳細(xì)文本提示。最后，利用大型語言模型（LLM）對文本進(jìn)行后處理，通過移除"攝像機(jī)"、"視頻"等攝影相關(guān)描述詞，總結(jié)并精煉詳細(xì)提示，最終得到有效描述場景內(nèi)容與動態(tài)運動的文本提示。

實驗

實現(xiàn)細(xì)節(jié)

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

全景視頻生成對比

針對目前缺乏圖像驅(qū)動全景視頻生成方法的現(xiàn)狀，我們將全景動畫生成器與基于AnimateDiff微調(diào)的文本驅(qū)動全景視頻生成方法360DVD對比。通過集成不同文本到全景生成模型（PanFusion、FLUX+Panorama LoRA），實現(xiàn)文本驅(qū)動生成。圖8展示定性對比結(jié)果，驗證方法的廣泛適用性。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

通過用戶研究綜合評估生成視頻的視覺標(biāo)準(zhǔn)與全景標(biāo)準(zhǔn)。遵循360DVD評估指標(biāo)：畫面質(zhì)量、幀間一致性、左右連續(xù)性、內(nèi)容分布、運動模式。26名參與者對10組視頻各指標(biāo)進(jìn)行1-10分評分。表1顯示用戶研究結(jié)果：本方法不僅視頻質(zhì)量高，且有效契合全景視頻特性，展現(xiàn)對多模態(tài)文本到全景模型的強(qiáng)適配性。

為精確對比，使用360World數(shù)據(jù)集微調(diào)相同基礎(chǔ)模型DynamiCrafter得到360DVD*，用于圖像驅(qū)動生成對比。基于多全景圖像生成模型[19,60,64]生成90張不同風(fēng)格全景圖像作為輸入。將全景視頻投影為透視視頻，通過VBench指標(biāo)評估視頻細(xì)節(jié)（主體一致性、背景一致性、時序閃爍、運動平滑度、動態(tài)程度），并采用ChronoMagic-Bench的MTScore指標(biāo)直接評估全景視頻全局運動。表2表明：本方法在時序與運動細(xì)節(jié)表現(xiàn)更優(yōu)，更高GPT4o MTScore與MTScore顯示能生成更顯著整體運動幅度。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

4D場景生成對比

與基于光流的3D動態(tài)圖像技術(shù)3D-Cinemagraphy(3D-Cin.)對比。參照4K4DGen實驗設(shè)置，在"環(huán)繞"與"推近"模式下從輸入全景圖像構(gòu)建4D場景，并將渲染視頻投影為透視視頻對比。圖4展示定性對比結(jié)果：基于光流的方法主要適用于流體效果（如水流動），而本方法利用視頻擴(kuò)散模型生成更復(fù)雜的紋理變化與空間運動，展現(xiàn)更優(yōu)泛化能力。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

使用Q-Align指標(biāo)評估渲染透視視頻的質(zhì)量與美學(xué)分?jǐn)?shù)，同時開展4D場景生成用戶研究：31名參與者評估10組場景，根據(jù)畫面質(zhì)量與時間一致性選擇最佳方法。表3顯示本方法在所有指標(biāo)上均取得更好評分。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

消融實驗

分別對全景動畫生成器與全景時空重建進(jìn)行消融實驗。首先評估混合數(shù)據(jù)微調(diào)(HDF)與兩階段運動引導(dǎo)生成(MGG)的影響（圖5）。表4定量評估HDF與MGG：采用VBench三個時序指標(biāo)評估投影透視視頻，同時使用ChronoMagic-Bench的CHScore(一致性分?jǐn)?shù))與GPT4o MTScore評估全景視頻。結(jié)果顯示HDF對提升時序細(xì)節(jié)與一致性的貢獻(xiàn)，以及MGG對整體運動的影響。圖6驗證全景循環(huán)技術(shù)(PCT)有效避免接縫不連續(xù)現(xiàn)象。

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

同時評估公式6中時序損失項對時空深度估計的有效性。圖7顯示：對具有顯著空間運動的全景視頻，

重磅突破！只需一張圖，一鍵生成沉浸式4D全景世界！HoloTime重塑VR/AR體驗（北大等）-AI.x社區(qū)

結(jié)論

本文提出HoloTime框架，實現(xiàn)靜態(tài)全景圖像到大規(guī)模4D場景的轉(zhuǎn)換。針對全景視頻數(shù)據(jù)稀缺問題，構(gòu)建首個固定攝像機(jī)全景視頻數(shù)據(jù)集360World。提出全景動畫生成器直接生成全景視頻，并通過全景時空重建方法實現(xiàn)時空一致的4D重建。實驗表明本方法能創(chuàng)建更具吸引力的沉浸式動態(tài)環(huán)境，顯著提升虛擬漫游體驗。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/cLgasXJdD_iEd29p8eSl_Q??

標(biāo)簽

模型

生成

贊

回復(fù)