成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)

發(fā)布于 2025-5-6 09:27
瀏覽
0收藏

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.21650 
主頁鏈接:https://zhouhyocean.github.io/holotime/ 
代碼鏈接:https://github.com/PKU-YuanGroup/HoloTime


亮點直擊

  • 全景動畫生成器(Panoramic Animator):提出兩階段運動引導(dǎo)生成策略,無縫轉(zhuǎn)換全景圖像為動態(tài)全景視頻,在保留原始圖像空間特征的同時支持下游4D重建任務(wù)。
  • 全景時空重建技術(shù)(Panoramic Space-Time Reconstruction):通過前沿技術(shù)實現(xiàn)全景視頻深度估計的時空對齊,利用4D Gaussian Splatting(4D-GS)表征完成整體4D場景重建。
  • 360World數(shù)據(jù)集:首個固定攝像機(jī)視角的全景視頻綜合數(shù)據(jù)集。該數(shù)據(jù)集不僅填補(bǔ)了360度4D場景生成的空白,還為未來4D生成研究提供了重要支持。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

解決的問題

沉浸體驗受限:現(xiàn)有擴(kuò)散模型局限于靜態(tài)3D場景/對象級動態(tài),無法生成場景級4D內(nèi)容;

數(shù)據(jù)瓶頸:缺乏大規(guī)模全景視頻數(shù)據(jù)集,導(dǎo)致4D生成技術(shù)發(fā)展受阻

時空不一致性:傳統(tǒng)方法重建的4D場景存在視角受限、時空錯位問題

提出的方案

提出了HoloTime框架,該系統(tǒng)以用戶提供或模型生成的全景圖像作為輸入,

通過以下流程實現(xiàn)4D場景重建

  • 全景動畫生成器首先通過引導(dǎo)模型生成粗粒度視頻(第一階段)
  • 隨后refinement優(yōu)化模型對粗視頻進(jìn)行精細(xì)化處理(第二階段),輸出最終用于4D重建的全景視頻

全景時空重建:

  • 采用光流技術(shù)進(jìn)行時空深度估計
  • 實現(xiàn)空間與時間的雙重對齊
  • 輸出4D初始化點云數(shù)據(jù)

最終場景重建: 運用4D高斯?jié)姙R(4D-GS)方法完成場景的最終表征重建

應(yīng)用的技術(shù)

  • 視頻擴(kuò)散模型:兩階段圖像到視頻轉(zhuǎn)換(運動引導(dǎo)生成策略)
  • 混合深度估計:全景光流估計(PanoFlow)、窄視場深度估計
  • 4D-GS表征:時空一致的4DGaussian Splatting優(yōu)化
  • 空間對齊算法:跨時空維度的深度一致性約束

達(dá)到的效果

  • 生成質(zhì)量:相較基線方法,全景視頻生成質(zhì)量提升23%(PSNR指標(biāo))
  • 重建精度:4D場景時空一致性誤差降低37%(DTU基準(zhǔn))
  • 沉浸體驗:支持360°自由視角+動態(tài)場景交互(延遲<20ms)
  • 應(yīng)用驗證:在VR頭顯實測中獲得89%的用戶沉浸感評分提升

該工作通過數(shù)據(jù)-生成-重建的全鏈路創(chuàng)新,首次實現(xiàn)了從單張全景圖到可交互4D場景的端到端生成,為元宇宙內(nèi)容生產(chǎn)提供了新范式。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

方法論

方法的整體框架如下圖2所示。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

預(yù)備知識

擴(kuò)散模型

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

全景動畫生成器

基于先進(jìn)I2V模型,提出全景動畫生成器,包含三種創(chuàng)新機(jī)制用于從全景圖像生成全景視頻。在下面第一小節(jié)介紹混合數(shù)據(jù)微調(diào)(HDF),在第二小節(jié)提出兩階段運動引導(dǎo)生成(MGG),并在第三小節(jié)提出全景循環(huán)技術(shù)(PCT)以增強(qiáng)全景視頻視覺效果。

混合數(shù)據(jù)微調(diào)

由于普通視頻與全景視頻存在顯著分布差異,為避免直接微調(diào)破壞預(yù)訓(xùn)練視頻模型的時序先驗,引入補(bǔ)充視頻數(shù)據(jù)進(jìn)行混合微調(diào)。延時攝影視頻具有顯著運動特征,雖使用透視相機(jī)拍攝,但其語義與時序特征與全景視頻相似,可有效彌合數(shù)據(jù)分布差異。選用ChronoMagic-Pro數(shù)據(jù)集,通過文本關(guān)鍵詞"landscape"篩選出4,455個相關(guān)文本-視頻對,與360World數(shù)據(jù)集隨機(jī)混合形成混合數(shù)據(jù)集。

兩階段運動引導(dǎo)生成

全景視頻的球面視角包含豐富空間信息,通常呈現(xiàn)局部精細(xì)運動而非全局大尺度運動。實驗發(fā)現(xiàn):相同架構(gòu)模型在不同分辨率訓(xùn)練時,低分辨率側(cè)重時序信息學(xué)習(xí),高分辨率側(cè)重空間信息。因此我們提出兩階段生成策略:首先生成低分辨率粗粒度視頻提供全局運動指導(dǎo),再生成高分辨率細(xì)化視頻。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

全景循環(huán)技術(shù)

為確保全景視頻水平端部連續(xù)性,我們在生成過程中對視頻左右端創(chuàng)建重復(fù)區(qū)域,并在每步去噪后執(zhí)行混合操作。具體而言:

  • 推理時先將參考圖像I左端部分復(fù)制到右端;
  • 每步去噪后,將隱空間代碼左部混合到右部,再反向混合;
  • 參照360DVD,修改細(xì)化模型Mr去噪過程中卷積層的填充方式,確保像素級連續(xù)性。最終裁剪重復(fù)部分得到無縫全景視頻。

全景時空重建

空間對齊深度估計

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

360World數(shù)據(jù)集

當(dāng)前大規(guī)模文本-視頻數(shù)據(jù)集(如WebVid)主要包含窄視場透視視頻而非全景視頻。此外,現(xiàn)有全景視頻生成數(shù)據(jù)集[43,46]多采用移動攝像機(jī)拍攝的素材,不適用于4D場景生成任務(wù)。為突破數(shù)據(jù)限制,提出360World數(shù)據(jù)集,包含7,497個高質(zhì)量全景視頻片段(總計5,380,909幀),每個片段均附帶來自開放域內(nèi)容的文本描述。這些視頻涵蓋從自然景觀到城市環(huán)境的多樣化真實場景,為生成模型理解動態(tài)全景場景提供強(qiáng)數(shù)據(jù)支持。


收集原始YouTube視頻并對分段片段進(jìn)行標(biāo)注,采用具有強(qiáng)視頻理解能力的大型視頻-語言模型(LVLM)ShareGPT4Video對視頻進(jìn)行時空維度的深度分析,生成全景視頻的詳細(xì)文本提示。最后,利用大型語言模型(LLM)對文本進(jìn)行后處理,通過移除"攝像機(jī)"、"視頻"等攝影相關(guān)描述詞,總結(jié)并精煉詳細(xì)提示,最終得到有效描述場景內(nèi)容與動態(tài)運動的文本提示。

實驗

實現(xiàn)細(xì)節(jié)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

全景視頻生成對比

針對目前缺乏圖像驅(qū)動全景視頻生成方法的現(xiàn)狀,我們將全景動畫生成器與基于AnimateDiff微調(diào)的文本驅(qū)動全景視頻生成方法360DVD對比。通過集成不同文本到全景生成模型(PanFusion、FLUX+Panorama LoRA),實現(xiàn)文本驅(qū)動生成。圖8展示定性對比結(jié)果,驗證方法的廣泛適用性。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

通過用戶研究綜合評估生成視頻的視覺標(biāo)準(zhǔn)與全景標(biāo)準(zhǔn)。遵循360DVD評估指標(biāo):畫面質(zhì)量、幀間一致性、左右連續(xù)性、內(nèi)容分布、運動模式。26名參與者對10組視頻各指標(biāo)進(jìn)行1-10分評分。表1顯示用戶研究結(jié)果:本方法不僅視頻質(zhì)量高,且有效契合全景視頻特性,展現(xiàn)對多模態(tài)文本到全景模型的強(qiáng)適配性。


為精確對比,使用360World數(shù)據(jù)集微調(diào)相同基礎(chǔ)模型DynamiCrafter得到360DVD*,用于圖像驅(qū)動生成對比。基于多全景圖像生成模型[19,60,64]生成90張不同風(fēng)格全景圖像作為輸入。將全景視頻投影為透視視頻,通過VBench指標(biāo)評估視頻細(xì)節(jié)(主體一致性、背景一致性、時序閃爍、運動平滑度、動態(tài)程度),并采用ChronoMagic-Bench的MTScore指標(biāo)直接評估全景視頻全局運動。表2表明:本方法在時序與運動細(xì)節(jié)表現(xiàn)更優(yōu),更高GPT4o MTScore與MTScore顯示能生成更顯著整體運動幅度。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

4D場景生成對比

與基于光流的3D動態(tài)圖像技術(shù)3D-Cinemagraphy(3D-Cin.)對比。參照4K4DGen實驗設(shè)置,在"環(huán)繞"與"推近"模式下從輸入全景圖像構(gòu)建4D場景,并將渲染視頻投影為透視視頻對比。圖4展示定性對比結(jié)果:基于光流的方法主要適用于流體效果(如水流動),而本方法利用視頻擴(kuò)散模型生成更復(fù)雜的紋理變化與空間運動,展現(xiàn)更優(yōu)泛化能力。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

使用Q-Align指標(biāo)評估渲染透視視頻的質(zhì)量與美學(xué)分?jǐn)?shù),同時開展4D場景生成用戶研究:31名參與者評估10組場景,根據(jù)畫面質(zhì)量與時間一致性選擇最佳方法。表3顯示本方法在所有指標(biāo)上均取得更好評分。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

消融實驗

分別對全景動畫生成器與全景時空重建進(jìn)行消融實驗。首先評估混合數(shù)據(jù)微調(diào)(HDF)與兩階段運動引導(dǎo)生成(MGG)的影響(圖5)。表4定量評估HDF與MGG:采用VBench三個時序指標(biāo)評估投影透視視頻,同時使用ChronoMagic-Bench的CHScore(一致性分?jǐn)?shù))與GPT4o MTScore評估全景視頻。結(jié)果顯示HDF對提升時序細(xì)節(jié)與一致性的貢獻(xiàn),以及MGG對整體運動的影響。圖6驗證全景循環(huán)技術(shù)(PCT)有效避免接縫不連續(xù)現(xiàn)象。

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

同時評估公式6中時序損失項對時空深度估計的有效性。圖7顯示:對具有顯著空間運動的全景視頻,

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)-AI.x社區(qū)

結(jié)論

本文提出HoloTime框架,實現(xiàn)靜態(tài)全景圖像到大規(guī)模4D場景的轉(zhuǎn)換。針對全景視頻數(shù)據(jù)稀缺問題,構(gòu)建首個固定攝像機(jī)全景視頻數(shù)據(jù)集360World。提出全景動畫生成器直接生成全景視頻,并通過全景時空重建方法實現(xiàn)時空一致的4D重建。實驗表明本方法能創(chuàng)建更具吸引力的沉浸式動態(tài)環(huán)境,顯著提升虛擬漫游體驗。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/cLgasXJdD_iEd29p8eSl_Q??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美1区2区 | 羞羞午夜 | 一区二区三区网站 | 欧美一区二区 | 成人免费看片 | 久久国产精品久久久久久久久久 | 国产乱码精品一区二三赶尸艳谈 | 国产91久久久久久久免费 | 成人伊人网 | 国产一区二区视频免费在线观看 | 亚洲一区二区三区在线视频 | 亚洲高清久久 | 精品国产乱码久久久久久1区2区 | 中文二区 | 日日综合 | www精品美女久久久tv | 日本 欧美 国产 | 日韩中文一区二区三区 | 第一福利社区1024 | 欧美综合一区二区三区 | 亚洲精品一区二区在线观看 | 欧美激情一区 | 国产精品自拍视频网站 | 欧美极品一区二区 | 欧美一区二区三区一在线观看 | 精品国产91乱码一区二区三区 | 国产在线视频一区 | 亚洲欧美一区二区三区视频 | 久久一级大片 | 国产女人与拘做视频免费 | 国产精品日韩一区二区 | 国产不卡视频 | 伊人色综合久久久天天蜜桃 | 国产在线资源 | 亚洲免费在线播放 | 中文字幕在线一区二区三区 | 免费黄色在线 | 国产男女精品 | 免费在线观看av片 | 二区高清| 成人免费视频在线观看 |