像Sora一樣,用物理模擬方式生成視頻
麻省理工學院、斯坦福大學、哥倫比亞大學、康奈爾大學的研究人員聯合開源了創新3D交互視頻模型——PhysDreamer(簡稱“PD”)。PD和OpenAI的Sora一樣,是一個可以通過物理模擬的方式來生成視頻。也就是說,PD的視頻具備很多物理世界的特征。例如,用手去觸摸一盆花后,花朵會左右搖擺直至緩慢停止。PD可以準確地捕捉到物體很多微妙的動態變化和復雜的交互細節,生成的視頻也就更加精準、細膩。
PD案例展示
PD主要通過視頻生成模型學習到的動態先驗知識,來評估靜態3D對象的物理材質屬性。在大量視頻訓練數據的幫助下,可捕捉到物體外觀和動態之間的關系。
從而幫助PD推斷出驅動物體動態行為的物理材質屬性,即使在缺乏地面真實材質數據的情況下也沒問題,這也體現了PD強大的物理模擬和評估能力。
視頻生成模型是PD的核心模塊之一,通過學習大量視頻數據中的場景外觀和動力學關系,為后續的物理材質模擬,以及交互式3D動力合成提供了重要的基礎知識。
視頻生成模型主要是通過深度神經網絡來建模視頻幀之間的時空依賴關系,由編碼器和解碼器組成。編碼器負責將輸入視頻幀編碼為低維表示,捕捉到圖像中的關鍵特征。
解碼器則將這些低維表示解碼為逼真的視頻幀。通過訓練過程,視頻生成模型能夠學習到輸入視頻幀與目標視頻幀之間的映射關系,從而實現逐幀的視頻生成。主要流程分為以下四大塊。
外觀建模:主要用來學習物體的外觀變化模式,通過觀察大量的視頻數據,使PD能夠捕捉到物體的紋理、顏色、形狀等特征,并將它們編碼為低維表示。這些編碼后的表示可以用于后續的物理材料特性估計和3D動力學合成。
動力學建模:通過觀察物體在視頻中的運動軌跡,模型能夠捕捉到物體的速度、加速度以及其他動力學特征。
先驗知識提?。?/strong>通過分析編碼后的表示和解碼后的視頻幀,模型能夠提取出物體外觀和動力學之間的關系,包括外部力對物體的影響、物體的彈性等特征,為后續的物理材質模擬提供重要基礎。
物體響應預測:可根據輸入的交互刺激,預測物體的響應。通過將交互刺激與學到的外觀和動力學模式結合起來,模型能夠生成物體在新穎交互下的運動軌跡和形變情況。
使得PD生成的視頻能夠根據用戶的輸入,預測出靜態3D物體在特定交互刺激下的逼真動態響應。
在現實世界中,物體的物理行為由其材質屬性決定,例如,剛度、彈性和質量等。而在虛擬環境中模擬這些屬性時,會使用“楊氏模量”來進行評估和調整,例如,一個高楊氏模量意味著材料更堅硬,低則是更軟。
PD為了復現現實世界中的物理知識,使用了材質場表示來實現對3D對象物理屬性的逼真模擬。材質場是一個連續的函數,為3D場景中的每個點分配了一個“楊氏模量”物理屬性值。
物理材質場是通過隱式神經場來表示,這是一種可微分的模型,可以優化以匹配參考視頻中的動態。這種表示方法不僅能夠精確地捕捉物體的物理屬性,還能夠與物理模擬過程無縫集成。
例如,當用戶在虛擬環境中擠壓一朵虛擬花朵時,花朵的變形和回彈方式會非常接近真實世界的表現。
尤其是在緩慢運動表征方面,PD模型比DreamGaussian4D、PhysGaussian、Real Capture模型表現更好。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
