打破次元壁!港大和達摩院聯合發布頭號玩家PlayerOne模型:世界首款“自我中心”模擬器!
香港大學和阿里達摩院聯合提出頭號玩家(PlayerOne)模型,該方法可以根據用戶提供的圖像構建一個支持用戶自由動作控制且場景一致的真實世界,通過攝像設備實時捕捉用戶的動作序列,PlayerOne能夠將這些動態信息無縫融入到構建的虛擬世界中,使用戶能夠以第一人稱視角,在如同頂級AAA游戲般的高質量場景中,自由地進行探索與互動。
● 論文標題:PlayerOne: EgocentricWorld Simulator
● 項目主頁:??https://playerone-hku.github.io/??
● 論文鏈接:??https://arxiv.org/abs/2506.09995??
● 視頻介紹:https://www.youtube.com/watch?v=OyvDTCIMYXU
效果展示
論文首先展示了PlayerOne模擬的視頻結果,如下所示,提出的算法可以準確的根據人物的動作生成對應場景一致的模擬視頻,同時和周邊環境有著良好的交互,方法的應用場景同時包含現實場景和游戲場景。該方法具有較強的應用前景,比如沉浸式社交:用戶通過第一視角探索虛擬世界,動作(如手勢、頭部轉動)實時驅動虛擬角色,增強交互自然性,同時相比傳統VR預渲染場景,方法支持無限制動作控制(如自由行走、抓取物體),提升沉浸感,有著動態場景一致性。
以上所有的人物動作視頻為了方便理解,均以前置相機拍攝(即模擬視頻中左手與拍攝的動作視頻中左側的手部動作對應)
方法介紹
動機
通過彌補預測建模與交互式現實主義之間的差距,世界模擬器正成為下一代自主系統和游戲引擎的關鍵基礎設施,尤其在需要實時適應復雜、動態交互的場景中。盡管取得了顯著進展,但這一方向在現有研究中仍未得到充分探索。先前研究主要聚焦于游戲化環境中的模擬,未能復現現實場景。此外,在模擬環境中,用戶僅能執行預設動作(即方向性移動)。受限于構建的世界框架,無法實現如現實場景中的無限制移動。盡管已有初步嘗試致力于現實世界模擬,但其主要貢獻在于世界一致性生成,而非人類動作控制。因此,用戶在環境中被動地充當旁觀者,而非積極參與者。這一限制顯著影響用戶體驗,因為它阻礙了用戶與模擬環境之間建立真實連接。面對這些挑戰,論文旨在設計一個以第一人稱視角的世界基礎框架,使用戶能夠成為自由探索的冒險者。基于用戶提供的第一人稱視角的圖像,該框架可讓用戶通過外視角攝像頭實時捕捉的無限制的人體動作,在模擬的世界中進行自由的移動。
算法整體框架基于DiT模型,模型的輸入輸出如下: 輸入:1. 第一幀圖像(First Frame):用戶提供的初始場景圖像(第一視角,如佩戴頭顯視角拍攝的廚房、駕駛座等)。 2. 人體動作序列(Human Motion Sequence):通過外視角攝像頭捕捉的真實人體動作(如頭部轉動、手部抓取、腿部移動),以 SMPL-X 參數或 2D/3D 關鍵點形式表示。 輸出:生成的模擬視頻(Simulated Video):動態視頻,嚴格對齊輸入動作序列,保持場景幾何一致性(如物體遮擋關系、光照變化隨視角調整)。
具體而言,方法首先將第一人稱視角圖像轉換為視覺token。同時人物動作序列被劃分為多個組,并分別輸入到動作編碼器中以生成部件級動作潛在編碼,其中頭部參數被轉換為僅旋轉的攝像機序列。該攝像機序列隨后通過攝像機編碼器進行編碼,其輸出被注入到帶噪聲的視頻潛伏向量中以改善視角變化對齊。接下來,論文使用原始的視頻渲染一個4D 場景點云序列,該序列隨后通過帶適配器的點云編碼器處理以生成場景潛在編碼。然后論文將這些潛在編碼的拼接輸入到 DiT 模型中,并對視頻和場景潛在編碼同時進行噪聲添加和去噪處理,以確保世界一致的生成。最后,通過VAE解碼器對去噪后的潛變量進行解碼以生成最終結果。需注意,推理僅需第一幀和人體動作序列。
核心模塊與流程
部件解構的動作注入模塊
先前研究通常將攝像機軌跡用作動作條件,或僅限于特定方向的動作。這些限制使用戶只能扮演被動的“觀察者”角色,阻礙了有意義的用戶交互。相比之下,論文的方法通過采用現實世界中的人體動作序列(即人體姿態或關鍵點)作為動作條件,使用戶能夠成為積極的“參與者”,從而實現更自然且不受限制的動作。然而,論文的實證分析表明,從人體動作參數中整體提取潛在表示會增加精確動作對齊的復雜性。為解決這一挑戰,論文提出了一種部分解耦的動作注入策略,該策略認識到身體各部分的不同作用。具體而言,手部動作對于與環境中的物體互動至關重要,而頭部在維持第一人稱視角的視角對齊方面發揮著關鍵作用。因此,論文將人體動作參數分為三類:軀干與雙腳、雙手和頭部。每類參數均通過專屬的動作編碼器進行處理,該編碼器由八層3D卷積網絡組成,以提取相關潛在特征。這種專用處理確保了準確且同步的動作對齊。這些潛在特征隨后沿通道維度進行拼接,形成最終的部件感知動作潛在表示。為了進一步增強第一人稱視角對齊,論文僅將人體動作序列中的頭部參數轉換為僅包含旋轉值的相機外參序列。論文清零相機外參中的平移值,同時假設頭部參數位于相機坐標系的原點。
場景幀共同重建
雖然上述模塊能夠實現對第一人稱視角和動作的精確控制,但它并不能保證生成的世界中場景的一致性。為了解決這一限制,論文提出了一個聯合重建框架,該框架同時建模4D場景和視頻幀,確保視頻全程的場景一致性和連續性。具體而言,該框架首先利用CUT3R基于原始的視頻數據為每個幀生成點云圖,并通過第1幀至第n幀的信息重建第n幀的點云圖。隨后,這些點云圖通過專用點云編碼器壓縮為潛在表示。為將這些潛在表示與視頻特征集成,論文使用一個適配器將點云圖潛在表示與視頻潛在表示對齊,并將其投影到共享的潛在空間中,從而實現動作數據與環境數據的無縫融合。最后,論文將第一幀的潛在表示、人體動作序列、噪聲視頻潛在表示以及對應的噪聲點云圖潛在表示進行拼接。該綜合輸入隨后被輸入到擴散變換器中進行去噪,從而生成一個連貫且視覺一致的世界。重要的是,點圖僅在訓練階段需要。在推理階段,系統通過僅使用第一幀和對應的人體動作序列來生成與世界一致的視頻,從而簡化了過程。這種簡化的方法提高了生成效率,同時確保生成的環境在整個視頻中保持穩定和現實。
數據集構造
任務的理想訓練樣本是第一人稱視角視頻與對應的動作序列配對。然而,目前公開可用的數據集庫中尚不存在此類數據集。作為替代方案,論文通過從現有第一人稱-第三人稱視角視頻數據集中提取這些數據對。具體而言,對于每個同步的第一人稱-第三人稱視角視頻對,論文首先使用SAM2在第三人稱視角中檢測最大的人體。隨后,對背景去除后的第三人稱視角視頻使用SMPLest-X處理,提取識別個體的SMPL參數作為人體動作數據。為提升優化穩定性,引入L2正則化先驗。接著,通過評估2D重投影一致性過濾掉低質量SMPL數據。這包括使用SMPLX從SMPL參數生成3D網格,使用相應的相機參數將3D關節投影到2D圖像平面,并通過OpenPose提取2D關鍵點。重投影誤差通過測量SMPL投影的2D關鍵點與OpenPose檢測的關鍵點之間的距離來計算。將重投影誤差位于前10%的數據對排除在外,確保最終數據集包含高質量的動作-視頻對。精煉后的SMPL參數被分解為身體和腳部(66維)、頭部方向(3維)以及手部關節(每只手45維)組件,每個幀均包含這些組件。這些組件被輸入到各自的動作編碼器中。數據集構建流程如上圖所示。
訓練策略
盡管可以通過上述流程提取高質量的動作-視頻訓練數據,但該數據集的規模有限,不足以訓練視頻生成模型以生成高質量的自我中心視頻。為解決此問題,論文利用了大規模的自我中心文本-視頻數據集(即 Egovid-5M)。具體而言,論文首先使用LoRA在大型第一人稱視角文本-視頻數據對上對基線模型進行微調,實現粗粒度動作對齊的第一人稱視角視頻生成。隨后,論文凍結已訓練的LoRA,并使用構建的高質量數據集對模型最后六個塊進行微調,以提升精細的人體動作對齊和視角不變的場景建模能力,這可有效解決成對數據匱乏的問題。最后,論文采用已有論文的不對稱蒸餾策略,通過雙向教師模型監督因果學生模型,實現實時生成和長時視頻合成。
實驗結果
對于不同訓練策略的消融對比
論文首先評估了提出的由粗到細的訓練方案的幾個變體,如視頻所示,當將動作描述輸入到基線模型中而未進行微調時,生成的結果會出現明顯的缺陷,例如手部變形或意外出現的人員。類似的問題在僅使用動作-視頻對進行訓練時也能觀察到。論文還探索了同時使用大規模第一人稱視角視頻和動作-視頻對進行聯合訓練。具體而言,當輸入第一人稱視角視頻時,把動作潛在編碼設置為零,并提取文本描述的潛在值作為動作條件,同時采用平衡采樣策略。盡管該變體能夠生成第一人稱視角視頻,但其生成的結果與給定的人體動作條件無法準確對齊。相比之下,提出的由粗到細的訓練方案相較于這些變體能產生明顯更優的結果。
對于部件解構的動作注入模塊的消融對比
接下來,論文對解構模塊進行了詳細分析。具體而言,包含三種變體:基于ControlNet的動作注入、將動作序列作為統一實體輸入(“耦合”方案)以及移除論文的攝像頭編碼器。基于ControlNet的方案存在信息丟失問題,導致其無法生成與指定動作條件準確對齊的結果。同樣,糾纏方案也表現出類似的缺陷。此外,移除攝像頭編碼器導致模型無法生成視角準確的對齊結果。該變體無法產生與下蹲動作對應的視角變化。最終,提出的解構模塊成功生成既視角對齊又動作對齊的結果。
對于不同重建方式的消融對比
論文對重建模塊進行了詳細分析,探索了三種變體:省略重建、移除SR模塊內的適配器,以及用DUStR替換CUT3R進行點云渲染。如圖所示省略重建導致模型無法生成一致的模擬結果。此外,由于幀的潛在變量與點圖之間的分布差異,在不使用適配器的情況下進行訓練會導致損失收斂困難,從而產生明顯的失真。此外,在用DUStR替換CUT3R后,算法也能生成與場景一致的輸出,這表明其對不同的點云渲染技術具有魯棒性。
與其他方法的對比
由于沒有與該人物設置相同的其他方法,論文選擇了兩個潛在的競爭對手進行比較:Cosmos 和 Aether。 如下方展示的樣例所示(從左到右分別是PlayerOne,Cosmos-7B, Cosmos-14B, Aether),提出的方法相比于已有的方法在場景一致性以及環境交互角度有著較為明顯的優勢。
未來展望
與傳統模型僅限于特定游戲場景或動作不同,PlayerOne 能夠捕捉一般世界環境的復雜動態,并實現模擬世界中的自由動作控制。盡管取得了一定的成果,但在游戲場景中的性能略遜于現實場景,這可能歸因 于現實與游戲訓PlayerOne: EgocentricWorld Simulator練數據分布的不平衡。未來研究可通PlayerOne: EgocentricWorld Simulator過引入更多游戲場景數據集來解決這一問題。
本文轉自AI生成未來 ,作者:AI生成未來
