成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作

發(fā)布于 2025-6-5 09:37
瀏覽
0收藏

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2506.03140 
項(xiàng)目鏈接:https://camclonemaster.github.io/

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

亮點(diǎn)直擊

  • CamCloneMaster,一種新穎的框架,能夠?qū)崿F(xiàn)基于參考視頻的精確相機(jī)控制來(lái)生成視頻。該框架無(wú)需相機(jī)參數(shù)或測(cè)試時(shí)微調(diào),為用戶提供了便捷直觀的體驗(yàn)。
  • CamCloneMaster通過(guò)標(biāo)記拼接(token concatenation)這一簡(jiǎn)單高效的方法,在單一模型中集成了相機(jī)控制的圖像到視頻(I2V)生成和視頻到視頻(V2V)重生成功能,無(wú)需額外的控制模塊。
  • 構(gòu)建了用于相機(jī)克隆學(xué)習(xí)的Camera Clone數(shù)據(jù)集:一個(gè)大規(guī)模、高質(zhì)量的配對(duì)視頻集合,包含相同相機(jī)軌跡和動(dòng)態(tài)場(chǎng)景。該數(shù)據(jù)集將公開發(fā)布以推動(dòng)未來(lái)研究。

總結(jié)速覽

解決的問(wèn)題

  • 繁瑣的相機(jī)參數(shù)控制:現(xiàn)有方法依賴顯式的相機(jī)參數(shù)序列作為控制條件,用戶需手動(dòng)構(gòu)建復(fù)雜的相機(jī)運(yùn)動(dòng)軌跡,操作不便。
  • 相機(jī)參數(shù)估計(jì)不準(zhǔn)確:從參考視頻中估計(jì)相機(jī)參數(shù)的精度受限,影響生成視頻的相機(jī)運(yùn)動(dòng)控制效果。
  • 計(jì)算成本高:現(xiàn)有方法(如MotionClone)需額外的測(cè)試時(shí)微調(diào)或運(yùn)動(dòng)表示提取,引入額外計(jì)算開銷。
  • 缺乏專用數(shù)據(jù)集:缺少包含相同相機(jī)軌跡或動(dòng)態(tài)場(chǎng)景的配對(duì)視頻數(shù)據(jù)集,制約模型訓(xùn)練。

提出的方案

  • CamCloneMaster框架
  • 無(wú)需顯式相機(jī)參數(shù)或測(cè)試時(shí)微調(diào),直接通過(guò)參考視頻克隆相機(jī)運(yùn)動(dòng)。
  • 支持統(tǒng)一的圖像到視頻(I2V)和視頻到視頻(V2V)任務(wù),用戶可通過(guò)參考視頻指定相機(jī)運(yùn)動(dòng)或內(nèi)容。
  • 模型設(shè)計(jì)
  • 將條件標(biāo)記(參考視頻信息)與噪聲視頻標(biāo)記直接拼接為統(tǒng)一輸入序列,避免額外控制模塊,參數(shù)高效。
  • Camera Clone數(shù)據(jù)集
  • 使用Unreal Engine 5構(gòu)建大規(guī)模合成數(shù)據(jù)集,包含39.1K場(chǎng)景、391K視頻、97.75K相機(jī)軌跡,覆蓋多樣環(huán)境與動(dòng)態(tài)內(nèi)容。

應(yīng)用的技術(shù)

  • 端到端訓(xùn)練框架:通過(guò)直接學(xué)習(xí)參考視頻的相機(jī)運(yùn)動(dòng),繞過(guò)顯式參數(shù)估計(jì)。
  • 標(biāo)記拼接(Token Concatenation):簡(jiǎn)化控制流程,統(tǒng)一處理?xiàng)l件與生成內(nèi)容。
  • 合成數(shù)據(jù)生成:基于規(guī)則自動(dòng)生成多樣化相機(jī)軌跡,模擬真實(shí)拍攝場(chǎng)景。

達(dá)到的效果

  • 控制便捷性:用戶僅需提供參考視頻即可復(fù)現(xiàn)復(fù)雜相機(jī)運(yùn)動(dòng),降低使用門檻。
  • 性能優(yōu)勢(shì)
  • 相機(jī)控制準(zhǔn)確性:在RealEstate10K和經(jīng)典電影片段測(cè)試中,相機(jī)運(yùn)動(dòng)復(fù)現(xiàn)精度優(yōu)于現(xiàn)有方法。
  • 視覺(jué)質(zhì)量:生成視頻的動(dòng)態(tài)效果和畫面質(zhì)量獲用戶主觀評(píng)價(jià)認(rèn)可(47人參與實(shí)驗(yàn))。
  • 多功能支持:?jiǎn)我荒P屯瑫r(shí)支持I2V(給定圖像+相機(jī)運(yùn)動(dòng)參考)和V2V(給定視頻+運(yùn)動(dòng)參考)任務(wù),擴(kuò)展應(yīng)用場(chǎng)景。

CamCloneMaster

CamCloneMaster設(shè)計(jì)。首先介紹基礎(chǔ)模型的組成部分,接著解釋從參考視頻中提取相機(jī)運(yùn)動(dòng)作為引導(dǎo)的方法,最后介紹CamCloneMaster的訓(xùn)練策略。

初步:基礎(chǔ)模型

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

訓(xùn)練目標(biāo)采用簡(jiǎn)單的均方誤差(MSE)損失:

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

通過(guò)Token拼接注入?yún)⒖家曨l

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

訓(xùn)練策略

本文的目標(biāo)是通過(guò)參考視頻微調(diào)模型以實(shí)現(xiàn)相機(jī)運(yùn)動(dòng)克隆,同時(shí)保留其基礎(chǔ)生成能力。為兼顧效率與能力保留,僅選擇性微調(diào)DiT塊中的3D時(shí)空注意力層。為使單一模型同時(shí)具備圖像到視頻和視頻到視頻能力,我們采用平衡訓(xùn)練策略:50%為相機(jī)控制的圖像到視頻生成,50%為視頻到視頻重生成。

相機(jī)克隆數(shù)據(jù)集

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

構(gòu)建三元組需滿足兩個(gè)關(guān)鍵要求:

  1. 同步多視角采集:多個(gè)相機(jī)需以不同軌跡同時(shí)拍攝同一場(chǎng)景;
  2. 配對(duì)軌跡:不同地點(diǎn)需存在相同相機(jī)軌跡的配對(duì)鏡頭。實(shí)現(xiàn)策略如下:在單個(gè)地點(diǎn)部署10臺(tái)同步相機(jī),每臺(tái)按預(yù)設(shè)的10種獨(dú)特軌跡拍攝;為創(chuàng)建配對(duì)軌跡,將3D場(chǎng)景地點(diǎn)分為四組,確保每組內(nèi)所有地點(diǎn)復(fù)現(xiàn)相同的10種相機(jī)軌跡。相機(jī)軌跡通過(guò)設(shè)計(jì)規(guī)則自動(dòng)生成,涵蓋基礎(chǔ)移動(dòng)、弧形運(yùn)動(dòng)等復(fù)雜路徑。

最終數(shù)據(jù)集包含:

  • 40個(gè)場(chǎng)景中39.1K個(gè)不同地點(diǎn)拍攝的391K條視覺(jué)真實(shí)視頻
  • 97.75K種多樣相機(jī)軌跡
  • 基于這些視頻構(gòu)建的1,155K個(gè)三元組視頻集每條視頻分辨率576×1,008,共154幀。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

評(píng)估集

  • 相機(jī)運(yùn)動(dòng)參考:從RealEstate10K測(cè)試集隨機(jī)選取1,000條視頻,提供1,000種相機(jī)軌跡并附帶相機(jī)參數(shù)(作為參數(shù)依賴方法的條件輸入)。
  • 內(nèi)容參考:從Koala-36M隨機(jī)選取1,000條視頻(圖像到視頻任務(wù)中僅使用首幀作為條件輸入)。

評(píng)估指標(biāo)

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

與前沿方法對(duì)比

相機(jī)控制的圖像到視頻生成

基線方法:對(duì)比Plücker嵌入相機(jī)表示的CameraCtrl和CamI2V,以及無(wú)訓(xùn)練框架MotionClone(通過(guò)稀疏時(shí)序注意力權(quán)重克隆參考視頻運(yùn)動(dòng))。MotionClone雖無(wú)需相機(jī)參數(shù),但難以處理復(fù)雜相機(jī)運(yùn)動(dòng)。


定量結(jié)果:如下表1所示,CamCloneMaster在相機(jī)控制(RotErr/TransErr/CamMC)上顯著優(yōu)于其他方法,同時(shí)保持更優(yōu)的視覺(jué)與動(dòng)態(tài)質(zhì)量。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

定性結(jié)果:如下圖4所示,本文的方法精準(zhǔn)克隆參考相機(jī)運(yùn)動(dòng)(如左例帆船細(xì)節(jié)結(jié)構(gòu)與右例猴子復(fù)雜運(yùn)動(dòng)),而CameraCtrl/CamI2V難以跟蹤復(fù)合軌跡(如左例平移旋轉(zhuǎn)組合),MotionClone則因泛化性限制無(wú)法保持主體一致性。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

相機(jī)控制的視頻到視頻重生成

基線方法:對(duì)比需要相機(jī)參數(shù)輸入的DaS、ReCamMaster和TrajectoryCrafter。DaS通過(guò)3D點(diǎn)跟蹤從內(nèi)容參考視頻提取動(dòng)態(tài)信息,ReCamMaster采用視頻條件機(jī)制,TrajectoryCrafter則從內(nèi)容參考構(gòu)建點(diǎn)云并渲染新視角作為控制信號(hào)。


定量結(jié)果:如上表1和下表2所示,CamCloneMaster在多項(xiàng)指標(biāo)上超越基線方法。本文的方法不僅能精確控制相機(jī)并保持高視覺(jué)質(zhì)量,還能有效保留內(nèi)容參考的動(dòng)態(tài)場(chǎng)景。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

定性結(jié)果:如下圖5所示,基線方法普遍無(wú)法生成準(zhǔn)確相機(jī)運(yùn)動(dòng)的視頻。具體而言,DaS和TrajectoryCrafter會(huì)產(chǎn)生明顯偽影,而本文的方法能精準(zhǔn)克隆參考視頻的相機(jī)運(yùn)動(dòng),輸出具有高視覺(jué)質(zhì)量和時(shí)序一致性的結(jié)果。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

用戶研究

本文通過(guò)用戶研究揭示相機(jī)位姿精度對(duì)參數(shù)化方法的重要性及其獲取挑戰(zhàn)。參與者需比較成對(duì)視頻:一組使用真實(shí)相機(jī)參數(shù)生成,另一組使用MegaSam估計(jì)參數(shù)生成,選擇哪組視頻的相機(jī)運(yùn)動(dòng)更匹配參考。實(shí)驗(yàn)基于CamI2V、CameraCtrl和ReCamMaster三種參數(shù)化方法,從合成數(shù)據(jù)集中隨機(jī)選取12條帶真實(shí)參數(shù)的相機(jī)運(yùn)動(dòng)參考視頻。47名參與者的結(jié)果(下表3)顯示:

  1. 參數(shù)化方法的相機(jī)運(yùn)動(dòng)保真度高度依賴輸入?yún)?shù)精度;
  2. 即使最先進(jìn)的位姿估計(jì)模型也難以提供足夠精確的參數(shù),這驗(yàn)證了我們提出的基于參考的相機(jī)控制框架的必要性。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

另一項(xiàng)用戶研究從主觀角度評(píng)估不同方法。從網(wǎng)絡(luò)收集24條1080×1920分辨率的相機(jī)運(yùn)動(dòng)參考和12條內(nèi)容參考。測(cè)試時(shí),參與者同時(shí)觀看4個(gè)隨機(jī)排序的視頻(本文的方法+3個(gè)任務(wù)相關(guān)基線方法生成結(jié)果),從三個(gè)維度評(píng)估:

  1. 相機(jī)精度:相機(jī)運(yùn)動(dòng)與參考視頻的匹配度;
  2. 視頻-文本一致性:內(nèi)容與文本提示的契合度;
  3. 時(shí)序一致性。47名參與者的結(jié)果(下表4)表明本文的方法在各項(xiàng)指標(biāo)上均獲得最多用戶偏好。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

消融實(shí)驗(yàn)

條件注入機(jī)制的消融實(shí)驗(yàn)。本文的模型通過(guò)將條件tokens與噪聲潛在tokens沿幀維度拼接來(lái)實(shí)現(xiàn)視頻生成的條件控制。本文驗(yàn)證了這種幀拼接方式與廣泛使用的通道拼接的對(duì)比效果。同時(shí)測(cè)試了僅在時(shí)序DiT塊層內(nèi)拼接條件標(biāo)記的方案,因?yàn)闂l件tokens與噪聲tokens之間的顯式注意力僅限于3D時(shí)空注意力層。最后,將token拼接與類ControlNet架構(gòu)進(jìn)行對(duì)比,后者通過(guò)復(fù)制DiT塊提取參考視頻特征,再通過(guò)特征加法注入基礎(chǔ)模型。下表5結(jié)果表明,在所有層中拼接條件標(biāo)記對(duì)最優(yōu)性能至關(guān)重要(第2、4行)。我們認(rèn)為全局視頻屬性(如相機(jī)運(yùn)動(dòng))需要高層表征,因此即使是不含顯式注意力機(jī)制的層也對(duì)提取這些屬性起關(guān)鍵作用。此外,標(biāo)記拼接優(yōu)于類ControlNet的特征加法(第3、4行),這可能是因?yàn)樘卣骷臃〞?huì)加大模型區(qū)分參考內(nèi)容與運(yùn)動(dòng)線索的難度。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

訓(xùn)練策略的消融實(shí)驗(yàn)。僅微調(diào)DiT塊中的3D時(shí)空注意力層,并凍結(jié)其余參數(shù)。下表6結(jié)果顯示,僅微調(diào)3D時(shí)空注意力層可提升相機(jī)克隆精度,同時(shí)保持更好的視覺(jué)質(zhì)量。

好萊塢級(jí)運(yùn)鏡一鍵克隆!港中文&浙大&快手聯(lián)合發(fā)布CamCloneMaster:顛覆影視制作-AI.x社區(qū)

結(jié)論與局限性

CamCloneMaster,一種新穎的視頻生成相機(jī)控制方法,支持直觀且用戶友好的操作。CamCloneMaster無(wú)需相機(jī)參數(shù)或測(cè)試時(shí)微調(diào)即可復(fù)制參考視頻的相機(jī)運(yùn)動(dòng)。另一創(chuàng)新是簡(jiǎn)潔高效的架構(gòu),無(wú)需額外控制模塊即可將相機(jī)控制的圖像到視頻生成(I2V)與視頻到視頻再生(V2V)統(tǒng)一于單一模型中。我們還構(gòu)建了高質(zhì)量合成數(shù)據(jù)集用于訓(xùn)練。

局限性。盡管tokens拼接策略在相機(jī)控制視頻生成中表現(xiàn)優(yōu)異,但會(huì)增加計(jì)算負(fù)擔(dān)。未來(lái)工作將探索稀疏注意力或潛在丟棄等方法以降低開銷。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/z8yNl_6lThygMqs-5fQbZg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久国产精品99久久久大便 | 亚洲精美视频 | 国产精品99久久久久久久久 | 91视频进入 | 婷婷五月色综合香五月 | 久久91| 亚洲国产成人一区二区 | 亚洲精品在线观看视频 | 一区二区三区电影网 | 亚洲精品久 | 99国内精品久久久久久久 | 久在线 | 久久综合成人精品亚洲另类欧美 | 国产传媒在线观看 | www久久国产 | 亚洲色图第一页 | 中文亚洲视频 | 毛片在线看片 | 久久久免费电影 | 欧美一区二区大片 | 国产亚洲成av人片在线观看桃 | 日日天天 | 亚洲一区二区不卡在线观看 | 午夜精品一区二区三区在线视频 | 国产高清在线精品 | 在线播放中文字幕 | 成人影院午夜 | 欧美福利三区 | av网站在线播放 | 久久五月婷 | 一区视频在线免费观看 | 色婷婷亚洲国产女人的天堂 | 国产极品车模吞精高潮呻吟 | 久久精品国产亚洲一区二区 | 在线免费看91 | 精品视频一区二区 | 成人免费av | 欧美嘿咻| 美女在线一区二区 | 精品福利在线 | 午夜网站视频 |