成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2025|視頻摳圖MatAnyone來了,一次指定全程追蹤,發(fā)絲級(jí)還原

人工智能 新聞
MatAnyone 是一套面向真實(shí)使用場(chǎng)景的人像視頻摳圖系統(tǒng),專注于在僅提供首幀目標(biāo)的前提下,實(shí)現(xiàn)語(yǔ)義穩(wěn)定且邊界精細(xì)的視頻級(jí)摳圖。

本文由南洋理工大學(xué)和商湯科技聯(lián)合完成。第一作者楊沛青為南洋理工大學(xué) MMLab@NTU 在讀博士生,在 CVPR、NeurIPS、IJCV 等國(guó)際頂級(jí)會(huì)議與期刊上發(fā)表多篇研究成果。項(xiàng)目負(fù)責(zé)作者為該校研究助理教授周尚辰和校長(zhǎng)講席教授呂建勤。

視頻人物摳像技術(shù)在電影、游戲、短視頻制作和實(shí)時(shí)視頻通訊中具有廣泛的應(yīng)用價(jià)值,但面對(duì)復(fù)雜背景和多目標(biāo)干擾時(shí),如何實(shí)現(xiàn)一套兼顧發(fā)絲級(jí)細(xì)節(jié)精度及分割級(jí)語(yǔ)義穩(wěn)定的視頻摳圖系統(tǒng),始終是個(gè)挑戰(zhàn)。

來自南洋理工大學(xué) S-Lab 與商湯科技的研究團(tuán)隊(duì)最新提出了一個(gè)高效、穩(wěn)定、實(shí)用的視頻摳圖新方法 ——MatAnyone。與傳統(tǒng)無輔助方法不同,MatAnyone 提出一種基于記憶傳播的「目標(biāo)指定型」視頻摳像方法:只需在第一幀通過人物遮罩指定摳像目標(biāo),即可在整個(gè)視頻中實(shí)現(xiàn)穩(wěn)定、高質(zhì)量的目標(biāo)提取。

圖片

圖片

  • 論文標(biāo)題:MatAnyone: Stable Video Matting with Consistent Memory Propagation
  • 論文鏈接:https://arxiv.org/abs/2501.14677
  • 視頻:https://youtu.be/oih0Zk-UW18
  • 代碼:https://github.com/pq-yang/MatAnyone
  • 網(wǎng)頁(yè):https://pq-yang.github.io/projects/MatAnyone/

MatAnyone 一經(jīng)發(fā)布在社交媒體上獲得了大眾的討論和關(guān)注,其核心亮點(diǎn)總結(jié)如下:

  • 快速摳圖,目標(biāo)可控

僅需首幀目標(biāo)指定,無需額外輔助信息,支持靈活定義摳圖對(duì)象,滿足多場(chǎng)景需求。

  • 穩(wěn)定跟蹤,全程不抖

創(chuàng)新 “區(qū)域自適應(yīng)記憶融合” 機(jī)制,有效保持目標(biāo)一致性,實(shí)現(xiàn)長(zhǎng)視頻中的穩(wěn)定人像跟蹤。

  • 細(xì)節(jié)出眾,發(fā)絲級(jí)還原

融合真實(shí)分割數(shù)據(jù)與高質(zhì)量新數(shù)據(jù)集,邊界處理自然平滑,摳圖效果更貼近真實(shí)。

圖片

「目標(biāo)指定型」:更貼近真實(shí)使用場(chǎng)景

目前主流的視頻摳圖方法根據(jù) “除輸入視頻外是否有其他輔助輸入” 這一條件可以分為兩類:

  • 無輔助型方法(如 RVM):用戶只需上傳輸入視頻即可。
  • 輔助引導(dǎo)型方法(如 MaGGIe):除輸入視頻外,用戶需通過如三分掩膜(trimap)或分割掩膜(segmentation mask)等方式在一幀或多幀指定摳像目標(biāo)。

無輔助型方法雖然方便,但是由于主體目標(biāo)不明確,在真實(shí)使用場(chǎng)景中容易出現(xiàn)影響實(shí)際使用的錯(cuò)摳、漏摳等現(xiàn)象。

  • 【場(chǎng)景一】前景存在多個(gè)主要人物:在實(shí)際應(yīng)用中,很可能出現(xiàn)的需求是單獨(dú)摳出其中特定一位,合成到另外場(chǎng)景中制作視頻,無輔助型方法不能實(shí)現(xiàn)目標(biāo)的指定,導(dǎo)致輸出的結(jié)果無法直接投入使用。
  • 【場(chǎng)景二】背景存在混淆人物:即使前景只存在一位主體人物,背景中來來往往的行人往往會(huì) “混淆視聽”,尤其是行人路過前景人物時(shí),無輔助型方法往往會(huì)把背景行人的肢體也一并摳出,使輸出結(jié)果不夠準(zhǔn)確干凈。

因此,為了讓視頻摳像技術(shù)能被更好地使用,MatAnyone 選擇了輔助引導(dǎo)型的設(shè)定,并專注解決的是這樣一個(gè)場(chǎng)景:

「設(shè)定主角,其他交給模型」:給定目標(biāo)人物在第一幀的掩膜,后續(xù)的摳像自動(dòng)鎖定目標(biāo)完成。無需逐幀修正,準(zhǔn)確、自然、連貫地?fù)赋稣我曨l。

這種設(shè)置既兼顧用戶可控性,又具有更強(qiáng)的實(shí)用性和魯棒性,是當(dāng)前視頻編輯領(lǐng)域最具潛力的落地方案之一。

圖片

面向「視頻摳圖」任務(wù):記憶傳播與訓(xùn)練策略的新范式

任務(wù)對(duì)比:「視頻摳圖」比「視頻分割」更難一層

雖然 “目標(biāo)指定型” 的任務(wù)設(shè)定在視頻目標(biāo)分割(Video Object Segmentation, VOS)中已經(jīng)被廣泛研究,通常被稱為 “半監(jiān)督” 分割(即只給第一幀的掩膜),但視頻摳圖(Video Matting, VM)的難度卻更進(jìn)一步。

在 VOS 中,模型的任務(wù)為“是 / 否為目標(biāo)前景” 的二值判斷題;而在 VM 中,基于這個(gè)語(yǔ)義判斷,模型還需預(yù)測(cè)目標(biāo)前景在每個(gè)像素點(diǎn)上的 “透明度(alpha)”—— 這不僅要求核心區(qū)域的語(yǔ)義精準(zhǔn),更要求邊界細(xì)節(jié)的提?。ㄈ绨l(fā)絲、衣角的半透明過渡)。

圖片

MatAnyone 正是在這一背景下提出了面向視頻摳圖任務(wù)的全新記憶傳播與訓(xùn)練策略,在達(dá)到分割級(jí)語(yǔ)義穩(wěn)定的基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)了發(fā)絲級(jí)細(xì)節(jié)精度。

圖片

1. 一致性記憶傳播機(jī)制:Matting 專屬的 “記憶力”

相比靜態(tài)圖像摳圖,視頻摳圖面臨更大的挑戰(zhàn),不僅需要逐幀生成高質(zhì)量的透明通道( alpha matte),還必須確保前后幀之間的時(shí)序一致性,否則就會(huì)出現(xiàn)閃爍、跳變等明顯視覺問題。為此,MatAnyone 借鑒視頻分割中的記憶機(jī)制,在此基礎(chǔ)上提出了專為視頻摳圖設(shè)計(jì)的一致性記憶傳播機(jī)制(Consistent Memory Propagation)。

區(qū)域自適應(yīng)融合記憶(Region-Adaptive Fusion)

模型會(huì)在每一幀中預(yù)測(cè)哪些區(qū)域與上一幀差異較大(如身體邊緣),哪些區(qū)域變化很?。ㄈ缟眢w主干),并分別處理:

  • 對(duì)于變化幅度較大的區(qū)域(通常出現(xiàn)在目標(biāo)邊緣,如頭發(fā)、衣擺),模型更依賴當(dāng)前幀從記憶庫(kù)中檢索到的記憶信息;
  • 而對(duì)變化較小的區(qū)域(如身體內(nèi)部),則更多保留上一幀的記憶信息,避免重復(fù)建模,減少誤差傳播。

邊界細(xì)節(jié)增強(qiáng),核心區(qū)域穩(wěn)定

這種區(qū)域感知式的信息融合方式,在訓(xùn)練階段引導(dǎo)模型更專注于細(xì)節(jié)邊界,在推理階段則提升了語(yǔ)義穩(wěn)定性與時(shí)間一致性。尤其在復(fù)雜背景或人物交互頻繁的場(chǎng)景下,MatAnyone 能夠穩(wěn)準(zhǔn)地識(shí)別目標(biāo)、摳出清晰自然的邊緣效果,極大提升了視頻摳圖的可用性與觀感質(zhì)量。

圖片

2. 共頭監(jiān)督策略:讓分割數(shù)據(jù) “真正為摳圖所用”

一直以來,「視頻摳圖」的一個(gè)核心難點(diǎn)始終是真實(shí)訓(xùn)練數(shù)據(jù)的缺失。相較于「視頻分割」在真實(shí)數(shù)據(jù)上的標(biāo)注成本,「視頻摳圖」所需要的帶透明度標(biāo)注的數(shù)據(jù)格外昂貴,這限制了模型在穩(wěn)定性與泛化能力上的進(jìn)一步提升。

在真實(shí)透明度數(shù)據(jù)稀缺的背景下,Video Matting 模型往往會(huì)引入大量真實(shí)分割數(shù)據(jù)進(jìn)行輔助訓(xùn)練,以提升模型在復(fù)雜環(huán)境中的穩(wěn)定性和泛化能力。

  • 傳統(tǒng)做法通常采用 “平行預(yù)測(cè)頭” 結(jié)構(gòu):在輸出層增加一個(gè)僅用于訓(xùn)練階段的分割頭,用于分割數(shù)據(jù)的監(jiān)督,而摳圖主頭則僅由合成摳圖數(shù)據(jù)驅(qū)動(dòng)。

這種結(jié)構(gòu)雖然能一定程度引入語(yǔ)義信息對(duì)摳圖頭的監(jiān)督,但其不直接的監(jiān)督方式導(dǎo)致語(yǔ)義信息在特征傳播過程中被稀釋,無法充分發(fā)揮分割數(shù)據(jù)對(duì)提升穩(wěn)定性的優(yōu)勢(shì)。

  • MatAnyone 提出了結(jié)構(gòu)創(chuàng)新的 “共頭監(jiān)督策略”:拋棄 “平行預(yù)測(cè)頭”,直接將真實(shí)分割數(shù)據(jù)引入摳圖主頭進(jìn)行訓(xùn)練,讓所有數(shù)據(jù)源在同一個(gè)通道上對(duì)模型進(jìn)行統(tǒng)一監(jiān)督。

這種方式極大提高了語(yǔ)義信息的共享效率,也最大程度地利用了真實(shí)分割數(shù)據(jù)對(duì)透明通道預(yù)測(cè)的泛化性和穩(wěn)定性的提升。

具體操作上:

  • 在核心區(qū)域,使用分割掩膜進(jìn)行逐像素監(jiān)督,確保模型對(duì)語(yǔ)義結(jié)構(gòu)的穩(wěn)定理解;
  • 在邊界區(qū)域,引入改進(jìn)版的 DDC 損失(Scaled DDC Loss),即便分割數(shù)據(jù)沒有 alpha 標(biāo)簽,也能通過圖像結(jié)構(gòu)引導(dǎo)模型生成過渡自然的邊緣。

這一策略的核心優(yōu)勢(shì)在于:讓分割數(shù)據(jù) “真正服務(wù)于摳圖任務(wù)本身”,而非僅僅提供輔助信號(hào)。

3. 自建高質(zhì)數(shù)據(jù)集:訓(xùn)練更穩(wěn),評(píng)估更難

高質(zhì)量的數(shù)據(jù)始終是訓(xùn)練穩(wěn)定、泛化強(qiáng)的視頻摳圖模型的基礎(chǔ)。針對(duì)現(xiàn)有數(shù)據(jù)集在規(guī)模、細(xì)節(jié)和多樣性上的不足,MatAnyone 團(tuán)隊(duì)自建了兩套關(guān)鍵數(shù)據(jù)資源:

  • VM800 訓(xùn)練集:相較于主流的 VideoMatte240K,VM800 的規(guī)模翻倍,覆蓋更多發(fā)型、服飾和運(yùn)動(dòng)狀態(tài),在核心區(qū)域和邊界區(qū)域的質(zhì)量都顯著提升,有效增強(qiáng)了模型在摳圖任務(wù)中的魯棒性;
  • YouTubeMatte 測(cè)試集:相較于主流的 VideoMatte240K 測(cè)試集,我們構(gòu)建了一個(gè)前景更加多樣的測(cè)試集,并且在合成前后景的過程中進(jìn)行了和諧化的后處理,使其更加貼近真實(shí)分布,有效提高了該測(cè)試集的難度。

這兩套數(shù)據(jù)集為 MatAnyone 提供了扎實(shí)的訓(xùn)練基礎(chǔ)與更貼近真實(shí)世界的驗(yàn)證標(biāo)準(zhǔn),在推動(dòng)模型性能提升的同時(shí),也為未來視頻摳圖研究提供了更具挑戰(zhàn)性的新 benchmark。

圖片

多場(chǎng)景適用性:靈活應(yīng)對(duì)多類應(yīng)用場(chǎng)景

MatAnyone 在模型設(shè)計(jì)與推理機(jī)制上的靈活性,使其具備良好的任務(wù)泛化能力,能夠適配多種實(shí)際視頻處理場(chǎng)景(更多例子請(qǐng)移步主頁(yè)):

通用視頻摳圖(General Matting):適用于短視頻剪輯、直播背景替換、電影 / 廣告 / 游戲后期等常見場(chǎng)景,僅需第一幀提供目標(biāo)掩膜,后續(xù)幀即可自動(dòng)完成穩(wěn)定摳圖,具備邊界清晰、背景干凈、跨幀一致性強(qiáng)的優(yōu)勢(shì)。

實(shí)例摳圖(Instance Matting):面對(duì)多人物或復(fù)雜背景的視頻內(nèi)容,MatAnyone 支持通過第一幀掩膜指定目標(biāo)對(duì)象,進(jìn)行后續(xù)穩(wěn)定追蹤與摳圖,有效避免目標(biāo)混淆或漂移,適合虛擬人剪輯、人物聚焦等實(shí)例級(jí)編輯任務(wù)。

推理階段增強(qiáng)(Iterative Refinement):對(duì)于高精度場(chǎng)景,如廣告制作、影視后期等,MatAnyone 提供可選的首幀迭代優(yōu)化機(jī)制,通過多輪推理精細(xì)化第一幀 alpha matte,從而進(jìn)一步提升整段視頻的細(xì)節(jié)還原與邊界自然度。

實(shí)驗(yàn)結(jié)果:領(lǐng)先的細(xì)節(jié)質(zhì)量與時(shí)序穩(wěn)定

為了系統(tǒng)評(píng)估 MatAnyone 在視頻摳圖任務(wù)中的綜合表現(xiàn),我們從定性與定量?jī)蓚€(gè)角度進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果顯示 MatAnyone 在精度、穩(wěn)定性與視覺質(zhì)量等多個(gè)維度均優(yōu)于現(xiàn)有主流無輔助型及輔助引導(dǎo)型方法。

定性評(píng)估(Qualitative)

在真實(shí)視頻案例中,我們展示了 MatAnyone 與現(xiàn)有方法 RVM、FTP-VM、MaGGIe 的可視化對(duì)比。結(jié)果表明,MatAnyone 能夠更準(zhǔn)確地提取目標(biāo)人物輪廓,尤其是在人物動(dòng)作劇烈或背景復(fù)雜的情況下,依然能保持頭發(fā)、邊緣衣物等細(xì)節(jié)的清晰度,并有效避免背景穿透與邊界斷裂等常見問題。同時(shí),它也具備更強(qiáng)的實(shí)例區(qū)分能力,即使畫面中存在多個(gè)顯著人物,也能準(zhǔn)確鎖定目標(biāo)對(duì)象并保持一致跟蹤。

圖片


圖片

定量評(píng)估(Quantitative)

在合成數(shù)據(jù)集 VideoMatte 和自建的 YouTubeMatte 上,我們使用五個(gè)關(guān)鍵指標(biāo)對(duì)各方法進(jìn)行全面評(píng)估:

  • MAD(Mean Absolute Difference)與 MSE(Mean Squared Error)用于衡量語(yǔ)義準(zhǔn)確性;
  • Grad(Gradient)用于細(xì)節(jié)銳利度評(píng)估;
  • Conn(Connectivity)代表整體視覺連貫性;
  • dtSSD 則衡量跨幀間的時(shí)序一致性。

如 Table 1 所示,MatAnyone 在高、低分辨率的所有數(shù)據(jù)集上均取得最低的 MAD 和 dtSSD,表現(xiàn)出極高的語(yǔ)義穩(wěn)定性與時(shí)間一致性;同時(shí)在 Conn 指標(biāo)上也位居首位,驗(yàn)證了其在整體觀感和邊緣處理上的領(lǐng)先表現(xiàn)。

圖片

總結(jié)與展望

MatAnyone 是一套面向真實(shí)使用場(chǎng)景的人像視頻摳圖系統(tǒng),專注于在僅提供首幀目標(biāo)的前提下,實(shí)現(xiàn)語(yǔ)義穩(wěn)定且邊界精細(xì)的視頻級(jí)摳圖。根據(jù)「視頻摳圖」任務(wù)的特性,它引入了區(qū)域自適應(yīng)的記憶融合機(jī)制,在保持語(yǔ)義穩(wěn)定性的同時(shí),精細(xì)提取了頭發(fā)等細(xì)節(jié)區(qū)域。借助新構(gòu)建的 VM800 高質(zhì)量數(shù)據(jù)集與全新的訓(xùn)練策略,MatAnyone 顯著提升了在復(fù)雜背景下的摳圖穩(wěn)定性。

面對(duì)真實(shí)訓(xùn)練數(shù)據(jù)的制約,「視頻摳圖」任務(wù)仍然像是在 “戴著鐐銬跳舞”,當(dāng)前的效果雖有顯著突破,但仍有廣闊的提升空間。未來,我們團(tuán)隊(duì)將繼續(xù)探索更高效的訓(xùn)練策略、更泛化的數(shù)據(jù)構(gòu)建方式,以及更通用的記憶建模機(jī)制,推動(dòng)視頻摳圖技術(shù)在真實(shí)世界中實(shí)現(xiàn)更強(qiáng)魯棒性與更廣應(yīng)用性。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-04-18 16:14:16

2021-08-30 15:27:05

AI 數(shù)據(jù)人工智能

2020-03-10 07:51:35

面試諷刺標(biāo)準(zhǔn)

2011-04-13 09:21:30

死鎖SQL Server

2019-10-30 15:05:44

AI 數(shù)據(jù)人工智能

2021-05-26 11:06:06

Kubernetes網(wǎng)絡(luò)故障集群節(jié)點(diǎn)

2020-09-21 16:11:04

Adobe 軟件平臺(tái)

2020-12-07 17:32:24

AI視頻視頻摳圖

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2023-06-12 12:02:02

追蹤視頻

2021-09-02 15:25:54

技術(shù)視頻摳圖

2011-06-28 10:41:50

DBA

2021-08-12 09:48:21

Webpack Loa工具Webpack

2025-04-16 00:00:02

2021-12-27 10:08:16

Python編程語(yǔ)言庫(kù)

2020-10-24 13:50:59

Python庫(kù)編程語(yǔ)言

2021-05-08 23:44:34

手機(jī)數(shù)據(jù)質(zhì)量

2025-06-03 09:12:00

算力框架模型

2020-11-13 10:10:49

網(wǎng)絡(luò)攻擊信息泄露勒索軟件

2019-03-20 20:20:54

安卓谷歌安卓Pie
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲巨乳自拍在线视频 | 国产精品色 | 男女视频在线看 | 日韩中文在线视频 | 午夜激情免费视频 | 午夜激情国产 | 91免费看片 | 日韩欧美在 | 精品国产乱码久久久 | 国产一区二区三区欧美 | 日韩精品一区二区三区在线播放 | 黄色一级免费看 | 天天爽网站 | 在线视频日韩精品 | 97精品国产手机 | 久久久蜜桃一区二区人 | 日本欧美在线视频 | av一级毛片| 一区二区三区电影在线观看 | 午夜在线| 国产精品久久久久久久久久不蜜臀 | 欧美区在线 | 欧美精品综合在线 | 成人在线电影在线观看 | 国产良家自拍 | 国产乱人伦精品一区二区 | 欧美在线视频一区二区 | 人操人人 | 久久一视频 | www.久久| 日韩福利在线 | 国产一区二区三区久久久久久久久 | 亚洲中午字幕 | 久久久av中文字幕 | 日韩一区二区在线看 | 欧美一区二区三区在线视频 | 欧美乱码精品一区二区三区 | 精品欧美乱码久久久久久1区2区 | 免费毛片网站在线观看 | 中文字幕不卡在线观看 | 亚洲成人激情在线观看 |