成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

CVPR 2025｜視頻摳圖MatAnyone來了，一次指定全程追蹤，發(fā)絲級(jí)還原

作者：機(jī)器之心 2025-04-18 09:21:00

人工智能新聞

MatAnyone 是一套面向真實(shí)使用場(chǎng)景的人像視頻摳圖系統(tǒng)，專注于在僅提供首幀目標(biāo)的前提下，實(shí)現(xiàn)語(yǔ)義穩(wěn)定且邊界精細(xì)的視頻級(jí)摳圖。

本文由南洋理工大學(xué)和商湯科技聯(lián)合完成。第一作者楊沛青為南洋理工大學(xué) MMLab@NTU 在讀博士生，在 CVPR、NeurIPS、IJCV 等國(guó)際頂級(jí)會(huì)議與期刊上發(fā)表多篇研究成果。項(xiàng)目負(fù)責(zé)作者為該校研究助理教授周尚辰和校長(zhǎng)講席教授呂建勤。

視頻人物摳像技術(shù)在電影、游戲、短視頻制作和實(shí)時(shí)視頻通訊中具有廣泛的應(yīng)用價(jià)值，但面對(duì)復(fù)雜背景和多目標(biāo)干擾時(shí)，如何實(shí)現(xiàn)一套兼顧發(fā)絲級(jí)細(xì)節(jié)精度及分割級(jí)語(yǔ)義穩(wěn)定的視頻摳圖系統(tǒng)，始終是個(gè)挑戰(zhàn)。

來自南洋理工大學(xué) S-Lab 與商湯科技的研究團(tuán)隊(duì)最新提出了一個(gè)高效、穩(wěn)定、實(shí)用的視頻摳圖新方法 ——MatAnyone。與傳統(tǒng)無輔助方法不同，MatAnyone 提出一種基于記憶傳播的「目標(biāo)指定型」視頻摳像方法：只需在第一幀通過人物遮罩指定摳像目標(biāo)，即可在整個(gè)視頻中實(shí)現(xiàn)穩(wěn)定、高質(zhì)量的目標(biāo)提取。

論文標(biāo)題：MatAnyone: Stable Video Matting with Consistent Memory Propagation
論文鏈接：https://arxiv.org/abs/2501.14677
視頻：https://youtu.be/oih0Zk-UW18
代碼：https://github.com/pq-yang/MatAnyone
網(wǎng)頁(yè)：https://pq-yang.github.io/projects/MatAnyone/

MatAnyone 一經(jīng)發(fā)布在社交媒體上獲得了大眾的討論和關(guān)注，其核心亮點(diǎn)總結(jié)如下：

快速摳圖，目標(biāo)可控

僅需首幀目標(biāo)指定，無需額外輔助信息，支持靈活定義摳圖對(duì)象，滿足多場(chǎng)景需求。

穩(wěn)定跟蹤，全程不抖

創(chuàng)新 “區(qū)域自適應(yīng)記憶融合” 機(jī)制，有效保持目標(biāo)一致性，實(shí)現(xiàn)長(zhǎng)視頻中的穩(wěn)定人像跟蹤。

細(xì)節(jié)出眾，發(fā)絲級(jí)還原

融合真實(shí)分割數(shù)據(jù)與高質(zhì)量新數(shù)據(jù)集，邊界處理自然平滑，摳圖效果更貼近真實(shí)。

「目標(biāo)指定型」：更貼近真實(shí)使用場(chǎng)景

目前主流的視頻摳圖方法根據(jù) “除輸入視頻外是否有其他輔助輸入” 這一條件可以分為兩類：

無輔助型方法（如 RVM）：用戶只需上傳輸入視頻即可。
輔助引導(dǎo)型方法（如 MaGGIe）：除輸入視頻外，用戶需通過如三分掩膜（trimap）或分割掩膜（segmentation mask）等方式在一幀或多幀指定摳像目標(biāo)。

無輔助型方法雖然方便，但是由于主體目標(biāo)不明確，在真實(shí)使用場(chǎng)景中容易出現(xiàn)影響實(shí)際使用的錯(cuò)摳、漏摳等現(xiàn)象。

【場(chǎng)景一】前景存在多個(gè)主要人物：在實(shí)際應(yīng)用中，很可能出現(xiàn)的需求是單獨(dú)摳出其中特定一位，合成到另外場(chǎng)景中制作視頻，無輔助型方法不能實(shí)現(xiàn)目標(biāo)的指定，導(dǎo)致輸出的結(jié)果無法直接投入使用。
【場(chǎng)景二】背景存在混淆人物：即使前景只存在一位主體人物，背景中來來往往的行人往往會(huì) “混淆視聽”，尤其是行人路過前景人物時(shí)，無輔助型方法往往會(huì)把背景行人的肢體也一并摳出，使輸出結(jié)果不夠準(zhǔn)確干凈。

因此，為了讓視頻摳像技術(shù)能被更好地使用，MatAnyone 選擇了輔助引導(dǎo)型的設(shè)定，并專注解決的是這樣一個(gè)場(chǎng)景：

「設(shè)定主角，其他交給模型」：給定目標(biāo)人物在第一幀的掩膜，后續(xù)的摳像自動(dòng)鎖定目標(biāo)完成。無需逐幀修正，準(zhǔn)確、自然、連貫地?fù)赋稣我曨l。

這種設(shè)置既兼顧用戶可控性，又具有更強(qiáng)的實(shí)用性和魯棒性，是當(dāng)前視頻編輯領(lǐng)域最具潛力的落地方案之一。

面向「視頻摳圖」任務(wù)：記憶傳播與訓(xùn)練策略的新范式

任務(wù)對(duì)比：「視頻摳圖」比「視頻分割」更難一層

雖然 “目標(biāo)指定型” 的任務(wù)設(shè)定在視頻目標(biāo)分割（Video Object Segmentation, VOS）中已經(jīng)被廣泛研究，通常被稱為 “半監(jiān)督” 分割（即只給第一幀的掩膜），但視頻摳圖（Video Matting, VM）的難度卻更進(jìn)一步。

在 VOS 中，模型的任務(wù)為“是 / 否為目標(biāo)前景” 的二值判斷題；而在 VM 中，基于這個(gè)語(yǔ)義判斷，模型還需預(yù)測(cè)目標(biāo)前景在每個(gè)像素點(diǎn)上的 “透明度（alpha）”—— 這不僅要求核心區(qū)域的語(yǔ)義精準(zhǔn)，更要求邊界細(xì)節(jié)的提?。ㄈ绨l(fā)絲、衣角的半透明過渡）。

MatAnyone 正是在這一背景下提出了面向視頻摳圖任務(wù)的全新記憶傳播與訓(xùn)練策略，在達(dá)到分割級(jí)語(yǔ)義穩(wěn)定的基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)了發(fā)絲級(jí)細(xì)節(jié)精度。

1. 一致性記憶傳播機(jī)制：Matting 專屬的 “記憶力”

相比靜態(tài)圖像摳圖，視頻摳圖面臨更大的挑戰(zhàn)，不僅需要逐幀生成高質(zhì)量的透明通道（ alpha matte），還必須確保前后幀之間的時(shí)序一致性，否則就會(huì)出現(xiàn)閃爍、跳變等明顯視覺問題。為此，MatAnyone 借鑒視頻分割中的記憶機(jī)制，在此基礎(chǔ)上提出了專為視頻摳圖設(shè)計(jì)的一致性記憶傳播機(jī)制（Consistent Memory Propagation）。

區(qū)域自適應(yīng)融合記憶（Region-Adaptive Fusion）

模型會(huì)在每一幀中預(yù)測(cè)哪些區(qū)域與上一幀差異較大（如身體邊緣），哪些區(qū)域變化很?。ㄈ缟眢w主干），并分別處理：

對(duì)于變化幅度較大的區(qū)域（通常出現(xiàn)在目標(biāo)邊緣，如頭發(fā)、衣擺），模型更依賴當(dāng)前幀從記憶庫(kù)中檢索到的記憶信息；
而對(duì)變化較小的區(qū)域（如身體內(nèi)部），則更多保留上一幀的記憶信息，避免重復(fù)建模，減少誤差傳播。

邊界細(xì)節(jié)增強(qiáng)，核心區(qū)域穩(wěn)定

這種區(qū)域感知式的信息融合方式，在訓(xùn)練階段引導(dǎo)模型更專注于細(xì)節(jié)邊界，在推理階段則提升了語(yǔ)義穩(wěn)定性與時(shí)間一致性。尤其在復(fù)雜背景或人物交互頻繁的場(chǎng)景下，MatAnyone 能夠穩(wěn)準(zhǔn)地識(shí)別目標(biāo)、摳出清晰自然的邊緣效果，極大提升了視頻摳圖的可用性與觀感質(zhì)量。

2. 共頭監(jiān)督策略：讓分割數(shù)據(jù) “真正為摳圖所用”

一直以來，「視頻摳圖」的一個(gè)核心難點(diǎn)始終是真實(shí)訓(xùn)練數(shù)據(jù)的缺失。相較于「視頻分割」在真實(shí)數(shù)據(jù)上的標(biāo)注成本，「視頻摳圖」所需要的帶透明度標(biāo)注的數(shù)據(jù)格外昂貴，這限制了模型在穩(wěn)定性與泛化能力上的進(jìn)一步提升。

在真實(shí)透明度數(shù)據(jù)稀缺的背景下，Video Matting 模型往往會(huì)引入大量真實(shí)分割數(shù)據(jù)進(jìn)行輔助訓(xùn)練，以提升模型在復(fù)雜環(huán)境中的穩(wěn)定性和泛化能力。

傳統(tǒng)做法通常采用 “平行預(yù)測(cè)頭” 結(jié)構(gòu)：在輸出層增加一個(gè)僅用于訓(xùn)練階段的分割頭，用于分割數(shù)據(jù)的監(jiān)督，而摳圖主頭則僅由合成摳圖數(shù)據(jù)驅(qū)動(dòng)。

這種結(jié)構(gòu)雖然能一定程度引入語(yǔ)義信息對(duì)摳圖頭的監(jiān)督，但其不直接的監(jiān)督方式導(dǎo)致語(yǔ)義信息在特征傳播過程中被稀釋，無法充分發(fā)揮分割數(shù)據(jù)對(duì)提升穩(wěn)定性的優(yōu)勢(shì)。

MatAnyone 提出了結(jié)構(gòu)創(chuàng)新的 “共頭監(jiān)督策略”：拋棄 “平行預(yù)測(cè)頭”，直接將真實(shí)分割數(shù)據(jù)引入摳圖主頭進(jìn)行訓(xùn)練，讓所有數(shù)據(jù)源在同一個(gè)通道上對(duì)模型進(jìn)行統(tǒng)一監(jiān)督。

這種方式極大提高了語(yǔ)義信息的共享效率，也最大程度地利用了真實(shí)分割數(shù)據(jù)對(duì)透明通道預(yù)測(cè)的泛化性和穩(wěn)定性的提升。

具體操作上：

在核心區(qū)域，使用分割掩膜進(jìn)行逐像素監(jiān)督，確保模型對(duì)語(yǔ)義結(jié)構(gòu)的穩(wěn)定理解；
在邊界區(qū)域，引入改進(jìn)版的 DDC 損失（Scaled DDC Loss），即便分割數(shù)據(jù)沒有 alpha 標(biāo)簽，也能通過圖像結(jié)構(gòu)引導(dǎo)模型生成過渡自然的邊緣。

這一策略的核心優(yōu)勢(shì)在于：讓分割數(shù)據(jù) “真正服務(wù)于摳圖任務(wù)本身”，而非僅僅提供輔助信號(hào)。

3. 自建高質(zhì)數(shù)據(jù)集：訓(xùn)練更穩(wěn)，評(píng)估更難

高質(zhì)量的數(shù)據(jù)始終是訓(xùn)練穩(wěn)定、泛化強(qiáng)的視頻摳圖模型的基礎(chǔ)。針對(duì)現(xiàn)有數(shù)據(jù)集在規(guī)模、細(xì)節(jié)和多樣性上的不足，MatAnyone 團(tuán)隊(duì)自建了兩套關(guān)鍵數(shù)據(jù)資源：

VM800 訓(xùn)練集：相較于主流的 VideoMatte240K，VM800 的規(guī)模翻倍，覆蓋更多發(fā)型、服飾和運(yùn)動(dòng)狀態(tài)，在核心區(qū)域和邊界區(qū)域的質(zhì)量都顯著提升，有效增強(qiáng)了模型在摳圖任務(wù)中的魯棒性；
YouTubeMatte 測(cè)試集：相較于主流的 VideoMatte240K 測(cè)試集，我們構(gòu)建了一個(gè)前景更加多樣的測(cè)試集，并且在合成前后景的過程中進(jìn)行了和諧化的后處理，使其更加貼近真實(shí)分布，有效提高了該測(cè)試集的難度。

這兩套數(shù)據(jù)集為 MatAnyone 提供了扎實(shí)的訓(xùn)練基礎(chǔ)與更貼近真實(shí)世界的驗(yàn)證標(biāo)準(zhǔn)，在推動(dòng)模型性能提升的同時(shí)，也為未來視頻摳圖研究提供了更具挑戰(zhàn)性的新 benchmark。

多場(chǎng)景適用性：靈活應(yīng)對(duì)多類應(yīng)用場(chǎng)景

MatAnyone 在模型設(shè)計(jì)與推理機(jī)制上的靈活性，使其具備良好的任務(wù)泛化能力，能夠適配多種實(shí)際視頻處理場(chǎng)景（更多例子請(qǐng)移步主頁(yè)）：

通用視頻摳圖（General Matting）：適用于短視頻剪輯、直播背景替換、電影 / 廣告 / 游戲后期等常見場(chǎng)景，僅需第一幀提供目標(biāo)掩膜，后續(xù)幀即可自動(dòng)完成穩(wěn)定摳圖，具備邊界清晰、背景干凈、跨幀一致性強(qiáng)的優(yōu)勢(shì)。

實(shí)例摳圖（Instance Matting）：面對(duì)多人物或復(fù)雜背景的視頻內(nèi)容，MatAnyone 支持通過第一幀掩膜指定目標(biāo)對(duì)象，進(jìn)行后續(xù)穩(wěn)定追蹤與摳圖，有效避免目標(biāo)混淆或漂移，適合虛擬人剪輯、人物聚焦等實(shí)例級(jí)編輯任務(wù)。

推理階段增強(qiáng)（Iterative Refinement）：對(duì)于高精度場(chǎng)景，如廣告制作、影視后期等，MatAnyone 提供可選的首幀迭代優(yōu)化機(jī)制，通過多輪推理精細(xì)化第一幀 alpha matte，從而進(jìn)一步提升整段視頻的細(xì)節(jié)還原與邊界自然度。

實(shí)驗(yàn)結(jié)果：領(lǐng)先的細(xì)節(jié)質(zhì)量與時(shí)序穩(wěn)定

為了系統(tǒng)評(píng)估 MatAnyone 在視頻摳圖任務(wù)中的綜合表現(xiàn)，我們從定性與定量?jī)蓚€(gè)角度進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果顯示 MatAnyone 在精度、穩(wěn)定性與視覺質(zhì)量等多個(gè)維度均優(yōu)于現(xiàn)有主流無輔助型及輔助引導(dǎo)型方法。

定性評(píng)估（Qualitative）

在真實(shí)視頻案例中，我們展示了 MatAnyone 與現(xiàn)有方法 RVM、FTP-VM、MaGGIe 的可視化對(duì)比。結(jié)果表明，MatAnyone 能夠更準(zhǔn)確地提取目標(biāo)人物輪廓，尤其是在人物動(dòng)作劇烈或背景復(fù)雜的情況下，依然能保持頭發(fā)、邊緣衣物等細(xì)節(jié)的清晰度，并有效避免背景穿透與邊界斷裂等常見問題。同時(shí)，它也具備更強(qiáng)的實(shí)例區(qū)分能力，即使畫面中存在多個(gè)顯著人物，也能準(zhǔn)確鎖定目標(biāo)對(duì)象并保持一致跟蹤。

定量評(píng)估（Quantitative）

在合成數(shù)據(jù)集 VideoMatte 和自建的 YouTubeMatte 上，我們使用五個(gè)關(guān)鍵指標(biāo)對(duì)各方法進(jìn)行全面評(píng)估：

MAD（Mean Absolute Difference）與 MSE（Mean Squared Error）用于衡量語(yǔ)義準(zhǔn)確性；
Grad（Gradient）用于細(xì)節(jié)銳利度評(píng)估；
Conn（Connectivity）代表整體視覺連貫性；
dtSSD 則衡量跨幀間的時(shí)序一致性。

如 Table 1 所示，MatAnyone 在高、低分辨率的所有數(shù)據(jù)集上均取得最低的 MAD 和 dtSSD，表現(xiàn)出極高的語(yǔ)義穩(wěn)定性與時(shí)間一致性；同時(shí)在 Conn 指標(biāo)上也位居首位，驗(yàn)證了其在整體觀感和邊緣處理上的領(lǐng)先表現(xiàn)。

總結(jié)與展望

MatAnyone 是一套面向真實(shí)使用場(chǎng)景的人像視頻摳圖系統(tǒng)，專注于在僅提供首幀目標(biāo)的前提下，實(shí)現(xiàn)語(yǔ)義穩(wěn)定且邊界精細(xì)的視頻級(jí)摳圖。根據(jù)「視頻摳圖」任務(wù)的特性，它引入了區(qū)域自適應(yīng)的記憶融合機(jī)制，在保持語(yǔ)義穩(wěn)定性的同時(shí)，精細(xì)提取了頭發(fā)等細(xì)節(jié)區(qū)域。借助新構(gòu)建的 VM800 高質(zhì)量數(shù)據(jù)集與全新的訓(xùn)練策略，MatAnyone 顯著提升了在復(fù)雜背景下的摳圖穩(wěn)定性。

面對(duì)真實(shí)訓(xùn)練數(shù)據(jù)的制約，「視頻摳圖」任務(wù)仍然像是在 “戴著鐐銬跳舞”，當(dāng)前的效果雖有顯著突破，但仍有廣闊的提升空間。未來，我們團(tuán)隊(duì)將繼續(xù)探索更高效的訓(xùn)練策略、更泛化的數(shù)據(jù)構(gòu)建方式，以及更通用的記憶建模機(jī)制，推動(dòng)視頻摳圖技術(shù)在真實(shí)世界中實(shí)現(xiàn)更強(qiáng)魯棒性與更廣應(yīng)用性。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 生成模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：亚洲巨乳自拍在线视频 | 国产精品色 | 男女视频在线看 | 日韩中文在线视频 | 午夜激情免费视频 | 午夜激情国产 | 91免费看片 | 日韩欧美在 | 精品国产乱码久久久 | 国产一区二区三区欧美 | 日韩精品一区二区三区在线播放 | 黄色一级免费看 | 天天爽网站 | 在线视频日韩精品 | 97精品国产手机 | 久久久蜜桃一区二区人 | 日本欧美在线视频 | av一级毛片| 一区二区三区电影在线观看 | 午夜在线| 国产精品久久久久久久久久不蜜臀 | 欧美区在线 | 欧美精品综合在线 | 成人在线电影在线观看 | 国产良家自拍 | 国产乱人伦精品一区二区 | 欧美在线视频一区二区 | 人操人人 | 久久一视频 | www.久久| 日韩福利在线 | 国产一区二区三区久久久久久久久 | 亚洲中午字幕 | 久久久av中文字幕 | 日韩一区二区在线看 | 欧美一区二区三区在线视频 | 欧美乱码精品一区二区三区 | 精品欧美乱码久久久久久1区2区 | 免费毛片网站在线观看 | 中文字幕不卡在线观看 | 亚洲成人激情在线观看 |