無需訓(xùn)練即可大幅提升SAM 2！開源的SAM2Long來了，港中文、上海AI Lab出品

作者：機(jī)器之心 2024-11-05 13:40:00

SAM2Long 是基于 SAM 2 的一種針對長時(shí)間視頻對象分割任務(wù)的全新方法。通過引入多路徑記憶樹結(jié)構(gòu)和不確定性處理機(jī)制，SAM2Long 有效地解決了長視頻中遮擋、對象重現(xiàn)和錯(cuò)誤累積等挑戰(zhàn)。

Segment Anything Model 2（SAM 2）在傳統(tǒng)視頻目標(biāo)分割任務(wù)大放異彩，引起了眾多關(guān)注。然而，港中文和上海 AI Lab 的研究團(tuán)隊(duì)發(fā)現(xiàn) SAM 2 的貪婪選擇策略容易陷入「錯(cuò)誤累積」的問題，即一次錯(cuò)誤的分割掩碼選擇將影響后續(xù)幀的分割結(jié)果，導(dǎo)致整個(gè)視頻分割性能的下降。這個(gè)問題在長視頻分割任務(wù)中顯得更加嚴(yán)重。

針對這些挑戰(zhàn)，該研究團(tuán)隊(duì)近日推出了全新的 SAM2Long。在 Segment Anything Model 2（SAM 2）的基礎(chǔ)上，提出了創(chuàng)新的記憶結(jié)構(gòu)設(shè)計(jì)，打造了專為復(fù)雜長視頻的分割模型。

論文鏈接：https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf
項(xiàng)目鏈接：https://mark12ding.github.io/project/SAM2Long/
代碼鏈接：https://github.com/Mark12Ding/SAM2Long

SAM2Long 采用了一種全新的多路徑記憶樹結(jié)構(gòu)，使得模型可以在每一幀處理時(shí)探索多種可能的分割路徑，并根據(jù)綜合得分選擇最佳路徑進(jìn)行后續(xù)幀的分割。這種設(shè)計(jì)避免了單一錯(cuò)誤掩碼對整個(gè)視頻的影響，使得 SAM2Long 在處理遮擋、目標(biāo)重現(xiàn)等長視頻常見問題時(shí)表現(xiàn)得更加穩(wěn)健。

定性和定量對比 SAM 2 和 SAM2Long 處理遮擋和長時(shí)間的性能。

SAM2Long 方法簡述

1. SAM 2 的基礎(chǔ)概述

SAM 2 是一種用于圖像和視頻對象分割的基礎(chǔ)模型。與 SAM 不同，SAM 2 引入了一個(gè)內(nèi)存模塊，該模塊利用先前幀的信息和提示幀特征來幫助當(dāng)前幀的分割。在視頻對象分割任務(wù)中，SAM 2 會(huì)在每個(gè)時(shí)間步 t 上維護(hù)一個(gè)內(nèi)存庫，存儲(chǔ)最近 N 幀的特征。每個(gè)內(nèi)存條目包含空間嵌入和對象指針，通過這些信息，SAM 2 能夠生成當(dāng)前幀的分割掩碼，并預(yù)測掩碼的 IoU 分?jǐn)?shù)和遮擋分?jǐn)?shù)。SAM 2 采用貪婪選擇策略，選擇最高 IoU 的掩碼作為最終預(yù)測，并存儲(chǔ)其對應(yīng)的內(nèi)存指針。

2. 多路徑記憶樹結(jié)構(gòu)與不確定性處理

為了提高 SAM 2 在長視頻中的魯棒性，SAM2Long 引入了多路徑記憶樹結(jié)構(gòu)。該結(jié)構(gòu)允許模型在每個(gè)時(shí)間步上保留多個(gè)分割路徑假設(shè)，每條路徑都有獨(dú)立的內(nèi)存庫和累積得分。每個(gè)時(shí)間步上，SAM2 的掩碼解碼器在每條路徑會(huì)生成三個(gè)掩碼候選。

為了防止路徑數(shù)量過多引起計(jì)算和內(nèi)存開銷過高，SAM2Long 實(shí)施了剪枝策略。我們計(jì)算每個(gè)掩碼累積 IoU 得分，只保留得分最高的 P 條路徑。

此外，SAM2Long 在處理不確定場景時(shí)，利用遮擋分?jǐn)?shù)進(jìn)行不確定性處理。當(dāng)所有路徑的遮擋分?jǐn)?shù)都較低時(shí)，意味著模型對輸出的結(jié)果不確定。在這種情況下，SAM2Long 會(huì)強(qiáng)制選擇不同 IoU 值的掩碼路徑，以避免錯(cuò)誤路徑的過早收斂。

相比 SAM 2，SAM2Long 增加了額外的計(jì)算需求，主要體現(xiàn)在掩碼解碼器和內(nèi)存模塊的多次處理上。然而，這些模塊相較于圖像編碼器來說非常輕量。例如，SAM 2-Large 的圖像編碼器包含 212M 個(gè)參數(shù)，而模型其余的參數(shù)只有 12M，大約僅占模型的 5%。

因?yàn)?SAM2Long 也只需要處理一次圖像編碼器，所以內(nèi)存樹結(jié)構(gòu)的引入幾乎不會(huì)增加顯著的計(jì)算成本，但卻顯著提高了模型在長時(shí)間視頻場景中的魯棒性和對錯(cuò)誤的恢復(fù)能力。

3. 物體感知的記憶庫構(gòu)建

在每條路徑中，SAM2Long 使用物體感知的內(nèi)存選擇策略，通過篩選出具有較高 IoU 分?jǐn)?shù)和沒有遮擋的幀，只將高質(zhì)量的有物體的幀加入記憶內(nèi)存庫。

此外，SAM2Long 對每個(gè)內(nèi)存幀的遮擋分?jǐn)?shù)進(jìn)行排序，遮擋分?jǐn)?shù)越高，表示該幀中的目標(biāo)對象越清晰、遮擋越少。為了充分利用這些高質(zhì)量的幀，SAM2Long 通過以下幾個(gè)步驟來調(diào)整每個(gè)內(nèi)存幀在注意力計(jì)算中的權(quán)重。

首先，定義一組線性分布的標(biāo)準(zhǔn)權(quán)重，用于對內(nèi)存中的幀進(jìn)行加權(quán)。這些權(quán)重在一個(gè)預(yù)定義的范圍 [w_low, w_high] 之間線性分布，較高的權(quán)重將分配給那些重要的內(nèi)存幀。

然后，對每個(gè)內(nèi)存幀的遮擋分?jǐn)?shù)進(jìn)行排序，得到一個(gè)按遮擋分?jǐn)?shù)從低到高排列的幀索引序列。根據(jù)遮擋分?jǐn)?shù)的排序結(jié)果，將標(biāo)準(zhǔn)權(quán)重分配給對應(yīng)的內(nèi)存幀，遮擋分?jǐn)?shù)越高的幀用越大的權(quán)重線性縮放該幀的特征表示。

最后，使用經(jīng)過加權(quán)調(diào)整的內(nèi)存幀作為輸入，進(jìn)行跨幀的注意力計(jì)算。這樣，遮擋分?jǐn)?shù)高的幀（表示對象存在且分割質(zhì)量高）會(huì)對當(dāng)前幀的分割結(jié)果產(chǎn)生更大的影響。

實(shí)驗(yàn)結(jié)果

SAM2Long 在所有模型規(guī)模優(yōu)于 SAM 2

我們對 SAM 2 和 SAM2Long 在不同模型規(guī)模和多個(gè)數(shù)據(jù)集上的表現(xiàn)進(jìn)行了詳細(xì)對比。在 SA-V 驗(yàn)證集和測試集以及 LVOS v2 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果顯示，SAM2Long 無論在何種模型規(guī)模下，均顯著超越了 SAM 2。表中共包含了 8 種模型變體，涵蓋了 SAM 2 和最新的 SAM 2.1 在四種模型規(guī)模下的表現(xiàn)。24 次實(shí)驗(yàn)的平均結(jié)果表明，SAM2Long 在 J&F 指標(biāo)上平均提高了 3.0 分。

其中，SAM2Long-Large 在 SA-V 驗(yàn)證集和測試集上，分別比 SAM 2 提升了 4.5 和 5.3 分。在 LVOS 驗(yàn)證集上，各個(gè)模型規(guī)模下的 SAM2Long 也都展示了顯著的性能提升。此結(jié)果證明了我們的無訓(xùn)練內(nèi)存樹策略在長時(shí)間視頻分割中的高效性，大大提升了模型在長視頻對象分割中的魯棒性。

SAM2Long 超越現(xiàn)有方法，實(shí)現(xiàn) SOTA

我們還將 SAM2Long 與當(dāng)前最先進(jìn)的視頻對象分割方法進(jìn)行了對比。盡管 SAM 2.1 已經(jīng)在眾多數(shù)據(jù)集上顯著超越了現(xiàn)有方法，但 SAM2.1Long 將這一成績推向了更高的水平。特別是在 SA-V 驗(yàn)證集上，SAM2.1Long 的 J&F 得分為 81.1，較 SAM 2.1 提升了 2.5 分。在 LVOS 數(shù)據(jù)集中，SAM2.1Long 在 v1 和 v2 子集上分別達(dá)到了 83.4 和 85.9 的 J&F 得分，分別比 SAM 2.1 提升了 3.2 和 1.8 分。

SAM2Long 在應(yīng)對不同挑戰(zhàn)的視頻時(shí)展現(xiàn)了強(qiáng)大的通用性

除了在 SA-V 和 LVOS 數(shù)據(jù)集上的出色表現(xiàn)外，我們還在其他視頻對象分割基準(zhǔn)測試上對 SAM2Long 進(jìn)行了評(píng)估。在復(fù)雜的現(xiàn)實(shí)場景 MOSE 數(shù)據(jù)集上，SAM2.1Long 的 J&F 得分為 75.2，超越了 SAM 2.1 的 74.5 分。特別是在 MOSE 基準(zhǔn)上，SAM 2.1-Large 并未相較 SAM 2-Large 帶來性能提升，因此 SAM2.1Long 在該基準(zhǔn)上取得的顯著改進(jìn)顯得尤為突出。

同樣，在關(guān)注對象變形的 VOST 數(shù)據(jù)集上，SAM2.1Long 的 J&F 得分為 54.0，較 SAM 2.1 提升了接近 1 分。而在 PUMaVOS 數(shù)據(jù)集上，SAM2.1Long 也以 82.4 分超越了 SAM 2.1 的 81.1 分，證明了其在處理復(fù)雜和模糊分割任務(wù)時(shí)的強(qiáng)大能力。

這些結(jié)果表明，SAM2Long 在保留 SAM 2 基礎(chǔ)分割能力的同時(shí)，顯著增強(qiáng)了其長時(shí)間視頻場景下的表現(xiàn)，展現(xiàn)了其在不同 VOS 基準(zhǔn)數(shù)據(jù)集上的魯棒性和通用性。

結(jié)語

實(shí)驗(yàn)結(jié)果表明，SAM2Long 在多個(gè)主流數(shù)據(jù)集上顯著提升了分割精度，尤其是在未見類別和復(fù)雜場景中的表現(xiàn)尤為突出。相比于 SAM 2，SAM2Long 不僅保持了較低的計(jì)算開銷，還在泛化能力和魯棒性上實(shí)現(xiàn)了突破。

未來，我們相信 SAM2Long 可以廣泛應(yīng)用于各種實(shí)際場景，如自動(dòng)駕駛、視頻編輯和智能監(jiān)控，推動(dòng)視頻對象分割技術(shù)的進(jìn)一步發(fā)展。

責(zé)任編輯：張燕妮來源：機(jī)器之心