分割一切還不夠，還要視頻跟蹤一切，《清明上河圖》也能輕松拿下

作者：機器之心 2023-04-27 09:27:44

南方科技大學鄭鋒團隊的這項研究：Track Anything ，很好的解決了 SAM 在視頻領域的短板。

本月初，Meta 發布「分割一切」AI 模型（Segment Anything Model，簡稱 SAM），可以為任何圖像或視頻中的任何物體生成 mask，甚至包括沒有見過的物體和圖像。有人將這一研究比喻為計算機視覺領域的 GPT-3 時刻之一。

Meta 表示，「SAM 已經學會了關于物體的一般概念，可以為任何圖像或視頻中的任何物體生成 mask，甚至包括在訓練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用，可以涵蓋廣泛的用例，并且可以在新的圖像『領域』即開即用，無需額外的訓練。」

該模型一經發布，迅速引起計算機視覺領域的轟動，更是有人發出「CV 不存在了」這樣的感慨。

然而目前 SAM 的應用主要集中在圖像領域，在視頻領域的應用仍然未被深入探索，尤其是對視頻目標的跟蹤 / 分割，仍是巨大挑戰。同時，現有的跟蹤模型的局限性也很明顯，如，場景切換在現實視頻中很常見，而現有的跟蹤模型只能在單一場景下實現目標的精準定位；現有的模型要求準確的模版初始化，需要人為提供目標邊界框或精準掩碼，因而可用性被極大限制。

近日，南方科技大學鄭鋒團隊提出了「跟蹤一切」（Track Anything Model ，TAM）的交互工具，其在視頻中實現高性能的交互式跟蹤和分割。Track Anything 是基于 SAM 的二次創作模型，適用于視頻領域任意目標的跟蹤任務，可以通過簡單的鼠標點擊實現對任意視頻任意目標的像素級跟蹤，實現了目標跟蹤的交互性、靈活性、可用性。

論文地址：https://arxiv.org/pdf/2304.11968.pdf
項目地址：https://github.com/gaomingqi/Track-Anything
Demo 地址：https://huggingface.co/spaces/watchtowerss/Track-Anything

Track Anything：交互式跟蹤任意視頻任意目標

Track Anything 效果到底如何呢？我們先從幾個示例來說明。首先是多目標跟蹤與分割。《清明上河圖》大家早已耳聞，畫中人物眾多、形態各異，其間還穿插各種動作等等。想要跟蹤里面的目標難度還是比較大的。下面視頻顯示 Track Anything 很好的跟蹤了物體。

接下來考察 Track Anything 在快速運動場景下的跟蹤能力。眾所周知，打籃球需要動作敏捷、健步如飛…… 用 AI 技術跟蹤一位籃球運動員并不容易，加之運動員動作幅度大、相互之間出現遮擋等，都加大了跟蹤難度，出現錯誤跟蹤、漏跟蹤情況。但從下面展示的效果來看，即便是在瞬息萬變的籃球比賽，Track Anything 跟蹤效果都做的非常好。

接下來，我們在看一個示例。從下面視頻中可以看到，一位身姿矯健的男生靈活的跨越眾多障礙，即便人的運動速度再快、動作再復雜等，Track Anything 都能很好的處理。

由于 Track Anything 跟蹤效果非常好，受到廣大網友的好評。就像下面這位網友所說的：「這項研究給人一種強烈的終結者的感覺。SAM 在分割圖像方面很在行，但在視頻方面卻不出色，而TMA僅通過少量人工輸入，就能很好的實現對視頻中物體的跟蹤與分割。」

技術介紹

鄭鋒團隊通過以使用者為中介的 SAM 與 VOS 模型的交互式組合，提出了 Track Anything 工具，它擁有強大的視頻目標跟蹤能力，并提供用戶友好的操作界面，只需要簡單的點擊操作，就可以任意地跟蹤用戶感興趣的一個或多個目標區域，還可以根據用戶需求靈活調整目標對象，并自帶用戶糾錯和視頻編輯功能。其技術流程如下：

1 基于 SAM，用戶通過正負樣本點的選取，確定目標對象在視頻中某一幀的空間區域。

2 使用用戶確定的區域作為模板初始化跟蹤模型。跟蹤過程中，通過建立每個視頻幀與模板區域之間的密集關聯，實現將用戶選取信息向整個視頻的傳遞過程，從而實現目標跟蹤。

3 跟蹤過程中，用戶可以隨時暫停，同樣通過正負樣本選取的方式，實現對其他目標的追蹤，或修正當前目標追蹤的結果。

4 基于跟蹤結果，用戶可以使用目標擦除或視頻修復功能，實現在視頻中對特定區域的編輯。

總之，通過 Track Anything，使用者可以輕松地完成視頻中單個或多個目標的精確標注，視頻特定區域提取及編輯，以及長時 / 轉場視頻中的目標跟蹤。

相關功能陸續上線中，歡迎大家試用！

鄭鋒團隊不僅在視頻領域研發了Track-Anything，還在圖像和語言領域還推出了Caption-Anything系統。它是一個多功能的圖像處理工具，結合了Segment Anything、Visual Captioning和ChatGPT在圖像和語言領域的能力。項目地址：https://github.com/ttengwang/Caption-Anything/。

責任編輯：張燕妮來源：機器之心

視頻 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

分割一切還不夠，還要視頻跟蹤一切，《清明上河圖》也能輕松拿下

Track Anything：交互式跟蹤任意視頻任意目標

技術介紹