成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

經(jīng)典卡爾曼濾波器改進(jìn)視頻版「分割一切」,網(wǎng)友:好優(yōu)雅的方法

人工智能 新聞
一個(gè)全華人團(tuán)隊(duì),僅僅是用了個(gè)經(jīng)典方法,就把它的能力拔到了一個(gè)新高度。

Meta的視頻版分割一切——Segment Anything Model 2(SAM 2),又火了一把。

因?yàn)檫@一次,一個(gè)全華人團(tuán)隊(duì),僅僅是用了個(gè)經(jīng)典方法,就把它的能力拔到了一個(gè)新高度——

任你移動再快,AI跟丟不了一點(diǎn)點(diǎn)!

例如在電影《1917》這段畫面里,主角穿梭在眾多士兵之中,原先的SAM 2表現(xiàn)是這樣的:

圖片

嗯,當(dāng)一大群士兵涌入畫面的時(shí)候,SAM 2把主角給跟丟了。

但改進(jìn)版的SAM 2,它的表現(xiàn)截然不同:

圖片

這個(gè)改進(jìn)版的SAM 2,名叫SAMURAI(武士),由華盛頓大學(xué)全華人研究團(tuán)隊(duì)提出。

一言蔽之,這項(xiàng)工作就是把SAM 2之前存在的缺點(diǎn)(記憶管理方面的局限性)給填補(bǔ)上了。

圖片

更有意思的是,這項(xiàng)改進(jìn)工作所用到的核心關(guān)鍵方法,是非常經(jīng)典的卡爾曼濾波器(Kalman Filter,KF)。

并且還是無需重新訓(xùn)練、可以實(shí)時(shí)運(yùn)行的那種!

前谷歌產(chǎn)品經(jīng)理、國外知名博主Bilawal Sidhu在看完論文后直呼“優(yōu)雅”

有時(shí)候你不需要復(fù)雜的全新架構(gòu)——只需要聰明地利用模型已知的信息,再加上一些經(jīng)過驗(yàn)證的經(jīng)典方法。

我們的“老朋友”卡爾曼濾波器,這么多年過去了,它的表現(xiàn)依然如此出色。有時(shí)候老派的方法就是管用。

圖片

嗯,頗有一種“姜還是老的辣”的感覺了。

黑悟空、女團(tuán)舞蹈,統(tǒng)統(tǒng)都能hold住

我們先繼續(xù)看下SAMURAI能力實(shí)現(xiàn)的更多效果。

團(tuán)隊(duì)在項(xiàng)目主頁中便從多個(gè)不同維度秀了一波實(shí)力。

首先就是打斗游戲場景,例如在《只狼:影逝二度》中,即便人物都“彈出”了畫面,SAMURAI也能再次把目標(biāo)捕捉回來:

圖片

《黑神話:悟空》的打斗名場面,人物動作變化可以說是非常之快,而且和背景非常復(fù)雜的交織在一起。

即便如此,SAMURAI也能精準(zhǔn)跟蹤,細(xì)節(jié)到金箍棒的那種:

圖片

但畢竟這兩個(gè)游戲場景的例子,所涉及到的主體還不夠多,那么我們接下來繼續(xù)看下更復(fù)雜的case。

例如橄欖球比賽場景,不僅人物移動的快,后來隊(duì)員們都撲到了一起,SAMURAI也能hold住:

圖片

女團(tuán)舞蹈的案例中,人物在變換隊(duì)形的時(shí)候都已經(jīng)被其他隊(duì)員擋住了,也擋不住SAMURAI的“眼神鎖定你”:

圖片

很work的經(jīng)典方法

在看完效果之后,我們接下來扒一扒SAMURAI的技術(shù)細(xì)節(jié)。

正如我們剛才提到的,這項(xiàng)工作彌補(bǔ)了SAM 2此前存在的缺點(diǎn)。

主要的問題就是處理視覺目標(biāo)跟蹤時(shí),尤其是在擁擠場景中快速移動或遮擋的物體時(shí),它會出現(xiàn)跟丟了的情況。

圖片

SAM 2的組成部分包括圖像編碼器、掩碼解碼器、提示編碼器、記憶注意力層和記憶編碼器。

在視覺目標(biāo)跟蹤中,SAM 2使用提示編碼器來處理輸入的提示信息,如點(diǎn)、框或文本,這些提示信息用于指導(dǎo)模型分割圖像中的特定對象。

掩碼解碼器則負(fù)責(zé)生成預(yù)測的掩碼,而記憶注意力層和記憶編碼器則用于處理跨幀的上下文信息,以維持長期跟蹤。

然而,SAM 2在處理快速移動的對象或在擁擠場景中,往往忽視了運(yùn)動線索,導(dǎo)致在預(yù)測后續(xù)幀的掩碼時(shí)出現(xiàn)不準(zhǔn)確。

特別是在遮擋發(fā)生時(shí),SAM 2傾向于優(yōu)先考慮外觀相似性而非空間和時(shí)間的一致性,這可能導(dǎo)致跟蹤錯(cuò)誤。

而SAMURATI,作為SAM 2的增強(qiáng)版,可以說是很好地解決了此前的痛點(diǎn)。

整體來看,SAMURAI主要包含兩個(gè)技術(shù)關(guān)鍵點(diǎn):

  • 運(yùn)動建模(Motion Modeling)
  • 運(yùn)動感知記憶選擇(Motion-Aware Memory Selection)

圖片

讓目標(biāo)“動”起來

運(yùn)動建模部分的目的是有效地預(yù)測目標(biāo)的運(yùn)動,從而在復(fù)雜場景中,如擁擠場景或目標(biāo)快速移動和自遮擋的情況下,提高跟蹤的準(zhǔn)確性和魯棒性。

而這里用到的具體方法,就是那個(gè)經(jīng)典的卡爾曼濾波器,以此來增強(qiáng)邊界框位置和尺寸的預(yù)測,從而幫助從多個(gè)候選掩碼中選擇最有信心的一個(gè)。

在SAMURAI中,狀態(tài)向量包括目標(biāo)的位置、尺寸及其變化速度;通過預(yù)測-校正循環(huán),卡爾曼濾波器能夠提供關(guān)于目標(biāo)未來狀態(tài)的準(zhǔn)確估計(jì)。

目標(biāo)的狀態(tài)向量被定義為:

圖片

其中,x和y表示目標(biāo)邊界框的中心坐標(biāo);w和h表示邊界框的寬度和高度;后四個(gè)變量則表示坐標(biāo)與尺寸的速度。

濾波的過程則主要分為兩個(gè)步驟。

第一個(gè)就是預(yù)測階段,即根據(jù)目標(biāo)的上一幀狀態(tài),預(yù)測下一幀位置:

圖片

其中,F(xiàn)是狀態(tài)轉(zhuǎn)移矩陣。

第二個(gè)則是更新階段,會結(jié)合實(shí)際測量值(目標(biāo)的候選掩膜),校正預(yù)測值:

圖片

在運(yùn)動建模部分,除了基于卡爾曼濾波器的運(yùn)動預(yù)測之外,還涉及運(yùn)動分?jǐn)?shù)(Motion Score)。

主要是通過計(jì)算 Kalman 濾波器預(yù)測的邊界框與候選掩膜之間的交并比(IoU),生成運(yùn)動分?jǐn)?shù)sKf,用以輔助掩膜選擇:

圖片

最終的掩膜選擇基于運(yùn)動分?jǐn)?shù)與掩膜親和分?jǐn)?shù)的加權(quán)和:

圖片

挑出最關(guān)鍵的記憶

SAMURAI第二個(gè)關(guān)鍵技術(shù),則是運(yùn)動感知記憶選擇(Motion-Aware Memory Selection)。

主要是為了解決SAM 2的固定窗口記憶機(jī)制容易引入錯(cuò)誤的低質(zhì)量特征,導(dǎo)致后續(xù)跟蹤的誤差傳播的情況。

這部分首先涉及一個(gè)混合評分系統(tǒng),包括掩膜分?jǐn)?shù)、目標(biāo)出現(xiàn)分?jǐn)?shù)和運(yùn)動分?jǐn)?shù)三種評分,用于動態(tài)選擇記憶庫中最相關(guān)的幀。

  • 掩膜分?jǐn)?shù)smask:衡量掩膜的準(zhǔn)確性。
  • 目標(biāo)出現(xiàn)分?jǐn)?shù) sobj:判斷目標(biāo)是否存在于該幀中。
  • 運(yùn)動分?jǐn)?shù) skf:預(yù)測目標(biāo)位置的準(zhǔn)確性。

其次是一個(gè)記憶選擇機(jī)制——

如果某幀滿足以下條件,則其特征會被保留到記憶庫中:

圖片

動態(tài)選擇的記憶庫可以跳過遮擋期間的低質(zhì)量特征,從而提高后續(xù)幀的預(yù)測性能。

從實(shí)驗(yàn)結(jié)果來看,SAMURAI在多個(gè)視覺目標(biāo)跟蹤基準(zhǔn)上表現(xiàn)出色,包括 LaSOT、LaSOText和GOT-10k數(shù)據(jù)集。

圖片

值得一提的是,SAMURAI是在無需重新訓(xùn)練或微調(diào)的情況下,在所有基準(zhǔn)上都超過了SAM 2,并與部分有監(jiān)督方法(如 LoRAT 和 ODTrack)表現(xiàn)相當(dāng)。

全華人團(tuán)隊(duì)出品

SAMURAI這項(xiàng)工作背后的研究團(tuán)隊(duì),有一個(gè)亮點(diǎn)便是全華人陣容。

例如Cheng-Yen Yang,目前是華盛頓大學(xué)電氣與計(jì)算機(jī)工程系的一名四年級博士生。

研究方向主要包括在復(fù)雜場景(水下,無人機(jī),多相機(jī)系統(tǒng))中的多目標(biāo)跟蹤(單視圖,多視圖,交叉視圖)。

圖片

Hsiang-Wei Huang和Zhongyu Jiang也是華盛頓大學(xué)電氣與計(jì)算機(jī)工程系的博士生,而Wenhao Chai目前則是攻讀研究生。

他們的導(dǎo)師是華盛頓大學(xué)教授Jenq-Neng Hwang

他是IEEE信號處理協(xié)會多媒體信號處理技術(shù)委員會的創(chuàng)始人之一,自2001年以來,黃教授一直是IEEE院士。

圖片

關(guān)于SAMURAI更多內(nèi)容,可戳下方鏈接。

項(xiàng)目地址:https://yangchris11.github.io/samurai/

論文地址:https://arxiv.org/abs/2411.11922

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-07-30 10:51:51

2023-04-27 09:27:44

視頻AI

2023-12-07 07:16:57

Meta訓(xùn)練

2023-07-05 14:06:43

視頻AI

2023-04-10 15:52:57

模型樣本

2012-12-31 11:22:58

開源開放

2020-09-11 10:55:10

useState組件前端

2024-10-28 17:17:32

2021-02-28 09:47:54

軟件架構(gòu)軟件開發(fā)軟件設(shè)計(jì)

2023-05-04 12:19:47

模型AI

2018-11-23 11:17:24

負(fù)載均衡分布式系統(tǒng)架構(gòu)

2021-02-19 23:08:27

軟件測試軟件開發(fā)

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2016-08-31 17:24:05

大數(shù)據(jù)分析

2023-10-26 09:34:44

自動駕駛技術(shù)

2019-12-02 10:23:49

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-10-14 08:04:28

JavaScrip

2021-05-28 07:12:59

Python閉包函數(shù)

2025-03-10 13:11:00

2023-04-25 11:36:17

CV模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久精品二区亚洲w码 | 亚洲一区二区av | 久久精品视频在线免费观看 | 日韩中文字幕一区二区 | 午夜a√ | 精品国产久| 激情免费视频 | 国产精品久久久久久久久久了 | 国产综合在线视频 | 日韩欧美视频网站 | 日本在线综合 | 久久大全 | 懂色中文一区二区在线播放 | 久久精品国产一区二区 | 中文字幕国产精品 | www.久草.com | gav成人免费播放视频 | 亚洲福利网 | 视频在线一区二区 | 色橹橹欧美在线观看视频高清 | 国产一区二区三区视频 | 久久久久99| 一区二区三区国产精品 | 超碰国产在线 | 日韩中文字幕 | 毛片的网址 | 亚洲精品乱码久久久久久蜜桃91 | 99久久99 | 欧美不卡一区二区三区 | av在线播放不卡 | 成人精品免费视频 | 日本字幕在线观看 | 久久精品一区二区三区四区 | 欧美日日 | 久久精品亚洲成在人线av网址 | 亚洲一区国产精品 | 日日干日日操 | 欧美精品久久久久久 | 日韩视频在线观看一区二区 | 97久久精品| 国产精品国产精品国产专区不蜜 |