成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像

發(fā)布于 2024-7-30 10:38
瀏覽
0收藏

2023年4月5日,Meta首次開(kāi)源了視覺(jué)分割模型SAM,能夠根據(jù)交互和自動(dòng)化兩種方式任意切割視頻、圖像中的所有元素,當(dāng)時(shí)這個(gè)模型被譽(yù)為計(jì)算機(jī)視覺(jué)界的“ChatGPT時(shí)刻”。目前,SAM在Github超過(guò)45000顆星。


今天凌晨,Meta在SAM的基礎(chǔ)之上對(duì)架構(gòu)、功能以及準(zhǔn)確率等進(jìn)行大量更新,正式開(kāi)源了SAM-2,并支持Apache 2.0規(guī)則的商業(yè)化。這也是繼上周Llama 3.1之后,再次開(kāi)源重磅模型。


同時(shí)Meta還分享了SAM-2的訓(xùn)練數(shù)據(jù)集SA-V,包含了51,000真實(shí)世界視頻和超過(guò)600,000個(gè)時(shí)空遮罩,這比其他同類數(shù)據(jù)集大50倍左右,可幫助開(kāi)發(fā)人員構(gòu)建更好的視覺(jué)模型。


SAM-2開(kāi)源地址:https://github.com/facebookresearch/segment-anything-2

在線demo:https://sam2.metademolab.com/

數(shù)據(jù)集地址:https://ai.meta.com/datasets/segment-anything-video/

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

SAM-2架構(gòu)簡(jiǎn)單介紹

SAM-2基礎(chǔ)架構(gòu)是基于transformer模型并引入了流式記憶機(jī)制,主要由圖像編碼器、記憶編碼器、記憶注意力模塊、提示編碼器和掩模解碼器等模塊組成。


圖像編碼器作為SAM-2處理視頻幀的起點(diǎn)采用了流式處理方法,能夠處理任意長(zhǎng)度的視頻,相比第一代可以使用更少的交互提升3倍效率。它使用的是一個(gè)預(yù)訓(xùn)練的Hiera模型,能夠提供多尺度的特征表示,為后續(xù)的記憶注意力模塊和掩模解碼器提供豐富的上下文信息。

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

記憶編碼器和記憶注意力模塊是本次SAM-2的重要?jiǎng)?chuàng)新之一。記憶編碼器負(fù)責(zé)將模型先前的預(yù)測(cè)和用戶交互動(dòng)作編碼為記憶,并將這些記憶存儲(chǔ)在記憶庫(kù)中,用于影響后續(xù)幀的分割結(jié)果。


記憶注意力模塊則利用這些記憶來(lái)增強(qiáng)當(dāng)前幀的特征表示,使其能夠更好地捕捉目標(biāo)對(duì)象在時(shí)間序列中的動(dòng)態(tài)變化

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

記憶編碼器通過(guò)將預(yù)測(cè)的分割掩模降采樣并與當(dāng)前幀的特征融合,生成記憶特征。隨后通過(guò)一系列輕量級(jí)的卷積層進(jìn)一步處理,以整合信息。記憶庫(kù)則保留了目標(biāo)對(duì)象在視頻中的歷史信息,通過(guò)維護(hù)一個(gè)先進(jìn)先出隊(duì)列來(lái)存儲(chǔ)最近N幀的記憶。


提示編碼器的設(shè)計(jì)遵循了SAM的原則,能夠接受點(diǎn)擊、框選或遮罩等不同類型的提示,以定義給定幀中對(duì)象的范圍。這些稀疏提示通過(guò)位置編碼和學(xué)習(xí)到的嵌入表示進(jìn)行表示,而遮罩則通過(guò)卷積操作進(jìn)行嵌入,并與幀嵌入相加。

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

掩模解碼器的設(shè)計(jì)在很大程度上遵循了第一代SAM的架構(gòu),使用了雙向transformer塊,這些塊更新提示和幀嵌入。為了處理可能存在多個(gè)兼容目標(biāo)掩模的模糊提示,SAM-2預(yù)測(cè)每個(gè)幀上的多個(gè)掩模,這對(duì)于確保模型輸出有效掩模至關(guān)重要。

SA – V訓(xùn)練數(shù)據(jù)集

現(xiàn)有的視頻分割數(shù)據(jù)集通常存在一些限制,例如,注釋對(duì)象主要集中在人、車輛和動(dòng)物等特定類別,并且往往只覆蓋整個(gè)對(duì)象而忽略了部分和子部分。


此外,這些數(shù)據(jù)集的規(guī)模相對(duì)較小,無(wú)法滿足訓(xùn)練強(qiáng)大的視頻分割模型的需求。為了解決這些難題,Meta開(kāi)發(fā)了SA – V數(shù)據(jù)集并使用了三大階段。

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

在第一階段,使用了SAM模型來(lái)輔助人類標(biāo)注。標(biāo)注者的任務(wù)是在視頻的每幀中以每秒6幀的速度使用SAM和像素精確的手動(dòng)編輯工具來(lái)標(biāo)注目標(biāo)對(duì)象的掩碼。


由于這是一種逐幀的方法,所有幀都需要從頭開(kāi)始標(biāo)注掩碼,因此流程非常緩慢,平均標(biāo)注時(shí)間為每幀37.8秒。但這種方法能夠產(chǎn)生高質(zhì)量的空間標(biāo)注,在這個(gè)階段,共收集了16000個(gè)掩碼片段,涵蓋了1400個(gè)視頻。


第二階段,引入了SAM 2 Mask,它只接受掩碼作為提示。標(biāo)注者首先使用SAM和其他工具在第一幀中生成空間掩碼,然后使用SAM 2 Mask將標(biāo)注的掩碼在時(shí)間上傳播到其他幀,以獲得完整的時(shí)空掩碼片段。

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

通過(guò)這個(gè)階段的工作,收集了635,000個(gè)掩碼片段,標(biāo)注時(shí)間下降到每幀7.4秒,相比第一階段有了顯著的提高,速度提升了約5.1倍。

第三階段,使用了完全功能的SAM-2,它能夠接受各種類型的提示,包括點(diǎn)和掩碼。與前兩個(gè)階段不同,SAM-2受益于對(duì)象在時(shí)間維度上的記憶來(lái)生成掩碼預(yù)測(cè)。

殺瘋了!Meta開(kāi)源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

這意味著標(biāo)注者只需要偶爾對(duì)SAM 2提供的預(yù)測(cè)掩碼進(jìn)行細(xì)化點(diǎn)擊,就能夠在中間幀中編輯預(yù)測(cè)的掩碼片段,而不需要像在第一階段那樣從頭開(kāi)始標(biāo)注。通過(guò)多次重新訓(xùn)練和更新SAM-2,標(biāo)注時(shí)間進(jìn)一步下降到每幀4.5秒,相比第一階段速度提升了約8.4倍


所以,SA – V在開(kāi)發(fā)SAM-2過(guò)程中發(fā)揮了重要作用,也是目前最大視覺(jué)分割訓(xùn)練數(shù)據(jù)集之一。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/eutXy6YCWsvtv-wGAcNaPA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩免费激情视频 | 97色在线观看免费视频 | 亚洲精品一区二区二区 | 成人国产精品免费观看 | 亚洲一级av毛片 | 国产精品视频一区二区三区 | 亚洲精彩视频在线观看 | 福利视频亚洲 | 国产精品一区二区三区99 | 人妖av | 久久久久久久国产精品视频 | h视频免费在线观看 | 国产精品久久av | 久久免费福利 | 九九亚洲| 国产精品久久av | 欧美精品成人 | 91精品久久久久久久久久 | 在线观看亚洲专区 | 欧美一级黄色片免费观看 | 久久人人爽人人爽 | av日韩在线播放 | 999国产视频| 久热爱 | 国产精品不卡 | 亚洲欧美国产毛片在线 | 欧美精品在线免费观看 | 日本视频一区二区 | 老司机狠狠爱 | 日本一区二区高清不卡 | 特一级毛片 | www亚洲精品| 午夜视频一区二区三区 | 一级日韩| 午夜影视在线观看 | 中文字幕av中文字幕 | 色婷婷综合久久久久中文一区二区 | 精品日韩 | 久久久久久久久久久91 | 欧美成年人视频在线观看 | 亚洲成人精品在线观看 |