成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用Transformer進行圖像語義分割,性能超最先進的卷積方法

新聞 人工智能
Transformer跨界計算機視覺領域真是越來越頻繁了、效果也越來越成功了!

 [[400873]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

正如大家所知,在進行圖像語義分割時,圖像被編碼成一系列補丁后往往很模糊,需要借助上下文信息才能被正確分割。

因此上下文建模對圖像語義分割的性能至關重要!

而與以往基于卷積網絡的方法不同,來自法國的一個研究團隊另辟蹊徑,提出了一種只使用Transformer的語義分割方法。

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

該方法“效果拔群”,可以很好地捕捉圖像全局上下文信息!

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

要知道,就連取得了驕人成績的FCN(完全卷積網絡)都有“圖像全局信息訪問限制”的問題。(卷積結構在圖像語義分割方面目前有無法打破的局限)

而這次這個方法在具有挑戰性的ADE20K數據集上,性能都超過了最先進的卷積方法!

[[400874]]最先進的卷積方法">

不得不說,Transformer跨界計算機視覺領域真是越來越頻繁了、效果也越來越成功了!

那這次表現優異的Transformer語義分割,用了什么不一樣的“配方”嗎?

使用Vision Transformer

沒錯,這次這個最終被命名為Segmenter的語義分割模型,主要基于去年10月份才誕生的一個用于計算機視覺領域的“新秀”Transformer:Vision Transformer,簡稱ViT。

ViT有多“秀”呢?

ViT采用純Transformer架構,將圖像分成多個patches進行輸入,在很多圖像分類任務中表現都不輸最先進的卷積網絡。

缺點就是在訓練數據集較小時,性能不是很好。

Segmenter作為一個純Transformer的編碼-解碼架構,利用了模型每一層的全局圖像上下文。

基于最新的ViT研究成果,將圖像分割成塊(patches),并將它們映射為一個線性嵌入序列,用編碼器進行編碼。再由Mask Transformer將編碼器和類嵌入的輸出進行解碼,上采樣后應用Argmax給每個像素一一分好類,輸出最終的像素分割圖。

下面是該模型的架構示意圖:

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

解碼階段采用了聯合處理圖像塊和類嵌入的簡單方法,解碼器Mask Transformer可以通過用對象嵌入代替類嵌入來直接進行全景分割。

效果如何

多說無益,看看實際效果如何?

首先他們在ADE20K數據集上比較不同Transformer變體,研究不同參數(正則化、模型大小、圖像塊大小、訓練數據集大小,模型性能,不同的解碼器等),全方面比較Segmenter與基于卷積的語義分割方法。

其中ADE20K數據集,包含具有挑戰性的細粒度(fine-grained)標簽場景,是最具挑戰性的語義分割數據集之一。

下表是不同正則化方案的比較結果:

他們發現隨機深度(Stochastic Depth)方案可獨立提高性能,而dropout無論是單獨還是與隨機深度相結合,都會損耗性能。

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

不同圖像塊大小和不同transformer的性能比較發現:

增加圖像塊的大小會導致圖像的表示更粗糙,但會產生處理速度更快的小序列。

減少圖像塊大小是一個強大的改進方式,不用引入任何參數!但需要在較長的序列上計算Attention,會增加計算時間和內存占用。

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

Segmenter在使用大型transformer模型小規模圖像塊的情況下更優:

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

(表中間是帶有線性解碼器的不同編碼器,表底部是帶有Mask Transformer作為解碼器的不同編碼器)

下圖也顯示了Segmenter的明顯優勢,其中Seg/16模型(圖像塊大小為16x16)在性能與準確性方面表現最好。

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

最后,我們再來看看Segmenter與SOTA的比較:

在最具挑戰性的ADE20K數據集上,Segmenter兩項指標均高于所有SOTA模型!

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

(中間太長已省略)

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

在Cityscapes數據集上與大多數SOTA不相上下,只比性能最好的Panoptic-Deeplab低0.8。

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

在Pascal Context數據集上的表現也是如此。

用Transformer進行圖像語義分割,性能超<span><span><span><i style=最先進的卷積方法">

剩余參數比較,大家有興趣的可按需查看論文細節。

論文地址:
https://www.arxiv-vanity.com/papers/2105.05633/

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2014-08-07 10:49:20

debugdebug技巧

2014-08-07 10:03:31

debug技巧原則

2022-01-12 17:53:52

Transformer數據人工智能

2013-06-08 09:23:20

2015-03-12 09:12:07

2024-11-21 16:06:02

2017-08-04 08:06:15

CVPR 2017論文圖像語義分割

2017-05-27 14:42:21

曙光服務器

2024-10-21 16:47:56

2020-11-30 12:32:40

PyTorch語義分割python

2015-02-26 11:14:18

2013-09-16 09:41:13

400G網絡處理器思科網絡處理器

2011-09-21 08:26:47

微軟Websense數據泄露

2016-02-22 18:22:17

視頻數據云平臺華為

2018-07-24 17:00:57

人工智能機器學習深度學習

2021-01-06 13:50:19

人工智能深度學習人臉識別

2024-10-08 08:19:19

2019-10-10 14:50:17

快手英偉達

2017-09-08 13:30:32

深度學習圖像識別卷積神經網絡

2011-11-26 11:31:45

RADVISION遠程
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区二区在线播放 | 波多野结衣电影一区 | 91精品国产91久久久久久吃药 | 国产视频第一页 | 久久久精品网 | 日韩中文字幕区 | 欧美一区二区三区视频 | 99一级毛片 | 日韩一区二区免费视频 | 欧美一区永久视频免费观看 | 亚洲精品黄 | 久久精品国产一区二区电影 | 特黄特色大片免费视频观看 | 一区二区在线观看av | 中国美女av | 欧美理伦片在线播放 | 欧美一区二区三区一在线观看 | 国产一区二区视频在线 | 日韩av一区在线观看 | 久久久精品视频一区二区三区 | 亚洲精品国产a久久久久久 中文字幕一区二区三区四区五区 | 久久免费观看视频 | 免费一级欧美在线观看视频 | 国产精品大片在线观看 | 久久久久国产精品www | 亚洲va欧美va人人爽午夜 | 国产午夜精品久久久久免费视高清 | 欧美一区2区三区3区公司 | 亚洲一区中文字幕 | 日韩a视频 | 久草热视频 | 成人h片在线观看 | 国产精品日产欧美久久久久 | 国产精品国产精品国产专区不卡 | 黄色一级免费看 | 欧美国产精品一区二区三区 | 狠狠干综合视频 | 九色一区| 国内精品久久久久久久 | 日日碰碰 | 黄色大片在线 |