成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

經典圖像模型解讀之Swin-Transformer 原創

發布于 2024-11-8 12:36
瀏覽
0收藏

本文介紹經典模型之Swin Transformer。

Swin Transformer是一種經典的視覺Transformer架構,專為計算機視覺任務設計,通過層次化的特征表達和創新的移位窗口自注意力機制,有效地處理高分辨率圖像,具有通用性和靈活性,適用于圖像分類、目標檢測和語義分割等多種視覺任務。

感興趣的小伙伴可以看看論文:??https://arxiv.org/abs/2103.14030??

模型介紹

經典圖像模型解讀之Swin-Transformer-AI.x社區

上圖為Swin Transformer模型圖。整個模型采取層次化的設計,一共包含4個Stage,每個stage都會縮小輸入特征圖的分辨率,像CNN一樣逐層擴大感受野。

  • Patch Embedding:Swin Transformer處理輸入圖像的初始步驟。假設輸入圖像的尺寸遵循ImageNet的標準,即H×W×C(其中H和W分別為圖像的高度和寬度,C為通道數),在Swin Transformer的第一階段,patch的大小被設定為p×p。經過Patch Embedding處理后,圖像被劃分成H/p×W/p個patch。
  • Linear Embedding:是將輸入向量的維度轉換為一個預定義的值,這個值是Transformer模型能夠處理的維度。在Swin Transformer的論文中,這個超參數被定義為c。因此,圖像經過線性嵌入后,其尺寸變為H/p×W/p×c。在代碼里也是用一次卷積(Conv2d)操作就完成了。
  • Swin Transformer block:與VIT不同,這里的3000+token太長了,是目前來說Transformer不能接受的序列長度,所以 Swin Transformer引入了基于窗口的自注意力計算,每個窗口按照默認值M,最后只有M*M個patch,解決了計算復雜度的問題。

創新點

  • Swin Transformer通過引入移動窗口(shifted window)機制來實現局部感知域,通過移動窗口的操作,相鄰窗口之間能夠進行交互,實現了跨窗口連接(cross-window connection),這使得模型在不同層級之間能夠間接地實現全局建模的能力。這種局部與全局相結合的方法,使得Swin Transformer在保持計算效率的同時,也能夠捕捉到圖像中的全局信息。
  • Swin Transformer巧妙地利用了一個掩碼(mask)和移位操作來實現計算上的等價性。這種方法通過在不同的層次上應用移位窗口機制,使得模型能夠在局部窗口內進行自注意力計算,同時保持與全局計算等價的效果。

?

文轉載自公眾號瓦力算法學研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/7L38yih14U7Mtp0skRWXUQ???


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产三级电影网站 | 久久激情视频 | 国产一区在线免费 | 国产国产精品 | 欧美日韩中文在线 | 成人午夜免费福利视频 | 欧美日韩一卡二卡 | 久久不卡 | 欧美激情精品久久久久 | 欧美综合视频在线 | 国产精品美女久久久久久免费 | 亚洲国产视频一区二区 | 欧美成人手机在线 | 欧美一区二区三区的 | 精品久久av | 男女下面一进一出网站 | 久久久久久久电影 | av一区二区三区四区 | 婷婷成人在线 | 色综合久| 成人超碰 | 日韩视频区 | www精品美女久久久tv | 一级毛片免费视频 | 成人在线视频观看 | 久久国产精品视频 | 日韩在线视频免费观看 | 日韩精品一区二区三区免费观看 | 久久国产区 | 在线观看国产 | 成人无遮挡毛片免费看 | 日韩在线视频一区二区三区 | 成人超碰在线 | 久草网址 | 久久高清| 羞羞视频免费观看入口 | 成人免费视频观看视频 | 日日摸天天添天天添破 | 婷婷久| 成人精品国产免费网站 | 日韩在线观看网站 |