成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1.3ms耗時!清華最新開源移動端神經(jīng)網(wǎng)絡(luò)架構(gòu) RepViT

人工智能 智能汽車
本文重點(diǎn)探討了在資源有限的移動設(shè)備上,通過重新審視輕量級卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),并整合輕量級 ViTs 的有效架構(gòu)選擇,來提升輕量級 CNNs 的性能。

圖片

論文地址:https://arxiv.org/abs/2307.09283

代碼地址:https://github.com/THU-MIG/RepViT

可以看出,RepViT 相比于其它主流的移動端 ViT 架構(gòu)確實(shí)時很優(yōu)異。接下來讓我們來看下本工作做了哪些貢獻(xiàn):

  1. 文中提到,輕量級 ViTs 通常比輕量級 CNNs 在視覺任務(wù)上表現(xiàn)得更好,這主要?dú)w功于它們的多頭自注意力模塊(MSHA)可以讓模型學(xué)習(xí)全局表示。然而,輕量級 ViTs 和輕量級 CNNs 之間的架構(gòu)差異尚未得到充分研究。
  2. 在這項(xiàng)研究中,作者們通過整合輕量級 ViTs 的有效架構(gòu)選擇,逐步提升了標(biāo)準(zhǔn)輕量級 CNN(特別是 MobileNetV3 的移動友好性。這便衍生出一個新的純輕量級 CNN 家族的誕生,即RepViT。值得注意的是,盡管 RepViT 具有 MetaFormer 結(jié)構(gòu),但它完全由卷積組成。
  3. 實(shí)驗(yàn)結(jié)果表明,RepViT 超越了現(xiàn)有的最先進(jìn)的輕量級 ViTs,并在各種視覺任務(wù)上顯示出優(yōu)于現(xiàn)有最先進(jìn)輕量級ViTs的性能和效率,包括 ImageNet 分類、COCO-2017 上的目標(biāo)檢測和實(shí)例分割,以及 ADE20k 上的語義分割。特別地,在ImageNet上,RepViT 在 iPhone 12 上達(dá)到了近乎 1ms 的延遲和超過 80% 的Top-1 準(zhǔn)確率,這是輕量級模型的首次突破。

好了,接下來大家應(yīng)該關(guān)心的應(yīng)該時“如何設(shè)計(jì)到如此低延遲但精度還很6的模型”出來呢?

方法

再 ConvNeXt 中,作者們是基于 ResNet50 架構(gòu)的基礎(chǔ)上通過嚴(yán)謹(jǐn)?shù)睦碚摵蛯?shí)驗(yàn)分析,最終設(shè)計(jì)出一個非常優(yōu)異的足以媲美 Swin-Transformer 的純卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。同樣地,RepViT也是主要通過將輕量級 ViTs 的架構(gòu)設(shè)計(jì)逐步整合到標(biāo)準(zhǔn)輕量級 CNN,即MobileNetV3-L,來對其進(jìn)行針對性地改造(魔改)。在這個過程中,作者們考慮了不同粒度級別的設(shè)計(jì)元素,并通過一系列步驟達(dá)到優(yōu)化的目標(biāo)。

訓(xùn)練配方的對齊

首先,論文中引入了一種衡量移動設(shè)備上延遲的指標(biāo),并將訓(xùn)練策略與現(xiàn)有的輕量級 ViTs 對齊。這一步驟主要是為了確保模型訓(xùn)練的一致性,其涉及兩個概念,即延遲度量和訓(xùn)練策略的調(diào)整。

延遲度量指標(biāo)

為了更準(zhǔn)確地衡量模型在真實(shí)移動設(shè)備上的性能,作者選擇了直接測量模型在設(shè)備上的實(shí)際延遲,以此作為基準(zhǔn)度量。這個度量方法不同于之前的研究,它們主要通過FLOPs或模型大小等指標(biāo)優(yōu)化模型的推理速度,這些指標(biāo)并不總能很好地反映在移動應(yīng)用中的實(shí)際延遲。

訓(xùn)練策略的對齊

這里,將 MobileNetV3-L 的訓(xùn)練策略調(diào)整以與其他輕量級 ViTs 模型對齊。這包括使用 AdamW 優(yōu)化器【ViTs 模型必備的優(yōu)化器】,進(jìn)行 5 個 epoch 的預(yù)熱訓(xùn)練,以及使用余弦退火學(xué)習(xí)率調(diào)度進(jìn)行 300 個 epoch 的訓(xùn)練。盡管這種調(diào)整導(dǎo)致了模型準(zhǔn)確率的略微下降,但可以保證公平性。

塊設(shè)計(jì)的優(yōu)化

接下來,基于一致的訓(xùn)練設(shè)置,作者們探索了最優(yōu)的塊設(shè)計(jì)。塊設(shè)計(jì)是 CNN 架構(gòu)中的一個重要組成部分,優(yōu)化塊設(shè)計(jì)有助于提高網(wǎng)絡(luò)的性能。

分離 Token 混合器和通道混合器

這塊主要是對 MobileNetV3-L 的塊結(jié)構(gòu)進(jìn)行了改進(jìn),分離了令牌混合器和通道混合器。原來的 MobileNetV3 塊結(jié)構(gòu)包含一個 1x1 擴(kuò)張卷積,然后是一個深度卷積和一個 1x1 的投影層,然后通過殘差連接連接輸入和輸出。在此基礎(chǔ)上,RepViT 將深度卷積提前,使得通道混合器和令牌混合器能夠被分開。為了提高性能,還引入了結(jié)構(gòu)重參數(shù)化來在訓(xùn)練時為深度濾波器引入多分支拓?fù)洹W罱K,作者們成功地在 MobileNetV3 塊中分離了令牌混合器和通道混合器,并將這種塊命名為 RepViT 塊。

降低擴(kuò)張比例并增加寬度

在通道混合器中,原本的擴(kuò)張比例是 4,這意味著 MLP 塊的隱藏維度是輸入維度的四倍,消耗了大量的計(jì)算資源,對推理時間有很大的影響。為了緩解這個問題,我們可以將擴(kuò)張比例降低到 2,從而減少了參數(shù)冗余和延遲,使得 MobileNetV3-L 的延遲降低到 0.65ms。隨后,通過增加網(wǎng)絡(luò)的寬度,即增加各階段的通道數(shù)量,Top-1 準(zhǔn)確率提高到 73.5%,而延遲只增加到 0.89ms!

宏觀架構(gòu)元素的優(yōu)化

在這一步,本文進(jìn)一步優(yōu)化了MobileNetV3-L在移動設(shè)備上的性能,主要是從宏觀架構(gòu)元素出發(fā),包括 stem,降采樣層,分類器以及整體階段比例。通過優(yōu)化這些宏觀架構(gòu)元素,模型的性能可以得到顯著提高。

淺層網(wǎng)絡(luò)使用卷積提取器

圖片圖片

ViTs 通常使用一個將輸入圖像分割成非重疊補(bǔ)丁的 "patchify" 操作作為 stem。然而,這種方法在訓(xùn)練優(yōu)化性和對訓(xùn)練配方的敏感性上存在問題。因此,作者們采用了早期卷積來代替,這種方法已經(jīng)被許多輕量級 ViTs 所采納。對比之下,MobileNetV3-L 使用了一個更復(fù)雜的 stem 進(jìn)行 4x 下采樣。這樣一來,雖然濾波器的初始數(shù)量增加到24,但總的延遲降低到0.86ms,同時 top-1 準(zhǔn)確率提高到 73.9%。

更深的下采樣層

在 ViTs 中,空間下采樣通常通過一個單獨(dú)的補(bǔ)丁合并層來實(shí)現(xiàn)。因此這里我們可以采用一個單獨(dú)和更深的下采樣層,以增加網(wǎng)絡(luò)深度并減少由于分辨率降低帶來的信息損失。具體地,作者們首先使用一個 1x1 卷積來調(diào)整通道維度,然后將兩個 1x1 卷積的輸入和輸出通過殘差連接,形成一個前饋網(wǎng)絡(luò)。此外,他們還在前面增加了一個 RepViT 塊以進(jìn)一步加深下采樣層,這一步提高了 top-1 準(zhǔn)確率到 75.4%,同時延遲為 0.96ms。

更簡單的分類器

在輕量級 ViTs 中,分類器通常由一個全局平均池化層后跟一個線性層組成。相比之下,MobileNetV3-L 使用了一個更復(fù)雜的分類器。因?yàn)楝F(xiàn)在最后的階段有更多的通道,所以作者們將它替換為一個簡單的分類器,即一個全局平均池化層和一個線性層,這一步將延遲降低到 0.77ms,同時 top-1 準(zhǔn)確率為 74.8%。

整體階段比例

階段比例代表了不同階段中塊數(shù)量的比例,從而表示了計(jì)算在各階段中的分布。論文選擇了一個更優(yōu)的階段比例 1:1:7:1,然后增加網(wǎng)絡(luò)深度到 2:2:14:2,從而實(shí)現(xiàn)了一個更深的布局。這一步將 top-1 準(zhǔn)確率提高到 76.9%,同時延遲為 1.02 ms。

微觀設(shè)計(jì)的調(diào)整

接下來,RepViT 通過逐層微觀設(shè)計(jì)來調(diào)整輕量級 CNN,這包括選擇合適的卷積核大小和優(yōu)化擠壓-激勵(Squeeze-and-excitation,簡稱SE)層的位置。這兩種方法都能顯著改善模型性能。

卷積核大小的選擇

眾所周知,CNNs 的性能和延遲通常受到卷積核大小的影響。例如,為了建模像 MHSA 這樣的遠(yuǎn)距離上下文依賴,ConvNeXt 使用了大卷積核,從而實(shí)現(xiàn)了顯著的性能提升。然而,大卷積核對于移動設(shè)備并不友好,因?yàn)樗挠?jì)算復(fù)雜性和內(nèi)存訪問成本。MobileNetV3-L 主要使用 3x3 的卷積,有一部分塊中使用 5x5 的卷積。作者們將它們替換為3x3的卷積,這導(dǎo)致延遲降低到 1.00ms,同時保持了76.9%的top-1準(zhǔn)確率。

SE 層的位置

自注意力模塊相對于卷積的一個優(yōu)點(diǎn)是根據(jù)輸入調(diào)整權(quán)重的能力,這被稱為數(shù)據(jù)驅(qū)動屬性。作為一個通道注意力模塊,SE層可以彌補(bǔ)卷積在缺乏數(shù)據(jù)驅(qū)動屬性上的限制,從而帶來更好的性能。MobileNetV3-L 在某些塊中加入了SE層,主要集中在后兩個階段。然而,與分辨率較高的階段相比,分辨率較低的階段從SE提供的全局平均池化操作中獲得的準(zhǔn)確率提升較小。作者們設(shè)計(jì)了一種策略,在所有階段以交叉塊的方式使用SE層,從而在最小的延遲增量下最大化準(zhǔn)確率的提升,這一步將top-1準(zhǔn)確率提升到77.4%,同時延遲降低到0.87ms。【這一點(diǎn)其實(shí)百度在很早前就已經(jīng)做過實(shí)驗(yàn)比對得到過這個結(jié)論了,SE 層放置在靠近深層的地方效果好】

網(wǎng)絡(luò)架構(gòu)

最終,通過整合上述改進(jìn)策略,我們便得到了模型RepViT的整體架構(gòu),該模型有多個變種,例如RepViT-M1/M2/M3。同樣地,不同的變種主要通過每個階段的通道數(shù)和塊數(shù)來區(qū)分。

實(shí)驗(yàn)

圖像分類

檢測與分割

總結(jié)

本文通過引入輕量級 ViT 的架構(gòu)選擇,重新審視了輕量級 CNNs 的高效設(shè)計(jì)。這導(dǎo)致了 RepViT 的出現(xiàn),這是一種新的輕量級 CNNs 家族,專為資源受限的移動設(shè)備設(shè)計(jì)。在各種視覺任務(wù)上,RepViT 超越了現(xiàn)有的最先進(jìn)的輕量級 ViTs 和 CNNs,顯示出優(yōu)越的性能和延遲。這突顯了純粹的輕量級 CNNs 對移動設(shè)備的潛力。

責(zé)任編輯:張燕妮 來源: CVHub
相關(guān)推薦

2018-07-25 09:36:34

開源技術(shù) 項(xiàng)目

2020-03-02 11:04:19

人工智能機(jī)器學(xué)習(xí)技術(shù)

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2023-03-24 09:17:04

微服務(wù)架構(gòu)谷歌

2024-03-18 09:53:40

GPD神經(jīng)網(wǎng)絡(luò)模型

2025-02-25 10:50:11

2025-02-19 15:12:17

神經(jīng)網(wǎng)絡(luò)PyTorch大模型

2019-12-26 15:31:17

騰訊框架開源

2024-04-07 11:44:53

MagistralaIoT物聯(lián)網(wǎng)平臺

2023-07-04 07:17:47

神經(jīng)網(wǎng)絡(luò)大規(guī)模GNN

2017-06-30 16:24:40

大數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)NNabla

2017-05-22 14:45:51

大數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)架構(gòu)

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2025-02-25 14:13:31

2019-05-07 19:12:28

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)Python

2017-05-04 18:30:34

大數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)

2022-04-07 09:01:52

神經(jīng)網(wǎng)絡(luò)人工智能

2020-08-06 10:11:13

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法

2017-09-08 16:41:43

微軟

2021-08-20 13:12:18

Google 開源技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 九九在线精品视频 | 国产精品高潮呻吟久久 | 国产成人短视频在线观看 | 欧美精品在线播放 | 性做久久久久久免费观看欧美 | 国产网站在线播放 | 午夜不卡一区二区 | 欧美国产一区二区三区 | 中文字幕精品一区二区三区精品 | 黄网在线观看 | 欧美国产日韩在线 | 亚洲一区二区三区桃乃木香奈 | 香蕉久久久 | 男人的天堂久久 | 一区二区三区高清不卡 | 日韩欧美理论片 | 99精品国产一区二区三区 | 久久久久中文字幕 | 蜜桃在线一区二区三区 | 欧美乱码精品一区二区三区 | 国产一二三区电影 | 久久伊 | 日日操夜夜操天天操 | 久久99精品国产自在现线小黄鸭 | 欧美精品在线一区二区三区 | 国产一区二区三区 | 成人美女免费网站视频 | 久久久精品高清 | 中文字幕精品一区二区三区精品 | 白浆在线| 三级成人片 | 国产精品永久免费观看 | 日本超碰 | 一级黄色淫片 | 成人在线免费看 | 国产一区二区三区亚洲 | 午夜精品一区二区三区在线观看 | 在线视频亚洲 | 奇米久久久 | 91国内产香蕉| 欧美日韩专区 |