谷歌大腦最新操作玩“復(fù)古”:不用卷積注意力,圖像分類接近SOTA
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
谷歌大腦的視覺Transformer團(tuán)隊(duì)(ViT),搞了個(gè)復(fù)古操作。
他們不用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、也不用Transformer,僅憑最早的AI視覺任務(wù)采用的多層感知機(jī)(MLP)結(jié)構(gòu),就實(shí)現(xiàn)了接近SOTA的性能,更是在ImageNet圖像分類任務(wù)上取得了87.94%的準(zhǔn)確率。

這個(gè)架構(gòu)名為MLP-Mixer,采用兩種不同類型的MLP層,可以看做是一個(gè)特殊的CNN,使用 1×1卷積進(jìn)行通道混合(按位操作),同時(shí)全感受野和參數(shù)共享的的單通道深度卷積進(jìn)行字符混合(跨位操作)。
在JFT-300M數(shù)據(jù)集上預(yù)訓(xùn)練、微調(diào)到224分辨率的Mixer-H/14版本取得了86.32%的準(zhǔn)確率,比SOTA模型ViT-H/14僅低0.3%,但運(yùn)行速度是其2.2倍。
論文地址:
https://arxiv.org/abs/2105.01601
項(xiàng)目地址:
https://github.com/google-research/vision_transformer/tree/linen