互联网技术 / 互联网资讯 · 2023年12月31日

谷歌大脑新技术：图像分类接近SOTA，不用卷积注意力

谷歌大脑的视觉TRansfoRMeR团队（VIT），搞了个复古操作。

他们不用卷积神经网络（CNN）、也不用TRansfoRMeR，仅凭最早的AI视觉任务采用的多层感知机（MLP）结构，就实现了接近SOTA的性能，更是在imageNet图像分类任务上取得了87.94%的准确率。

谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA

这个架构名为MLP-MixeR，采用两种不同类型的MLP层，可以看做是一个特殊的CNN，使用 1&tiMes;1卷积进行通道混合（按位操作），同时全感受野和参数共享的的单通道深度卷积进行字符混合（跨位操作）。

在JFT-300M数据集上预训练、微调到224分辨率的MixeR-H/14版本取得了86.32%的准确率，比SOTA模型VIT-H/14仅低0.3%，但运行速度是其2.2倍。

OpenMagic API

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.