互联网技术 / 互联网资讯 · 2023年12月31日

谷歌大脑新技术:图像分类接近SOTA,不用卷积注意力

谷歌大脑的视觉TRansfoRMeR团队(VIT),搞了个复古操作。

他们不用卷积神经网络(CNN)、也不用TRansfoRMeR,仅凭最早的AI视觉任务采用的多层感知机(MLP)结构,就实现了接近SOTA的性能,更是在imageNet图像分类任务上取得了87.94%的准确率。

谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

这个架构名为MLP-MixeR,采用两种不同类型的MLP层,可以看做是一个特殊的CNN,使用 1&tiMes;1卷积进行通道混合(按位操作),同时全感受野和参数共享的的单通道深度卷积进行字符混合(跨位操作)。

在JFT-300M数据集上预训练、微调到224分辨率的MixeR-H/14版本取得了86.32%的准确率,比SOTA模型VIT-H/14仅低0.3%,但运行速度是其2.2倍。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册