互联网资讯 / 人工智能 · 2023年12月9日

华人作者超过50%!Google Research图像表征模型ALIGN在ImageNet上占据首位

神经网络实际上就是在学习一种表示,在CV领域,良好的视觉和视觉语言表征对于解决计算机视觉问题至关重要,并且可以帮助人们解决日常生活中的难题。

例如,一个好的视觉语言匹配模型可以帮助用户通过文本描述或图像输入找到最相关的图像,还可以帮助像 Google Lens 这样的设备找到更细粒度的图像信息。

为了学习这样的表示,当前最先进的视觉和视觉语言模型严重依赖于需要专家知识和广泛标签的训练数据集。

对于视觉相关的应用场景来说,视觉表示主要是在具有显式类标签的大规模数据集上学习的。

对于视觉语言的应用来说,常用的预训练数据集,如conceptual Captions和Visual GEnoMe Dense Captions,都需要大量的数据收集和清理工作,这限制了数据集的大小,从而阻碍了训练模型的规模。

相比之下,自然语言处理的模型在 GLUE 和 SupeRGLUE 基准测试中,他们达到sOTA性能是通过对原始文本进行大规模的预训练而不使用人工标签。

在 ICML 2021会议上,Google ReSeaRch发表了Scaling up visual and vision-language RepResentation learning wITh noisy text supeRvision一文,建议利用公开的图像替代文本数据来弥补这一差距,以训练更大、最先进的视觉和视觉-语言模型。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

为了达到这个目的,我们利用了一个超过10亿个图像和文本对的噪声数据集,在概念标题数据集中没有昂贵的过滤或后处理步骤就获得了这个数据集。实验结果表明,我们的语料库规模可以弥补噪声数据的不足,从而实现了 SOTA 表示,并且在转换到 imageNet 和 VTAB 等分类任务时表现出了很好的性能。对齐的视觉和语言表示还在 FlickR30K 和 MS-COCO 基准上设置新的 SOTA 结果,即使与更复杂的交叉关注模型相比也是如此,并支持零镜头图像分类和复杂文本和文本 + 图像查询的交叉模式搜索。

图文数据集中的 alt-text 通常是关于图像的描述,但数据集可能包括噪音,例如一些描述文本可能部分或全部与其配对图像无关。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

例如第二张图中就包括部分与图像无关的描述,如日期、缩略图等等。

Google的研究工作主要遵循构建conceptual Captions数据集的方法来获得原始的英语描述文本数据,即图像和alt-text的pAIRs。

虽然conceptual Captions数据集被大量的过滤和后处理清理过了,但是论文中的工作通过放宽数据清洗的措施来扩大数据集,这种方法来扩展视觉和视觉语言表征学习。

最后获得了一个更大但噪音也更大的数据集,共包含 18亿个 图像-文本对。

ALIGN: A LaRge-scale image and Noisy-Text EMbedding

为了便于建立更大的模型,模型框架采用了一个简单的双编码器结构用来学习图像和文本对的视觉和语言表示的align表示。

图像和文本编码器是通过对比学习来训练,即归一化的softMax。

这种对比损失将匹配的图像-文本对的eMbedding尽可能贴近,同时将那些不匹配的图像-文本对(在同一BATch中)尽可能分开。

大规模数据集使我们能够训练拥有更多参数的模型,甚至可以从零开始训练和EFFecientNet-L2和BERT-laRge那么大的模型。学到的视觉表征可以用于下游的视觉和视觉语言任务。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

所得到的表示可以用于纯视觉或视觉语言任务上的迁移学习,无需任何微调,ALIGN 就能够跨模态搜索图像到文本、文本到图像,甚至联合搜索图像 + 文本的queRy。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

上述例子就展示了ALIGN的这种能力。

Evaluating RetRieval and RepResentation

评估检索和表示学习的时候, ALIGN 模型与 BERT-LaRge 和 EFFicientNet-L2共同作为文本和图像编码器,能够在多个图像文本检索任务(FlickR30K 和 MS-COCO) ZeRoShot任务和微调中都取得了sOTA性能。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

ALIGN 也是一个强大的图像表示模型。在固定住特征以后,ALIGN 略优于 CLIP,并在 imageNet 上获得85.5% 的 SOTA 结果。通过微调,ALIGN 比大多数通用模型获得了更高的准确性,只比 Meta Pseudo Labels 差,但后者需要 imageNet 训练和大规模未标记数据之间进行更深入的交互。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

在ZeRo-Shot图像分类上,图像分类问题将每个类别视为独立的 id,人们必须通过每个类别至少拍摄几张标记数据来训练分类层次。但类名实际上也是自然语言短语,因此可以很自然而然地扩展 ALIGN 图像分类的图文检索能力,而不需要任何训练数据。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

在 imageNet 验证数据集上,ALIGN 实现了76.4% 的 top-1 ZeRo-shot 准确率,并且在不同的 imageNet 变体中表现出很强的鲁棒性,这与同时期的工作 CLIP 很像,都使用了文本提示来训练。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

为了能够说明图像检索的实际效果,论文中还构建了一个简单的图像检索系统,该系统使用 ALIGN 训练的eMbedding,并展示了一亿6000万张图像池中少数文本查询的top1个文本到图像的检索结果。

ALIGN 可以检索给出场景详细描述的精确图像,或者细粒度或实例级的概念,如地标和艺术品。

这些示例表明,ALIGN 模型可以使图像和文本具有相似的语义,并且 ALIGN 可以概括为新的复杂概念。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

多模态图像搜索查询单词向量的一个令人惊讶的特性是,单词类比通常可以用向量算法解决。一个常见的例子,“ king-Man + woMan = queen&Rdquo;。图像和文本嵌入之间的这种线性关系也出现在 ALIGN 中。

具体来说,给定一个查询图像和一个文本字符串,将它们的 ALIGN eMbedding相加到一起,并使用余弦距禮检索相关图像。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册