
GIThub链接:https://Github.coM/opengvlab
家人们,你们有没有这种苦恼?
搬一次家就换一次家具,那些又贵又重的家具既不好搬运,又不好全部带走。
下一次又重新购置一遍家具,浪费钱不说,关键是来来回回都做一样的事情!家具还没用过几次,利用率不高呀!
这种搬家的苦恼,就好比AI领域,做几个任务就需要开发几个高度定制的模型,不仅所需的数据采集量非常大,每次还都得从头标注。既提不起数据的学习效率,又耗费巨大的数据获取成本。
光是AI前端研究就耗费如此巨大的精力,更别提应用场景中数以万计的长尾任务。
那怎么办?
做一款通用的深度学习模型,才是关键。
无论国内外,底层技术关注者都以设计出“通用模型”为己任。而打造通用模型的两个主战场,就是深度学习应用最广泛的两个方向:语言与视觉。
目前,通用语言模型(GLM)已经取得了令人瞩目的进展,比如BERT、T5和GPT-3,它们在应对广泛的语言下游任务时已经游刃有余。
相形之下,通用视觉模型(GVM)的研究迟迟未交出一份令人满意的答卷。
以往的大多数 GVM 研究主要利用一种监督信号来源,如 VIT-G/14 采用有标签监督,SEER 采用样本的不同增强之间的对比学习,CLIP采用图片文本对进行监督。如果是在单个监督信号下进行的预训练,这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景,这些模型就难以胜任了。
比如现在最火的自动驾驶,汽车处于移动状态,既要看到路况,又要看到红绿灯,还要注意行人,甚至在智能座舱兴起后,还要和语言技术、LBS场景服务协同,这么多的感知数据与协同任务,这么多随机的新任务,无论在体量还是维度方面,都对视觉模型的要求极大提高。
这时,打造一款通用视觉模型,降低研发门槛,尤其是学术界的时间成本、资金成本,才能畅享下游的极致场景体验。
去年11月,上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布通用视觉技术体系“书生”(INTERN),一套持续学习框架,用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。
前不久,上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab,面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集,以及业内首个针对通用视觉模型的评测基准。
这些开源技术,究竟有何魔力?
“书生” (INTERN),就是练就通用视觉能力的底层技术。
从技术实现上讲,“书生”技术体系由由七大模块组成,包括三个基础设施模块和四个训练阶段构成。
三个基础设施模块分别为通用视觉数据系统(GV-D)、通用视觉网络结构(GV-A)、以及通用视觉评测基准(GV-B);四个训练阶段分别为:上游基础模型训练(AMateuR)、上游专家模型训练(ExpeRt)、上游通才模型(GeneRalist)训练;以及下游的应用训练(DownstReaM-adaptation)。

书生(INTERN)结构图
首先,通用视觉数据系统。
这是一个超大规模的精标数据集,拥有100亿个样本和各种监督信号,并依照四大视觉任务分别设置了四个数据子集:多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。
另外,这一数据集还包含11.9万的标签系统,不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几乎所有标签,还扩充了大量细粒度标签,涵盖各类图像中的属性、状态等。
而这,就是书生“大力出奇迹”的一大注脚。
其次,通用视觉模型结构。
它是由一个具有CNN和TRansfoRMeR的统一搜索空间构建而成。
为何要建立这样的混合结构?要知道,多年来,卷积神经网络(CNN)一直主导着视觉表征学习,并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年,Vision TRansfoRMeR (VIT)仅使用普通的TRansfoRMeR结构就能作为图像编码模型在imageNet-1k上取得媲美 CNN 的性能,在大规模数据集上 VIT 更是展示出比 CNN 更大的潜力。
尽管VIT在性能上有优点,但纯TRansfoRMeR网络相比卷积神经网络缺乏某些归纳偏置(indUCtive BIases),因此需要更多的数据和计算资源。此外,自注意的计算成本相对于输入的数量是平方的,限制了对高输入分辨率的应用。因此,将CNN和TRansfoRMeR和MLP结合起来,平衡效率和有效性两个方面,才是模型通用的关键。
这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索,从而得到最优的一个模型训练结构。

统一搜索的MetaNet架构:Conv和TRans分别表示卷积和TRansfoRMeR。C和S为每一阶输出通道数和步幅。
具体来看,MetaNet不仅基于强化学习 的PPO算法提出了统一搜索架构,并且,为了避免传统的下采样模块会成为模型性能的瓶颈,“书生”结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-awaRe down-saMpling Modules (DSM),用来代替原本的下采样模块。
因此,在浅层,模型依然使用卷积来提取特征,但在深层,模型却能将TRansfoRMeR模块和LG-DSM结合使用,以便于更好地提取全局信息。
同时,书生还基于最大的MetaNet-B15蒸馏出了多达13种不同的模型结构,共24种不同的模型权重,现已全部开源。
这些模型结构基本涵盖了现有市面上大部分的主流backbone,不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化,而且只需要更短的训练时间就可以达到比原来更好的训练效果。

MetaNet 模型与其他模型结构比较,结果如下:

基于卷积、TRansfoRMeR和两者混合的结构,分别用C,T和H表示
可以看出,在图像分类性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不仅有更高的精度,还有更低的FLOPS和参数量。

除了分类任务,把MetaNet做为检测和分割的backbone,在COCO数据集上使用Mask R-CNN结构训练,结果发现:
在模型参数量更小的前提下,MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务,MN-B4的MIoU指标比Swin-T高出5个点之多。
上述两个实验结果表明,MetaNet系列模型结构,在模型精度与计算量之间,都达到了新的SOTA!
最后,通用视觉评测基准。
视觉评测基准GV-B ,就像是一个「擂台」。
如下表所示,测评基准收集了 26 个下游任务数据集,囊括了 4 种视觉任务类型:分类,检测,分割和深度估计。
在设置上,该基准引入了百分比样本(peRcentage-shot),只需要选取整个数据集的一部分,例如 10%、20%,对比缩小下游任务的训练数据量后的模型性能。
与传统的少样本设置相比,这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性,并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡,比如下表中的VOC07+12,百分比数据的划分方式却会继承这种分布情况。

右侧三列avg,Min和Max,分别表示在10%的数据中,不同类别样本数量的平均值,最小值和最大值
结合上述数据集和任务类型,论文选取了一些具有代表性的模型来做评测对比。为了比较公平性,该对比使用了这些模型的官方预训练权重。这些模型包括:
RseNeTCLIPResNeXtBITVITSwAV, DeePClUSteRV2和MoCo v2Detco
有了超大精标数据集、模型结构,以及评测基准后,已经是万事俱备,只欠训练。
书生作为中国古代读书人的经典形象,代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。借此意象,“书生”(INTERN)系统可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。
下面就来看看,这套系统是如何通过训练,一步步从生手变成专家再到多面手,最终在各种任务中大
