INTERN: A New Learning Paradigm Towards General Vision

INTERN: A New Learning Paradigm Towards General Vision

书生:一种通用视觉的新学习范式

page:https://opengvlab.shlab.org.cn/

摘要

随着人工智能的进步,受到获取相应数量训练数据成本的限制,无法满足不断增长的需求。因为主流学习范式需要根据大量标注数据从头开始训练新模型。为了解决这一问题,开发了新的学习范式INTERN,在多个阶段中学习到了很强的泛化能力。在26个数据集上验证CV中的四类任务,仅使用10%的训练数据进行微调,性能便优于全套数据训练的对应模型。

介绍

概述

INTERN: A New Learning Paradigm Towards General Vision_第1张图片INTERN通用视觉模型包括三个基础(GV-Dataset、GV-Architecture和GV-Benchmark),一个三阶段上有预训练方案(业余、专家和通才),以及一个下游自适应算法,将上游预训练模型转移到各个下游任务。

  • General Vision Data(GV-D): 包括了100亿个样本和标注信号的视觉数据集集合,提供了115k的标签
  • General Vision Architecture(GV-A): 引入一个具有更强建模能力的网络结构,由卷积和transformer组成,命名为MetaNet
  • General Vision Benchmark(GV-B): 收集了26个下游任务,INTERN范式生成的模型与公开预训练模型进行比较
  • Upstream-Amateur(Up-A): 获取业余模型的多模式预训练阶段,同时使用图像-文本、图像-图像和文本对的丰富监督信号来训练
  • Upstream-Expert(Up-E): 实现专家模型,通过一种任务类型监督基类专业信息,专家模型只专注自己的任务,不干涉其他任务的学习
  • Upstream-Generalist (Up-G): 整合专家模型,生成通才模型,处理任何已知或未知任务的通用表示
  • Downstream-Adaptation (Down-A): 引入一种转移学习方案,向各种下游任务转移

核心结果

迁移学习性能强
INTERN: A New Learning Paradigm Towards General Vision_第2张图片
即使只有10%的下游数据,多阶段预训练的通才模型在大多数任务中也能达到最好的效果。

易于扩展,通用性强
INTERN: A New Learning Paradigm Towards General Vision_第3张图片
分类和检测专家模型由Up-E©和Up-E(D)表示,只有10%的训练数据,超过了ImageNet的基线,通才模型Up-G(C-D)保持了两个专家的结果。
INTERN: A New Learning Paradigm Towards General Vision_第4张图片
在Up-G(C-D)的基础上通过连接Up-E(S),可获得Up-G(C-D-S),原有性能不被损害同时在分割任务上有提升。
INTERN: A New Learning Paradigm Towards General Vision_第5张图片
仅使用10%的训练数据,效果便优于100%数据的ImageNet监督模型,除了在分割任务上有增益外在不曾训练过的深度估计上也有更强的性能,进一步说明了通才模型的健壮和通用。
影响通用视觉智能的因素
INTERN: A New Learning Paradigm Towards General Vision_第6张图片

扩大数据集规模、拓宽领域和多样化监督信号至关重要。
在这里插入图片描述
多阶段培训带来持续收益,通才模型对任务能获得足够的通用性

大规模预训练模型的创建

面向亿级视觉模型设计

CNN与transformer各有优点,通过混合CNN和transformer来平衡效率和有效性。
概述
在这里插入图片描述
最近有工作将CNN和transformer进行混合,但是这些设计范式局限于手动设计带来的主观偏差,较难找出最佳组合。为了得到混合操作后最好的性能,进行神经网络结构搜索(NAS),自动组装以创建强大的网络。
卷积和transformer的混合搜索
统一体系结构搜索
将所需模型划分为6个阶段,搜索每个阶段的配置,优于搜索空间太大,无法运行所有可能,使用基于强化学习的NAS来加速搜索过程。在搜索过程中,数千个组合在相同设置的任务上进行训练,回报最高的网络结构将在全设置下接受训练,性能最好的体系结构将保留。
结果
INTERN: A New Learning Paradigm Towards General Vision_第7张图片
比较搜索到的MetaNet和其他架构的图像分类性能,我们的模型在提高计算效率的同时实现了更好的精度。
INTERN: A New Learning Paradigm Towards General Vision_第8张图片
在检测和分割任务中也取得了更好的效果,证明了MetaNet网络具有很强的泛化能力。

预训练Up-A阶段:从多模态监督中得到业余模型

INTERN: A New Learning Paradigm Towards General Vision_第9张图片
依次构建两个预训练阶段,上游业余全局表示Up-A-G和上游业余局部表示Up-A-L。在全局表示中提出组监督功能,以实现更丰富的视觉-语言监督。局部表示,通过FPN和head进一步对预训练的多模态信息进行调整。
方法
全局表示中组监督包括模态内监督和跨模态监督(ICS)以及相似文本监督(STS)。对于模态内和跨模态监督,监督信号从增强图像对、增强文本对和图像文本对中挖掘出来。
局部表示为了加入更多的尺度不变性,进一步预训练FPN和faster R-CNN head的一部分。在Up-A-L中,冻结主干部分,FPN和head用作传输,处理增强后的多尺度特征

实验

INTERN: A New Learning Paradigm Towards General Vision_第10张图片
INTERN: A New Learning Paradigm Towards General Vision_第11张图片
基准性能

预训练Up-E阶段:从业余模型中培养多名专家

为了完成更具体的任务,需要设计第二个预训练阶段Up-E,对每个任务中进行更专业的预训练。对于每个专家都采用简单的多头设计,每个head是一个数据集特定的子网络,从一个共享的主干提取特征。
INTERN: A New Learning Paradigm Towards General Vision_第12张图片
Up-E©中使用全连接预测类别,Up-E(D)使用FPN和faster-RCNN来检测对象,Up-E(S)使用Deeplabv3进行分割。
方法
不同数据集的模型共享主干的参数,使用自己的独特的head来生成预测。学习到的共享参数能够在专家期间的任何数据集上表现良好,从而达到获取高性能和可概括表示的目标。在三个基本的CV任务中实验都得到了最先进的结果,证明了该模型的有效性。
当使用多个数据集训练,一个batch将是不同数据集的混合数据。为了实现正常的前向和反向,将数据集分布到不同的计算设备,确保一个设备只处理分配给他的数据集,而在其他设备上的数据集在该设备上梯度为0,这一方法保证了所有数据集的一致性能。
Image Classification Expert Up-E©
INTERN: A New Learning Paradigm Towards General Vision_第13张图片
Up-E©模型在下游分类性能超过了各自Up-A模型,表明专家训练期间的可以提高分类任务的泛化能力。
传统训练只是用一个数据集进行,该多数据集专家在下游分类数据集上的平均性能明显优于baseline,利用多个预训练数据集对于实现强大的下游通用性至关重要。
实验统一标签空间和部分合并发现统一预训练标签对下游性能-0.8,合并部分等效表情+0.2
尝试不同类型的预训练模型作为专家训练的初始化,Up-A在下游提供了最佳性能,验证了该持续学习范式的有效性。
Object Detection Expert Up-E(D)
INTERN: A New Learning Paradigm Towards General Vision_第14张图片
Up-E(D)远远超过了Up-A的结果。
R50专家Up-E(D),多数据集的默认设置大大优于基线,利用多个数据集可以在下游实现更好的泛化。
在主干参数共享的情况下有三种不同的头部共享方案:
1)独立FPN,不同数据集使用不同的FPN
2)默认情况下FPN在所有数据集之间共享,只对faster R-CNN参数独立
3)统一标签空间,多有数据集都合并到一个统一的数据集中,只使用一个head
其中默认设置和单独使用head性能稍优。
对Up-E(D)进行不同的初始化,Up-A-L提供了最佳性能,证明持续学习模式的合理性。
Semantic Segmentation Expert Up-E(S)
INTERN: A New Learning Paradigm Towards General Vision_第15张图片

预训练Up-G阶段:从专家创造通才

凭借在各种CV任务中出色的表现,构造一个统一的模型生产通用表示,以在不同任务中实现更强更通用的表现。
与以前的多任务学习相比,将专家模型集成到统一的模型是一种更具普遍性的设置,在预训练Up-E阶段之后,提出Up-G作为第三个预训练阶段,以进一步统一特征表示。
INTERN: A New Learning Paradigm Towards General Vision_第16张图片
提出了混合参数共享范式,通过使用软共享和硬共享在专家之间传递信息。
方法
通过交换从各种任务中学习到的信息来增强专家特征,每个专家模型都在不影响其自身任务性能的情况下拓展其他任务的视野。
继承上一个Up-E阶段采用硬共享,每个专家的不同数据集共享来自主干的特征表示。进一步将软共享用于专家间的特征转移,引入知识转移模块在专家的每个阶段进行特征交换,目的帮助其他获得更多不同的特征信息。
使用知识转移模块将通才模型中所有分支连接起来,每个模块都有对应于任务的主分支和辅助分支,非线性知识转移模块将从辅助分支接受特征,并融合进主分支中。训练过程中分离知识卷积模块的梯度,避免专家之间的交叉任务干扰。
INTERN: A New Learning Paradigm Towards General Vision_第17张图片

  • 高层的C5融合了通才的所有分支C5特征,用于图像级别预测
  • 利用特征金字塔处理不同大小的任务,在FPN之后再进行预测
  • 像素级别的任务使用低层的像素级分支作为预测特征
    实验
    INTERN: A New Learning Paradigm Towards General Vision_第18张图片
    通才模型在多有任务中都优于Up-E©和Up-E(D),验证了混合共享范式的有效性。
    甚至在深度估计任务中Up-G的结果也能达到比专家模型更好的效果,揭示了分类和检测特征进行深度估计的潜力。
    INTERN: A New Learning Paradigm Towards General Vision_第19张图片
    研究了知识转移模块混合共享方案在下游分类和检测性能,对不同的连接类型进行实验:
    1)同层:知识转移模块只合并同一阶段内所有分支的特征,没有跨层的连接
    2)浅层:知识转移模块仅在浅层互连
    3)高层:仅在深层应用
    4)**交叉级别:**跨级别连接方法在下游传输性能最好,只有在低层连接才能实现最相似的性能
    表明跨不同任务交换低级特征有利于实现多任务的学习。
    研究了知识转移模块的设计,发现非线性设计的平均性能最好。
    INTERN: A New Learning Paradigm Towards General Vision_第20张图片
    为了证明范式的可扩展性,将像素级专家Up-E增加到通才模型中,通过添加像素分支,可以看到下游分割性能显著提高,通才从其专家组件继承专业知识。

下游A阶段:将知识迁移到各种下游任务

Up-G阶段预训练模型在多个任务中具有通用能力,但是当涉及到特定的下游任务时,只需要预训练模型的部分知识,这些知识应该适应下游任务以获得更好的性能。文章提出了一种多级微调方法,通过将上游数据编码为生成模型VQ-GAN,将预训练模型转移到多个任务,是的方法更具通用性和可扩展性。
多级微调
使用上游数据编码到VQ-GAN中,解耦对上游模型或策略的依赖。之后下游数据首先由V1-GAN模型重建,训练新添加的参数,同时冻结预训练参数不变。当下游和上游数据相似度越高,提取特征就越可靠,使用原始下游数据对整个模型进行微调优化。
INTERN: A New Learning Paradigm Towards General Vision_第21张图片
1)阶段一:将上游数据信息编码到生成模型VQ-GAN
2)阶段二:通过VQ-GAN重建下游数据,由预训练模型提取的图像特征将更加可靠和丰富
3)阶段三:不同的下游任务需要不同的任务特定层实现目标,冻结预训练参数,通过使用第二阶段获得的图像特征优化任务实现层,保持特征的可靠性,优化为更好的局部值。
4)阶段四:彻底的将特征校准到下游域,使用原始下游图像,并优化多有参数
监督崩溃
迁移结果
分类任务结果
INTERN: A New Learning Paradigm Towards General Vision_第22张图片
不同预训练阶段迁移结果
INTERN: A New Learning Paradigm Towards General Vision_第23张图片
不同模型体系结构迁移结果
INTERN: A New Learning Paradigm Towards General Vision_第24张图片
消融实验
展示多级微调方法的有效性
INTERN: A New Learning Paradigm Towards General Vision_第25张图片

  • 阶段三的有效性:与不使用重新表示的图像进行比较,1)冻结主干模型,对head进行线性推导。2)对整个网络进行微调。(a)发现文中的方法+0.8分类准确性。与官方发布的V1-GAN模型比较,(b)使用VQ-GAN码本性能-0.7
  • 阶段四的有效性:使用重建数据对预训练模型和head进行微调性能-1.3,表明了使用原始下游数据进行校准的重要性。(d)中在重建的下游验证集上测试©训练模型,结果表明该模型更适合重建数据域
  • 重建图像和数据增广:VQ-GAN是否只是一种数据增广,在MF的阶段三和阶段四混合了重建的下游图像和原始图像,(e)和(f)对应使用带微调方法的混合数据和使用带两阶段微调过程的混合数据

结果
将书生模型与其他收集的公共模型进行比较,Up-G MB-B15多阶段预训练通才模型在大多数任务上都取得了最先进的结果,大大超过了最好的公开预训练模型CLIP-R50X16。
INTERN: A New Learning Paradigm Towards General Vision_第26张图片

你可能感兴趣的:(深度学习,人工智能,机器学习)