文章来源:AI科技评论
首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。
为了让大家更好地掌握今年会议的总体研究趋势,一位深度学习专业的博士生Yassine Ouali 专门撰写了一篇博客,总结了一些引起他关注的论文,以呈现今年会议的大致面貌。
我们先来看下 CVPR 2020 官方的相关统计数据:
CVPR 往年的增长趋势仍然继续:作者人数增加了20%,提交论文的数量增加了29%,同时为了适应这种扩张,审稿人和领域主席都有增加
今年会议的注册人数共有6424人,相比2019年增加了一千多人。在被接收的1467篇论文中,有335篇 Oral 论文。
与去年相似,就接受论文而言,中国是CVPR的第一贡献者,其中来自清华大学的作者数量最多,其次是美国(按国家)和Google(按组织)。
不出所料,被接收的论文主题多数集中在与学习、识别、检测和理解有关的主题上。但是,人们对诸如高效标签方法(例如,迁移学习),图像合成和机器人感知等相对较新的领域越来越感兴趣。诸如公平和可解释AI之类的新兴话题也开始在计算机视觉界引起越来越多的关注。
1
图像识别,检测和分割
PointRend:将图像分割作为渲染
论文地址:https://arxiv.org/abs/1912.08193
图像分割模型(例如Mask R-CNN)通常在有规则网格上运行:输入图像是像素的规则网格,它们的隐藏表示是规则网格上的特征向量,其输出是规则网格上的标签图。但是,规则网格会不必要地在平滑区域上进行采样,同时对目标边界进行欠采样,这通常会导致轮廓模糊,如右下图所示。
这篇论文提出将图像分割视为一种渲染问题,并采用计算机图形学中的经典思想来高效地渲染高质量的标签图。这是使用被称为PointRend的神经网络模块来完成的。PointRend将在常规网格上定义的给定数量的CNN特征图作为输入,并在更精细的网格上输出高分辨率预测。这些精细的预测仅在经过精心选择的点上进行,这些点被选择为靠近高频区域,例如我们不确定的预测(即类似于自适应细分)的目标边界,然后对其进行上采样,并使用一个小副分目来从这些点状特征进行预测。
带有噪声的自训练Student改善ImageNet分类
论文地址:https://arxiv.org/abs/1911.04252
半监督学习方法在少数据环境下效果很好,但是在有大量标记数据的情况下,完全监督学习的效果仍然是最好的。在这篇论文中,作者重新审视了这一假设,并表明即使在标签数据丰富的情况下,有噪声的自训练也能表现很好。
该方法使用了大量的无标签图像(即不同于ImageNet训练集分布),并且包括三个主要步骤:首先,在有标签的图像上训练 teacher 模型,然后使用训练好的 teacher模型在无标签的图像上生成伪标签,接着将其用于在有标签图像和伪标签图像的组合上训练student模型,student模型比teacher模型更大(例如,从EfficientNetB0开始到EfficientNetB3),并受到注入的噪声(例如 dropout)的训练。再然后,该student被视为teacher ,把最后两个步骤重复几次以重新标注无标签数据并训练一个新的student模型。最后一个模型在ImageNet top-1 上实现了SOTA性能,并且显示出更高的鲁棒性。
设计网络设计空间
论文地址:https://arxiv.org/abs/2003.13678
这篇论文不着重于设计单个网络实例,而是着重于设计参数化网络种群的网络设计空间,以便为快速和简单的网络找到一些指导性设计原则。
论文所提出的方法着重于寻找一个好的模型种群而不是好的模型单例(例如NAS:神经架构搜索)。基于分布估计的比较范式,此过程包含初始化设计空间A,然后引入新的设计原理以获得新的和细化的设计空间B,其中包含更简单和更好的模型。重复该过程,直到生成的种群中包含更鲁棒且泛化良好的模型为止。
EfficientDet:可扩展且高效的目标检测
论文地址:https://arxiv.org/abs/1911.09070
EfficientDet是目标检测中的一个STOA模型,在广泛的资源限制下具有更高的效率。
EfficientDet具有EfficientNet的骨干架构,并且包括两个新的设计选择:一个具有双向拓扑结构或BiFPN 的双向特征金字塔网络(FPN),以及一个在合并不同比例的特征时使用学习的权重。此外,该网络采用复合缩放设计,其中骨干,类/框网络和输入分辨率可以联合起来共同适应各种资源限制,而不是像以前的工作那样简单地使用更大的骨干网络。
动态卷积:卷积核上的注意力
论文地址:https://arxiv.org/abs/1912.03458
轻量的 CNN 网络,例如MobileNetV2的主要问题之一是由于受限的深度(即层数)和宽度(即通道数)而无法保持较低的计算要求,因此它们的表示能力有限。在本文中,作者提出了动态卷积以通过将多个并行卷积的结果与注意力权重相加来提高卷积层的能力,而不会显着增加计算量。
动态卷积由使用共享相同卷积核大小和输入/输出维数的K个卷积核(而不是单个操作)组成,然后使用由较小注意力模块产生的注意力权值来汇总其结果。为了更快地进行训练,内核权值被限制为三角形,其中每个注意力权值在[0,1]之间,且总和等于1。
其他论文:
Deep Snake for Real-Time Instance Segmentation,https://arxiv.org/abs/2001.01629
Exploring Self-attention for Image Recognition, https://arxiv.org/abs/2004.13621
Bridging the Gap Between Anchor-based and Anchor-free Detection ,https://arxiv.org/abs/1912.02424
SpineNet: Learning Scale-Permuted Backbone for Recognition and Localization,https://arxiv.org/abs/1912.05027
Look-into-Object: Self-supervised Structure Modeling for Object Recognition,https://arxiv.org/abs/2003.14142
Learning to Cluster Faces via Confidence and Connectivity Estimation,https://arxiv.org/abs/2004.00445
PADS: Policy-Adapted Sampling for Visual Similarity Learning,https://arxiv.org/abs/2001.00309
Evaluating Weakly Supervised Object Localization Methods Right,https://arxiv.org/abs/2001.00309
BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation,https://arxiv.org/abs/2001.00309
Hyperbolic Visual Embedding Learning for Zero-Shot Recognition,http://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Hyperbolic_Visual_Embedding_Learning_for_Zero-Shot_Recognition_CVPR_2020_paper.pdf
Single-Stage Semantic Segmentation from Image Labels,https://arxiv.org/abs/2005.08104
2
生成模型和图像合成
在定向光下学习物理引导的面部重照明
论文地址:https://arxiv.org/abs/1906.03355
重照明包括将不可见的源图像及其对应的定向光照明朝向新的所需定向光进行调整。先前的工作做出了很好的结果,但仅限于平滑的光照,并且没有对非漫射效果(例如投射阴影和镜面反射)进行建模。
为了能够创建精确且可信的照明效果,并将其推广到复杂的照明条件和具有挑战性的姿态,作者提出了一种端到端的深度学习体系架构,该体系架构既可以让人的脸部图像使人感到愉悦又可以对其进行光照。这分两个阶段完成,如下所示:
第一阶段包括使用Unet架构预测输入图像的反照率( albedo )和法线 (normals ),然后将所需的定向光与法线一起运用以预测阴影,然后进行漫反射。
第二阶段中,使用第一阶段的输出来预测正确的阴影。整个模型经过端到端的训练,产生的对抗网络(GAN)损失与pix2pix论文中使用的类似。
pix2pix论文:https://arxiv.org/abs/1611.07004
SynSin:从单个图像进行端到端视图合成
论文地址:https://arxiv.org/abs/1912.08804
视图合成的目标是在给定一个或多个图像的情况下生成场景的新视图。但是这可能很具有挑战性,需要从图像中理解3D场景。为了克服这个问题,当前的方法依赖于多图像,在ground-truth上训练或仅限于合成数据。作者提出了一种新颖的端到端模型,用于在测试时从单个图像进行视图合成,同时在没有任何ground-truth 的3D信息(例如深度)的真实图像上进行训练。
给SynSin输入图像、目标图像和所需的相对姿态(即所需的旋转和平移)。输入图像首先通过特征网络嵌入每个像素位置的特征空间,然后通过深度回归器在每个像素处进行深度预测。根据特征和深度信息,创建点云表示后,将使用相对姿态(即应用旋转和平移)在具有完全可区分的神经点云渲染器的新视图上渲染特征。
但是,投影的特征可能会有一些伪像(例如,图像的某些不可见部分现在在新视图中可见,并且需要渲染),为了解决此问题,论文作者使用了生成器来填充缺失的区域。然后对整个模型进行端到端的训练:L2损失,判别器损失和感知损失,而无需任何深度信息。在测试时,网络会拍摄图像和目标相对姿态,并以所需的视图输出图像。
从单反相机合成全局相干深度的动态场景新视图
论文地址:https://arxiv.org/abs/2004.01294
这篇论文的目的是在给定动态场景图像集合的情况下,从任意视角和时间合成图像,即由单个单反相机从多个位置(下图左侧)捕获的一系列图像。该方法可以从原始区域范围(下图中间)中的任意位置生成新颖的视图,还可以生成在不同时间横跨任何视图出现的动态内容(下图右侧)。使用单个相机即可完成此操作,而无需使用多视图系统或像先前方法的特定于人类的先验方法。
作者使用深度融合网络,结合目标视图的输入图像,将多视图(DMV)的立体深度与单视图(DSV)的深度相结合,生成了一个比例尺度不变和一个完全深度图。跨视图具有几何上一致的深度,可以使用自监督的渲染网络合成新颖的视图,该网络在缺少数据的情况下产生照片级逼真的图像,并具有对抗损失和重建损失。
STEFANN:使用字体自适应神经网络的场景文本编辑器
论文地址:https://arxiv.org/abs/1903.01192
本文提出一种在字符级别上直接修改图像中的文本同时保持相同样式的方法。这分两个步骤完成。首先,一个名为FANnet的网络将我们要修改的源字符作为输入,并在保持结构一致性和源样式的同时输出目标字符。其次,着色网络Colornet获取第一阶段的输出和源字符并为目标字符着色,同时保留视觉一致性。对文本的每个字符执行此过程之后,将字符放置在喷绘的背景中,同时保持字符之间的正确间距。以下是该项目网页上的一些结果示例。
MixNMatch:用于条件图像生成的多因子分离和编码
论文地址:https://arxiv.org/abs/1911.11758
MixNMatch是一种条件性GAN,能够在最少的监督(即从边界框标注到模型背景)的情况下,将背景、目标姿态、形状和纹理与真实图像区分开。然后,可以使用经过训练的模型来任意组合因子以生成新图像,包括sketch2color,cartoon2img和img2gif应用。
给定单个目标类别的图像集合,训练模型以将与每个图像相关的背景、目标姿态,形状和纹理因子同时编码到分离的潜在代码空间中,然后通过组合来自分离的代码空间图像来生成看起来真实的图像。四个编码器用于分别编码每个潜在代码。之后采样四个不同的潜在代码,并将其输入到FineGAN生成器中以分层生成图像,然后使用四个“图像代码对”判别器对模型进行训练,以优化编码器和生成器来匹配其联合的图像代码分布。
StarGAN v2:多域的多样化图像合成
论文地址:https://arxiv.org/abs/1912.01865
图像到图像转换(即更改图像的某些属性,例如头发颜色)的主要目标是提高生成图像的质量和多样性,同时在多域(一个域是指具有相同属性值的图像集,例如黑发)上保持高可伸缩性。鉴于现有方法仅解决了这些问题之一,导致或者在多样性上有限或在所有领域的模型上有限。StarGAN v2尝试使用风格代码来同时解决这两个问题,而不是第一个版本的StarGAN中的显式域标签。
StarGAN v2模型包含四个模块:
生成器,用于使用所需特定域的风格代码将输入图像转换为输出图像。
潜在编码器(或映射网络),为每个域生成风格代码,在训练过程中随机选择其中一个。
风格编码器可提取图像的风格代码,以允许生成器执行参考引导的图像合成
判别器可从多个域中区分真假(R / F)图像。
除生成器外,所有模块都包含多个输出分支,在训练相应域时会选择其中一个。然后使用对抗损失,风格重构来训练模型,以强制生成器在生成图像时利用风格代码。
GAN压缩:交互式条件GAN的高效架构
论文地址:https://yassouali.github.io/ml-blog/cvpr2020/
条件GAN(cGAN)为许多计算机视觉和图形应用程序提供了可控制的图像合成功能。但是,训练它们所需的计算资源比用于检测和识别的传统CNN的数量级大。例如,GAN需要比图像识别模型多10到500倍的计算量。为了解决这个问题,作者提出了一种基于蒸馏,通道剪枝和神经架构搜索(NAS)的GAN压缩方法,从而在保持相同性能的同时生成了压缩模型。
被提出的GAN压缩框架采用了一个经过预训练的生成器(被视为teacher),该生成器首先被提取成一个较小的“ 一劳永逸”的生成器,该生成器包含通过权值分配的所有可能的通道数,其中在每次迭代中为 student选择了不同的通道数。现在,为了在每一层选择正确的 student通道数,从一次性(student)生成器中提取了许多子生成器并进行了评估,从而创建了生成器候选池。最后,具有理想压缩比目标和性能目标(例如FID或mIoU)的最佳子生成器使用了一次性NAS,然后微调选定的生成器,从而生成最终的压缩模型。
用于图像生成的语义金字塔
论文地址:https://arxiv.org/abs/2003.06221
语义金字塔试图弥补判别模型和生成模型之间的差距。这是通过使用基于GAN的新颖模型完成的,该模型利用了预训练分类模型学习到的深度特征空间。给定从参考图像中提取的一组特征,该模型会生成各种图像样本,每个样本在分类模型的每个语义级别上都具有匹配的特征。
具体地,给定预训练的分类网络,GAN网络被设计为具有与分类网络相似架构的生成器。训练生成器的每一层以使其适应先前的层以及分类网络的相应层。例如,在接近输入的分类特征上对生成器进行条件调整,会得到与分类模型的输入图像相似的图像,并可能通过采样不同的噪声向量来探索此类图像的空间。另一方面,对较深层进行调节会导致生成的图像分布更广。该模型经过训练后会产生对抗损失,以生成逼真的图像,而多样性损失则可以生成具有不同噪声的多样化图像,以及将所生成图像的特征与参考图像进行匹配的重构损失。图像的不同区域可以使用掩码操作以不同的语义级别进行调节,可被用于在语义上修改图像。
分析和改善StyleGAN的图像质量
论文地址:https://arxiv.org/abs/1912.04958
在StyleGAN的第一个版本中,作者提出了一种替代的生成器体系架构,该体系架构能够生成高质量的图像,并且能够分离高级属性(例如,在人脸上进行训练时的姿态和身份)。这种新架构包括使用来自潜在空间的映射网络Z 和一个中间空间 W 以更紧密地匹配训练集中的特征分布,并避免出现在训练中的禁用组合 Z。使用自适应实例Normalization(AdaIN)层将中间潜在向量合并到生成器中,同时在每次应用AdaIN之前会添加均匀的噪声,并逐步进行训练。该论文已经在数据驱动的无条件生成图像建模中获得令人印象深刻的结果。但是,生成的图像仍然包含一些伪像,例如水斑和面部属性(如眼睛)的不变位置。
首先,为避免droplet 效应(AdaIN丢弃特征图中信息的结果),作者通过删除一些多余的操作,将噪声添加到样式的有效区域之外,将AdaIN替换为权值解调层,并且仅调整每个特征图的标准差。消除了渐进式GAN训练以避免基于MSG-GAN的面部属性的永久位置。最后,StyleGAN2对损失引入了新的正则化项,以在中间潜在空间的单个位置基于Jacobian矩阵实施更平滑的潜在空间插值。
对抗性潜在自动编码器
论文地址:https://arxiv.org/abs/2004.04467
自动编码器(AE)的特点是简单易行,并且能够通过同时学习编码器-生成器图来组合生成性和表示性的功能。但是,它们不具有与GAN相同的生成功能。被提出的对抗潜在自动编码器(ALAE)通过使用对抗性策略学习输出数据分布来保留GAN的生成特性,而AE架构则从数据中学习潜在分布以改善分离特性(即 StyleGAN的W中间潜在空间)。
ALAE体系架构将生成器G和判别符D分解为两个网络:F,G和E,D,其中F和G之间以及E和D之间的潜在空间被认为是相同的,并称为中间潜在空间 W。在这种情况下,映射网络F是确定性的,而E和G是随机的并取决于注入的噪声。这对网络(G,E)包含一个生成器-编码器网络,该网络可以自动编码潜在空间W,并经过训练以最大程度地减少这两个分布之间差异 Δ (例如MSE损失),即G输入处的分布和E输出处的分布。总体而言,通过交替优化GAN损失和Δ之间的差异来训练模型 。
其他论文:
Interpreting the Latent Space of GANs for Semantic Face Editing,https://arxiv.org/abs/1907.10786
MaskGAN: Towards Diverse and Interactive Facial Image Manipulation,https://arxiv.org/abs/1907.11922
Semantically Multi-modal Image Synthesis,https://arxiv.org/abs/2003.12697
TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting,https://arxiv.org/abs/2003.14401
Learning to Shadow Hand-drawn Sketches,https://arxiv.org/abs/2002.11812
Wish You Were Here: Context-Aware Human Generation,https://arxiv.org/abs/2005.10663
Disentangled Image Generation Through Structured Noise Injection,https://arxiv.org/abs/2004.12411
MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks,https://arxiv.org/abs/1903.06048
PatchVAE: Learning Local Latent Codes for Recognition,https://arxiv.org/abs/2004.03623
Diverse Image Generation via Self-Conditioned GANs,https://arxiv.org/abs/1912.05237
Towards Unsupervised Learning of Generative Models for 3D Controllable Image Synthesis,https://arxiv.org/abs/1912.05237
3
表征学习
自监督学习的上下文不变表征学习
论文地址:https://yassouali.github.io/ml-blog/cvpr2020/
现有的自监督学习方法包括创建一个前置任务,例如,将图像分为九个块,并在排列好的块上解决拼图游戏。这些前置任务包括变换图像,计算变换后的图像的表示形式以及根据该表示形式预测变换的属性。最后,作者认为,学习的表示形式必须与转换相适应,因此需要减少学习的语义信息数量。为了解决这个问题,他们提出了PIRL(上下文不变表示学习)来学习关于变换的不变表示并保留更多的语义信息。
PIRL训练一个网络,该网络产生不依赖于图像变换的图像表示,这是通过最小化对比损失来完成的,其中训练模型以区分N个对应负样本中的正样本(即图像及其转换版本)从数据集中随机抽取均匀样本,不包括用于正样本的图像。对于基于噪声对比估计的损失,使用大量的负样本至关重要。为此,PIRL使用包含每个示例的特征表示的记忆银行(memeory bank),其中在给定实例中的每个表示都是先前表示的指数移动平均值。
ClusterFit:改进视觉表示的泛化能力
论文地址:https://arxiv.org/abs/1912.03330
弱监督(例如,标签标签预测)和自我监督(例如,拼图游戏)策略对于为视觉下游任务进行预训练CNN变得越来越流行。然而,在有限的训练信号可以在预训练期间提取的情况下,使用这种方法的学习表示可能会过度适合于预训练目标,从而导致对下游任务的归纳减少。
ClusterFit的想法非常简单,首先使用一些被选择的预训练任务对网络进行预训练,无论是自监督还是弱监督学习,然后使用该网络为每个图像提取特征,然后应用k均值聚类并为每个数据点分配伪标签。然后,伪标签可用于从头开始训练网络,通过线性探测或微调,网络将更适合于下游任务。
用于无监督视觉表征学习的动量对比
论文地址:https://arxiv.org/abs/1911.05722
无监督视觉表征学习的最新工作基于最小化对比度损失,这可以看作是构建动态字典,其中字典中的键是从数据(例如图像或小图块)中采样并由编码器网络表示的,然后训练以便查询 q类似于给定的键 k (正样本),并且与其他键(负样本)不同。
动量对比度(MoCo)通过匹配编码查询q来使用对比损失的编码键字典。字典键是由一系列数据样本动态定义的,其中字典是作为队列构建的,当前的小batch已入队,最早的小batch已出队,将其与小batch大小分离。通过使用队列,即使在当前的小batch处理之外也可以使用大量的负样例。另外,键值可以由缓慢进行的编码器(即查询编码器的指数移动平均值)编码,这样,键值编码器会随着时间而缓慢变化,从而在训练过程中产生稳定的预测。查询编码器的另一个好处是,用作负样例的出队键与键值编码器的当前预测不太相似。
指导超越局部像素统计的自监督特征学习
论文地址:https://arxiv.org/abs/2004.02331
作者认为,良好的图像表示应同时捕获本地和全局图像统计信息,以便更好地推广到下游任务,在本地任务中,本地统计信息捕获像素点附近的分布(例如纹理),而全局统计信息则捕获远程像素和色块的分布例如形状。但是,CNN偏向局部统计数据,并且需要明确地将其重点放在全局功能上,以实现更好的生成。
为此,作者精心选择了一组图像变换(即扭曲、局部修复和旋转),以使网络仅仅观察局部统计信息就无法预测所应用的变换,从而迫使网络专注于全局像素统计信息。通过选择的变换,然后使用分类目标对网络进行预训练,以预测与所应用变换相对应的标签。
其他论文:
Self-Supervised Learning of Video-Induced Visual Invariances,https://arxiv.org/abs/1912.02783
Circle Loss: A Unified Perspective of Pair Similarity Optimization,https://arxiv.org/pdf/2002.10857.pdf
Learning Representations by Predicting Bags of Visual Words,https://arxiv.org/abs/2002.12247
4
计算摄影
学会看透障碍物
论文地址:https://arxiv.org/pdf/2004.01180.pdf
本文提出了一种基于学习的方法来消除不必要的障碍物(例如下面的示例)。该方法使用了多帧障碍消除算法,该算法利用了基于优化方法和基于学习方法的优势,以密集到精细的方式在密集运动估计和背景/障碍层重构步骤之间交替。通过对密集运动进行建模,可以逐步恢复各个层中的详细内容,从而将背景与不需要的遮挡层逐渐分离。第一步由流形分解组成,随后是两个后续阶段,即背景层和障碍层重构阶段,最后是光流细化。
背景抠图:世界是你的绿幕
论文地址:https://yassouali.github.io/ml-blog/cvpr2020/
将图像分为前景和背景的过程称为遮罩(matte),通常需要绿幕背景或手动创建的三图(trimap)来产生良好的遮罩,然后才能将提取的前景放置在所需的背景中。在本文中,作者建议使用捕获的背景作为真实背景的估计,然后将其用于求解前景和alpha值(即,图像中的每个像素都表示为前景和背景的组合,并带有权值alpha)。
该模型将静态自然背景前的人像图像或视频加上背景图像作为输入。然后,深层抠图网络会为给定的输入帧提取每个空间位置的前景色和alpha,并增加背景、柔和的分割以及可选的附近视频帧,此外还有指导训练以生成真实结果的判别器网络。整个模型是结合有监督的和自监督的对抗损失进行端到端训练的。
使用上下文相关的分层深度修补进行3D摄影
论文地址:https://arxiv.org/abs/2004.04727
本文的目的是从单个RGB-D图像合成输入图像中被遮挡的区域中的内容。所提出的方法包括三个步骤。首先,给定RGB-D图像,通过使用双边中值滤波器对深度和颜色输入进行滤波来应用预处理步骤,然后使用视差阈值检测原始不连续性以估计深度边缘。随后检测每个检测到的深度的上下文/合成区域。给定颜色,深度和边缘信息,最后一步包括在颜色和深度修补的指导下进行深度边缘修补,从而在GIF波纹管中看到了一个新视图(摘自作者YT的视频,https://www.youtube.com/watch?v=pCSI8YKdCPE)。
脉冲:通过生成模型的潜在空间探索进行自监督的照片上采样
论文地址:https://arxiv.org/abs/2003.03808
单图像超分辨率的目标是从低分辨率(LR)图像中输出相应的高分辨率(HR)图像。先前的方法在有监督损失下进行训练,该损失会测量真实的HR图像与模型输出之间的像素平均距离。但是,存在映射到同一LR图像的多个HR图像,并且这些方法尝试匹配真实的HR图像,输出所有可能的HR图像的每个像素的平均值,这些图像在高频区域中不包含很多细节,因此HR输出模糊。
脉冲试图从可能缩小到相同LR输入的HR图像集中找到一个可能的HR图像,并且可以以自监督的方式进行训练而无需有标签数据集,从而使该方法更加灵活和不限于特定的降级运算符。具体来说,PULSE不是遍历LR图像并慢慢添加细节,而是遍历高分辨率自然图像流形,搜索缩小到原始LR图像的图像。这是通过最小化生成器的按比例缩小的HR输出(将LR图像作为输入)与LR图像本身之间的距离度量来完成的。此外,搜索空间受到限制,以通过使用单位球面来确保生成器的输出在d 维欧氏空间作为潜在空间是逼真的。
其他论文:
Learning to Autofocus,https://arxiv.org/abs/2003.08367
Lighthouse: Predicting Lighting Volumes for Spatially-Coherent Illumination,https://arxiv.org/abs/2003.08367
Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution,https://arxiv.org/abs/2002.11616
Explorable Super Resolution,https://arxiv.org/abs/1912.01839
Deep Optics for Single-shot High-dynamic-range Imaging,https://arxiv.org/abs/1908.00620
Seeing the World in a Bag of Chips,https://arxiv.org/abs/2001.04642
5
迁移/小样本/半监督/无监督学习
用于任务感知的持续学习的条件通道门控网络
论文地址:https://arxiv.org/abs/2004.00070
在训练示例包含一系列子任务的情况下,需要基于梯度优化的深度网络会遭受灾难性的遗忘,从而丢失先前任务中学习到的信息。持续学习试图通过允许模型保护和保留所获取的信息,同时仍然能够从新任务中提取新信息来解决这一问题。与LSTM / GRU中的门控机制相似,作者提出了一种通道门控模块,其中仅根据当前任务选择特征图的子集。这样,能保护重要的filters以避免模型在先前学习的任务上的性能损失,此外,通过选择一组有限的要更新kernel,模型仍将具有学习新任务的能力。
本文还引进了任务分类器,以克服在测试时了解模型要应用于哪个任务的需求,训练该任务分类器以预测在训练时的任务,并选择将哪些CNN特征传递给全连接层用于分类。但是,任务分类器也容易遭受灾难性的遗忘问题,因此作者建议使用情景记忆和生成记忆来训练它,以避免这种情况发生。
PolarMask:具有极坐标表示的单镜头实例分割
论文地址:https://arxiv.org/abs/1909.13226
PolarMask建议使用极坐标表示实例分割任务中每个检测到的目标掩码。极坐标表示与笛卡尔坐标表示相比具有许多固有的优点:(1)极坐标的原点可以看作是目标的中心。(2)从原点开始,能由距中心的距离和角度确定对象的轮廓。(3)该角度是自然方向的(从0°到360°开始),这使得将这些点连接到整个轮廓非常方便。
该模型基于FCOS:对于给定实例,我们有三个输出:k个 类上的分类概率(例如在COCO数据集上 k=80),目标的中心(极中心)和到中心的距离(掩码回归)。本论文建议使用距中心n=36的距离,因此轮廓中两点之间的角度为10°。基于这些输出,可以像使用Mask-RCNN一样,以单次拍摄的方式轻松检测每个目标的范围,而无需使用子head网络对每个检测到的目标进行像素方向的分割。
通过嵌入自适应与设置到设置的功能进行小样本(Few-Shot)学习
论文地址:https://arxiv.org/abs/1812.03664
小样本学习包括学习一个具有N个类、每个类中有K个样本(即称为N-Way,K-shot任务)的性能良好的模型,但是高容量的深层网络在有限的训练数据上很容易出现过拟合。许多小样本学习用的学习方法(例如,原型网络)是通过在训练有很多标记实例的情况下从可见类中学习实例嵌入函数来解决此问题的,然后将一个简单函数应用于具有有限标签的不可见类中的新实例的嵌入测试时贴上标签。但是,考虑到学习的嵌入功能对于看不见的类不是最佳的区分,因此学习的嵌入与任务无关。
作者提出使用“set-to-set”功能使实例嵌入适应目标分类任务,从而产生任务特定且具有分辨性的嵌入。为了产生任务特定的嵌入,作者将执行一个额外的适应步骤,其中嵌入功能将通过set-to-set函数进行转换,该函数对集合的图像实例进行上下文式处理,以实现每个条例的强大共适应性。作者测试了许多set-to-set函数,例如BiLSTM,图卷积网络和Transformer,并且发现Transformer在这种情况下有效。
迈向可分辨性和多样性:标签不足情况下的批量神经核范数最大化
论文地址:https://arxiv.org/abs/2003.12237
如果为我们提供了一个小的标注集,则由于将决策边界放置在高密度区域附近,结果导致模糊网络上深度网络的性能下降(右下图)。一种常见的解决方案是熵最小化,但是由熵最小化引起的一个副作用是预测多样性的降低,其中歧义样本被归类为最主要的类别,即可分辨性增加但多样性下降。
这篇论文研究了增加可分辨性(输出高度确定的预测)和增加多样性(均等地预测所有类别)的方法。通过分析输出矩阵A∈RB×C (包含一批 B样例和 C类别) 的秩,作者发现预测的判别性和多样性可以通过Frobenius范数和 A的秩来衡量,并提出批神经核范数最大化(Batch Nuclear-norm Maximization)将其应用于输出矩阵 A 以提高我们在标签数量有限的情况下的性能,例如半监督学习和域自适应学习。
其他论文:
Distilling Effective Supervision from Severe Label Noise,https://arxiv.org/abs/1910.00701
Mask Encoding for Single Shot Instance Segmentation,https://arxiv.org/abs/2003.11712
WCP: Worst-Case Perturbations for Semi-Supervised Deep Learning,http://www.eecs.ucf.edu/~gqi/publications/CVPR2020_WCP.pdf
Meta-Learning of Neural Architectures for Few-Shot Learning,https://arxiv.org/abs/1911.11090
Towards Inheritable Models for Open-Set Domain Adaptation,https://arxiv.org/abs/1911.11090
Open Compound Domain Adaptation,https://arxiv.org/abs/1909.03403
6
视觉与语言
12合1:多任务视觉和语言表示学习
论文地址:https://arxiv.org/abs/1912.02315
基于视觉和语言的方法通常专注于少量孤立研究的独立任务。但是,作者指出,完成这些任务中的每一项都需要具有视觉基础的语言理解技能,这些技能明显重叠。
为此,本文提出了一种大规模、多任务的训练方案,该模型采用单一模型对来自以下四大类任务的12个数据集进行了训练:视觉问题回答、基于字幕的图像检索,基础引用表达式和多模式验证。使用单个模型有助于将参数数量从大约30亿个参数减少到2.7亿个,同时提高跨任务的性能。
该模型基于ViLBERT,其中每个任务都有一个特定任务的head网络,该head络分支出一个公共的共享干线(即ViLBERT模型)。拥有6个任务head,12个数据集以及超过440万个独立的训练实例,这种规模的多任务训练很难控制。为了克服这个问题,首先将所有模型都在同一数据集上进行预训练。然后使用循环批采样从多任务训练开始循环遍历每个任务,并在发现某些过拟合的情况下尽早停止(early stopping)以停下给定任务,并有可能重新开始训练以避免灾难性遗忘。
其他论文:
Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation,https://arxiv.org/abs/2003.13830
Counterfactual Vision and Language Learning,http://openaccess.thecvf.com/content_CVPR_2020/papers/Abbasnejad_Counterfactual_Vision_and_Language_Learning_CVPR_2020_paper.pdf
Iterative Context-Aware Graph Inference for Visual Dialog,https://arxiv.org/abs/2004.02194
Meshed-Memory Transformer for Image Captioning,https://arxiv.org/abs/1912.08226
Visual Grounding in Video for Unsupervised Word Translation,https://arxiv.org/abs/2003.05078
PhraseCut: Language-Based Image Segmentation in the Wild,https://people.cs.umass.edu/~smaji/papers/phrasecut+supp-cvpr20.pdf
想要查看所有 CVPR 2020 论文,可前往以下网址查看:
http://openaccess.thecvf.com/CVPR2020.py
Via https://yassouali.github.io/ml-blog/cvpr2020/