编译 | 陈彩娴、Barack
编辑 | 陈彩娴
转自 | AI科技评论
ECCV 2020已圆满落幕。会议收到了1360篇论文投稿,其中包含104篇Oral论文、160篇Spotlight论文和1096篇Poster论文。为了更好地了解ECCV 2020的会议内容,来自深度学习专业的博士生Yassine Ouali整理了论文投稿的数据,并从以下五大主题总结了一些取得突破性成就的论文,对其进行了简要概述:
识别、检测、分割和姿态估计
半监督、无监督、迁移、表征和小样本学习
3D计算机视觉与机器人
图像和视频合成
视觉和语言
与2018年相比,近两年ECCV的论文投稿数量一直保持两倍的增长,与CVPR 2020的论文投稿数量接近。随着论文投稿量的增长,审稿人数和论文审核的领域也在持续增加。ECCV有效论文投稿数量如下表:
不出所料,大多数通过审核的投稿论文是围绕深度学习、识别、检测和理解等话题展开。此外,投稿论文也逐渐关注一些新兴领域,如标签高效方法(label-efficient methods,比如无监督学习)和低级视觉(low-level vision)等。
与今年的ICML相似,在论文投稿机构方面,Google排名第一(180位投稿作者),其次是香港中文大学(140位投稿作者)和北京大学(110位投稿作者):
接下来,本文将为大家一一介绍上述五大主题的亮点论文:
1
识别、检测、分割和姿态估计
1、End-to-End Object Detection with Transformers
论文链接:https://arxiv.org/abs/2005.12872
目标检测任务指的是,给定一张输入图像,然后对图像内的可见物体进行定位和分类。目标检测的主要框架是:预定义一组框(比如一组几何先验,锚或候选区域),对其进行分类,接着进行回归,以调整预定义框的尺寸 ,然后执行后期处理步骤,以删除重复的预测。但是,这种方法要求选择一个候选框的子集进行分类,且这种分类通常不是端到端可微的。
在这篇论文中,作者提出了DETR框架。DETR是一种没有几何先验的端到端完全可微分方法。下图是从该论文作者的展示中截取的一张PPT,其中对DETR和Faster R-CNN的管道进行了比较,全面体现了DETR方法的整体性。
DETR基于编码器-解码器Transformer架构。该模型由三部分组成:CNN特征提取器、编码器和解码器。首先,一张给定的图像通过特征提取器,获得图像特征。接着,将使用不同频率的正弦曲线生成的位置编码添加到特征中,以保留图像的2D结构。然后,生成的特征通过Transformer编码器,汇总各个特征的信息,并分离目标实例。
为了进行解码,目标查询将传递给具有编码特征的解码器,从而生成输出特征向量。这些目标查询是一组固定的学习嵌入,能够随机初始化,在训练过程中学习,然后在评估阶段固定。目标查询的数量指的是模型能够检测到的目标数量的上限。最后,输出特征向量通过(共享的)全连接的层馈送,以预测每个查询的类别和边框。为了计算损失并训练模型,该方法使用了Hungarian算法将输出与ground truth进行一对一的匹配。
2、MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution
论文链接:https://arxiv.org/abs/1909.12978
传统的神经网络只能算力达到一定程度时才能有效果,而且,如果不满足资源约束条件,则该模型将无法使用,这会限制模型的实际应用。比方说,如果模型用于移动设备推理,那么计算约束会一直随着负载和设备的电量而变化。
解决上述问题的一个简单方法,是在设备上保留几个大小不同的模型,然后每次使用具有相应约束的模型。但这也需要大量的内存,且无法扩展到不同的约束。最新的一些方法,诸如S-Net和US-Net,在训练期间对子网络进行了采样,这样模型就可以在部署期间以不同的宽度应用。但由于约束非常低,模型的性能也急剧下降。
这篇论文提出,可以同时利用网络规模(network scale)和输入规模(input scale),在准确率和计算效率之间找到一个好的平衡点。如上图所示,针对给定的训练迭代,对四个子网络进行采样,其中包括一个完整的子网,和三个宽度变动的子网络。整个网络基于尺寸不变的、带有ground truth标签的图像,使用了标准的交叉熵损失进行训练,而其余子网络则使用它们的输出和整个网络的输出之间的KL散度损失(即蒸馏损失 distillation loss)对输入图像的随机缩放版本进行训练。
通过这样的方式,每个子网络都能够从输入规模和网络规模中学会多比例表示(multi-scale representations)。在部署期间,给定特定资源约束,则可以选择最佳的网络规模和输入规模组合进行推理。
3、Gradient Centralization: A New Optimization Technique for Deep Neural Networks
论文链接:https://arxiv.org/abs/2004.01461
在优化过程中使用二阶统计量(例如平均值和方差)对激活或网络权重进行某种形式的标准化(例如批归一化或权重归一化),已成为神经网络训练的重要组成部分。梯度集中化(Gradient Centralization,GC)无需使用额外的归一化模块对权重或激活进行操作,而是直接操作梯度,集中梯度向量,获得零均值,从而平滑和加速神经网络的训练过程,甚至改善模型的泛化性表现。
给定已计算好的梯度,GC算符首先计算计算梯度向量的平均值(如上图所示),然后减去这些向量的平均值。一般情况下,对于梯度为的权重向量,GC算符 被定义为:
4、Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval
论文链接:https://arxiv.org/abs/2007.12163
图像检索(image retrieval)的目标是从大量图像中检索与查询图像类别相同的图像。图像检索与图像分类的区别在于:在图像分类中,在测试中遇到的分类在训练时已明确;而在图像检索中,我们可能会检索到一张类别全新的图像,并需要抓取与之相似的图像,比如开集(open set)问题。
图像检索的一般流程包括:提取用于查询图像的嵌入,以及使用CNN特征提取器来获得图像集的嵌入,计算每对图像的余弦相似度,然后基于相似度对集合中的图像进行排序。接着,特征提取器经过训练,以获得好的排名。排名表现由平均精度(Average Precision,AP)来衡量,计算每个阳性样本的排名与其在整个图像集上的排名之和。
但是,对给定图像的排名计算涉及到使用Heaviside阶跃函数(Heaviside step function),从而使得阈值操作不可微,因此我们无法进行端到端的模型训练来直接优化排名。
为了解决这个问题,该论文的作者提出用一个平滑的温控Sigmoid函数来取代Heaviside阶跃函数,使排名可微,并像损失函数一样应用于端到端的训练。与Triplet Loss相比,平滑AP损失能优化排名损失,Triplet Loss是一种替代损失函数,用于间接优化以获得良好的排名。
5、Hybrid Models for Open Set Recognition
论文链接:https://arxiv.org/abs/2003.12506
现有的图像分类方法通常是基于一个闭集假设,比方说,训练集涵盖在测试阶段可能出现的所有分类。但很显然,这种假设是不现实的,因为即使是像ImageNet这种含有1000个类别的大规模数据集,也不可能覆盖现实世界上所有的类别。因此,便出现了开集分类。开集分类假设测试集包含已知和未知类,希望解决闭集分类的问题。
在这篇论文中,作者使用基于流的模型来处理开集分类问题。基于流的模型能够通过最大似然估计,以无监督的方式使概率分布拟合训练样本。接着,流模型能够用来预测每个示例的概率密度。当输入样本的概率密度很大时,则输入样本可能是具有已知类别的训练分布的一部分,且此时离群值(outlier)的密度值会很小。虽然过去的模型在流模型上堆叠了一个分类器,但论文作者提出为流模型和分类器学习一个联合嵌入,因为仅从基于流的模型中学习的嵌入空间可能没有足够的判别特征来进行有效的分类。
如上图所示,在训练过程中,图像被编码器映射到隐特征空间(latent feature space)中,然后,已编码的特征将馈入已经过交叉熵损失训练的分类器和用于估计密度的流模型中。整个架构以端到端的方式进行训练。为了测试,我们需要计算每个图像的,然后与训练集内最低的进行比较。如果比阈值大,则将发送至分类器中,以识别特定的已知类,或作为未知样本被驳斥。
6、Conditional Convolutions for Instance Segmentation
论文链接:https://arxiv.org/abs/2003.05664
实例分割(Instance segmentation)至今仍是计算机视觉中最具挑战的任务之一,需要具备给定图像中每个可见目标的逐像素掩码(per-pixel mask)和类别标签(class label)。进行实例分割的主要方法是Mask R-CNN,包含两个步骤:首先,目标检测器Faster R-CNN会预测每个实例的边框;然后,针对每个检测到的实例,使用ROI Align从输出特征映射中裁剪出感兴趣的区域,将感兴趣的区域调整至相同的分辨率,然后馈入一个掩码中。该掩码是一个小的全卷积网络,用于预测分割掩码。
但是,论文作者指出这种架构具有几点缺陷:1)ROI Align可能会抓取一些不相关的背景或其他实例的特征;2)调整大小的操作会限制实例分割的分辨率;3)掩码头(mask head)需要用到一叠3x3的卷积,才能产生足够大的感受野来预测掩码,这也大大增加了掩码头的计算需求。
在这篇论文中,作者提出将用于语义分割的图像分割网络(FCN)应用于实例分割。为了进行有效的实例分割,FCN需要用到两类信息,一类是用于进行目标分类的外形信息,一类是用于区分同类的多个目标的位置信息。
作者提议的网络名为CondInst(conditional convolutions for instance segmentation,用于实例分割的条件卷积)。该网络基于CondConv和HyperNetworks,其中,每个实例的子网络将根据每个实例的中心区域生成掩码FCN网络的权重,然后用于预测给定实例的掩码。如上图所示,网络包含在不同规模的特征图(feature map)中应用的多个掩码头。每个掩码头会预测在预定义位置上给定实例的类别,以及预测被掩码FCN头使用的网络权重。然后,利用每个掩码头生成的参数完成掩模预测。
7、Multitask Learning Strengthens Adversarial Robustness
论文链接:https://arxiv.org/abs/2007.07236
深度神经网络有一个缺点,是容易受到对抗攻击的影响。在对抗攻击中,即使输入的外观保持不变,一有微小的哪怕看不见的扰动,便会产生错误的输出。
近年来,人们对深度网络的对抗鲁棒性经流程的不同阶段,从输入数据(如使用未标记数据和对抗训练),到模型使用正则化方法进行自我建模(如 Parseval Networks),都进行了研究,但模型的输出仍无法提高鲁棒性。
在这篇论文中,作者研究了多任务学习使用多个输出后对模型鲁棒性的影响。这个设置非常有效,因为越来越多机器学习应用程序需要用到能够同时执行多个任务的模型。
使用p范数有界球攻击(p-norm ball bounded attack),若给定输入示例的半径,则能在p范数有界球内发现对抗性扰动,且脆弱性(vulnerability)是总损失变化(total loss change)。
作者在论文中展现了,在训练一对任务时(例如从分割、深度、法线、重新切分、输入重建、2D和3D关键点等等中选择的一对任务),网络表现出更稳定的鲁棒性。在单任务攻击(比如,使用输出计算扰动)和多任务攻击(比如,使用所有输出来计算所有扰动中的最大扰动)中,我们也可以观察到鲁棒性有所改善。作者还从理论的角度证明:只有当任务相关时,网络才能获得这种多任务鲁棒性。
8、Dynamic Group Convolution for Accelerating Convolutional Neural Networks
论文链接:https://arxiv.org/abs/2007.04242
分组卷积(group convolution)最初是在AlexNet网络中引入,用来加快该网络的训练速度,随后又经过修改,应用于诸如MobileNet和Shufflenet之类的高效卷积神经网络中。分组卷积包括将卷积层中的输入和输出通道平均分成互斥的部分或组,同时在每个单独的组内执行常规的卷积操作。所以对于组,计算量减少了倍。
然而,该论文的作者认为,分组卷积也带来了两个重要的局限性:1)分组卷积引入稀疏神经元连接,削弱了正常卷积的表示能力;2)无论输入的属性如何,分组卷积的通道划分都是固定的。
为了在保持原始网络的完整结构的同时,为每个组自适应地选择最相关的输入通道,作者提出了动态组卷积(dynamic group convolution,DGC)的概念。DCG由两个头(head)组成,每个头中包含一个用来为每个通道分配重要性分数的显著性分数生成器(saliency score generator)。应用这些分数,可以对重要性分数较低的通道进行修剪。然后,根据输入通道的选定子集引导正常卷积,在每个头中生成输出通道。最后,来自不同头的输出通道被连接在一起,并进行混洗(shuffled)。
9、Disentangled Non-local Neural Networks
论文链接:https://arxiv.org/abs/2006.06668
非局部块(non-local block)使用注意力机制对像素之间的远程依赖关系进行建模,已被广泛应用于许多视觉识别任务中,例如目标检测、语义分割和视频动作识别等。
在这篇论文中,作者想要更好地理解非局部块,找出它的局限性,然后给出改善后的版本。首先,他们重新制定像素 (键像素)到像素 (查询像素)的相似性,将其作为pairwise term和unary term的总和。pairwise term指的是表示查询键像素(query key pixel)之间纯成对关系的白化向量点积项(whitened dot product term);unary term指的是给定键像素对所有查询像素的影响相同。然后,为了了解每个term的影响,他们使用其中任一个term进行训练,发现pair-wise term负责类别信息,而unary term负责边界信息。
但是,通过分析非局部块的梯度,当pair-wise term和unary term在正常注意力操作符中结合时,两者的梯度相乘,因此,如果其中一个term的梯度为零,则另一个梯度非零的term起不了任何作用。为了解决这个问题,作者提出了非局部块的解耦版本,将每个term分开进行优化。
10、Hard negative examples are hard, but useful
论文链接:https://arxiv.org/abs/2007.12749
深度度量学习(Deep metric learning)对嵌入函数进行了优化,其中嵌入函数将语义相似的图像映射到相对临近的位置、将语义不同的图像映射到较远的位置。学习这类映射的主要方法是基于锚图像(anchor image)、同类别的正图像和不同类别的负图像等三元组图像来定义损失函数。如果锚点映射到负图像的位置比正图像的位置更近时,则对模型进行惩罚。
但是,在优化的过程中,大多候选三元组图像已经有一个比起负值、更接近于正值的锚,这些候选图像就变得多余了。另一方面,使用最难的负面示例进行优化,会在训练的早期阶段产生糟糕的局部最小值,因为在这种情况下,用余弦相似度(比如归一化特征向量之间的点积)测量时,锚-负相似度大于锚-正相似度。
作者将上述问题归因于使用了三元组损失标准执行时的hard-negatives样本。具体来说,就是:1)如果在梯度计算过程中不考虑归一化,一大部分梯度便会损失;2)如果两个不同类的图像在嵌入空间中靠近,则损失的梯度可能会将两张图像拉得更近,而不是更远。
为了解决这个问题,作者提出不要像在标准三元组损失中那样拉近锚-正样本对(anchor-positive pair),使其紧密聚类,而是避免更新锚-正样本对,使其不要紧密聚类。这样一来,网络便只专注于直接将hard negative样本推离锚点。
11、Volumetric Transformer Networks
论文链接:https://arxiv.org/abs/2007.09433
CNN成功的一个关键点在于有能力学习语义目标部分的判别性特征表示,这对计算机视觉任务非常有利。但是,CNN仍然无法处理各种各样的空间变化(比如比例、视点和类内差异)。
最近一些方法,例如空间变换网络( spatial transformer network,STN),试图先将空间性质不同的图像的特征图封装到一个标准规范配置中,然后在这些标准特征上训练分类器,以此来抑制这些变化。但是,这些方法对所有特征通道进行相同的封装,没有考虑到这个事实,即各个特征通道表示不同的语义部分,因此可能需要就规范配置进行不同的空间变换。
为了解决上述的问题,这篇论文介绍了上图所示的Volumetric transformer network (VTN)。这是一个可学习的模块,能够预测每个通道和每个空间位置封装变换(spatial location wrapping transform)。这些变换将中间的CNN特征重新配置为与空间无关的标准表示形式。VTN是一个编码器-解码器网络,具备专门用于让信息跨功能通道流动、以显示语义部分之间的依赖性的模块。
12、Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation
论文链接:https://arxiv.org/abs/1911.06987
数据增强已成为深度学习方法中必不可少的的一环。该方向的一些最新工作(例如AutoAugment、Fast AutoAugment和RandAugment等)表明,搜索算法比标准的增强方法更擅长发现数据增强策略。DA应用一组预定义的可能变换,如旋转等几何变换,或曝光等颜色增强变换,目标是找到最佳的数据增强参数,比如数据增强的程度、应用的可能性以及组合的转换数数量(如下图中的左图所示)。DA通过双重优化循环(double optimization loop)学习最佳策略,从而将使用特定策略训练的特定CNN的验证错误最小化。
然而,这种优化方法会因为具有许多策略可能性的巨大搜索空间而遭殃,需要用到复杂的搜索策略。此外,策略优化的单次迭代需要对CNN进行全面训练。为了解决这个问题,作者提出,对原始图像和基于梯度优化的增强图像进行密度匹配,以找到最佳策略。
作者将DA视为填充原始数据缺失点的一种方式,旨在将增强数据的分布与使用了对抗学习的原始数据之间的距离最小化。此外,为了学习最佳增强策略,需要对变换参数可微。谈及应用给定增强的可能性,作者使用了从伯努利分布(Bernoulli distribution)中采样、使用 Gumbel trick进行了优化的随机二进制变量(stochastic binary variable)。另外,幅度通过直通估算器(straight-through estimator)进行近似,组合以one-hot向量组合进行学习。
2
半监督、无监督、迁移、表征和小样本学习
1、Big Transfer (BiT): General Visual Representation Learning
论文链接:https://arxiv.org/abs/1912.11370
在本文中,作者重新探讨了迁移学习的简单范例:对大量带标签的源数据(例如,JFT-300M和ImageNet-21k数据集)进行预训练,然后针对不同任务对这些训练权重进行微调,这样既减少了目标任务所需的数据量,又减少了微调时间。作者将该框架命名为BiT(大型迁移),其由许多组件组成,该网络能够有效的利用大规模数据集并学习通用的和可迁移的表示特征。
在(上游)预训练方面,BiT包含以下内容:
1)对于非常大的数据集,批归一化(BN)在测试过程中使用来自训练数据的统计参数会导致训练/测试差异,在这种情况下,训练损失可以正确的被优化,而验证损失则非常不稳定。 为了解决这个问题,BiT使用组归一化(GN)和权重归一化(WN)代替了BN。
2)对于ResNet 50之类的小型模型,它们无法从大规模训练数据中得到充分的训练,因此模型的大小也需要相应地扩大规模。
对于(下游)目标任务,BiT提出以下建议:
1)使用标准SGD,需要将最后一个用于预测的层初始化为0,且无需冻结其他层,同时也不需要加dropout,L2正则项或者其他的tricks。
2)在训练过程中,将图像进行随机缩放并裁剪为具有随机大小的正方形,并随机进行水平翻转。只有在测试时,将图像调整为固定大小。
3)经验表明mixup对于大规模数据的预训练没有性能提升,但是BiT发现mixup对某些下游目标任务的中型数据集非常有用。
2、Learning Visual Representations with Caption Annotations
论文链接:https://arxiv.org/abs/2008.01392
在大规模标注数据集上训练深度模型不仅可以在当前目标任务中获得良好的性能,还可以使模型在下游目标任务也有较好的表现。但是,对数据集进行标注需要付出巨大的代价,如果没有标注,我们还能否实现这样的效果?基于此,这篇论文研究了使用噪声标签(直接用图像字幕作为标签)的弱监督预训练。
以使用有限的图像-字幕对来学习视觉表征为目标,如何设计一个训练目标来推动图像与其字幕之间的有效交互?基于BERT中使用的遮挡图像建模,它随机遮挡15%的输入,然后使用transformer模型的编码器部分,训练模型去重建被遮挡的输入标记。论文提出了图像条件遮挡语言建模(ICMLM),利用图像重建其对应字幕的遮挡标记。
为了实现这个目标,作者提出了两种多模态架构,(1)ICMLM tfm,其图像使用CNN进行编码,遮挡的字幕使用BERT模型,然后将字幕和图像特征进行拼接,并通过transformer编码器产生多模态嵌入,用于预测遮挡的标记。(2)ICMLM att+fc,相似度,先产生字幕和图像特征,然后通过配对注意力块,整合字幕和图像之间的信息。然后将产生的特征进行汇集,并通过全连接层进行遮挡标记预测。
3、Memory-augmented Dense Predictive Coding for Video Representation Learning
论文链接:https://arxiv.org/abs/2008.01065
图像自监督表征学习的最新进展显示了其在下游目标任务的出色性能。虽然目前针对视频的多模型表示学习也可以达到较好的效果,但是仅使用视频流(去除音频、文字信号)的自监督模式仍然没有得到发展。视频的时间信息也可以作为一种监督信号,以自监督的方式训练模型去预测未来状态作为之前状态的监督信息,由于在给定的时间步长内,未来状态有许多合理的假设(例如,当动作是“打高尔夫球”时,未来的状态可能会和手或者高尔夫俱乐部有关),这也带来一定的局限性。
本文将对比学习与存储模块结合起来,来对未来状态进行预测。为了减少不确定性,模型会在特征层面上预测未来,并使用对比损失进行训练以避免过度的约束。为了处理多种假设情况,每个存储模块可以同时推断多个未来状态。例如给定一组连续帧,则2d-3d CNN编码器( )产生上下文特征和GRU( )来汇总所有过去的信息,然后使用这些信息从共享内存模块中选择插槽。
然后,将预测得到的未来状态插入到所选插槽中构成新的状态集合。然后使用对比损失将预测的未来状态与真实特征向量进行优化。对于下游任务,将之前汇总的特征进行下采样,然后馈送到分类器。
4、SCAN: Learning to Classify Images without Labels
论文链接:https://arxiv.org/abs/2005.12320
对于无标签图像分类问题,本文仅使用视觉相似性来寻找解决方案。之前的工作大致包括两类方法:(1)用自监督方法提取特征,然后在特征空间应用k-means来寻找聚类中心,但这类方法很容易导致模型退化。(2)端到端的聚类方法,利用CNNs特征进行深度聚类,或者基于互信息最大化。这类方法产生的聚类中心严重依赖于初始化的效果,而且很可能只能提取到低级特征。
为了解决之前工作中存在的问题,本文提出了SCAN(基于最近邻的语义聚类),包含两步操作,第一步,通过前文任务学习特征表征,然后,为了生成初始聚类中心,SCAN根据特征相似度挖掘每个图像的最近邻,而不是使用K-means。第二步,将语义上有意义的最近邻域作为先验来训练模型,将每张图像及其领域一起分类,在softmax层之后最大化它们的点积来作为损失函数,推动网络产生一致和判别性(one-hot)的预测。
5、GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering
论文链接:https://arxiv.org/abs/2002.11863
聚类是根据样本相似度来将数据进行分类。传统的方法使用手工特征和特定领域的距离函数来衡量相似度,但这种手工特征在表达能力上非常有限。后来的工作将深度特征与聚类算法相结合,但当输入数据非常复杂时,深度聚类的性能仍然会受到影响。
为了实现有效的聚类,在特征层面,它们既要包含高级的判别特征,又要兼顾对象所包含的语义。在聚类过程中,必须避免将所有样本分配到一个或几个聚类的异常情况,同时聚类也要能够高效地应用于大尺寸图像中。
本文提出了GATCluster,它可以直接输出语义聚类标签,而无需后处理操作,学习到的特征是one-hot编码向量,避免出现异常解。GATCluster以无监督的方式进行训练,在特征不变性、可分离性最大化、熵分析和注意力映射的约束下,完成四个自学习任务。
6、Associative Alignment for Few-shot Image Classification
论文链接:https://arxiv.org/abs/1912.05094
在小样本图像分类中,目标是产生一个模型,在训练数据很少的情况下,去识别新的给定图像。其中一种流行的方法是元学习,它从大量包含基础类的标记数据中提取常识性特征来训练一个模型。然后,再将该模型训练成只用少数训练样例就能对新类别的图像进行分类。
元学习的目标是找到一组好的初始权重,在新类别图像上训练时迅速收敛。最近的工作表明,没有元学习的标准迁移学习,即先在基础类上预训练一个特征提取器,然后在预训练的提取器上对新类别图像微调分类器,其表现与更为复杂的元学习策略性能相当。
然而,在微调过程中,为了避免过度优化,需要对提取器某些层进行冻结,但这会影响性能。
本文提出了一种两步法来解决这个问题。首先,使用特征提取器来产生新类别的特征。然后利用嵌入空间中的相似性度量将每个样本的特征映射到其中已知的一个基类。第二步是特征关联对齐,对特征提取器进行微调,缩小新类别嵌入与其相应基类图像嵌入之间的距离。可以通过中心点对齐或者对抗性对齐来实现。
3
3D计算机视觉和机器人
1、NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
论文链接:https://arxiv.org/abs/2003.08934
从2D图像合成3D视图是一个具有挑战性的问题,特别是当输入的2D图像是稀疏采样得到的。本文的目标是训练一个模型,该模型接受一组3D场景的2D图像(拍摄角度及相机参数可调整),然后,使用训练好的模型,可以渲染出3D场景的新视图(在输入的2D图像集合中不存在)。
一个成功的方法是基于voxed的表示方法,Anf使用3D CNN预测RGB-alpha网格值的3Dvoxel。然而,这种方法的内存效率很低,因为它们随着空间分辨率的变化进行扩展,可能很难优化,并且不能平滑地对场景表面进行参数化。
最近的工作大多是用一个全连接的神经网络将给定的3D场景表示为一个连续函数,这种方法训练得到的神经网络本身就是对3D场景的压缩表示,利用2D图像集合进行训练,然后来渲染新的视图。但现有的方法还是无法与基于voxed的方法相媲美。
NeRF(神经辐射场)使用一个9层、256个通道的全连接网络将场景表示为一个连续的5D函数,其输入是一个单一连续的5D坐标,即3D空间位置和观看方向 ,其输出是RGB颜色和不透明度(输出密度)。为了合成一个给定的视图,渲染过程包括沿摄像机射线查询5D坐标,并使用经典的体积渲染技术将输出颜色和密度投射到图像中。
由于体积渲染是自然可分的,因此优化函数所需的唯一输入是一组具有已知相机姿势的图像。这样一来,NeRF就能通过计算渲染图像和ground-truth之间的重建损失,来有效地优化神经辐射场。模型渲染出的具有复杂几何形状和外观的场景视图,明显优于之前工作的结果。
2、Towards Streaming Perception
论文链接:https://arxiv.org/abs/2005.10420
自动驾驶汽车等实际应用需要类似于人类的快速反应时间,通常为200毫秒。在这样的条件约束下,需要低延时的算法来确保汽车安全行驶。虽然近来计算机视觉算法的延迟也成为了一个研究热点,但也仅仅是在离线环境下进行探索。而在线感知会带来完全不同的延迟要求。因为当一个算法完成对某一帧图像的处理时,比如200ms后,周围的世界就已经发生了变化,如下图所示。这迫使模型要对未来进行预测,这也是人类视觉的一个基本属性。
本文介绍了流式感知的目标,即实时在线感知,并提出了一个新的元基准,可以系统地将任何图像理解任务转换为流式图像理解任务。这个基准建立在一个关键先验观察上:流式感知需要随时了解世界的状态。因此,当一个新的帧到达时,流式算法必须报告世界的状态,即便它们还没有完成对前一帧的处理,这会迫使它们考虑在计算时忽略无关的信息。
具体来说,在比较模型的输出和ground-truth时,对应的标准是时间而不是输入的索引顺序,所以模型需要在处理相应的输入之前,给出时间步长的正确预测,即如果模型需要来处理输入,它只能使用 之前的数据来预测时间的输出。
3、Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images
论文链接:https://arxiv.org/abs/2004.14487
人类能够在年轻时形成一种心理模型,该模型能将人类对物体的感知和感知的触觉产生一种映射,这基于之前与不同物品互动时的经验。当与新奇的对象进行交互时,尤其是当现有信息无法准确估计触觉的物理特性时,这种心理模型就变成了非常有价值的工具。
为了更直接地模拟这种心理模型,本文提出直接估计物理属性的方法,直接利用物体的属性。首先,作者提出了400多个图像序列和触觉属性测量的数据集。由于在估计表面属性时,人们会经常不自觉地移动头部,来获取一个表面的多个视图,因此,捕获的图像序列包括每个物体表面的多个视角。
然后,他们提出了一个跨模态框架,用于学习视觉线索到触觉属性的复杂映射。该模型的训练目标是在给定视觉信息的情况下生成精确的触觉属性估计。视觉和触觉信息都通过单独的编码器网络嵌入到一个共享的隐空间。然后,一个生成器函数从嵌入的视觉向量中估计触觉属性值。判别器网络来判别触觉-视觉对是真实的还是合成的。在推理过程中,则使用编码器-生成器来对输入图像推理触觉属性。
4、Convolutional Occupancy Networks
论文链接:https://arxiv.org/abs/2003.04618
三维重建是计算机视觉中的一个重要问题,有很多应用。对于一个理想的三维几何表示,需要能够满足以下四点,a)对复杂的几何和任意的拓扑结构进行编码,b)能够扩展到大型场景,c)兼顾局部和全局信息,d)在内存和计算方面是可控的。
然而,现有的三维重建的表示方法并不能都满足这些要求。虽然最近的隐式神经表示法在三维重建中表现出了更好的性能,但由于其使用简单的全连接网络结构,无法将局部信息整合到观测值中,也无法加入类似平移等价性的归纳偏差。
卷积占位网络利用卷积编码器与隐式占位解码器,结合归纳偏差,实现三维空间的结构化推理,这使得单个物体的隐式三维重建更加精细,具有扩展到大型室内场景的能力,并且能很好地从合成数据到真实数据进行泛化。
4
图像和视频合成
1、Transforming and Projecting Images into Class-conditional Generative Networks
论文链接:https://arxiv.org/abs/2005.01703
GaNs能够从不同的类中生成不同的图像。例如,BigGaN(一种条件GaN),给定一个噪声向量和一个类嵌入,该模型能够从该类中生成一个新的图像。然后,可以通过编辑噪声向量和类嵌入的隐变量来操作该图像。但是,反过来是否可行呢,即给定一个输入图像,我们能不能找到与该图像最匹配的隐变量z和类嵌入?由于许多输入图像无法由GaN生成,因此这个问题仍然具有挑战性。此外,目标函数有很多局部最小值,搜索算法很容易卡在这些区域。
为了解决这些问题,本文提出了pix2latent,并提出了两个新的思路:在尺度上估计输入变换,以及使用非局部搜索算法来寻找更好的解决方案。
如上图所示,给定一个输入图像,pix2latent首先找到最佳变换,使变换后的输入GaN产生的图像非常接近,然后利用提出的BasicCMA优化方法将图像投射到隐空间。然后对得到的隐变量进行编辑,投射回图像空间得到编辑后的图像,然后可以对图像进行初始变换的逆向变换。
2、Contrastive Learning for Unpaired Image-to-Image Translation (paper)
论文链接:https://arxiv.org/abs/2007.15651
给定两组不同属性和模式的图像对的训练集,例如,马和斑马的图像,图像翻译的目标是学习两个模式之间的翻译函数,例如,将马转化为斑马,反之亦然,同时保留姿势或大小等信息,不需要获得两个模式之间的一对一的匹配数据集。现有的方法如CycleGaN迫使模型的生成图像与原始图像一致。但是这种方往往限制性太强,因为一个给定的翻译图像会有很多可能的输入图像。理想的损失应该对不同的风格不变,但要区分敏感信息。
对比形式的非配对翻译(CUT)旨在学习这样的嵌入空间。除了标准的GaN损失,还加入了一个额外的损失,用来拉近输入图像和生成图像上某个patch的特征嵌入之间的距离。
3、Rewriting a Deep Generative Model
论文链接:https://arxiv.org/abs/2007.15646
GAN能够对数据分布建模一组丰富的语义和物理规则,但是到目前为止,我们仍然不清楚如何在网络中编码此类规则或如何更改规则。本文引入了一个新的问题:对深层生成式模型编码的特定规则进行操作。因此,给定一个生成模型,目标是调整其权重,以便新模型和修改后的模型遵循新规则,并生成遵循新规则集的图像,如下所示:
通过将每一层视为关联存储,将隐层规则存储为隐式特征上的一组键值关系。可以通过定义约束优化来编辑模型,该约束优化可以在关联内存中添加或编辑一个特定规则,同时尽可能保留模型中的现有语义关系。论文直接通过测量和操作模型的内部结构来做到这一点,而不需要任何新的训练数据。
4、Learning Stereo from Single Images
论文链接:https://arxiv.org/abs/2008.01484
给定一对相应的图像,立体匹配的目标是估计从第一视图到第二视图的每个像素的相应位置之间的像素水平位移(即差距),反之亦然。虽然全监督的方法给出了很好的结果,但其很难获得一对立体图像之间的精确的差距。一个可能的替代方法是在合成数据上进行训练,然后在有限数量的真实标注数据上进行微调。但是如果没有带有足够标签的微调步骤,这种模型就无法很好地生成真实图像。
论文提出了一种新颖的全自动pipeline,用于从给定深度彩色模型的单个图像的非结构化集合中生成立体训练数据,而无需合成数据或立体图像对进行训练。使用深度估计网络。首先,给定的左输入图像通过前向计算得到特征向量,再结合深度视差转换为合成的右图像。然后,利用立体图像对,再以监督的方式对立体网络进行训练,从而得到一个通用性良好的模型。
5、What makes fake images detectable? Understanding properties that generalize
论文链接:https://arxiv.org/abs/2008.10588
虽然GaN生成图像的质量已经达到了令人惊叹的水平,但经过训练用来鉴伪的深度网络仍然可以发现这些生成图像中的细微伪影,而且这种经过训练的网络还可以在不同数据集和不同方法训练的多个模型中发现相同的伪影。本文旨在可视化并了解哪些伪影在模型之间是共享的,并且很容易被检测到,且可以在不同场景中转移。
由于全局的面部结构在不同的生成器和数据集之间可能会有所不同,因此生成图像的局部patch会非常固定,可能会共享多余的伪影。为此,采用基于patch的全卷积分类器来关注局部patch而非全局结构。然后,可以使用路径级分类器对各种测试数据集上最能代表真实或伪造图像的patch进行可视化和分类。
5
视觉和语言
1、Connecting Vision and Language with Localized Narratives
论文链接:https://arxiv.org/abs/1912.03098
连接视觉和语言的一种方式是使用图像字幕,每张图像都会配上一段人为撰写的字幕,但是这种链接方式需要在完整的图像范围内,句子往往会描述整个图像。为了改进该链接方式,可以对图像字幕的特定部分和图像中的对象框之间建立额外的链接。但是这样处理后的链接仍然非常稀疏,大多数图像中的对象没有与字幕链接,注释过程也很昂贵。
本文提出了一种新的高效的多模态图像注释形式,用于连接视觉和语言,称为“定位叙事”。定位叙事是通过要求注释者用声音描述图像,同时将鼠标悬停在他们所描述的区域上生成的。
如上图所示,注释者一边说 "女人",一边用鼠标悬停在她的空间范围,从而为这个名词提供视觉基础。之后,将鼠标从女人移动到气球上,说 "握住"。这样就为这个动作提供了直接的视觉基础。他还描述了 "晴朗的蓝天 "和 "浅蓝色牛仔裤 "等属性。由于语音与鼠标指针同步,可以确定描述中每一个词的图像位置。这就为每个词提供了密集的视觉基础。
具有多种模态(即图像,文本和语音)的注释可用于完成不同的任务,例如文本到图像生成,视觉问答和语音驱动的环境导航。或者用于更细化的任务控制,比如对图像的特定部分进行字幕调理,视力不佳的人可以将其悬停在图像上,以获取特定部分的描述。
2、UNITER: UNiversal Image-TExt Representation Learning
论文链接:https://arxiv.org/abs/1909.11740
大多数视觉与语言(V&L)任务,如视觉问答(VQA)都依赖于联合多模态嵌入,以弥合图像和文本中视觉和文本线索之间的语义差距。但这种表征通常是为特定任务量身定做的,需要特定的架构。学习通用的联合嵌入,可以用于所有的V&L下游任务。
这篇论文介绍了UNITER,一个大规模的多模态联合嵌入的预训练模型,如下图所示。基于Transformer模型,UNITER在4个任务上进行了预训练:对图像进行遮挡建模(MLM),其中使用图像和文本功能恢复随机遮挡的单词。以文本为条件的遮挡区域建模(MRM),该模型重建给定图像的一些区域。
图像文本匹配(ITM),模型预测图像和文本实例是否配对。以及单词区域对齐(WRA),模型会找到单词和图像之间的最优对齐路径。如果要在下游任务上使用UNITER,首先要将它们重构为一个分类问题,然后在[CLS]特征之后添加分类器,使用交叉熵损失进行训练。
3、Learning to Learn Words from Visual Scenes
论文链接:https://arxiv.org/abs/1911.11237
视觉和语言的标准方法往往是学习一个通用的嵌入空间,但是这种方法效率低下,需要数百万个示例来训练,对语言的自然组成结构的通用性较差,并且在模型推理时,学习到的嵌入无法适应新词。因此,本文建议不学习词嵌入,而是学习获取词嵌入的过程。
该模型基于Transformer模型,并且在每次迭代时,模型都会接收一个图像和语言对的情节,然后通过元学习策略从情节中获取词表示。该表示能够在推理时获取新词,并且能够更可靠地泛化到新的情况。具体而言,每个任务都被表述为语言学习任务或情节,由训练示例和测试示例组成,其中测试示例评估从训练示例中获取的语言。
例如,在上图中,该模型需要从训练样本中获取单词“ chair”,这是它从未见过的词。元训练是在正向传递中完成的,在训练示例中,模型需要指向正确的单词“ chair”,并且使用匹配损失来训练模型。在对许多情节和任务进行训练之后,该模型能够在推理过程中非常快速地适应新任务。
原文链接:
https://yassouali.github.io/ml-blog/eccv2020/
感谢你的分享,点赞,在看三连↓