ECCV 2020 亮点摘要（上）

作者 / Yassine

原文链接 / https://yassouali.github.io/m...

与我的CVPR2020帖子类似，为了了解今年会议的总体趋势，我将在这篇博客文章中总结一些引起我注意的论文（列出一些），并对整个会议进行概括。

首先，以下是一些相关链接：

会议所有收录论文：https://www.ecva.net/papers.php

部分成果展示：https://crossminds.ai/categor...

Youtube播放列表：https://www.youtube.com/playl...

每篇论文的一句话介绍：https://www.paperdigest.org/2...

ECCV网站：https://papers.eccv2020.eu/pa...

免责声明：这篇文章并不是对ECCV2020中的论文和主题的描述和代表；它只是我对自己感兴趣的内容进行的概述。

整体统计概况

本部分的统计数据摘自官方Opening＆Awards。让我们从一些一般的统计数据开始：

与2018年会议相比，论文提交的数量比起前几年有着持续增长的趋势，所提交的论文数增加了200％以上，与CVPR 2020的论文数量相近。如预期的那样，审稿人数和涉及的领域相应地增加了。

不出所料，大多数被收纳的论文都集中在与深度学习，识别，检测和理解有关的主题上。与CVPR 2020类似，研究人员对诸如无监督学习的标签有效方法和低视野等领域的兴趣日益浓厚。

就研究机构的组成而言；与今年的ICML相似，Google排名第一，有180位作者，其次是香港中文大学的140位作者，北京大学的110位作者。

在下一部分中，我们将按主题介绍一些论文摘要。

识别，检测，分割和姿态估计

End-to-End Object Detection with Transformers

（https://arxiv.org/abs/2005.12872）

目标检测的任务包括对给定图像中的可见对象进行定位和分类。现如今大部分的目标检测框架包括一系列预先定义的方框，即也就是称作 anchors 或是 region proposals 的几何先验框），这些框首先将由网络进行分类，然后进行回归以调整边界框的尺寸，然后进行后处理步骤以删除重复的检测结果。但是，由于引入了后处理，整个网络并不能像其他计算机视觉任务一样进行端到端的训练。。在本文中，作者提出了一个新的目标检测框架，DETR（DEtectionTRANSformer），这是一个可以完全端到端训练的网络模型，且无需任何几何先验知识。下图是 DETR 与 Faster R-CNN 计算流程的对比（该图是从作者们的展示文稿中获取的），强调了 DETR 整体的自然性。

DETR基于编码器-解码器的transformer结构构造的。该模型由三部分的组件组成：卷积神经网络特征提取器，编码器，以及解码器。一张给定图像首先需要通过特征提取器获取图像特征。然后，将使用不同频率的sin函数生成的位置编码信息添加到特征中，以保留图像的二维结构信息。然后，生成的新特征将通过transformer编码器传递，以汇总要素之间的信息并分离不同的目标实例。为了进行解码，目标查询向量会与编码向量一同经过解码器并产生最终的输出特征向量。这些查询向量是一组固定的学习嵌入向量（embedding），刚开始随机初始化，在训练过程中进行优化，评测阶段则保持不变，而查询向量的数量也决定了该检测器能够检测的目标数量上界。最后，输出特征向量通过一个（共享）全连接的层，以预测每个查询对应的类别和边界框。为了计算损失并训练模型，作者使用了匈牙利算法将输出与标注进行一对一匹配。

MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution

（https://arxiv.org/abs/1909.12978）

传统神经网络只能在特定数量的计算资源充足的情况下才可使用，并且如果不满足计算资源的情况出现后，则该模型将无法使用。但是，这会大大限制模型在实际应用中的使用。例如，如果模型需要用于电话上进行前向推理，则计算资源将始终根据负载和电话的电池电量而变化。一种简单的解决方案是在设备上保留几种不同大小尺寸的模型，并每次使用具有相应资源的模型，但这需要大量的内存，并且无法适用于不同的计算资源。近期类似于 S-Net 与 US-Net 的网络在训练期间采样不同大小的子网络，使得网络在部署阶段可以调整为不同的网络宽度（也就是通道数量）。但是在非常低的计算资源的条件下，这类网络的性能会急剧下降。

这篇论文建议同时利用不同尺寸的网络规模和输入图像规模，以寻求在准确度和计算效率之间找到良好的平衡。如上所述，在一次训练迭代过程中，会采样四个子网络，其中一个是完整的网络，和三个具有不同宽度的子网络。完整的网络使用原始大小的图像数据与标签进行交叉熵损失训练，其余三个则随机输入不同尺度的图像（原始图像或是尺度下采样后的图像），并使用他们的输出与完整网络的输出之间的KL散度进行监督训练（也就是蒸馏损失）。这样，每个子网络都可以学会适应不同网络尺寸与输入大小的多尺度表达。在部署过程中，在给定特定资源限制的情况下，可以选择网络规模和输入规模的最佳组合进行推理。

Gradient Centralization: A New Optimization Technique for Deep Neural Networks

（https://arxiv.org/abs/2004.01461）

在神经网络的优化过程中使用类似于均值和方差之类的二阶统计数据来对网络激活值或网络权重进行形式的标准化已然成为了神经网络训练过程中极为重要的一环，例如 BatchNorm 和 weight norm。因此，梯度集中化（GC）可以通过将梯度向量集中为零均值来直接对梯度进行操作，而不是对权重或激活进行额外的归一化模块操作，从而可以平滑和加速神经网络的训练过程，甚至可以改善模型泛化性能。

给定计算出的梯度，GC操作符首先计算梯度向量的均值，如上所示，然后减去对应的均值，数学形式上，对于一个权重向量 Wi，其对应的梯度为∇Wi(i=1,2,…,N)，则GC操作可定义为：

Smooth-AP: Smoothing the Path Towards Large-Scale Image

（https://arxiv.org/abs/2007.12163）

在图像检索中，其目标是从大量图像中检索与查询图像相同类别的图像数据。此任务与分类任务不同，，图像检索任务中，测试图像的类别在训练过程中都已经见到过了，测试图像的类别可能会很少见，但是我们仍需在图像集合中找到与之相似的图像，这也就是一个开集问题。，图像检索任务中，测试图像的类别在训练过程中都已经见到过了，测试图像的类别可能会很少见，但是我们仍需在图像集合中找到与之相似的图像，这也就是一个开集问题。特征提取器的训练目标就是要达到良好的排序效果（即属于同一类别的图像相似度应尽可能高）。而网络的性能则是使用 Average Precision (AP) 来度量的，该指标计算每个正确检索结果的名次与其在整个图像集合中的名次之比并对其求和。计算一张给定图像的名次需要应用一个阈值化操作，该操作用到了海维赛德阶跃函数，使得其不可微分，所以我们无法直接使用最终排名来端到端地优化模型。

为了解决这个问题，论文作者提议用一个温度参数控制的igmoid函数代替Heaviside阶跃函数，从而使该排名可区分，并可作为损失函数来端到端地优化网络模型。与三元组损失函数相比，smooth-Ap损失函数优化了排名的损失，而三元组损失则是间接优化以获得良好排名的替代损失。

Hybrid Models for Open Set Recognition

（https://arxiv.org/abs/2003.12506）

现有的图像分类方法通常是基于闭集假设的，即训练集涵盖了可能出现在测试阶段的所有可能的类别。但是这种假设显然是不现实的，因为即使对于像ImageNet这样具有1K类物品的大规模数据集，也无法覆盖所有可能的在现实世界中存在的类别。而这就是开集分类的来源，并通过假定测试集包含已知和未知类来尝试解决此问题。

在本文中，作者使用基于流的模型来解决开集分类问题。基于流的方法能够通过最大似然的估计以无监督的方式拟合适合训练样本的概率分布。然后可以使用流模型来预测每个样本的概率密度。当输入样本的概率密度较大时，那么它可能是已知类别的训练分布的一部分，而离群点的概率密度则将较小。虽然先前的方法在流模型的顶部堆叠了分类器，但作者建议为流模型和分类器学习联合嵌入向量，因为仅从基于流的模型学习的嵌入向量很可能没有足够的判别特征来进行有效的分类。如上所示，在训练过程中，图像会由一个编码器网络映射为一个隐特征，接着这个编码特征会同时被送入分类器与流模型中，分类器端使用交叉熵损失进行监督，流模型端则负责概率密度估计。整个网络架构是可端到端训练的。为了进行测试，计算每个图像的logp（x）log⁡p（x），然后将其与训练集中获取的最低logp（x）log⁡p（x）进行比较。如果大于阈值，则将其发送到分类器以识别其特定的已知类，否则将其作为未知样本拒绝。

Conditional Convolutions for Instance Segmentation

（https://arxiv.org/abs/2003.05664）

实例分割仍然是计算机视觉领域中具有挑战性的任务之一，需要给定图像中每个可见目标打上一个逐像素的掩膜（mask）以及一个类别标签。占主导地位的方法是Msak R-CNN，它包括两个步骤，首先，目标检测器Faster R-CNN为每个实例生成了相应的边界框。然后，对于每个检测到的实例，使用ROI Align将感兴趣区域从输出特征图中裁剪出来并缩放为同一分辨率大小，接着，将其送入一个掩膜头网络（mask head），该网络是一个小型全卷积网络，用以预测分割掩膜。但是，作者指出了这种体系结构的以下局限性。（1）ROI Align可能会获取属于背景干扰或其他实例的不相关特征，（2）调整大小的缩放操作限制了实例分割的分辨率，（3）掩膜头网络需要堆叠多个 3x3 卷积来产生足够大的感受野以生成掩膜，这极大得增加了掩膜头的计算量。

在本文中，作者们提出了使用语义分割网络中的 FCN 来进行实例分割。为了进行有效的实例分割，FCN需要两种类型的信息：一是表观信息用于目标分类，二是位置信息用于区分同一类别的不同目标。在论文中所提出的网络结构称为CondInst（用于实例分割的条件卷积），是基于CondConv和HyperNetworks的网络构建而成的，其中对于每个实例，一个子网络将根据每个实例所在的中心区域生成掩膜FCN头的权重，即用于预测给定实例的掩膜。具体来说，如上所示，网络由在特征图的多个不同尺度下包含多个掩膜头组成。每个头网络都会在预定位置预测给定实例的类别，以及生成掩膜FCN头网络要使用的网络权重。然后，就由各个头网络使用对应的参数进行掩膜预估。

Multitask Learning Strengthens Adversarial Robustness

（https://arxiv.org/abs/2007.07236）

深度神经网络的主要局限之一是其容易受到对抗性攻击，在这种攻击中，图像中引入极为微小且不可见的扰动就会导致完全错误的输出，甚至输入的表观肉眼看来几乎完全一致。近年来，从输入数据（例如，使用无标签数据和对抗训练）到使用正则化的模型本身（例如，Parseval网络），研究人员在多个层面深入探讨神经网络的对抗鲁棒性，但是，模型的输出仍未用于提高模型的鲁棒性。在本文中，作者研究了具有多个输出的多任务学习在对抗鲁棒性上的影响，因为越来越多的机器学习应用程序要求能够同时解决多个任务的模型，所以这种设置很有用。

使用有界p范式球攻击方式，其中在给定输入样本的给定半径下，在p范式球内发现对抗性扰动。接着，将计算得到的总损失变化视作网络的脆弱度。作者在双任务训练下表现出更高的鲁棒性（例如，从以下两项中随机选择两项任务：分割，深度估计、法向量估计、reshading、输入重建、2D或3D关键点预测等等……）。在单任务攻击（即，使用一个输出来计算的扰动）和多任务攻击（即，使用所有输出来计算的对应扰动中的最大扰动）上可以观察到改进的鲁棒性。作者还从理论上表明，只有在任务相关的情况下才能获得这种多任务鲁棒性。

Dynamic Group Convolution for Accelerating Convolutional Neural Networks

（https://arxiv.org/abs/2007.04242）

分组卷积首次出现还要追溯到AlexNet，当时分组的目的是为了加速训练，然后适用于轻量级CNN网络的设计中，例如MobileNet和Shufflenet。它们包括将卷积层中的输入和输出沿着通道维等量切分成互斥的部分或组，同时在每个单独的组内执行正常的单独卷积操作。因此对于GG组，计算量减少了GG次。但是，作者认为，它们有着两个关键缺陷：（1）分组卷积首次出现还要追溯到AlexNet，当时分组的目的是为了加速训练。（2）现有分组卷积对输入通道做固定的分组操作，忽视了各个输入之间的相关性。

为了在保持原始网络完整结构的同时，为每个组自适应地选择最相关的输入通道，作者提出了动态组卷积（DGC）。DCG由两个头网络组成，每个头网络中都有一个显着性分数生成器，用于为每个通道生成重要性分数。通过使用这些分数，对重要性分数较低的频道进行修剪和移除。接着，对余下的特征层进行普通卷积并得到输出。最后，来自不同头网络的输出会在通道为级联起来并随机调换通道的位置。

Disentangled Non-local Neural Networks

（https://arxiv.org/abs/2006.06668）

Non-local 模块使用注意力机制，对长距离像素之间的依存关系进行建模，并已广泛用于众多计算机视觉识别任务，例如目标检测，语义分割和视频动作识别。

在本文中，作者试图更好地解释non-local block，找到其局限性，并提出改进版本。首先，作者们首先将像素i（称为key像素）与像素j（称为query像素）之间的相似度重新计算为两个项的和：其中一项是成对项，形式上这是一个白化后的点积结果，述了 query 像素与 key 像素之间的关系，另一项则是一个一元项，表征了给定的 key 像素对哪个 query 像素影响最大。然后，为了了解每个术语的影响和作用，他们分别只用其中一项进行训练，并发现成对项负责类别信息，一元项负责边界信息。但是，通过分析non-local block的梯度，作者们发现当上述两项结合起来应用于注意力操作时，他们的梯度相乘了。这也就导致，如果其中一项的梯度为0，那么另一个项不为0的梯度对网络的训练也起不到作用了。为了解决这个问题，作者们提出了一个 non-local 模块的分解版，使得这两项能够分开来优化。

Hard negative examples are hard, but useful

（https://arxiv.org/abs/2007.12749）

深度度量学习旨在优化了一种嵌入函数，使得经过该函数映射后语义相似的图像会处在高维空间中相对较近的位置，而且语义不相似的图像则使其映射后的距离较远。一种较为常用的学习该映射的方法是根据图像的三元组定义一个损失函数。其中，这个三元组包含一张锚图像，一张与锚图像同一类别的正样本图像和一张与锚图像不同类别的负样本图像。然后，当锚点映射到负图像的位置比正图像的位置更近时，对模型进行惩罚。接着，在优化的过程中，模型会在锚图像与负样本图像的距离小于锚图像与正样本图像的距离时给予惩罚。然而，在优化期间，大多数候选三元组都已经达到了标准，即锚图像与正样本的距离小于其与负样本的距离，这也就使得这些三元组对训练来说十分冗余。另一方面，使用最困难的负样本进行优化还会导致在训练初期陷入局部最优。在这情况下，根据余弦相似度（即归一化特征向量的点积结果）计算得到的锚-负样本的相似度比锚-正样本的相似度会大很多。

作者们展示了三元组损失的标准实现中使用困难样本挖掘的问题所在。具体来说，（1）如果在梯度计算过程中未考虑归一化，则会损失了很大一部分梯度；（2）如果两张不同类别的图像在嵌入空间中的距离非常接近，那么损失的梯度很可能将其拉得更近而非将其分得更开。为了解决这个问题，作者不再像原始三元组损失那样尽可能地将锚-正样本对拉得更近以便将其更加紧密地聚类，相反，作者们会避开更新锚-正样本对的损失梯度，也就使得某一类的实例构成的聚类不会过于紧致。这个方法仅仅集中于直接将困难负样本拉离锚图像。

Volumetric Transformer Networks

（https://arxiv.org/abs/2007.09433）

卷积神经网络CNN成功背后的关键之一是其学习语义目标各个部分的判别性特征表达的能力，这对于计算机视觉任务非常有用。但是，CNN仍然缺乏处理各种空间变化的能力（如尺寸，视点和类内变化）的能力。空间变压器网络（STN）等最新的方法试图通过先对空间分布不同的特征图变形，使其变为标准形式来抑制图像的空间变换，然后再对这些标准化后的特征做分类。但是这样的方法对所有特征通道做相同的变形操作，但是这没有考虑到各个特征通道可以表征不同的语义组件的，将其变换为标准形式也就需要不同的空间变换操作。

为了解决这个问题，本文引入了 Volumetric transformer network (VTN)，如图所示，这是一个可学习的模块会对每个通道的每个像素位置预测一个形变变换，用于将中间的 CNN 特征变换为一个空间位置无关的标准形式。VTN是一个编码器-解码器结构的网络，其中的网络模块用于在不同的特征图通道之间传递信息，以估计不同语义组件之间的依赖性。

Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation

（https://arxiv.org/abs/1911.06987）

数据增强（DA）已成为深度学习方法的重要的和必不可少的组成部分，最近的研究（例如AutoAugment，Fast AutoAugment和RandAugment）表明，搜索算法得到的数据增强策略优于标准的增强策略。这类算法预先定义好所有可能的数据变换集合，比如几何变换（如旋转）或是色彩增强变换（如负感化），旨在找到最优的数据增强参数，比如增强的幅度、数据增强的概率以及不同数据增强手段的组合数量，如下方左图所示。通过双重优化循环学习最佳策略，从而使使用给定策略训练的CNN的验证误差最小化。然而，这种优化方法有一定的局限性，尤其是在数据增强策略搜索空间过于庞大的情况下，需要复杂的搜索方法，并且策略优化的单次数据需要对CNN进行完整训练。为了解决这个问题，作者建议使用原始图像和增强图像的密度匹配优化策略以及基于梯度的优化来找到最佳策略。

通过将DA视为填充原始数据缺失点的一种方式，目标是使用对抗性学习最小化增强数据与原始数据之间的距离，并且为了学习最佳增强策略，该策略需要关于转换的参数是可区分的。对于应用给定增强的可能性，作者使用从伯努利分布中采样的随机二进制变量，并使用Gumbel trick进行了优化，增广的强度通过直接估计来近似，增广方法的组合则使用one-hot向量的组合来学习。

由于原文篇幅较长，为保证读者的阅读体验，半监督学习，无监督学习，迁移学习，表征学习以及小样本学习、三维计算机视觉以及机器人学、图像和视频合成、视觉和语言四部分内容将安排在下周发布。