AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译

AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译

论文下载地址:点击此链接跳转.
这是博主自己在github整理的目标检测方向论文的合集,应该算比较全,目前已更新至2020ECCV,持续更新中,欢迎下载…

部分参考于: 大白话 《AutoAssign》by Face++。
推荐各位阅读,大神写的很棒,最近很火的Generalized Focal Loss的作者。

难免有翻译的不到位的地方,请各位见谅,部分地方有结合上面这篇文章。

一、Abstract

        在本文中,作者提出了一种新的标签分配策略,称为AutoAssign。通过生成正负权重图来动态的修改每个位置的预测,从而自动确定正、负位置。具体来说,作者提出了一个中心加权模块来调整特定类别的先验分布,并用一个置信度加权模块来适应每个实例特定的分配策略。整个标签分配过程不需要其他修改即可转换到不同的数据集和任务上。在MS COCO上进行的大量实验表明,作者的方法在各种backbone下能够稳定超越了其他采样策略大约一个点,达到52.1ap,优于所有的一阶检测器。

二、Introduction

       目前基于CNN的SOTA目标检测器通常都是进行密集预测,在特征图上的每一个位置上以一种规则且密集的采样方式来预测具有不同尺度、宽高比和类的目标。
       这种密集检测产生了一个标签分配的问题。此外,由于基于CNN的检测器通常是采用的多尺度特征(FPN)来缓解尺度差异,因此标签分配不仅需要在空间特征图中选择位置,而且还需要选择合适的特征图尺度。
       现有的检测器对正、负位置采样主要是根据人工先验: (1)基于anchor的检测器,如RetinaNet是在每个位置预置几个不同尺度和高宽比的anchor,根据IoU值在不同空间和尺度特征图进行正、负样本采样。(2) FCOS等anchor-free检测器是对每个目标选取固定比例的中心区域作为空间正位置,并根据预定义的尺度约束选取FPN的某一层级。这些检测器遵循目标的先验分布来设计它们的分配策略。
AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译_第1张图片
       但是,在现实世界中,目标的外观在不同类别和场景之间存在很大差异。固定中心采样策略可能会包含目标外部的位置作为正值。因为在目标内部采样比在背景采样会更容易生成高分类置信度。另一方面,尽管CNN可以学习偏移,但是当将背景标为正样本时,由特征移动带来的干扰可能会降低性能。
AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译_第2张图片
       因此,固定中心采样策略可能并不总是能在空间和尺度维度中选取到最合适的位置。除了纯人工设计的策略外,近期的一些papers也介绍了一些与数据有关的动态标签分配策略。Guided Anchoring和MetaAnchor在采样前动态更改anchor形状的先验,而其他方法针对空间或尺度维度中的每个目标自适应地修改采样策略。这些策略只是将部分标签的分配变为了数据驱动,而其他部分仍受人为设计的约束,从而阻止了标签分配的进一步优化。
       作者提出了一种新的标签分配策略。首先是遵循FCOS等anchor free方法,不使用人工设计的anchor,直接预测每个位置上的目标。为了能保留足够多的位置用于进一步的优化,先处理所有尺度层级中的边界框(正样本+负样本)中的所有位置。然后生成正负权重图来修改训练损失中的预测。为了适应不同类别和域的分布,作者提出了一个类加权模块,称为中心加权,用来从数据中学习每个类别的分布。为了适应每个实例的外观和比例,作者又提出了一个置信度加权模块,在空间和尺度维度上修改各个位置的正、负置信度。然后将两个模块结合起来,以生成所有位置的正、负权重图。加权的整个过程是可微的,可以通过反向传播进行优化。
       本文的贡献:
       1.提出了一种新的标签分配策略,称为AutoAssign,用于密集目标检测,该策略自动为每个实例分配正、负标签。此外无需任何修改即可迁移到不同的数据集和任务。
       2.提出了两个加权模块,即中心加权和置信度加权模块,在空间和尺度维度上自适应地调整特定类别的分布以及特定实例的采样策略。
       3、在coco、pascal voc、object65,widerface上取得了极具竞争力的结果,证明了AutoAssign的有效性和广泛的适用性。

三、AutoAssign

3.1 Overview

        AutoAssign以完全的数据驱动来处理标签分配。它是从头开始构建的,没有传统的一些组件,比如anchor,IoU阈值,top-k或尺度范围,直接使用网络预测来动态调整每个位置的正、负样本的置信度。
        为了优化整个标签分配过程,作者提出了一种新的标签分配策略来动态调整空间和尺度维度上特定类别和特定实例的采样。下图是作者提出的标签分配策略的框架。首先遵循anchor free的方式,不使用预定义的anchor,直接预测每个特征位置上的目标。对于每个实例,我们将其所有尺度的边界框内的所有位置都保留。然后我们生成正负权重图w+和w-来精确修改训练中正负样本的预测。因此,我们将整个分配步骤转换为两个权重图。
AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译_第3张图片
        为适应不同类别的分布,作者提出了一个与数据相关的类别权重模块,名为center weights。它从标准的中心先验开始,从数据中学习每个类别的分布。
        为了适应每个实例的外观和比例,作者又加入了一个实例权重模块,称为confidence weights。它根据每个目标预测的置信度来动态权衡其在空间和尺度维度中的位置。
        最后将两个加权模块结合起来,生成所有位置正负权重。给定一个目标n,在应用加权机制后,将训练损失Ln(θ)公式化为:
公式1
        其中Sn表示所有尺度层级中的bbox中的所有位置,对每一个位置i∈Sn,它属于正负样本的概率记为Pi+和Pi-,由网络预测得到。Wi+和wi-则是由中心权重模块和置信度权重模块得到的权重图。

3.2 Center Weighting

        先验分布是标签分配的一个基本要素,尤其是在训练的早期。通常,目标的分布会倾向于中心先验,但是不同类别的目标可能有不同的分布。保持中心采样无法更好地去捕捉到现实世界中不同实例的不同分布。对于不同类别的目标,更需要的是一种自适应的中心分布。
        因此,在中心先验的基础上,作者提出了一种具有可学习参数的高斯形状的类别加权函数G。每一类别都有自己独有的参数(μ,σ),相同类别的所有目标共享这一组参数。定义G为
公式2
        d表示目标内部的中心位置与其预测框中心在x轴、y轴上的偏移,μ和θ是可学习的参数,大小分别为(K,2),K为数据集中的类别数,每个类别都有沿空间维度x轴和y轴的两个参数。由于G会产生训练损失,因此可以通过反向传播来优化参数。用来控制每个类别的目标预测框中心的中心偏移。根据类别特征来评估每个位置的重要性,因此可以确定有多少个location会以合理的权重促进正损失。G是应用于FPN的所有阶段。由于相同类别的目标大小或长宽比不定,因此其合适的检测位置可能位于任一FPN阶段。此外,为了补偿FPN各层不同的下采样率所带来的干扰,作者通过各层的下采样率对距离进行归一化。

3.3 Confidence Weighting

        现有的动态标签分配策略是根据网络可以学习高置信度的样本设计的,同时对较差的样本会给出低置信度预测。置信度指标在尺度选择和空间分配方面被证明是有效的。在置信度加权中,作者提出了一个联合分类和定位的置信度指标来引导空间和尺度维度上的加权策略

3.3.1 Classification confidence

        给定空间位置i,其分类置信度定义为Pi(cls|θ),目标类别的概率由网络直接预测,θ表示模型参数。为了确保考虑到所有合适的位置,作者首先考虑了bbox内所有空间位置。由于一个目标很难完全占满预测框,所以初始的正集中往往会包含一部分背景。如果一个位置实际上是背景,那么该位置所有的类预测都是不合理的,将这些背景位作为正样本会损害检测性能。
        为了抑制来自inferior locations的false positives,作者引入了一个Implicit-Obiectness分支。它的工作原理类似于RPN 和YOLO中的Objectness,主要进行前景、背景的二分类任务,但是其还是存在缺少显式标签的问题。RPN和YOLO采用的是预定义分配一致的positive标签的,而我们需要动态地去找到并强调适当的positive。因此,Implicit-Obiectness分支与分类分支一起去优化Objectness,它不需要显式的标签,其实就是用一个隐式的前景背景二分类对分类预测做一个乘性叠加。这个分支是没有额外监督的,就是单纯地去scale一下分类的预测。对于一个位置(i∈Sn)在ImpObj后被采用,分类置信度Pi(cls|θ)被定义为:
公式3
        提出的ImpObj被记为Pi(obj|θ),表示位置i作为前景(目标)或背景的概率。Pi(cls|obj, θ)是分类分支的输出,表示一个已知为前景或背景的位置i,其属于某一特定类别的概率。以前手动选择前景的标签分配策略,positive的Pi(obj) =1,negative的为0,且Pi(cls|θ) =Pi(cls|obj, θ) ,而在作者的方法中,Pi(obj|θ) 根据网络动态确定。

3.3.2 Joint confidence modeling

        为了生成每个位置的正/负无偏估计,除了分类外,还应该考虑到定位置信度。定位分支的输出是框偏移量,很难直接用于度量回归置信度。因此我们转换定位损失Licls(θ)为回归似然Pi(loc|θ),然后将分类和回归似然结合起来得到联合置信度Pi(θ),联合置信度可由损失转换得到。为了不失泛化性,这里我们使用二元交叉篇(BCE)损失用于分类。λ用来平衡两个损失。
AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译_第4张图片
        这样一方面可以更好地简化表示,统一优化,另一方面在生成正样本置信度(即w+)的时候可以综合考虑分类和定位的情况。

3.4 Weighting function

        基于联合的置信度表示Pi(θ),作者提出了置信度权重函数C(Pi),以指数形式强调包含高度置信度目标的位置,与(8)式成正相关,这样分类得分高、框预测的又准确的location拥有较大的w+值的概率就会高一些:

3.4.1 Positive weights

        也就是对于一个目标i,我们应该只关注其边界框内正确的位置,并做出更精准的预测。然而在训练过程的开始,网络参数被随机初始化,会使其预测的置信度值并不合理。因此,来自先验的指导信息也很重要。对于位置i∈Sn,我们结合了置信度权重模块C(Pi)以及中心加权模块中特定类别的先验G(i)一起来生成positive weights wi+。但是C§会有一个冷启动的问题,如果一开始有一个坏的位置的分类和框回归的都不错,那么它的w+就会很高,也就是它的权重会较大,监督训练对它的关照会不断增大,这样就会导致一些好的location完全没有机会翻盘,让网络学成了一个过拟合的模样。所以作者引入了G(d),由于大部分情况下质量较高的正样本都会存在于框的中心,作者为每个大类学习了一个公共的gaussian prior,它的形状基本上都是从物体的大致中心区域往外渐渐变弱。有了这一项可学习先验的引入,那些更有潜力的好的locations就可能能够翻盘。不过,这个可学习的先验仅与类别有关,可能会造成对旋转的不match。
公式10
        为了保证竞争和合理的数值范围,有一个类似softmax的操作,因为本来一个gt框里面就只有一部分真正地落在物体上的,那么这些位置就很可能对应了那些较大的w+值。

3.4.2 Negative weights

        一个边界框通常包含一定数量的背景位置,我们需要加权的negative loss来抑制这些位置,消除false positive。此外,由于bbox内的位置一般会预测较高的positive置信度,作者倾向于使用定位置信度来生成false positives的无偏指标。但是负分类没有参与回归,这意味着不应该对定位置信度做进一步优化。因此,我们使用每个位置的预测proposal和所有GT之间的IoUs来生成我们的负权值wi-
公式11
        ioui表示位置i的propos与所有GT的最大IOU。为了能作为有效权重使用,作者通过函数f归一化1/(1-ioui)至0-1之间。这种转换锐化了权值分布,并确保IoU最高的位置负损失为0,边界框以外的所有位置wi-设置为1,因为是背景。

Loss function

        通过生成正、负权值图,作者实现了为每个实例动态分配更合适的空间位置并自动选择合适的FPN层级。由于权值映射会带来训练损失,AutoAssign以可区分的方式处理标签分配,损失函数为:
公式12
        P=1-P(cls|θ), n表示第n个GT。为了确保至少有一个位置与目标n匹配,我们使用所有正权值的加权和来获得最终的positive置信度。S表示所有尺度上的所有位置。因此对于bbox内的某个位置,正损失和负损失将以不同的权重进行计算。为了处理negative位置的不平衡问题,采用了Focal loss。

四、Experiments

AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译_第5张图片
AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译_第6张图片
AutoAssign: Differentiable Label Assignment for Dense Object Detection论文翻译_第7张图片

五、Conclusion

        本文主要是提出了AutoAssign,一种新的标签分配策略,通过自动确定空间和尺度维度上的正/负点来以完全数据驱动的方式进行标签分配。

你可能感兴趣的:(目标检测)