[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking(PrDiMP)

Hello,大家好!好久没有写博客了,CVPR2020的好多论文都出来了,其中关于目标跟踪的也有很多篇,有时候也会感叹为什么我才搞懂上一个SOTA,新的SOTA就立马出来了呢,好了,不碎碎念了,从这周开始呢,我会对CVPR2020中关于目标跟踪的论文做一个分享,可能有不对的地方,还请大家指出哦。

更新时间:20200410

摘要:

视觉跟踪从根本上讲是回归每帧视频中目标状态的问题。虽然已经取得了重大的进展,但是跟踪器仍然会出现失败和不准确的情况。因此,在目标估计时表达不确定因素是十分重要的。尽管目前的主流算法依赖于估计一个基于状态的置信度分数,但是该值缺少清晰的概率解释,从而使其应用复杂化。

因此在本文的工作中,我们提出了一个基于概率的回归方法,并将其用于跟踪。在给定输入图片的情况下,我们的网络预测了目标状态的条件概率密度。严格的来讲,我们的方法能对来源于不准确标注和任务中模糊情况的标签噪声进行建模。回归网络通过最小化KL散度训练。当应用于跟踪时,我们的方法不仅允许对输出进行概率表达,而且大大地提升了跟踪效果。我们的跟踪器在6个数据集上为SOTA,在LaSOT上的AUC达到59.8%,在TrackingNet上的Success为75.8%。代码和模型链接:https://github.com/visionml/pytracking。

1、引言

视觉目标跟踪就是在每一帧视频中估计目标状态的任务。最常见的情况是用边界框来表示目标的状态。不同的问题来源于给定的场景先验信息,例如目标类别或静态相机。最一般的形式是没有先验信息,仅在推理的过程中给定目标的初始状态。这带来不小的挑战,因为算法必须在跟踪时自己学习目标的模型。

和其他视觉任务(如目标检测、姿态估计和关键点检测)一样,视觉跟踪从根本上来说是一个回归问题。因此任务的目标变为学习一个模型,特别是一个能够预测每帧中目标状态的深度神经网络。尽管当前和过去的技术采用了大量的方法去解决这个问题,大多数成功的方法在关键角度方面是相同的。也就是说,回归帧中的目标状态是通过对任意给定状态学习预测置信度值来实现的。接下来,目标状态通过最大化置信度分数来估计得到。

上述基于置信度的回归方法常用于之前主流的判别相关滤波器(DCF)算法和最近的Siamese跟踪器中。为了定位目标,两类方法都采用了卷积操作来预测目标在空间位置处的置信度分数。最近的工作(DiMP和ATOM)展示了训练网络分支来预测整个目标框的置信度分数的效果,从而实现边界框的准确回归。由于基于置信度回归方法的巨大成功,我们首先讲一下视觉跟踪中最近的进展。

基于置信度的回归方法较明显的优势是它能够灵活表达不确定物体,并将其编码为预测的置信度值。与之相反,直接的回归方法强迫网络致力于单个预测,而不会提供其他信息。然而,置信度值并没有清晰的解释,因为它只是简单的作为一个要被最大化的值。值的范围和预测的置信度值的特性很大程度上依赖于loss的选择和生成用于训练的相关联伪标签的方法。这为设计估计方法和推理预测中不确定性的方法带来不小的挑战。这些方法在跟踪中是高度相关的,比如去确定当目标丢失时是否更新,或输出的不确定性有多大(见图1)。我们将通过概率的角度来解决这些问题。

[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking(PrDiMP)_第1张图片

图1 本文方法与SOTA跟踪器DiMP和SiamRPN++的比较。在跟踪时,估计目标状态的不确定性在下面几种情况中是十分重要的:相似物体的出现(第一行)、遮挡(第二行)、失败(第三行)、模糊或有其他障碍物(第四行)。与SOTA不同,我们的方法预测了目标状态基于输入图片的概率分布,给出了输出的清晰解释。所提出的概率表达式进一步提升了跟踪器整体的效果,包括上面展示的情形。 

 贡献:我们提出了在给定输入图片的情况下学习去预测目标状态的条件概率密度。和置信度值不同,密度有清晰且直接的解释,从而使得计算绝对概率成为可能。我们假定没有特定的分布族,例如高斯分布,而是让直接由网络结构自己参数化。特别的,密度通过SoftMax操作的连续一般化来代表,该方法以前用于基于能量的模型,最近用于DCTD。和这些之前的工作相比,我们也对标注的不确定性进行了建模。这对跟踪时应对标注中的噪声和回归任务中的模糊性是十分重要的。网络是通过最小化预测的密度和标签分布之间的KL散度来训练的。

我们将本文的方法引入DiMP算法中,从而展示其效果。我们的跟踪器允许对预测目标状态进行完全概率表达。在7个数据集上的大量实验表明我们的概率表达和训练大大的提升了跟踪器的性能。我们的概率DiMP(PrDiMP)远远超过之前的SOTA,尤其是在大型数据集上,包括LaSOT(+2.9%AUC)和TrackingNet(+1.8%Success)。

2、通过置信度预测的回归

在机器学习中,回归从根本上讲是在给定样本对的情况下,学习从输入空间到连续输出空间的映射。本文中,表示图片空间。关于回归最直接的做法是通过最小化loss函数来学习函数,其中可能以权重为的深度神经网络参数化。上式中,度量了预测值和相对应的ground-truth值之间的差异。尽管损失的选择很大程度上取决于问题,流行的替代方法包括家族,

2.1、一般表达式

尽管直接的回归已经成功的应用于很多计算机视觉问题,包括光流和深度估计,但是它不适用于其他视觉任务,比如视觉跟踪、目标检测和人体姿态估计。在这些问题中,网络常常被训练来预测置信度分数,然后将其最大化来获得最终估计。在这些情况下,置信度预测优于标准的直接回归,因为它具有两个优势。第一,置信度预测可以捕捉不确定性、多重假设和输出空间中模糊性的存在。网络不需要致力于单独的估计。第二,网络可以更简单的利用的对称性,比如图像二维坐标回归任务的平移不变性,这尤其适用于CNNs。

我们正式将基于置信度的回归定义为学习函数,该函数预测了在给定输出-输入对的情况下的标量置信度分数。最终的估计通过最大化关于的置信度来获得,

因此回归问题就变为从数据中学习函数。这通常是通过定义一个函数来实现的,从而产生伪标签来作为预测的ground-truth置信度值。置信度预测网络就可以通过最小化loss来训练,其中,

函数度量了预测置信度值和相关联的标签值之间的差异。实际上,根据手头上的任务,有各种各样的损失和伪标签函数被使用。在下一节中,将研究一些更为流行的例子,其中我们讨论的重点将特别放在视觉跟踪问题上。

2.2、在视觉跟踪中

视觉跟踪的任务是在给定初始位置的情况下,回归每一帧视频中目标的状态。状态常常用轴对齐的边界框来表示。与其它视觉任务相比,这个问题是特别具有挑战性的,因为目标的外观只有在测试阶段才会提供。因此跟踪器为了定位目标在每帧中的位置,必须基于第一帧来学习一个模型。

由于问题的上述特性,到目前为止的大多数方法聚焦于回归目标物体的中心二维图像坐标,然后选择性的用该模型估计多尺度搜索的单参数尺度因子。这类方法包括著名的判别相关滤波器(DCF)方法、大多数的Siamese网络和其他早些的方法。公式(1)和(2)被应用在结构化SVMs的理论中,结构化SVMs被用于著名的Struck跟踪器中。在基于DCF的方法中,卷积层是在线训练的,即在跟踪过程中,预测目标的置信度分数,

其中,是卷积核,是从图片中提取的特征,通常通过固定权重的CNN来实现。卷积(3)的结果是在空间位置处进行评估的,从而获得置信度值。DCF方法在置信度预测时采用平方损失函数,这使得在傅里叶域中(2)式关于可以高效的优化。几乎所有的DCF方法都采用以帧中目标位置为中心的高斯置信度伪标签

与DCF相比,Siamese跟踪器尝试在离线训练阶段学习网络的参数。这通过学习嵌入空间来实现,在该空间中目标模板和帧之间的相似性可以通过相关性来计算,

Siamese方法常在(2)式中使用二元交叉熵损失函数来训练网络参数

也就是说,目标位置被看作是一个稠密的二元分类问题,其中伪标签代表目标/背景类,或者更一般的说,是一个伯努利分布(一种两点分布/0-1分布)。常在目标附近设置,其他位置设置

为了获得整个目标边界框的准确预测,最近的一些跟踪器通过将跟踪问题拆分为两部分而获得了很好的效果。第一部分,使用让人联想到上述方法的技术来粗略定位目标,该方法对于相似背景物体、杂乱和遮挡具有较好的鲁棒性。在第二部分,一个单独的网络分支被用于回归目标边界框。为了实现这个目的,ATOM跟踪器使用基于IoU-Net的网络头,它对输入边界框评分。网络头在离线学习阶段进行训练,从而利用(2)中的平方误差来预测交并比(IoU)。该情况下,积分(2)通过在训练过程中采样边界框来近似。在跟踪的过程中,最优框(1)通过预测置信度的基于梯度的最大化来获得。

最近,Bhat通过设计基于元学习的网络结构提出了DiMP跟踪器,该结构从一些样本对中预测(3)的判别目标模型权重。预测的权重被用于第一阶段的鲁棒目标定位,然后在跟踪的过程中通过学到的循环优化过程来更新。目标模型预测器通过鲁棒版本的平方误差和高斯置信度标签来进行端到端的学习。在第二阶段,它采用了ATOM中提出的边界框回归技术。

3、方法

我们提出了概率回归模型,融合了所有基于置信度回归方法的优点。然而,与上述基于置信度模型不同的是,我们的方法将产生的预测的概率分布作为输出。网络通过最小化预测的密度和条件ground-truth分布之间的KL散度来训练,对标签噪声和任务中的模糊性进行建模。在推理过程中,通过最大化预测密度来获得回归值的点估计。

与基于置信度的回归方法相比,我们的方法有几个比较重要的优势。在基于置信度的回归方法中,预测值很难解释,并且它的值很大的依赖于伪标签函数和loss函数。相反,我们方法的概率特性使推理输出中的不确定性成为可能。此外,在我们的方法中,伪标签函数用标签条件分布来代替,该分布对标注中的噪声和不确定性进行建模。最后,和基于置信度的回归方法相比,我们的方法不需要选择loss函数。相反,我们直接最小化预测的分布和ground-truth之间的KL散度。接下来,我们提供所提出回归模型的一般表达式,并在第4节中用于跟踪。

3.1、代表

在本节中,我们制定了一个高效训练网络的方法,该网络用于在给定输入的情况下预测输出的概率分布。密度用之前基于概率能量的深度学习和最近的深度条件目标密度中的方法来代表,

至于第2节中描述的基于置信度的方法,是一个将输出-输入对映射为标量值的深度神经网络。(6)通过求幂和与标准化常量的除法将上述值变为概率密度。事实上,(6)是SoftMax操作对任意输出空间的直接一般化。

既然网络的输出代表上的概率密度,我们可以通过拟合数据的概率分布的方法来学习网络参数。给定训练样本对,最简单的方法是最小化负对数似然,

最近,这个方法在一些计算机视觉任务上较为成功,包括视觉跟踪中的边界框回归。负对数似然损失(7)的一大优势是它只用了训练样本本身,而没有其他的假设。然而,这带来了比较重要的限制,在下面讨论。

3.2、标签不确定性和学习目标

与负对数似然损失(7)相比,第2节中描述的基于置信度的方法具有一定的灵活性,灵活性则来源于伪标签函数。实际上,的设计对跟踪效果是十分关键的。我们认为这是由于任务的固有的模糊性和标签的不确定性。大多数的方法都聚焦于回归图像中目标的中心点坐标。然而,对于大多数目标,这是一个模糊的任务。尽管中心点坐标被定义为目标边界框的质心,这对于人类来说不是一个视觉上直观的定义,也同样不是一个跟踪算法。

[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking(PrDiMP)_第2张图片

 图2 跟踪器常被训练来预测ground-truth边界框(红色)的中心点坐标。对于左边这帧图像,这是一个非常自然的选择,并且与跟踪器预测结果(绿色)基本对齐。两帧后(右边),尾巴的移动导致ground-truth中心坐标发生变化,并且位于背景像素处。由于目标外观的微小变化,这不一定是目标中心点坐标的自然表达。目标中心回归就变为一个模糊任务,它对如何定义正确的值是不清楚的。我们的算式通过“真”值的分布对回归任务中的模糊和不确定性进行了建模。

考虑到图2中的例子。当视频中的狗抬起尾巴,质心发生改变,并且变成背景像素。另一方面,目标的外观和位置基本没有发生改变。因此,跟踪器会预测出和之前相似的目标中心坐标。这说明目标中心点的定义是模糊的,并且跟踪器对于质心也是困惑不解的。伪标签可以通过有更宽的高置信度峰值来概括这个不确定性,这已经被证实(UPDT)是对训练跟踪模型有益的。不确定性的另一来源是标签噪声。准确的边界框标注是一个困难的任务,尤其是当遮挡、运动模糊、小物体出现时,如图3所示。换句话说,对于一个给定的物体,不同的标注器会有不同的结果。标注中的这个变化或噪声常常在训练网络的过程中被忽视。

[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking(PrDiMP)_第3张图片

图3 不同数据集中有噪声、不准确或模糊的ground truth边界框标注。这被我们的标签分布建模。

我们提出将回归问题的标签噪声和任务模糊性建模为条件ground-truth分布。在给定标注的情况下,它刻画了ground-truth输出值的概率密度。没有使用负对数似然(7),我们训练网络来最小化的KL散度,

[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking(PrDiMP)_第4张图片

其中,表示等价于常数项。(8)中的第二行对应于两个分布之间的交叉熵,丢弃的常数项是标签分布的负熵。详细推导过程见附录A

损失(8)整合了标注样本的不确定性的信息。与基于置信度的回归方法中采用的伪标签函数不同的是,被清楚的解释为概率分布。实际上,可以通过获得一小集合数据的多个注释来经验估计。在高斯模型的情况中,方差可以被估计为这些标注的经验方差,将考虑为一个超参数。

3.3、训练

在本节中,我们考虑基于损失(8)来训练网络参数的方法。实际上,这需要估计(8)中的两个积分。为了实现上述目的,我们考虑了两种方法:网格采样和重要性采样的蒙特卡洛积分。

网格采样:对于2维图像坐标回归问题,比如回归跟踪目标的中心点坐标,表示图像中的位置。在这种情况下,平移不变性被用于参数化,其中是卷积神经网络(CNN)。因此,就可以通过评估CNN在处的输出来获得。令为由CNN评估的一致网格位置集合。令表示单个网格单元的面积。由CNN自动提供的一致网格采样就产生了(8)的近似,

最终的loss就是对mini-batch中所有样本i取平均获得。

蒙特卡洛积分:对于更一般的回归问题,网格采样没有提供任何计算上的优势。相反,它很难扩展到更高维度,并且可能由于刚性网格导致采样偏差。因此在更一般的情况,我们采用基于蒙特卡罗的采样方法。特别的,在训练时,我们从分布中提取样本。样本被用于近似(8)中的两个积分,

为了准确的近似原始损失(8),所提出的分布应该理想的包含标签分布和有高预测密度的区域。论文[18]说明简单的中心在的高斯混合可以满足很多任务,包括边界框回归。

损失(10)需要对网络进行多重评估。实际上,计算机视觉框架很流行使用深度主干特征提取器来产生图像表达,比如ResNet。输出值可以在后一阶段进行融合,所以。这使高计算量的特征提取可以在所有样本间共享。这样的结构已经被成功用于目标检测和视觉跟踪问题上。

4、跟踪方法

我们将第3节介绍的一般化概率回归方法用于视觉跟踪中具有挑战性和多样性的任务。

4.1baseline跟踪器:DiMP

我们将最近的SOTA跟踪器DiMP作为我们的baseline。如2.2节所说的那样,DiMP模型包含两个输出分支。

目标中心点回归(TCR):中心点回归分支通过回归中心点坐标来粗略确定目标在图像中的位置。这一分支强调的是鲁棒性而不是准确性。它包含一个线性卷积输出层,网络将输出层权重作为一个展开优化过程来预测,优化过程最小化了基于的判别学习损失。这使得跟踪器能够鲁棒的区分目标物体和背景中的相似物体。帧中位置处的目标中心点置信度采用类似(3)的方式预测,即,其中是主干特征提取器。这个分支是以元学习的设置来训练的,有使用高斯伪标签和鲁棒的损失的基于置信度的目标函数,

在跟踪的过程中,目标中心点是通过在帧中的较大搜索区域内稠密计算置信度分数来回归的。详情见DiMP论文。

边界框回归(BBR):BBR分支采用了目标条件基于IoU-Net的结构。如同2.2节中讨论的那样,该分支预测给定边界框的置信度分数。它利用作为伪标签和(2)中的标准损失的边界框IoU来训练。在跟踪的过程中,BBR分支利用关于的基于梯度的最大化方法来确定目标的准确边界框。详情见ATOM论文。

4.2、我们的跟踪器:概率DiMP

我们介绍一个有全概率输出表达的跟踪方法,通过将我们的回归方法整合到DiMP的两个分支中来实现。样例预测密度如图4所示。

[CVPR2020论文(目标跟踪方向)]Probabilistic Regression for Visual Tracking(PrDiMP)_第5张图片

图4 由目标中心和边界框回归分支分别预测的概率密度的可视化。密度以预测状态(红色框)为中心。该网络捕捉了状态中的不确定性,比如,对于具有挑战性的情况,更大的方差或多模式。更多的例子和讨论见附录D。

目标中心回归:我们通过将(6)引入网络输出来代表目标中心点坐标的预测分布。因为该分支是全卷积的,我们用网格采样方法(9)来近似用于训练的KL散度损失(8)。条件ground-truth密度设置为高斯型,方差和DiMP中的伪标签函数所用的一样(目标尺寸的1/4)。对于为中心回归分支预测卷积权重的优化模块,我们使用KL散度损失(9)和正则化项。我们修改了基于最速下降的结构,采用二阶泰勒展开,因为原始的高斯-牛顿近似仅限于最小二乘目标。我们的方法得益于一个事实:对于线性预测器,目标函数(9)在中是凸的,还得益于梯度和Hessian的有效解析表达式。附录B是对优化模块的详细描述。

边界框回归:我们使用DiMP和ATOM中相同的结构,然后将其用于我们的概率公式(6)。我们跟随DCTD论文的做法使用负似然估计损失(7)和基于MC的近似方法将ATOM BBR模块扩展到概率设置上来。在本文的工作中,我们整合了标签分布来对边界框标注中的噪声和不确定性进行建模,并使用MC采样(10)来最小化KL散度(8)。特别的,我们使用了各向同性的高斯分布,设置。为了公正的对比,我们使用了和DCTD论文中相同的分布和边界框参数。

细节:我们的整个网络使用和DiMP中相同的方法和设置以端到端的形式一起训练,并整合到https://github.com/visionml/pytracking的pytracking框架中。使用了LaSOT、GOT10k、TrackingNet和COCO数据集中的训练部分,一共训练50个epoch,每个epoch 1000次iteration。我们也保留了DiMP中的跟踪步骤和设置,只做了较小的改变,这是由我们的模型所提供的概率输出表达所强制的。由于网络输出尺度的不同,我们相应的改变了确定目标是否丢失的阈值和用于边界框回归的梯度步长。详情见DiMP论文和PrDiMP代码。

5、实验

PrDiMP的ResNet18和ResNet50版本分别达到了40FPS和30FPS。

5.1、回归模型的比较

比较了四种不同的方法。L2:标准平方损失,用于DiMP的边界框回归(BBR)。R-L2:鲁棒的L2损失(11),用于DiMP的目标中心点回归(TCR)。NLL:概率负对数似然方法(7)。Ours:用4.2节中描述的KL散度(8)来训练。

跑了5遍求平均值。作者在OTB-100、UAV123和NFS数据集上评估了重叠精度(即IoU重叠度超过的帧所占百分比)和

5.2、标签不确定性分析

5.3SOTA

更多结果见附录C

6、总结

我们提出了一个基于概率的回归方法,在给定输入的情况下,网络被训练来预测输出的条件密度。密度由结构自己来参数化,从而使得表达高度灵活的分布成为可能。网络通过最小化标签分布的KL散度来训练,用于对标注噪声和任务模糊性进行建模。当用于跟踪任务,我们的方法超过DiMP,在6个数据集上达到SOTA。

 

你可能感兴趣的:(CVPR2020,神经网络,深度学习,机器学习)