论文地址:https://arxiv.org/pdf/1812.11703.pdf
项目地址:SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
基于孪生网络的跟踪器将跟踪公式化为目标模板和搜索区域之间的卷积特征互相关。然而,与最先进的算法相比,孪生追踪器的准确度仍然有差距,而且它们不能利用深层网络的特性,例如 resnet-50或更深层次的特性。在本文中,我们证明了其核心原因在于缺乏严格的平移不变性。通过全面的理论分析和实验验证,我们通过一种简单而有效的空间感知采样策略突破了这一限制,成功地训练了一个性能有明显提高的ResNet-driven的孪生跟踪器。此外,我们提出了一个新的模型架构来执行分层和分深度的聚合,这不仅进一步提高了精度,而且减少了模型的大小。我们进行了广泛的消融实验来证明所提出的跟踪器的有效性,目前在五大跟踪基准上获得了最好的结果,包括 OTB2015 VOT2018 UAV123 LaSOT 和 TrackingNet。我们的模型将会发布,以便进一步的研究。
视觉目标跟踪在过去的几十年中受到了越来越多的关注,并且一直是一个非常活跃的研究方向。它在视觉监控、人机交互、扩增实境等不同领域有着广泛的应用。尽管最近已经取得了很大进展,但由于光照变化、遮挡和背景杂波等诸多因素的影响,这仍然是一项非常具有挑战性的任务。
最近,基于孪生网络的跟踪器[40,1,15,42,41,24,43,52,44]引起了社会的广泛关注。这些孪生跟踪器通过在目标模板和搜索区域的特征表示之间建立互相关来学习一个通用的相似性映射,从而形成视觉目标跟踪问题。为了确保跟踪效率,离线学习的孪生相似性函数通常在运行时固定[40,1,15]。CFNet 跟踪器[41]和 DSiam 跟踪器[11]分别通过运行平均模板和快速转换模块更新跟踪模型。 SiamRPN 跟踪器[24]在Siamese网络之后引入了区域建议网络[24] ,并进行联合分类和回归跟踪。DaSiamRPN 跟踪器[52]进一步引入了一个干扰器感知模块,并提高了模型的识别能力。
虽然上述Siamese追踪器获得了出色的追踪性能,特别是在均衡的精度和速度方面,即使是表现最好的Siamese追踪器,比如SiamRPN,在追踪基准上的精度仍然与最先进的追踪基准存在显著差距。 我们观察到,所有这些追踪器都在类似 Alexnet [23]的架构上建立了自己的网络,并多次尝试训练具有更复杂架构的暹罗追踪器,比如 ResNet [14] ,但没有任何性能提升。受此启发,我们对现有的Siamese追踪器进行了分析,发现其核心原因在于严格的平移不变性的破坏。由于目标可以出现在搜索区域的任意位置,因此目标模板的学习特征表示应该保持空间不变,我们进一步从理论上发现,在现代深度结构中,只有补零变量满足这一空间不变性约束。
为了克服这个限制,使Siamese跟踪器具有更强大的深层架构,通过广泛的实验验证,我们提出了一个简单而有效的采样策略来突破了Siamese跟踪器的空间不变性限制。我们成功地训练了一个基于使用ResNet作为骨干网络的 SiamRPN [24]跟踪器,并获得了显著的性能改进。受益于 ResNet 体系结构,我们提出了一个分层的特征加重结构用于互相关操作,这有助于跟踪器从多个层次学习的特征中预测相似度图。通过分析连体网络的互相关结构,我们发现它的两个网络支路在参数数上存在高度不平衡;为此,进一步提出了一种深度可分离相关结构,该结构不仅大大减少了目标模板分支中的参数个数,而且稳定了整个模型的训练过程。此外,还观察到一个有趣的现象,即同一类别的物体在同一通道上有高的响应,而其余通道的响应被抑制。正交性也可以提高跟踪性能。
总而言之,这项工作的主要贡献如下:
1.通过对Siamese追踪器的深入分析,证明了深度网络使用时,由于严格的平移不变性的破坏,导致精度下降。
2.我们提出了一种简单而有效的采样策略,突破了空间不变性的限制,成功地训练了由ResNet结构驱动的Siamese跟踪器。
3.我们提出了一种分层的特征聚合结构用于互相关操作,这有助于跟踪器从多个层次学习的特征中预测相似性映射。
4.我们提出了一种深度可分离的相关结构来增强互相关,从而产生多个与不同语义相关的相似映射。
在上述理论分析和技术贡献的基础上,我们开发了一个高效的视觉跟踪模型,建立了一个新的就跟踪精度而言最先进的算法,同时高效运行在35FPS。这个被称为 SiamRPN++ 的跟踪器,在五个最大的跟踪基准上,包括 OTB2015[46]、 VOT2018[21]、 UAV123[31]、 LaSOT [10]和 TrackingNet [30] ,始终获得最好的跟踪结果。此外,我们还提出了一种使用 MobileNet [18]骨干网的快速变体跟踪器,该骨干网在保持竞争性能的同时,运行速度为70 FPS。为了便于对视觉跟踪方向的进一步研究,我们将发布SiamRPN跟踪器的源代码和训练模型。
在这一部分,我们简要介绍了最近的追踪器,特别关注Siamese网络的追踪器[40,1]。此外,还介绍了深度网络的最新发展。由于构建了新的基准数据集[45,46,19,21,10,30]和改进了的方法[16,51,6,7,17,32,9,5,43,52,49] ,视觉跟踪在过去十年中得到了迅速的发展。标准化的基准[45,46,10]为与不同算法的比较提供了公平的测试平台。每年举办的追踪挑战赛[22,19,20,21]不断推动追踪表现。随着这些进步,许多有前途的跟踪算法被提出。Bolme 等人的开创性工作把卷积定理从信号处理领域引入视觉跟踪,并把目标模板匹配问题转化为频域中的相关运算。对于这种转换,基于相关滤波器的跟踪器不仅获得了高效的运行速度,而且如果使用适当的特征,还可以提高精度[16,50,51,8,6]。随着深度学习模型在视觉跟踪中的广泛应用,基于深度特征表示的相关滤波器的跟踪算法[9,5]在流行的跟踪基准[45,46]和挑战[22,19,20]中获得了最先进的精度。
最近,基于Siamese网络的追踪器因其良好的跟踪精度和效率而受到了广泛关注[40,1,15,42,41,12,24,43,52,44]。这些追踪器将视觉跟踪作为一个互相关问题来解决,期望它们能更好地利用深层网络的优点,从端到端学习。为了从两个分支的互相关生成相似性映射,他们训练了一个 Y型神经网络,将两个网络分支连接起来,一个用于对象模板,另一个用于搜索区域。此外,这两个分支可以保持固定在追踪阶段[40,1,15,43,24,52]或在线更新,以适应目标的外观变化[42,41,12]。目前最先进的Siamese追踪器[24,52]通过Siamese网络之后的区域建议网络提高了跟踪性能,并产生了非常有希望的结果。然而,在 OTB 基准[46]上,它们的跟踪精度仍然与最先进的深度跟踪器(如 ECO [5]和 MDNet [32])存在相对较大的差距。
2012年,随着Alex等人提出的现代深度建筑网络的建议,网络结构的研究正在迅速发展,许多复杂的深度建筑被提出,如 VGGNet [37] ,GoogleNet [38] ,ResNet [14]和 MobileNet [18]。这些深层架构不仅提供了对神经网络设计的更深入的理解,同时也推动了许多计算机视觉任务的发展像目标检测[33],图像分割[4]和人体姿态估计[39]。在深度视觉追踪器中,网络结构通常包含不超过5个由 AlexNet 或 VGGNet 定制的结构层。这种现象解释了浅层特征主要有助于物体的准确定位[34]。在这项工作中,我们认为,如果模型在整个Siamese网络中得到适当的训练,使用更深层次的模型,Siamese追踪器的性能可以得到显著提高。
这项工作最重要的发现是,如果Siamese网络的跟踪算法装备了更深的网络,它的性能可以得到显著的提高。然而,仅仅通过直接使用更深层的网络(比如 ResNet)来训练Siamese跟踪器并不能获得预期的性能改进。我们发现潜在的原因很大程度上与Siamese追踪器的内在限制有关,因此,在引入Siamese追踪模型之前,我们首先对Siamese追踪网络进行了深入的分析。
3.1 Siamese网络跟踪分析
基于Siamese网络的跟踪算法[40,1]将视觉跟踪制定为一个互相关问题,并从具有Siamese网络结构的深度模型中学习跟踪相似性图,一个分支用于学习目标的特征表示,另一个分支用于搜索区域。目标块通常在序列的第一个框架中给出,可以看作是一个样本 z。我们的目标是在语义嵌入空间 φ ()中,从下面的框架 x 中找到最相似的块(实例) :
其中 b 用于模拟相似性值的偏移量。
这个简单的匹配函数自然地暗示了设计Siamese跟踪器的两个内在限制。
1.Siamese跟踪器中的联合部分和特征提取部分对于严格的平移不变性有着内在的限制,,其中是转换移位子窗口算子,保证了有效的训练和推理。
2.连接部分对结构的对称性有内在的限制,例如,适用于相似性学习。
经过详细分析,我们发现阻止Siamese跟踪器使用深度网络的核心原因与这两个方面有关。具体来说,一个原因是深层网络中的填充会破坏严格的平移不变性。另一个是RPN 需要不对称特征进行分类和回归。我们将介绍空间感知的抽样策略来克服第一个问题,并在第3.4节讨论第二个问题。
严格的平移不变性只存在于没有填充的网络中,如修改的 AlexNet [1]。以前基于Siamese的网络[1,42,41,24,52]被设计得很浅以满足这个限制。然而,如果使用的网络被诸如ResNet或MobileNet这样的现代网络所取代,填充不可避免地会使网络更深入,这破坏了严格的平移不变性限制。我们的假设是,违反这一限制将导致空间偏差。
我们通过在一个有填充的网络上的仿真实验来验证我们的假设。移位定义为在数据增强过程中均匀分布所产生的最大平移范围。我们的仿真实验如下所示。首先,在三个不同的训练实验中,将目标放置在不同移位范围(0,16和32)的中心。收敛后,我们聚合测试数据集上生成的热图,然后在图1中可视化结果。在第一次零位移模拟中,边界区域上的概率被降级为零。结果表明,尽管有测试目标的出现,但学习到了很强的中心偏向。另外两个模拟表明,增大位移范围将逐渐防止模型崩溃到这个微不足道的解。定量结果表明,32偏移的聚合热图更接近于测试对象的位置分布。结果表明,空间感知采样策略有效地缓解了填充网络对严格平移不变性的破坏。
为了避免对目标产生强烈的中心偏向,我们采用空间感知采样策略对带有ResNet-50主干的SiamRPN进行训练。如图2所示,在VOT2018上,零位移性能降至0.14,适当的零位移(±64像素)对于训练深度暹罗跟踪器至关重要。
为了避免对目标产生强烈的中心偏向,我们采用空间感知采样策略对带有ResNet-50主干的SiamRPN进行训练。如图2所示,在VOT2018上,零位移性能降至0.14,适当的零位移(±64像素)对于训练深度暹罗跟踪器至关重要。
3.2 ResNet-driven的Siamese跟踪
通过以上分析,可以消除中心偏置的影响。一旦我们消除了对中心位置的学习偏差,任何现成的网络(如MobileNet、ResNet)都可以在域自适应后进行视觉跟踪。此外,我们还可以自适应地构建网络拓扑结构,揭示深度网络的视觉跟踪性能。
在这一小节中,我们将讨论如何将深度网络转移到我们的跟踪算法中。特别地,我们主要针对ResNet-50[14]进行实验。原始ResNet具有32个像素的大跨度,不适合密集暹罗网络预测。如图3所示,通过修改卷积4和卷积5块以具有单位空间步长,我们将最后两个块的有效步长从16个像素和32个像素减少到8个像素,并且还通过扩大卷积来增加其接收范围[27]。额外的1×1卷积层被附加到每个块输出,以将信道减少到256。
由于保留了所有层的填充,模板特征的空间大小增加到15,这给关联模块带来了很大的计算负担。因此,我们裁剪中心7×7区域[41]作为模板特征,其中每个特征单元仍然可以捕获整个目标区域。
在[24]之后,我们使用互相关层和全卷积层的组合来组装一个用于计算分类分数(表示为S)和边界盒回归(表示为B)的HEAD模块。Siamese RPN块用P表示。
此外,我们发现仔细微调ResNet会提高性能。通过将ResNet提取器的学习率设置为RPN部分的10倍,使得特征表示更适合于跟踪任务。与传统的Siamese方法不同,深层网络的参数是以端到端的方式联合训练的。据我们所知,我们是第一个在深度Siamese网络(>20层)上实现端到端学习以进行视觉跟踪。
3.3 分层聚合
在利用了ResNet-50这样的深层网络后,聚合不同的深层成为可能。直观地说,视觉跟踪需要从低到高、从小到大、从精细到粗略的丰富表示。即使在卷积网络中有这么深的特征,孤立的一层也是不够的:合成和聚合这些表示可以提高识别和定位的推论。
在以往只使用浅层网络(如AlexNet)的工作中,多层特征不能提供非常不同的表示。然而,考虑到接受场的差异很大,ResNet中的不同层更有意义。较早层的特征主要集中在颜色、形状等对定位至关重要的低层信息,而缺乏语义信息;较后层的特征具有丰富的语义信息,在运动模糊、巨大变形等挑战场景中是有益的。假设使用这种丰富的分层信息来帮助跟踪。
在我们的网络中,提取多分支特征来协同推断目标定位。对于ResNet50,我们探索了从最后三个残差块中提取的多层特征进行分层聚合。我们将这些输出分别称为F3(Z)、F4(Z)和F5(Z)。如图3所示,Cv3、Cv4、Cv5的输出分别馈入三个暹罗RPN模块。
由于三个RPN模块的输出尺寸具有相同的空间分辨率,因此直接对RPN输出采用加权和。加权融合层将所有输出组合在一起。
由于组合权重域不同,因此将它们分开进行分类和回归。权重与网络一起离线进行端到端优化。
与以往的工作不同,我们的方法没有显式地结合卷积特征,而是分别学习分类器和回归。请注意,随着主干网络深度的显著增加,我们可以从视觉语义层次的足够多样性中获得实质性的收益。
3.4 深度互相关
互相关模块是嵌入两个分支信息的核心操作。SiamFC[1]利用交叉相关层来获得用于目标定位的单通道响应图。在SiamRPN[24]中,通过增加一个巨大的卷积层来缩放信道(Up-Xcorr),扩展了互相关以嵌入更高级别的信息,例如锚点。较重的上行通道模块使得参数分布严重不平衡(即RPN模块包含20M个参数,而特征提取器在[24]中只包含4M个参数),这使得SiamRPN的训练优化变得困难。
在这一小节中,我们提出了一种轻量级互相关层,命名为深度互相关(DW-XCorr)实现高效的信息关联。在性能与SiamRPN相当的情况下,DW-XCorr层包含的参数比SiamRPN中使用的Up-XCorr少10倍。
为了实现这一点,采用了卷积BN块来调整每个剩余块的特征以适应跟踪任务。重要的是,包围盒预测和基于锚的分类都是不对称的,这与SiamFC不同(见3.1节)。为了编码差值,模板分支和搜索分支通过两个非共享卷积层。然后,具有相同通道数的两个特征映射逐个通道地进行相关运算。另一个conv-bn-relu块被附加以融合不同的通道输出。最后,添加分类或回归输出的最后一层卷积层。
通过将互相关替换为深度相关,可以大大降低计算量和内存使用量。这样,模板和搜索分支上的参数数量是平衡的,使得训练过程更加稳定。
此外,一个有趣的现象如图5所示。同一类别的物体在同一通道(汽车在第148通道,人在222通道,人脸在226通道)上的反应较高,而其余通道的反应被抑制。这一特性可以理解为深度互相关产生的通道特征是近乎正交的,并且每个通道代表一些语义信息。我们还分析了使用上行通道互相关时的热图,响应图的可解释性较差。
4.1 训练和测试数据集
训练。我们的体系结构[14]的骨干网络在ImageNet[36]上进行了图像标记的预训练,这已被证明是对其他任务[13,27]的一个非常好的初始化。我们在COCO[25]、ImageNet Det[36]、ImageNet VID和YouTube边界盒数据集[35]的训练集上训练网络,并学习如何测量一般对象之间的相似性以进行视觉跟踪的一般概念。在训练和测试中,我们使用127个像素的单尺度图像作为模板块,255个像素的图像作为搜索区域。
评估。我们重点研究了OTB2015[46]、VOT2018[21]和UAV123[31]上的短期单目标跟踪。我们使用VOT2018-LT[21]来评估长期设置。在长期跟踪中,目标可能会离开视场或长时间处于完全遮挡状态,这比短期跟踪更具挑战性。我们还分析了我们的方法在LaSOT[10]和TrackingNet[30]上的推广情况,这两个基准是目前最大的单目标跟踪基准。
4.2 实施细节
网络结构。在实验中,我们按照[52]进行训练和推理设置。我们在步幅缩小的ResNet-50(Sect.3.2)上附加了两个兄弟卷积层,以执行方案分类和具有5个锚点的包围盒回归。将三个随机初始化的1×1卷积层附加到卷积3、卷积4、卷积5,以将特征维数降低到256。
优化。SiamRPN采用随机梯度下降(SGD)算法进行训练。我们在8个GPU上使用同步SGD,每个小批量总共128对(每个GPU 16对),需要12小时才能收敛。我们对最开始的5个epoch使用0.001的预热学习率来训练RPN分支。在最后的15个epoch,整个网络被端到端地训练,学习率从0.005指数衰减到0.0005。使用0.0005的权重衰减和0.9%的动量。训练损失是分类损失和用于回归的标准平滑L1损失之和。
4.3 消融实验
主干架构。特征提取器的选择至关重要,因为参数的数量和层的类型直接影响跟踪器的内存、速度和性能。在视觉跟踪方面,我们比较了不同的网络结构。图6显示了使用AlexNet、ResNet-18、ResNet-34、ResNet-50和MobileNet-v2作为主干的性能。我们根据ImageNet上的TOP 1精确度报告了OTB2015上成功图的曲线下面积(AUC)的表现。我们观察到,我们的SiamRPN可以从更深的ConvNets中受益。
表1也说明,通过将AlexNet替换为ResNet-50,VOT2018数据集的性能有了很大提高。此外,我们的实验表明,对主干部分进行微调是非常关键的,这将极大地提高跟踪性能。
分层特征聚合。为了研究分层特征聚合的影响,我们首先在ResNet-50上训练了三个具有单一RPN的变体。我们的实验发现,在EAO中,单独使用Conv4可以达到0.374的竞争性能,而较深层和较浅层的性能下降了4%。通过合并两个分支,conv4和conv5的增益有所改善,而其他两个组合没有观察到改善。尽管如此,鲁棒性提高了10%,这是我们的跟踪器的关键漏洞。这意味着我们的跟踪器还有改进的空间。在综合了所有三层之后,准确率和鲁棒性都稳步提高,VOT和OTB的增益在3.1%到1.3%之间。总体而言,分层要素聚合在VOT2018上的EAO得分为0.414,比单层基线的得分高4.0%。
深度相关。我们将原始的上行信道互相关层与提出的深度互相关层进行了比较。如表1所示,提出的深度相关比VOT2018提高了2.3%,比OTB2015提高了0.8%,这说明了深度关联的重要性。这在一定程度上是因为两个分支的均衡参数分布使学习过程更稳定,收敛更好。
4.4 与最先进的比较
OTB-2015数据集。标准化的OTB基准[46]为鲁棒性提供了一个公平的测试平台。基于Siamese的跟踪器将跟踪描述为一次检测任务,没有任何在线更新,因此导致在此无重置设置基准上的性能较差。然而,我们发现来自浅层网络的有限表示是阻碍Siamese跟踪器超越性能最好的方法(如C-COT变体[9,5])的主要障碍。
我们在OTB2015上将我们的SiamRPN++跟踪器与最先进的跟踪器进行了比较。图7显示了我们的SiamRPN++跟踪器在重叠成功方面产生了领先的结果。与最新的DaSiamRPN[52]相比,我们的SiamRPN在重叠方面提高了3.8%,在显著增加的深度基础上提高了3.4%的精度。从深度凸网中提取的表示对光照和背景杂波的敏感度较低。据我们所知,这是Siamese跟踪器首次在OTB2015数据集上获得与最先进的跟踪器相当的性能。
VOT2018数据集。我们在最新的VOT-2018数据集[21]上测试了我们的SiamRPN++跟踪器,并与10种最先进的方法进行了比较。VOT-2018公共数据集是用于评估在线无模型单对象跟踪器的最新数据集之一,包括60个具有不同挑战性因素的公共序列。按照VOT-2018评估协议,我们采用期望平均重叠度(EAO)、准确度(A)和稳健性(R)以及基于无重置的平均重叠度(AO)来比较不同的跟踪器。有关的详细比较载在表2。
从表2中,我们观察到所提出的SiamRPN++方法在EAO、A和AO标准上获得了最好的性能。特别是,我们的SiamRPN跟踪器的性能超过了所有现有的跟踪器,包括VOT2018挑战赛获胜者。与VOT2018挑战赛中的最佳跟踪器(LADCF[21])相比,该方法获得了2.5%的性能提升。此外,我们的跟踪器比挑战获胜者(MFT[21])有了很大的改进,准确率提高了9.5%。
与基线跟踪器DaSiamRPN相比,我们的方法在鲁棒性上获得了10.3%的大幅提升,这是基于Siamese网络的跟踪器对抗相关滤波器方法的常见漏洞。即使由于缺乏对模板的适应性,鲁棒性与依赖于在线更新的最先进的相关滤波器方法[2]相比仍有差距。
采用OPE(One Pass Review)方法对跟踪器进行了评估,并报告了AO值以展示其性能。从表2的最后一行我们可以观察到,与DLSTpp[21]相比,我们的方法获得了与DLSTpp[21]相当的性能,并且将DaSiamRPN[52]方法改进了10.0%的绝对增益。
精确度 vs. 速度。在图9中,我们相对于每秒帧数(FPS)可视化了VOT2018上的EAO。报告的速度在配备NVIDIA Titan XP GPU的机器上进行评估,其他结果由VOT2018官方结果提供。从图中可以看出,我们的SiamRPN++实现了最佳性能,同时仍以实时速度(35FPS)运行。值得注意的是,我们的两个变种实现了与SiamRPN++几乎相同的精确度,同时运行速度超过了70FPS,这使得这两个变种具有很强的竞争力。
VOT2018长期数据集。在最新的VOT2018挑战中,新引入了一项长期实验。它由35个长序列组成,在这些序列中,目标可能会离开视野或在很长一段时间内变得完全遮挡。绩效衡量标准是精确度、召回率和综合F分。我们报告了所有这些指标,并与VOT2018-LT上最先进的跟踪器进行了比较。
如图10所示,在为我们的跟踪器配备了长期战略后,SiamRPN++从DaSiam LT获得了2.2%的收益,在Fcore上的表现比最好的跟踪器高出1.9%。ResNet提取的强大功能使TP和TR比我们的基准DaSiamRPN提高了2%。同时,SiamRPN的长期版本仍然能够以21FPS的速度运行,比VOT2018-LT的获胜者MBMD[21]快了近8倍。
UAV123数据集。UAV123数据集包括123个序列,平均序列长度为915帧。除了[29]中最新的跟踪器外,还对比添加了ECO[5]、ECO-HC[5]、DaSiamRPN[52]、SiamRPN[24]。图11展示了比较的跟踪器的精确度和成功曲线图。具体地说,我们的跟踪器获得了0.613的成功得分,远远超过了DaSiamRPN(0.586)和ECO(0.525)。
LaSOT数据集。为了在更大、更具挑战性的数据集上进一步验证所提出的框架,我们在LaSOT[10]上进行了实验。LaSOT数据集提供了大规模、高质量的密集标注,总共有1400个视频,测试集中有280个视频。图12显示了我们的SiamRPN++跟踪器在LaSOT测试集上的总体性能。在没有花哨的情况下,我们的SiamRPN++模型足以达到最先进的AUC得分49.6%。具体地说,SiamRPN++比MDNet[32]的归一化距离精度和AUC分别提高了23.7%和24.9%,而MDNet[32]是本文报道的最好的跟踪器。
TrackingNet数据集。最近发布的TrackingNet[30]提供了大量数据来评估野外的跟踪者。我们在包含511个视频的测试集上对SiamRPN++进行了评估。在[30]之后,我们使用三个指标成功率(AUC)、精确度(P)和归一化精确度(PNorm)进行评估。表3展示了与AUC得分最高的跟踪器的比较结果,显示SiamRPN++在所有三个指标上都取得了最好的结果。具体而言,SiamRPN++的AUC得分为73.3%,P得分为69.4%,PNorm得分为80.0%,分别以9.5%、10.3%和6.6%的优势超过排名第二的跟踪者DaSiamRPN[52],AUC得分为63.8%,P得分为59.1%,Pnorm得分为73.4%。
总之,值得注意的是,所有这些一致的结果都显示了SiamRPN++的泛化能力。
在本文中,我们提出了一个统一的框架,称为SiamRPN++,用于端到端地训练用于视觉跟踪的深层Siamese网络。我们给出了如何在Siamese跟踪器上训练深度网络的理论和经验证据。我们的网络由一个多层聚合模块和一个深度相关层组成,该模块将连接的层次结构组合在一起,以聚合不同层次的表示,从而减少了计算开销和冗余参数,同时也导致了更好的收敛。用SiamRPN++,我们在VOT2018上实时获得了最先进的结果,显示了SiamRPN++的有效性。SiamRPN++还在LaSOT和TrackingNet等大型数据集上获得了最先进的结果,表明了它的普适性。