SIAMfc++:采用目标估计准则,实现稳健和准确的视觉跟踪

视觉跟踪是对给定目标有效的进行鲁棒性分类和准确的估计目标状态,之前的方法提出了多种目标状态估计方法,但少有方法考虑跟踪问题本身的特殊性,本文提出了一·种用于高性能通用的目标跟踪器设计的实用目标状态估计准则。
通过设计一种就是siamfc++分类分支和目标运动估计分支(G1),无歧义分类得分(G2),没有先验知识的分支(G3),估计质量得分(G4),广泛的分析和大量的研究证实了本文提出的有效性。
1、介绍
一般视觉跟踪的目的就是在视频中顺序的定位运动物体,给定有限的信息,总是提取第一帧的信息,应用于无人机、视频监控。通用的目标跟踪的特点是没有关于对象以及周围的先验知识。本文与RPN的方法对比,RPN由于锚对象错误匹配失败,而FC++通过对象之间则匹配成功。
跟踪的问题主要是分类任务和估计任务的结合,第一个任务的目的是通过分类提供一个鲁棒的粗糙的目标点,第二个任务是估计一个精确的目标状态,通常用一个边界框表示跟踪的目标点。按照目标状态估计方面分为三大类,第一类包括DCF滤波器,siamfc采用了多尺度测试,结果不准和效率低,另外,目标比例在相邻帧中以固定的比率变化,现实中不可实现,第二类是ATOM通过渐变多个初始边界框估计目标边界框。这大大提升了精确度,然而这种方法有巨大的计算量,而且增加了额外的初始框的超参数设置和初始框的分布,需仔细调整。第三类是SIAMRPN跟踪器,通过区域推荐网络表明了精确度和有效的目标区域,但是预先定义的anchor值严重阻碍了鲁棒性的相似性搜索,而且还需要访问数据的先验信息,这点违背了通用对象跟踪的精神。
故设计了一种高性能的通用目标跟踪器设计指南。
G1:分类和状态估计的分解
跟踪器应该有两个子任务,分类和状态估计,如果没有强大的分类器,跟踪器不能从背景和干扰物中区分目标,这严重影响了鲁棒性。如果没有准确估计的情况下,跟踪器的精度基本上是有限的,粗糙的多尺度测试方法在很大陈程度上忽略了后续的任务,造成了效率低,准确率低的问题。
G2:得分无歧义,分类分数直接表示目标存在的置信图分数,在视野中对应像素的子窗口,而不是预设置的 锚点框。
G3:无先验知识,根据通用对象跟踪的精神,跟踪方法应该没有类似于比例分布这种先验知识,先验知识对数据的分布依旧依然存在,这阻碍了泛化能力。
G4:预测质量的评估,如图所示,直接使用分类置信图进行边框选择会导致性能下降,应该使用分类无关的估计质量评分, 目标状态评分主要IOUnet的准确性很大程度上取决于此准则。
根据以上本文设计了siamfc++方法,基于siamfc,特征图的每一个像素直接对应于搜索图像的每个转换子窗口,为了进一步精确估计目标,加入了一个回归G1,由于去除了预先定于的锚点设置,同时也清除了关于目标尺度/比率分布的匹配模糊度G2和G3,最后,在G4之后在特权边界框中加入一个高质量的估计质量评估分支。
本文的贡献主要有以下三个方面:
1、通过识别跟踪的特性,设计了一套目标状态估计准则
2、设计了一个简单强大的++跟踪器,大量的实例以及全面的分析证明了本文的有效性
3,再五个基准集上测试,表现最好。
2、相关工作
跟踪框架现代跟踪器按目标估计状态被分为三个分支。FC用多尺度来估计目标尺度,该算法通过对搜索快进行多尺度调整,并对小批缩放后的图像进行分割,再当前帧中选取分类最高的尺度作为预测目标尺度,由于bb框估计是一种挑战故需要对物体有一定的了解,故在认知上根本上是有限的。
根据DCF和IOU以及ATOM顺序分类和估计,通过分类得到粗略的估计目标初始位置被迭代的细化以获精确的边界框估计,每帧中边界框多次进行随机初始化和迭代优化多次反向传播大大降低原子的速度,这种方法在提高精度的同时也相比较计算量的问题,而且ATOM也引入了许多超参数,在调参,优参需仔细。SIAMRPN在SIam后面加入了区域推荐网络,实现了较高的精度。RPN回归了预先定义的anchor和目标位置之间的位移和大小差异,然而需要召回率较高的目标检测,但是在现有的目标跟踪中只需要跟踪一个目标,另外锚框和目标之间的模糊匹配严重影响了算法的鲁棒性。最后ancho设定不符合目标跟踪的规律,需要重新定义超参数来描述形状。
检测框架
RPN是在Faster-Rcnn中设计实现的,目前先进的检测器都是采用RPN结构和锚框设置形成的。需要进行启发式调整,比如预测的物体中心附近点的边界框。分为正负patch并利用额外的偏移回归来改变边界盒的预测位置点。尝试各种方法设计无锚检测器,本文设计了一个基于目标估计状态指南的通道。
FC++
基于FC是由一个用于特征提取的siamese网络和一个用于分类回归的区域推荐网咯组成。
Siamese-based Feature Extraction and Matching
目标跟踪任务可以通过相似性学习实现,正确来讲,孪生网络进行离线训练和在线评估去在一个更大区域的搜索图像中找到模板图像的位置,一个孪生网络结构包含两个分支模板分支以第一帧中的目标patch为输入Z,搜索分支以当前帧作为输入x,siam骨干网络共享两个分支之间的参数,对输入和X之间实行转换,使其嵌入到一个公共的特征空间映射中,以供后续使用,其中模板patch和搜索patch在嵌入空间中互相关计算。
*代表
*代表互相关操作,fai代表特征提取结构,ψ i是针对不同任务的网络(分类与回归)。两者之间通过两个卷积层微调特征图。在公共特征提取后将公共特征调整到特定的任务的特征空间,且两者特征提取后的尺寸保持相同的大小。
Application of Design Guidelines in Head Network
G1:设计分类和状态估计任务的分离,互相关运算之后设计分类head和回归head,对于特征图中的每个像素,分类head将ψcls作为输入,对特征图的每个点的分类就是对原图上对应的patch的分类17×17×1,将对应的图像patch分类成一个正的和负的patch,而回归就是以hesd就是将reg作为输入,输出额外的偏移量17×17×4回归,预测边界位置的预测。以下结构为整体结构图。
SIAMfc++:采用目标估计准则,实现稳健和准确的视觉跟踪_第1张图片
特别的,对于分类任务,在特征图cls位置x,y在输入图像上对应的位置
([s/2]+xs,[s/2]+ys)在bbox内,则将视为正样本,s是backbone的步长(s = 8)。对于特征图 ψ r e g 上每个正样本 (x,y)的回归,最后一层预测对应位置 ( x , y ) 到gt边框四条边的距离:四维向量 t ∗ = ( l ∗ , t ∗ , r ∗ , b ∗ ) :

SIAMfc++:采用目标估计准则,实现稳健和准确的视觉跟踪_第2张图片
其中X0,Y0和(x1,y1)表示左上角和右上角的角点。分类head和回归head特征图上的每个位置(x,y)都对应于以位置([s/2]+xs,[s/2]+ys)为中心的输入图像上的一个图像patch。
G2:得分无歧义
直接对相应的图像进行分类,并在该位置回归目标边界框,直接将位置视为训练样本,而对于基于锚点的目标(将输入图像上的位置视为多个锚框的中心)在相同位置会输出多个分类得分,并根据锚点回归目标边界框,这导致了目标之间的模糊匹配。尽管前人已经显示了优秀的表现,但本文表明了模糊匹配可能会导致严重的问题(第四节),在本文对每个像素预测,在最终的特征图中只做一次预测,因此,每个分类图可以直接给出目标对应像素子窗口的置信度以及本文设计的在对于这块内容是没有歧义的。
由于siamfc++做了分类和回归wrt,并没有预定的锚框,因此没有关于目标数据的先验知识比如尺度和比率。
G3:无先验
没有预设的锚点和阈值,故没有人工先验信息
以上章节中,并没有考虑目标状态估计的质量,而是直接使用分类分数选择最终的框,便可能导致精度下降,正如jiang等人表明分类置信度与定位精度没有很好的相关性。根据luo等人分析,一个子窗口中心周围的输入像素的重要程度大于其余的特征像素,故假设物体中心周围的特征像素比其他特征像素有更好的估计质量
G4:预测质量评估
本文增加了一个简单优秀的质量评估分支,在分类head添加1乘1卷积层进行质量评估,该输出用于先验空间得分,PSS
定义如下:
SIAMfc++:采用目标估计准则,实现稳健和准确的视觉跟踪_第3张图片
PSS不是质量评估的唯一选择,作为一种变量,也预测了IOU得分:
在这里插入图片描述
B, B ∗ 分别表示预测边框和对应的GT bbox。
在推理过程中,通过将PSS与相应的预测分类分数相乘来计算用于最终选择的分数,这样,远离物体中心的边界框的权重就是下降,从而提高了运算精度。
Training Objective
按以下优化:
SIAMfc++:采用目标估计准则,实现稳健和准确的视觉跟踪_第4张图片
其中1(.)是0-1分布的,即只对目标位置正样本进行计算,Lcls表示分类的focal损失,L quality表示质量评估的交叉熵损失, Lreg表示预测边框的IoU损失。如果(x,y)被考虑作为正样本,0作为负样本。设定1-cx,y。
4、实验
实验细节
模型建立:实现了具有不同主干架构两个版本的跟踪器,一个是ALEXNet版本,另一个采用googlenet,与使用resnet-50相同方法相比,后一种方法在计算成本更低的情况下,在跟踪基准集上取得了更大的性能,都是在imagenet上预训练的,已被用于跟踪任务。
数据训练
利用了ILSVRC-VID,COCO和YOUTUBE,LASO数据集,和GOT-10,
以下将对特定基准测试集详细介绍wrt,,从VID\LASOT\和GOT-10中提取图像对,选择间隔小于100的帧对。youtubb为5帧, 对于图像数据集(coco\imagetnet)通过将负样本对作为训练的一部分来生成训练样本,以增强区分模型干扰物的能力,根据搜索图像的均匀分布进行随机移动和缩放作为数据增强技术。
训练阶段
对于alexnet版本,本文将conv1到conv3的参数固定,并对4和5进行微调对于未经过与训练的层,本文采用一个标准差为0.01的以0为中心的高斯分布进行初始化。首先从5个epochs进行训练,学习速率从十的负7线性增加到2乘10的负3次方,对剩下的45个epochs使用余弦退火学习率,每个epochs600K个图片,选择动量为0.9 的梯度下降作为优化器。
对于goolenet版本,固定阶段1和2,微调3和4阶段,将主干中的基本参数增加至0.1wrt,将全局学习率提高至2乘10的负2次方,将每一个图像对的epoch减少至300k,总的20个epochs(5个预热,15个训练),在第十个epoch时对主干中的参数进行解冻,避免过拟合,将主干网络中的参固定不变,并进一步将遍历图像的数量降至150k,从而稳定更少的训练数据的训练。
alexnet在VOT2018上是160帧,googlenet90帧。
测试阶段
模型的输出是一组具有相应置信度分数的bb框,得分根据对应框的比例变化和距离上一帧预测的目标位置的距离进行惩罚,然后选择惩罚分数最高的框框,用于更新目标状态。
消融实验
在这里插入图片描述
3好的head结构,添加回归分支精确匹配,得到siamfc++跟踪器,将进一步alnexnet主干替换为更强大的提取视觉特征的goolenet。
*跟踪性能的关键成分由高到低依次为:回归分支(0.094)、数据源多样性(0.063/0.010)、较强的骨干(0.026)、较好的head结构(0.020),括号中标注了各部分带来的∆EAO。请注意,这些是SiamRPN+在SiamFC之上的额外组件。在将所有额外的组件添加到SiamFC后,我们的SiamFC++以更少的计算预算获得了更优越的性能。
虽然RPN模块和锚框设置的引入无疑提供了更好的准确性,但其鲁棒性并没有得到改善,甚至没有得到改善。这是由于它违反了我们提出的准则。
不同数据集上的横向对比:
SIAMfc++:采用目标估计准则,实现稳健和准确的视觉跟踪_第5张图片
作者在VOT2018数据集上记录了SiamRPN ++和SiamFC ++产生的最高分,然后根据跟踪结果成功或失败进行拆分。结果与Groundtruth的重叠为零,则视为失败;否则成功
SIAMfc++:采用目标估计准则,实现稳健和准确的视觉跟踪_第6张图片

第一行中比较SiamRPN ++和SiamFC ++分数,SiamRPN ++的分类分数不管成功与否,都具有相似的分布方式。SiamFC ++的分布更为合理:跟踪成功应当集中分布于高得分位置,失败应当集中分布于低分位置。
第二行绘制了成功和失败状态下输出边界框和gt之间IoU分布的直方图。基于锚点的方式会导致目标状态估计产生偏差,SiamRPN ++的预测框倾向于与锚框重叠而不是与gt重叠。
G2:RPN的分类分数表示的是锚点和目标之间的相似性,而不是模板图像和搜索图像之间的相似性,会导致匹配模糊
G3:预先设计的锚框的设计需要先了解锚框的尺寸分布和锚框的比例
G4:目标状态估计的选择没有考虑估计质量
RPN采用回归分支的区域推荐,并非多尺度测试,从而实现更好的跟踪精度,符合G1。但是违反G2,故RPN产生了假正样本的结果,在目标外观变化较大的情况下,会对附近的物体或者背景造成不合理的高分。
故本文可看到,当旋转和外观变形的情况下,RPN++对附近的物体给出很高的得分,但未能跟踪到物体。RPN匹配的是锚框和对象,并非对象本身,故可能会造成漂移,从而影响了鲁棒性,故本文提出的FC++可以直接匹配模板对象和搜索图像,给出精确的分数预测图并完全成功的跟踪目标。
为了验证我们的假设,我们在VOT2018数据集上记录了SiamRPN++和我们提出的SiamFC++的最大得分。然后我们根据追踪结果将他们分开,例如成功或失败。在VOT2018上,如果跟踪结果与地面真值盒的重叠为零,则认为该跟踪结果失败。否则,它被认为是成功的。结果显示在图3的第一行中。将SiamRPN++和SiamFC++评分进行对比,我们可以看到,SiamRPN++的大部分分类评分,无论成功与否,都遵循相似且高度重叠的分布
导致SiamRPN+中模糊性的另一个因素是特征匹配过程是对长宽比固定的小块进行的(多个不同比例的小块会带来不可忽略的计算代价),而匹配后的特征的每个像素都被分配了长宽比不同的锚点。
对于G3的违反,SiamRPN的性能随着锚的尺度和比例的变化而变化。如(Li et al. 2018a)的表3所示,我们尝试了三种不同的比率设置,当我们使用不同的锚定设置时,SiamRPN的性能会发生变化。因此,只有通过访问数据存储的先验知识才能获得最佳性能,这违背了通用对象跟踪的精神(Huang, Zhao, and Huang 2018)。绘制了IoU在输出之间SiamRPN++统计量的直方图成功和失败状态下的边界盒和ground truth以及anchor和ground truth之间的直方图。从IoU分布可以看出,锚点设置(违反G3)给出的先验知识导致了目标状态估计的偏差。具体来说,SiamRPN+的预测盒与锚盒的重叠比与地面真值盒的重叠更容易导致性能下降。

对于G4的违反,我们可以看到,SR.5和
在GOT-10k基准测试中,SiamRPN++的SR.75分别比SiamFC++低7.7和15.4分。在git -10k中,成功率(SR)度量的是成功跟踪的重叠帧超过预定义阈值(即0.5或0.75)的百分比。阈值越高,跟踪结果越准确。因此SR是评估质量的可靠指标。SiamRPN++的SR.75比SiamFC+的SR.75低很多,说明SiamRPN+的估计质量较低是因为违反了准则G4。

5、结论
通过分析视觉跟踪任务的独特特征和现有跟踪器的缺陷,提出了一套跟踪器中目标状态估计的指导原则。
在此基础上,我们提出了一种有效的分类和目标状态估计方法(G1),给出无歧义的分类评分(G2),无先验边缘跟踪(G3),以及了解估计质量(G4)。
我们通过广泛的消融研究来验证所提出的指南的有效性。
我们表明,我们的跟踪器基于这些准则,在5个chal- lenging基准上达到了最先进的性能,同时仍然运行在90帧/秒。

你可能感兴趣的:(siamese,计算机视觉)