目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network

SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network

阅读之前,推荐先看孪生网络用于目标跟踪的开山之作:SiamFC孪生网络

简述:

现有的跟踪器性能优越却难以有实时的速度,本文作者提出孪生候选区域生成网络(Siamese region proposal network),简称Siamese-RPN,包含用于特征提取的孪生子网络(Siamese subnetwork)和候选区域生成网络(region proposal subnetwork)。其中候选区域生成网络包含分类和回归两条支路。运行速度达到了160 FPS。

问题Or相关工作:

现有的利用深度特征的方法不更新模型,性能不如相关滤波,如果微调则会使速度变慢。作者在孪生网络的基础上使用RPN,但不同于标准的RPN,使用两个分支的相关特征图来提取候选域,将模板分支的目标外观信息编码到RPN特征映射中,区分前景和背景。
在跟踪阶段,作者将此任务视为单目标检测任务(one-shot detection),意思是 把第一帧的BB视为检测的样例,在其余帧里面检测与它相似的目标。(CFNet and DSiam在线更新)

贡献:

  1. 提出了Siamese region proposal network,能够利用ILSVRC和Youtube-BB大量的数据进行离线端到端训练。
  2. 在跟踪阶段将跟踪任务构造出局部单目标检测任务。
  3. 在VOT2015, VOT2016和VOT2017上取得了领先的性能,并且速度能都达到160fps。

相关工作:

作者简要介绍了孪生网络(Siamese Nerwork)的结构,应用到如GOTURN、SiamFC、CFNet等, 后两者没有使用BB回归,造成精度和鲁棒性没那么好。RPN网络最早在Faster RCNN中提出(参考:RPN详解),还有常用于分类的One-shot learning,两者在tracking领域应用比较少见。

模型:

目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network_第1张图片
  SiamRPN网络的整体模型如上所示,主要包含用于特征提取的孪生子网络(紫色部分)和生成目标区域的RPN子网络(蓝色部分)。其中孪生网络的上下支路参数完全相同,Template Frame是输入第一帧的bounding box,靠此信息检测候选区域中的目标,即模板帧。下面是待检测的帧。RPN子网络上部分是分类分支,模板帧和检测帧的经过孪生网络后的特征再经过一个卷积层,模板帧特征经过卷积层后变为2k*256通道,k是anchor box数量,因为分为两类,所以是2k。下部分是边界框回归支路,因为有四个量[x, y, w, h],所以是4k.右边是输出。
(1)孪生特征提取子网络:
  预训练的AlexNet,剔除conv2 conv4两层,φ(z)模板帧输出, φ(x)检测帧输出
(2)候选区域提取子网络(RPN)
  对于RPN子网络,如果有k个锚(anchor),模板帧的分类分支〖[φ(z)]〗_cls通道向量为2k个,回归分支〖[φ(z)]〗_reg的通道向量为4k个。而对于检测帧的〖[φ(x)]〗_cls和〖[φ(x)]〗_reg的通道向量数保持不变。分类分支和回归分支的相关性如下:
     在这里插入图片描述
  上式为卷积操作,其中〖[φ(z)]〗cls和〖[φ(z)]〗reg为卷积内核,一共为2k/4k个,输出的A(w×h×2k)^cls 包含2k个通道向量,每个点表示正负激励,通过softmax损失分类;A(w×h×4k)^reg包含4k个通道向量,每个点表示对dx、dy、dw、dh测量锚点与相应的groundtruth之间的距离。通过smooth L1 loss:
   在这里插入图片描述
  不同图片尺寸有差异,要对它们做正规化。Ax, Ay, Aw, Ah是anchor boxes中心点坐标和长宽; Tx, Ty, Tw, Th 是ground truth boxes,归一化公式:
目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network_第2张图片
  最终的优化Loss:
在这里插入图片描述
  其中λ为超参数,L_cls为交叉熵损失函数,L_reg为:
在这里插入图片描述
(3)训练阶段:端到端训练孪生RPN
  因为跟踪中连续两帧的变化并不是很大,所以anchor只采用一种尺度,5中不同的长宽比[0.33, 0.5, 1, 2, 3]
  当IoU大于0.6时是前景,小于0.3时是背景.

One shot detection

一次性检测的目的是从感性的的单个template中学习参数W,一次性检测任务可以表示为:
在这里插入图片描述
  其中li是标签,W是孪生网络权重,ζ是经过RPN操作。
目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network_第3张图片
  如上图,template支能学到一个encode了目标的特征,用这个特征去寻找目标,这会比SiamFC中直接用第一帧的feature map去做匹配更鲁棒。然后将模板分支输出作为局部检测的内核。这两个内核都是在初始帧上预先计算好的,并在整个跟踪周期内固定,就可以在其他帧中进行一次检测。。Siamese框架只剩下检测分支而不包括初始帧,从而导致高速。RPN网络可以直接回归出目标的坐标和尺寸,既精确,又不需要像multi-scale一样浪费时间。
  把anchor框的位置(x, y)和大小(w, h)进行调整,所以只需要得到偏移量(dx, dy, dw, dh),原参数加上偏移量就可以得到最后的bbox了。偏移公式如下:
目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network_第4张图片
  其中an表示相应的锚点,reg表示被激活的细化的坐标,pro表示最终精细的值。

更准确的选择区域:
 ① 舍弃掉距离中心太远的BB,只在一个固定正方形范围里选择。
 ② 使用协正弦窗口和尺度变化惩罚来重新排序,以获得最好的结果。
 ③ 在分类分数乘以时间惩罚之后,对前K个提案重新排序。
 ④ 执行非最大抑制(NMS)以获得最终的跟踪边界框。
 ⑤ 选定最终的边界框后,通过线性插值更新目标尺寸,保持形状的平滑变化。


注:非极大抑制(NMS),就是将不是极大的框都去除掉,去除冗余的重叠框,具体操作就是先选择一个置信度最高的框,其余的框与之的IoU大于某个阈值,就剔除掉,从未处理的框中继续选一个得分最高的,重复上述过程。
最后得出最终的跟踪目标BB。


实验:

目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network_第5张图片
目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network_第6张图片
目标跟踪论文(二):SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network_第7张图片
由上可见,在VOT2015的各大算法,在四个benchmark中都达到了最佳,在VOT2016的算法中,除错误率之外,其他三项benchmark也全碾压。在VOT2017算法中,实时准确率达到啦最好的效果。

结论:

  1. 提出SiameseRPN网络框架
  2. 提出一种局部单点检测方法。
  3. 性能速度达到160fps

你可能感兴趣的:(目标跟踪)