【目标跟踪】ATOM: Accurate Tracking by Overlap Maximization

2019年CVPR的oral,论文链接:ATOM
为了读懂这篇文章,我事先了解了一下文中所用到的IoU-Net,建议想读这篇文章的先了解一下~这里附上链接:IoU-Net


Motivation

类似于IoU-Net,作者认为tracking最近的研究方向都集中在如何训练一个强力的分类器,而对目标框的估计没有得到足够的重视。


Contributions

作者参考IoU-Net,作者提出了一个新的框架,重新设计了目标估计网络和分类网络。


IoU-Net

首先简单介绍一下IoU-Net,IoU-Net主要的贡献有两点:

  1. IoU引导式的NMS方法(IoU-guided NMS),避免了高分类置信度的框抑制高定位置信度框的情况。
  2. 基于优化的边界回归方案(Optimization-based Bounding Box Refinement),进一步提升了边界框回归的精度。

基于这两点,作者提出了用于预测IoU的框架IoU-Net如下:
【目标跟踪】ATOM: Accurate Tracking by Overlap Maximization_第1张图片

作者在常规的检测器基础上,增加了一个IoU输出分支,同时提出了更精确的PrRoI Pooling取代原来的RoI Align。 虚线框部分就是一个独立的IoU-Net结构。

作者针对IoU的这两点改进恰好都有助于提升框的定位精度,所以同样对基于检测的tracking算法有明显提升。


ATOM

受IoU-Net的启发,作者提出了ATOM(Accurate Tracking by Overlap Maximization)网络,通过最大化IoU的思想来获得精确的回归框。以下是这个算法的流程图。
【目标跟踪】ATOM: Accurate Tracking by Overlap Maximization_第2张图片
– 预测网络
看到这个框架的第一反应,遮住绿色的Classifier部分,是不是和孪生网络Siamese有点像?作者在文中给出了目标框预测网络更完整的架构:
【目标跟踪】ATOM: Accurate Tracking by Overlap Maximization_第3张图片
由于跟踪任务的类别无先验性,作者参考孪生网络设计出了一个类似的结构,在模板分支(Reference Branch)处理第一帧的目标特征,得出一个调制向量,然后逐通道与测试分支(Test Branch)特征相乘,过两个全连接层之后得到预测的IoU分数。上下两支结构上差别十分微小。(从后面的实验结果可以看出,直接用对称的结构性能也是不错的)

– 分类网络
分类网络与预测网络共用了Backbone(ResNet-18),结构上比较简单,在ResNet之后加上了两层conv用于输出对候选框的打分。值得注意的是,由于跟踪目标只出现在第一帧中,训练样本上得不到目标的信息,所以分类网络的head是在线训练的,而预测网络的部分是离线训练好的。

作者在这一部分还有一个主要的贡献是,为了加速在线训练,改进了在线更新的方法,有点复杂目前还没完全消化,等到什么时候get到了再做补充。

– Inference
虽然从整体框架上看,预测和分类部分是并行的,但其实并不是。大致流程如下:

  1. 将候选区域通过分类网络,得到一个分类置信度最大的框,由框的坐标可以得到目标粗略的位置。(这一步与IoU-Net的IoU引导式NMS方法不太一样)
  2. 基于Step 1 的目标位置,造若干个初始的bounding box,然后过IoU预测网络,用梯度上升最大化IoU求出3个IoU最高的bbox,取平均得到最终的结果。(这一步类似于IoU-Net的基于优化的边界框回归过程)

Experiments

– IoU预测网络结构
【目标跟踪】ATOM: Accurate Tracking by Overlap Maximization_第4张图片
作者首先比较了不同IoU预测网络结构的性能,我大致总结如下:

  1. 同时用Block3 和Block4的feature好于只用单独一个阶段的feature
  2. 简单的concatenate第一帧的模板feature 与检测帧的feature效果不好
  3. 文中的Modulation在对称网络的基础上做了一定的改进,结果略有提高,但是可以看出来不是很显著。(说明其实直接用Siamese结构也是work的)

– Ablation Study
【目标跟踪】ATOM: Accurate Tracking by Overlap Maximization_第5张图片
展示了不同模块对最终性能的影响,相比于简单的多尺度预测,提升很明显,说明主要的IoU预测模块是起作用的。但值得注意的是,Multi-Scale的结果只用了分类的置信度,完全没有做bbox regression,加上回归的话不应该这么差。


总结

作者受IoU-Net的启发,提出了一个新的框架,重新设计了目标估计网络和分类网络,将主要的工作集中在边界框回归上,得到了很好的效果。

(吐槽一下,感觉现在的一个趋势是,什么东西在detection上work,什么东西就可以拿到tracking上来用一波,有点尴尬…)

你可能感兴趣的:(跟踪,人工智能,深度学习,目标跟踪)