单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization

目录

  • 文章侧重点
  • 网络结构
    • 基于IoUNet的目标估计网络
  • 消融实验
    • IoUNet的架构讨论
    • ATOM的组成部分

ATOM
IOU-Net
IOUNet的参考文章
ATOM的参考文章

文章侧重点

由于之前的DCF方法把注意力放在设计有判别力的classifier以准确找到目标中心位置,而对于目标尺度估计等是设计另一个的,例如尺度滤波器完成对尺度的估计。这篇文章聚焦于目标追踪中 “如何生成更准确的目标边界框” 这个问题。现如今单目标追踪最常用的一个评价指标Accuracy Overlap,即表示目标预测边界框和真值边界框之间的交并比,以此衡量追踪精度。
几个注意点:

  • 文章利用在大规模数据集上离线训练的IOUNet设计目标估计模块,再利用一个两层卷积网络并在线更新设计对目标外观鲁棒的目标分类模块
  • ATOM是一个两阶段的追踪框架,首先通过目标分类分支生成10个proposals(可能的边界框),再利用目标估计分支预测这10个可能的边界框与真实边界框之间的IOU(交并比),选最高的三个取平均值作为最终的预测结果。
  • 这篇文章借鉴了目标识别中相似思想的IOUNet,还在文章利用IOUNet生成**(target-specific)目标特定的特征调制向量**,将原本相关滤波对目标真值计算岭回归的问题转变成对目标预测IOU最大化。
  • 文章花了一些篇幅来介绍这个如何在两层卷积网络中反向传播更新梯度以求在实时的fps下完成在线更新。其在线更新的核心在于网络参数的优化方程是最小化平方差+岭回归正则化,反向传播更新梯度使用了共轭梯度。,这里也和MOSSE的优化参数很像,所以这个方法才被分类为相关滤波的吧。

网络结构

单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization_第1张图片
从总体网络结构来说,很清晰的三个组成部分:backbone网络、目标估计的IoU Modulation和IoU Predictor、目标分类的Classifier

  • backbone网络选用了ResNet18,分别将stage4的特征作为目标分类的输入;将stage3+stage4的特征作为目标估计的输入。
  • 目标估计的IoU Modulation的输入是reference帧(第一帧)及其GroundTruth边界框,输出由第一帧提取的中目标特定(target-specific)的向量,用于与IoU Predictor的结果调制(具体操作是channel-wise乘法)。
  • 目标分类的Classifier 是一个两层的全卷积网络【第一层是1x1x64卷积,降低特征维数可以降低计算量满足内存要求;第二层是4x4x1的卷积】,用于预测目标的二维定位。以输出响应图中置信分数最大的定位,以此为初始定位点B注意这里的边界框保持了size和scale不变,再对B加入随机噪声,生成10个候选边界框,这里的任务是对目标位置定位,尺度估计就交给Predictor来做吧。输出的边界框再作为IoU Predictor的输入。这个模块是在线更新的,其目的是为了保持跟踪器的鲁棒性。
  • 目标估计的IoU Predictor 的输入是IoU Modulation模块的调制向量和分类输出的候选边界框。最后输出是取IoU预测的边界框IOU最大的三个,再做平均得到我们和相应的概率值。

基于IoUNet的目标估计网络

单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization_第2张图片
这是IoUNet预测网络的具体结构,对应了前面总结架构中蓝色的离线部分。

  • 目标估计的IoU Modulation的输入是reference帧(第一帧)及其GroundTruth边界框,
  1. 首先将整张图片输入backbone生成的stage3+stage4特征,
  2. 再结合IoUNet 提出的PrPool操作对图中绿色框的特征进行Precise ROI Pooling,
  3. 经过全连接层展平,生成一些包含测试序列中目标特定(target-specific)的1 * 1 * K的向量用于与IoU Predictor的结果(也是K维的)调制(具体操作是channel-wise乘法)。
  • 目标估计的IoU Predictor 的输入是IoU Modulation模块的调制向量和目标分类输出的候选边界框。
  1. 首先是对图片的backbone特征中对应的候选边界框做了一个PrPool降采样操作(这是再IoUNet中提出的,这个采样是可以在bbox坐标上获取连续梯度,便于端到端训练)
  2. 从而产生的特征与目标特定的调制向量通过channel-wise乘法实现特征调制,融合的向量通过全连接层展平。注意这里有两个分支,分别对ResNet3和Resnet stage4 的特征进行相同的操作,只是在预测前再连接起来,我猜测这里设计两个分支可能是因为在线分类毕竟只有两层,可能判别力不够,这样的两个分支就比较直接提高了分类分支的能力吧。
  3. 最后取IoU预测的边界框IOU最大的三个,输出它们的平均值作为预测结果。

消融实验

IoUNet的架构讨论

首先,这篇文章的创新在于将目标检测中的IoUNet应用到目标追踪中。原本的IoUNet设计事实上只有一个输出分支【如蓝框】:其中一共就两种网络层:PrPool和FC,都可以反向传播更新梯度,所以对于IoUNet的目标函数就是最大化预测边界框与真值边界框的IOU(交并比)。还可以对预测边界框用梯度上升进一步refine。
单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization_第3张图片
然而看前面的第二个IoUNet的目标估计网络图,加起来有4个IoU prediction分支了。
对此,文中进行实验,来验证这样设计能达到最好的效果,Baseline发掘IoU Modulation的重要性,Concatenation与Siamese探索reference生成的调制变量与test中特征融合的其它的将IoU prediction集成的架构。

  1. Baseline:移除图2结构中的reference分支。相当于把第一帧提取出来的目标相关的信息丢弃掉。验证ATOM架构中IoU Modulation的重要性。
  2. Concatenation:reference生成的调制变量与test中经过 FC 的特征直接按channel连接起来,直接输入IoU prediction层(应该也是FC层。)
  3. Siamese:reference与test分支使用完全相同的结构生成的结果,再进行标量积生成最后的IoU分数。

实验结果如下:
单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization_第4张图片
分析一:想不到Concatenation比Baseline还差,说明选择大于努力啊,哈哈。因为Concatenation中的reference与test特征没有交互,所以test特征也就相当于没有得到目标相关的特征。
分析二:调制方法与ATOM相同,将目标估计网络中4条分支减到两条——即只保留ResNet18-stage3和ResNet18-stage4的特征处理。可以看到只保留ResNet18-stage3比只保留ResNet18-stage4的架构更好,难道说,稍浅层特征比稍深层的特征好?如下图为ResNet18的BasicBlock,其实多了两层深度为256的BasicBlock,生成的特征会更好,所以这一点倒是不怎么明白。
单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization_第5张图片

ATOM的组成部分

验证每个组成部分——目标估计头、目标分类头、在线更新机制、负样本采集对最终结果的影响

  • 目标估计头: 将本文提出的基于IoUNet目标估计头替换为暴力搜索的多尺度估计方法,如SiamFC中的尺度估计一样,手动定义5个尺度参数,用目标分类头对这些尺度下的候选框输出置信度,最后输出选取置信度最大的框作为追踪结果。效果下降8.6%。
  • 目标分类头: 将本文提出的两层卷积网络的目标分类头去掉。直接手动扩大搜索区域,直接对该区域进行目标估计。效果下降超20%。
  • 在线更新机制: 分别将本文提出的高斯-牛顿共轭梯度下降替换成一般的梯度下降法GD和迭代次数与GD相同但运行5次的GD++【相当于增加梯度下降的次数】。其实,GD++相比于GD只有0.2%的增益,但是GD的效果相比本文的共轭梯度也就下降了1.4%,已经没那么多了,但是共轭梯度快啊。
  • 负样本采样: 文中提到的一个在线更新时的一个策略,为了增强鲁棒性,但并不是功能性模块,是做实验时候加上去的。如果在分类得分里检测到了干扰物峰值【可能就是出现两个峰值吧,毕竟目标只有一个】,我们就把这个训练样本的学习率 double,然后立即使用标准设置跑一轮优化。如果目标得分低于 0.25,我们就判定为目标跟丢了。
    虽然这个策略不是我们这个框架的基本结构之一,但是能够提供一些额外的鲁棒性。它移除负样本采样策略的损失为0.4%。
    总结:模块重要性排行:目标分类>目标估计>在线更新>负样本采样。

单目标追踪——【相关滤波】ATOM:Accurate Tracking by Overlap Maximization_第6张图片
好啦,这篇论文读到这里就差不多啦,虽然对文中顶重要的数学推导跳过了,这篇博客讲的很详细,我好菜。有看到关于这部分的好的推导欢迎评论。

强强zzz

你可能感兴趣的:(论文阅读,SOT,深度学习,人工智能)