ATOM Tracking论文阅读笔记

摘要

鲁棒性最近研究的很好,精度却不受关注

提出一个新的跟踪框架,包括目标估计和目标分类

目标估计:预测目标与估计框之间的重叠率来训练。(离线训练)

目标分类:保证有干扰峰的时候还有较高的判别能力。(在线训练)

1 引言

两方面:目标预测,目标分类。前者的目的是估计目标的状态,跟踪中通常是用bounding box来可视化。后者的目的是通过将图像区域分为前景和背景,来鲁棒性地提供图像中目标的大概位置。

IOU-Net预测目标与被估计的包围框之间的the Intersection over Union

目标预测(离线):由于IOU-Net是特殊的,所以引入目标特殊的信息到 IOU 预测中,使用modulation-based network来合并参考图像中的目标外观,以此来获得特定目标的IOU估计。

the target bounding box通过最大化预测的 IOU overlap。

目标分类(在线): 采用一个两层全卷积网络,使用基于共轭梯度的方法来优化。

2 相关工作

目标分类能获得目标的部分信息,如图像坐标;而目标估计能够获得目标的全部信息。

3 提出的方法

目标估计:IOU-predictor(四个输入,一个输出为当前帧中每个估计目标框的IOU分数),使用梯度下降法求最大的IOU分数对应的bounding box

目标分类:从很多目标中训练找到要找的目标,提高找到目标的能力。使用共轭梯度和牛顿法。

3.1 最大化重叠率的目标估计

有参考图像,生成图像对,用图像对来训练网络。LaSOT dataset and Tracking Net,COCO dataset

包围框估计使用最大化IOU预测。

                                                    \text{IoU}\left(B\right)=g\left(c\left(x_0,B_0\right)\cdot z\left(x,B\right)\right) \left(1\right)

3.2 通过快速在线学习的目标分类

目标估计模块可以获得精确的目标框输出,但是鲁棒性不够。目标分类的目的就是增强判别能力

Model:两层全卷积神经网络

在线学习:梯度下降和随机梯度下降不适合与在线学习任务,由于它们的慢收敛速度。

首先定义问题的残差,运用残差代替DCF损失函数,运用二次高斯牛顿近似和一阶泰勒级数展开,重新定义损失函数。

                                                           

                                          L\left(w\right)=\sum_{j=1}^{m}{\gamma_j||f\left(x_j;w\right)-y_j||^2}+\sum_k{\lambda_k||w_k||^2}\left(3\right)

数据项的残差定义:

                                                         r_j\left( w \right) =\sqrt{\gamma _j}\left( f\left( x_j;w \right) -y_j \right),j\in\left\{1,...,m\right\}

正则项的残差定义:

                                                                    r_{m+k}\left(w\right)=\sqrt{\lambda_k}w_k,k=1,2

运用CG迭代求解每次迭代的搜索方向p和步长。但CG迭代最大的挑战是在搜索方向p上对操作的评价问题。

利用深度学习框架的反向传播功能来实现共轭梯度迭代。只需要使用者提供残差函数,最小化残差来获得最优结果

3.3 在线跟踪方法

对于目标分类,使用 block 4 的特征。

对于目标估计,使用 block 3 和 block 4 作为输入。

特征是从288*288的图像块中提取的。

classification model

两层:第一层卷积核是1*1大小的,特征维数被降至64,目的是有限的存储和计算需要

第二层卷积核是4*4大小的,只有单个输出通道。

总结

我们提出一种新的跟踪结构包括目标估计和分类。目标估计模块在一个大尺度的数据集上离线训练,以预测目标和估计包围框之间的IOU重叠。我们的结构通过执行特征 mudulation 来融合目标具体的信息。分类模块包含一个两层的全卷积网络 head ,并且使用专用的优化方法来在线训练。在4个跟踪基准上进行了大量的实验。我们的方法在保持鲁棒性的同时能够精确估计目标,在所有4个数据集上超过了以前的方法。

 

你可能感兴趣的:(ATOM Tracking论文阅读笔记)