ATOM:Accurate Tracking by Overlap Maximization
一.Motivation
现在,大家关注的焦点在于如何发展出更强大的分类器(体现:构建基于相关滤波器的鲁棒的分类器,或者利用强大的深度特征表示来做这个任务),另外,简单地采用多尺度搜索方法来估计目标的bounding box,而作者认为,估计目标的估计是一个复杂的任务,需要关于物体的高级的知识,多尺度搜索方法从根本上是受限的(VOT2018上一些老的跟踪器,比如:KCF和MEEM仍然能取得有竞争性的精度然而表现出极差的鲁棒性)。
通用的在线目标跟踪是一个困难且病态的问题,因为跟踪方法必须只能依靠一个极小的监督(视频的起始帧)在线学习一个目标的外观模型,然后这个模型要泛化到目标外观未知的方面,包括不同的姿态、角度、光照等。
二.Related Work
在视觉跟踪的背景下,将目标分类和目标估计区分为两个独立但相关的子任务通常是有意义的。目标分类的基本任务是确定目标物体在某个图像位置的存在,然而,只有物体状态的部分信息被获取到,比如:图像坐标。目标估计旨在找到物体的完整状态。在视觉跟踪中,目标状态通常由一个bbox表示,轴对齐的或是旋转的。目标估计就被简化为在当前帧中寻找能最好描述目标的图像边界框。最简单的的情形是,目标是不变的,只在摄像头平面内平行移动,在这种场景中,目标估计就被简化为寻找目标的二维图像位置。那么目标估计就不用和目标分类分离开来考虑。然而,物体通常在姿态和视角上会遭受根本上的变化,极大地加大了边界框估计的难度。
最近几年,通过在线训练强大的判别式分类器,目标分类的挑战已经得到解决。尤其是基于相关滤波的跟踪器已经得到了广泛的欢迎。这些方法依赖于离散傅里叶变换给出的循环卷积对角化变换,以执行有效的全卷积训练和推理。相关滤波器通常善于在密集的二维网格中计算可靠的置信度得分来做目标分类。另一方面,精确的目标估计长期避开了此类方法。即使是寻找一个单参数的比例因子也是一个可怕的挑战,大多数方法求助于粗暴的多尺度检测策略,但是它会带来明显的计算影响。因此,默认的方法是单独使用分类器来执行完整状态估计。然而,目标分类器并不对目标状态的所有方面都敏感,比如目标的宽和高。事实上,目标状态的某些方面的不变性通常被认为是判别模型提高鲁棒性的一个有价值的特性。没有依赖于分类器,我们学习了一个专用的目标估计组件。
精确的目标边界框估计是一个复杂的任务,需要高级的先验知识。边界框依赖于物体的姿态和角度,不能被建模成一个简单图像变换(比如统一图像缩放)。因此,从头开始在线学习准确的目标估计是非常具有挑战性的,甚至是不可能的。因此,文献中的许多最新方法都以大量离线学习的形式集成了先验知识。特别地,由于广泛的离线培训,SiamRPN及其扩展已经显示出能够进行边界框回归。然而,这些孪生跟踪方法经常在目标分类问题上挣扎。与基于相关的方法不同,大多数孪生跟踪器没有明确考虑干扰因素,因为没有进行在线学习。通过简单的模板跟新技术,这个问题已经被部分解决了。但是它尚未达到强大的在线学习模型的水平。与孪生方法相反,我们在线学习分类模型,同时还利用广泛的离线训练用于目标估计任务。
三.Contribution
1.将跟踪问题分解成分类和估计两个子任务;前者旨在通过将图像区域分类成前景和背景提供目标的粗略位置,后者的目的是估计目标的状态,通常是用bbox来表现。即分类是进行目标的粗定位,估计是进行目标的细定位。
2.分类网络由一个两层的全卷积网络组成,简单且强大,能够在线训练,并且为了实时性性能,提出了一个基于共轭梯度的策略来解决梯度下降算法梯度下降慢的问题,从而能够高效地在线最优化模型。
3.估计网络启发自IoU-Net,然而IoU-Net是特定类(class-specific)的,不适合通用跟踪,本文通过引入一个基于调制的网络组件,该组件将目标外观合并到参考图像中以获得特定目标(target-specific)的IoU估算值。
四.Architecture
整个网络基于Siamese Network架构,采用backbone+head的结构。backbone是ResNet-18,在ImageNet上训练,且不进行微调。head有两个,一个是IoU Predictor,作用是挑选出最接近目标gt的bbox,训练时的具体做法是给每个候选框打分,分数最高的即是与gt的IoU overlap最大的,也即与目标外观最接近的;另一个是Classifier,作用是判别前景和背景,确定目标的大致区域,即文中所说的coarse location。
目标估计网络全架构
目标估计由IoU预测网络,该网络在大规模视频跟踪和目标检测库上离线训练,在线跟踪过程中,它的权重被冻结。IoU预测模块有四个输入:1)当前帧的特征,2)当前帧中的边界框估计,3)参考帧的特征,4)参考帧中的目标边界框。然后输出当前帧中每一个边界框估计的预测IoU得分。跟踪过程中,通过使用梯度上升最大化IoU得分来获得最终的边界框。
作者发现将参考图像特征与当前帧特征简单融合的方法效果较差,并且原始的孪生架构会产生次优的结果。
在这个文章中,作者提出了一种基于调制的网络架构(名词借用于通信领域)在只给定一张参考图像的情况下预测任意物体的IoU。
Question:
1.为什么把ResNet-18的Block3和Block4后面的特征都拿来作为后面层的输入而不是单单使用Block4后的特征?
我猜测应该是考虑使用多层次的特征,使得bounding box estimate更准确,跟踪效果更好。
2.为什么Reference Branch和Test Branch中PrPool层的卷积核大小不一致,并且Test Branch中层更多?
作者说Test Branch为了做IoU预测,要提取通用的特征,因此需要更多的层,和更大的池化分辨率。
3.如何调制?如何训练?
Reference Branch输出一个调制向量c(x0,B0),与test image的特征表示进行channel-wise乘法,这就是所谓的调制,如此,就生成了一个用于IoU预测的特定目标表示,有效融合了参考图像目标外观信息。调制后的特征表示最后被馈送入IoU预测模块g,它有三个全连接层组成。边界框B的预测IoU即为:IoU(B)=g(c(x0,B0),z(x,B)) (1),训练这个网络,就是通过标签数据(gt),最小化预测误差。
目标分类网络架构
虽然目标估计能提供精确的bbox输出,但是它缺乏鲁棒地判别目标物体与背景干扰的能力。因此,作者用第二个网络头来补充估计模块。
该模块由两个全卷积层组成,用公式定义为:f(x;w)=φ2(w2∗φ1(w1∗x)) (2)其中:
x---特征图
w1,w2---网络参数
φ1,φ2---激活函数
*---标准的多通道卷积
在线训练。弃用随机梯度下降,基于共轭梯度和高斯-牛顿法,提出了一种新颖的优化方法。具体推导看不太懂,搞懂了再来补充。
五.Experiment
通过多个剥离实验,说明文章提出的Modulation的结构效果最好。
OPT:以Overlap Presicion Metric为基础,边界框与gt的IoU重叠大于阈值T的帧的比率。
AUC:Area-Under-the-Curve,OPT不同的阈值T对应一个比率,则以重叠精度或者说重叠率Overlap Presicion为纵轴,以阈值T为横轴,就可以画出一条曲线。曲线下的面积即为AUC。
Baseline(Block 3&4):没有采用参考分支来整合特定目标信息。
Concatenation(Block 3&4):在最后的IoU预测层之前就进行特征融合,即去掉调制。
Siamese(Block 3&4):对两个分支使用相同的体系结构并将最终iou预测作为其输出的标量乘积
Modulation(Block 3):只使用Block3出来的特征
Modulation(Block 4):只使用Block4出来的特征,评估使用主干resnet-18的不同特征块的影响。