Paper: Distractor-aware Siamese Networks for Visual Object Tracking.
https://arxiv.org/abs/1808.06048v1

该文章发表于ECCV2018，是对SiamRPN的改进。从上图可以看出，Siamese类方法的问题在于不能很好的区分背景干扰因素，对干扰的响应分数很高。作者认为，SiamRPN跟踪器只学习到了objectness/non-objectness的区分，而对于类属于objectness的干扰无能为力。

作者对原因进行了分析，做出的结论为在跟踪器的训练过程中，训练样本的不均衡造成了跟踪器无法区分objectness级的干扰。而样本的不均衡主要包括两部分：

正样本的种类不够，导致模型的泛化性能不够强。作者给出的解决方法是额外加入Detection数据集的图片数据, pair可以由静态图片通过数据增益(translation, resize, grayscale等)生成，加入detection数据生成的正样本之后，模型的泛化性能得到了比较大的提升；
hard负样本较少，在之前的Siamese跟踪器训练过程中负样本过于简单，很多情况下为无语义背景，这使得模型的判别性不强。作者给出的解决方案为，用不同类之间的样本(还有同类的不同instance)来构建hard负样本，由此增强模型的判别能力。

1. Distractor-aware Training

该文章的改进主要在于训练部分。对训练数据进行了增强，减轻训练样本的不均衡问题。

多样化正样本对的种类可以提升泛化性能：作者认为在SiamFC和SiamRPN中使用的训练数据集为 ILSVRC15和Youtube-BB，训练的pair是通过在一个视频序列的不同帧抽取得到的。问题是这两个数据集的目标种类较少，VID为20个类别，Youtube-BB为30个类别，作者认为这些数据集不足以用来训练高质量和泛化性较强的模型，同时作者认为SiamRPN的回归分支在遇到新的类别时会产生较差的预测。于是通过引入新的Detection数据集来扩展正样本对的种类。如上图中的(a)，是通过对静止图片使用增强技术的方法来产生pair的。

语义负样本对可以改进判别能力：作者将SiamFC和SiamRPN的低判别性归因于语义负样本对的缺乏，以及类内(intraclass)干扰样本对的缺乏。因此作者对此进行了改进，两种负样本对的生成分别如上图(b)(c)所示，上图(c)生成的样本对能够使得跟踪器在面临out-of-view和全遮挡时不会漂移到其它物体上，上图(b)生成的样本对能够使得跟踪器专注于fine-grained的特征，从而提升判别能力。

2. Distractor-aware Incremental Learning

上一节的训练策略能在离线训练阶段显著的改进模型判别能力，但是仍然很难分辨具有相似属性的两个物体，如上图a。在SiamFC和SiamRPN中使用cosine窗来压制干扰，但是当物体运动混乱时性能不能保证。大部分基于Siamese网络的方法在遭遇快速运动和背景杂波时性能较差。总的来说，潜在的缺陷主要是由于一般表示域和特定目标域的不一致造成的。由此，作者提出一个干扰-感知模块来有效的将一般表示( general representation)转换到特定视频域(video domain)。

Siamese跟踪器学习到的是exemplar图像z和candidate图像x在嵌入空间φ 的相似性度量函数，

这里b表示偏置，在每个位置都相等。

作者将目标上下文的hard负样本(distractors)信息加入到了相似性度量函数。在DaSiamRPN中，首先在每一帧选择17x17x5的proposals，采用非极大值抑制(NMS)来消除冗余，然后最高得分的作为跟踪结果，得分大于阈值的proposals作为干扰di，最后收集得到一个干扰集

其中h为预定义的阈值，zt为在第t帧中选择的目标且这个集合的数量为n。

作者提出了一个新的干扰-感知目标函数来重排proposals P，这个P为与exemplar最相似的前k个proposals。最终选择的目标表示为q：

权值因子α_hat控制干扰学习的影响，αi用来控制每个干扰的影响。值得注意的是，通过直接计算，计算复杂度和内存使用量增加了n倍。由于交叉相关(互相关)操作是一个线性操作，可以使用这个特性对计算进行加速，

根据结合律，可以进行增量学习，

这种干扰-感知跟踪器可以将现有的相似性度量(general)调整为新领域(specific)的相似性度量。

3. Experiments

在VOT实验方面，DaSiamRPN超过了ECO，速度是160+FPS。

ablation的分析如下。

参考：

https://zhuanlan.zhihu.com/p/42546692

视觉目标跟踪DaSiamRPN

1. Distractor-aware Training

2. Distractor-aware Incremental Learning

3. Experiments

参考：

你可能感兴趣的:(视觉目标跟踪DaSiamRPN)