DaSiamRPN

DaSiamRPN论文笔记

  • 提出问题
  • 解决方法
    • 1.增加正负样本对
    • 2.干扰感知模块
    • 3.局部到全局搜索策略
  • 主要贡献

提出问题

孪生网络是具有缺点的:

  1. 大部分孪生网络只能区分前景和非语义背景,语义背景一直被认为是很大的干扰,尤其是当背景杂乱时跟踪性能无法保证。
  2. 大多数孪生追踪器不能更新模型,虽然他们的简单性和固定模式的性质提升了跟踪速度,但是在跟踪场景下目标发生剧烈的外观变化时,孪生网络失去了在线更新模型的能力。
  3. 目前的孪生网络采取局部搜索策略,无法处理完全遮挡和超出视野的问题。

背景差异很大的目标在孪生网络中也能获得高分,如下图:

DaSiamRPN_第1张图片
出现这种情况的原因有两个:

  1. 训练数据的不平衡分布:孪生网络提取的特征是根据训练数据的类别进行判别式训练得到的,在 SiamFC 和 SiamRPN 中来自同一视频不同帧的训练数据组成对,对于每个搜索区域的非语义背景占大多数,语义物体和干扰项占少数。因此,这种训练数据不平衡的分布使得训练模型难以学习实例层次的表示,而是倾向于学习前景和背景的区别。
  2. 第一帧中的背景信息被忽略:在推理过程中,使用最近邻搜索搜索区域中最相似的目标,而在第一帧中被标记的背景信息被忽略,所以相似度最高的目标很有可能是干扰项,而并非目标。

解决方法

1.增加正负样本对

通过引入一系列的策略来消除训练数据的不平衡分布,从而提高特征的泛化能力。为了提高泛化能力并且对新类别的边界框回归更加准确,在训练集中增加了正样本对(detection pairs)。为了节省视频标记的繁琐和耗时,直接引入大规模ImageNet Detection和COCO Detection数据集,通过增强技术(平移、调整大小、灰度等) ,检测数据集的静态图像可用于生成图像对进行训练,如下图(a)所示。为了提高判别能力增加了语义负对(negative pairs from the same/different categories),来自不同类别的负对可以使跟踪器避免在超出视野和完全遮挡时漂移到任意目标,而来自同一类别的负对使得跟踪器专注于细粒度表示,即同类不同物的区分,如下图(b)和(c)所示。
DaSiamRPN_第2张图片

2.干扰感知模块

经典的孪生追踪器只使用最近邻搜索来匹配正模板,当目标发生显著的外观变化和背景杂乱时,这可能会表现不佳。特别是,上下文中存在外观相似的物体(干扰物)使得跟踪任务更加艰巨。为了解决这个问题,周围的上下文和时间信息可以提供关于目标的额外线索,并有助于最大限度地提高辨别能力。本文设计了一种新型的干扰感知模块,该模块可以有效地将一般嵌入内容转移到当前视频域,并在推理过程中增量捕获目标外观的变化。

3.局部到全局搜索策略

提出了一种在短期跟踪和跟踪失败情形间简单而有效的切换方法,主要是根据检测分数的变化。如下图所示,SiamRPN的检测分数并不标准,即使在视野外和完全遮挡的情况下仍然很高,所以其倾向于在这些情形下较为武断地找到一个目标,从而导致跟踪漂移。然而在 DaSiamRPN中,检测得分能与跟踪相位的变化更为一致。因此,设计了一种在跟踪失败的情形下,通过local-to-global搜索策略来逐渐增加搜索区域的方法(即将搜索区域的大小以一个恒定的步长迭代增长),从而重新检测目标位置
DaSiamRPN_第3张图片

主要贡献

1、详细分析了传统孪生跟踪器的特点。我们发现,训练数据中非语义背景和语义干扰因素的不平衡是学习的主要障碍。

2、我们提出了一种新的干扰感知孪生区域提议网络(DaSiamRPN)框架,用于离线训练中学习干扰感知特征,并在在线跟踪推理过程中明确抑制干扰。

3、我们通过引入简单而有效的局部到全局搜索区域策略,扩展了DaSiamRPN以执行长期跟踪,从而显著提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。在短期和长期视觉跟踪基准的综合实验中,拟议的DaSiamRPN框架获得了最先进的精度,同时远远超过了实时速度。

你可能感兴趣的:(深度学习,计算机视觉,神经网络)