(论文阅读25/100)Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

25.文献阅读笔记 Multi-Domain Network (MDNet)

简介

题目

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

作者

Hyeonseob Namand Bohyung Han

原文链接

https://arxiv.org/pdf/1510.07945.pdf

关键词

Multi-Domain Network (MDNet)

研究问题

目标跟踪现状:

  1. 低级手工特征依旧很有效;
  2. 最近的目标跟踪算法大多通过迁移在大规模数据集上预训练好的CNN来解决数据缺乏的问题。这种迁移或许对普遍的特征表达是足够的,但是在跟踪性能上受限,毕竟跟踪和分类在本质上是不一样的。

所以要完全利用CNN的表达能力,需要在特定的用于tracking的数据集上训练CNN。(该数据集覆盖了目标和背景组合的变体)

难点:视频序列拥有完全不同的特征,所以学习统一的表达很难。

单个序列(视频)涉及不同类型的目标,其类别标签、移动模式和外观都不尽相同,跟踪目标也会受到遮挡、变形、光照条件变化、运动模糊等的影响。

同一类物体在一个序列中可以被认为是目标,在另一个序列中可以被认为是背景物体。

由于序列之间存在这种差异和不一致性,所以基于标准分类任务的普通学习方法并不合适,应该采用捕捉与序列无关的信息来获得更好的跟踪表征。

研究方法

CNN判别式表达:

通过多个带标注的视频序列大量的预训练CNN,获得通用的目标表达。

网络由共享层和多个分支组成的领域特定层构成。

域:单个训练序列(也就是被输入的视频)。

反复训练网络中的域从而在共享层中获得通用目标表达,

每个分支:二分类,以确定每个域中的目标。

构建新网络:通过结合预训练的CNN网络的共享层和新的二分类层。

在线更新:

长期更新是在定期使用长期收集的阳性样本进行的,而短期更新是在检测到潜在的跟踪失败时进行的。

在这两种情况下,都使用在短期内观察到的负样本,因为旧的负样本通常是多余的或与当前框架无关的。在跟踪期间维护一个单一的网络,这两种更新是根据目标外观变化的快慢来执行的。

      样本不平衡问题:

大多数负样本通常是平凡的或冗余的,而只有少数分散的负样本在训练中有效。由于不充分地考虑正负样本不平衡的问题,容易出现漂移问题。

训练和测试程序交替进行,以识别硬负例,通常是假阳性,在线学习过程中采用了这个想法。

将硬负面挖掘步骤集成到小批量数据选择中,在学习过程的每一次迭代中,一个小批量数据由M +个正数和M - h个硬负数组成。通过测试M - (>> M-h)负样本和选择M - h正样本中得分最高的样本来识别困难负样本。该方法检查预定义数量的样本,并有效地识别关键负例,而不像标准的硬负例挖掘技术那样显式地运行检测器来提取假阳性。

(论文阅读25/100)Learning Multi-Domain Convolutional Neural Networks for Visual Tracking_第1张图片

红色和蓝色包围盒分别表示每个小批量数据中的正负样本。随着训练的进行,负样本变得难以分类。

  • 设计了具有少量层的CNN

视觉跟踪仅区分目标和背景两类,比一般的视觉识别问题复杂度低得多。

深度CNN对于精确的目标定位效果较差。

视觉跟踪中的目标通常较小,因此希望输入的尺寸较小,这自然会降低网络的深度。

训练和测试是在线进行的。测试较大的网络时,算法的准确性较低,并且明显变慢。

  • 根据 MDNet 学习到的特征表示提出了一个有效的在线跟踪框架。

去除了训练阶段使用的所有二分类层的现有分支,并构建一个新的单分支来计算测试序列中的目标分数。

跟踪过程中在线微调新的分类层和共享层内的全连接层以适应新的视频。

通过在线更新分别对目标的长期和短期外观变化进行建模,以实现鲁棒性和自适应性,并在学习过程中引入高效的硬负面挖掘技术。

如下图所示:多域网络的架构,它由共享层和域特定层的K个分支组成。黄色和蓝色边界框分别表示每个域中的正负样本。

(论文阅读25/100)Learning Multi-Domain Convolutional Neural Networks for Visual Tracking_第2张图片

输入:107×107 RGB

有五个隐藏层:包括三个卷积层(conv1-3)和两个全连接层(fc4-5)。

网络的最后一个全连接层(fc61fc6K)有 K 个分支,对应 K 个域(训练序列)。

卷积层与 VGG-M 网络的相应部分相同,只是特征图的大小根据输入大小进行了调整。

接下来的两个全连接层有 512 个输出单元,并结合了 ReLU 和 dropout。

K 个分支中的每个分支都包含一个二元分类层,该层具有 softmax 交叉熵损失,负责区分每个域中的目标和背景。请注意,

fc61fc6K 称为特定领域层,而将前面所有层称为共享层。

研究结论

的跟踪算法从预训练中学习领域无关的表示,并在跟踪过程中通过在线学习捕获特定领域的信息.与针对图像分类任务设计的网络相比,所提出的网络具有简单的体系结构。整个网络离线预训练,包括单个特定领域层的全连接层在线微调。

创新不足

对物体发生形变后的定位依旧是错误的。如下图所示。

(论文阅读25/100)Learning Multi-Domain Convolutional Neural Networks for Visual Tracking_第3张图片

额外知识

Multi-Domain Learning(多域学习):是指训练数据来自多个域,并将域信息融入学习过程的一种学习方法。

hard negative mining

K.-K. Sung and T. Poggio. Example-based learning for viewbased human face detection. IEEE Trans. Pattern Anal. Mach. Intell., 20(1):39–51, 1998. 4

你可能感兴趣的:(论文阅读,目标跟踪,笔记,学习,计算机视觉)