SA-Siam文章阅读笔记

论文A Twofold Siamese Network for Real-Time Object Tracking
会议:CVPR2018
领域:单目标跟踪 全卷积孪生网络


创新点:
  • 图像分类任务中的语义特征相似度匹配任务中的外观特征互补结合。
  • 分开训练两个孪生网络,分别用于提取语义特征和外观特征。

引入:

众所周知,在深度CNN训练目标分类的任务中,网络中深层的特征具有强的语义信息并且对目标的外观变化拥有不变性。在相似性学习问题中,这些语义特征是外观特征的一个理想的补充。
对于SiamFC,它的泛化能力很弱,当遇到目标有突出的外观变化时就会出现问题。

本文目的:提高SiamFC的泛化能力。

贡献一:设计SA-Siam,是一个双重Siamese网络,由语义分支和外观分支组成。孪生网络中的每一个分支都会去计算目标图像与搜索图像之间的相似度得分。为了保持两个分支的独立性,两个Siamese网络在训练过程中没有任何关系,仅仅在测试过程中才会结合。
贡献二:对于新引入的语义分支,进一步提出了通道注意力机制(channel attention mechanism)。这个机制的动机是,不同的目标激活不同的特征通道。对某些目标有重要作用的通道设置较高的权重系数。通过目标物体和上下文环境的通道响应值来计算相应的通道权值。

相关工作:

  • SiamFC:本文延续了SiamFC速度快,end-to-end预测的特点。而且不限制输入图像的大小。
    本文通过利用融合特征来提高SiamFC范化能力。
  • 集成跟踪器:训练多个CNN(多个模型)提取不同的特征,最后融合不同信息得到最终结果。
    通过这些集成跟踪器发现,利用CNN特征的不同层可以得到一个更强大的跟踪器。而且模型之间应该是不相关的。相关度越低,说不不同模型提取的特征越不相似。换句话说,如果多个模型都一样了,就跟用一个模型没有区别了。
    在SA-Siam设计中,外观分支和语义分支使用CNN不同抽象层的特征。这两个分支是分开训练的。
  • 自适应特征提取:不同特征对不同的跟踪目标有不同的影响。SENet说明通道关注机制对图像识别任务是有效的。
    在SA-Siam中,作者通过通道激活值来执行通道注意机制。这可能会提高跟踪性能。

本文方法:

作者提出一个双重SiamFC网络用于实时视觉跟踪。这个设计背后的基础思想是,在相似度学习问题中训练的外观模型和在图像分类问题中训练的语义模型可以互补,因此把两部分结合用于跟踪。

网络整体架构

标注z表示从第一帧中剪取出的目标, 表示目标上下文,表示搜索区域。虚线连接的蓝色部分是最初的孪生网络SiamFC。

网络架构

每一个分支的输出是一张响应图,表明目标 和在搜索区域 中的候选块的相似度。

外观分支(appearance branch):外观分支的输入是,直接复制了SiamFC的网络架构。这个网络叫做A-Net,用来提取外观特征。表示特征提取。来自外观分支的响应图表示成:

通过最小化逻辑损失函数来优化网络:
对于目标的处理,将作为输入,中有目标和目标的上下文信息。通过裁剪(crop)操作,从得到。注意模块(attention module) 的输入是,输出的是通道系数。特征在通过1x1的卷积网络进行融合之前,要与通道权重相乘。语义分支的响应图为:


的维度与中通道的数目一样。通道系数和特征图之间是对应元素相乘。
暂未完成。。。后续更新。

你可能感兴趣的:(SA-Siam文章阅读笔记)