目标跟踪之High Performance Visual Tracking with Siamese Region Proposal Network论文阅读笔记

论文地址:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

出发点:Siamese论文选框只在目标的中间位置,利用滑窗加多尺度回归的方式计算量过大且计算方式过于死板精度不高,对于运动速度快的物体跟踪效果不佳。基于相关滤波(CF)的方法速度快,精度不高,基于深度学习的方法精度上占优势但速度较慢。Siamese类方法只在第一帧提取模板,在过程中不进行更新,无法应对变化较明显的目标。只采用第一帧特征的原因是该特征最为鲁棒且计算更精简,速度更快。

改进:作者基本上述原因,以孪生网络为基础,结合RPN结构,形成Siamese + RPN的跟踪网络。能够利用大尺度的图像对离线端到端训练,具体来讲,这个结构包含用于特征提取的孪生子网络(Siamese network)和候选区域生成网络(region proposal network),其中候选区域生成网络包含分类和回归两条支路。在跟踪阶段,提出的方法被构造成为单样本检测任务(one-shot detection task)。
 

目标跟踪之High Performance Visual Tracking with Siamese Region Proposal Network论文阅读笔记_第1张图片

目标跟踪之High Performance Visual Tracking with Siamese Region Proposal Network论文阅读笔记_第2张图片

网络结构:

利用模版帧来学习检测分支RPN的网络参数。预训练模版分支,利用第一帧模板帧的目标特征输出一系列weights,用于回归的参数权重和用于分类的参数权重,这些weights相当于对目标进行了编码,将其作为检测分支RPN网络的参数去detect目标。

模板支学到一个编码目标的特征,用这个特征去寻找目标,会比直接用第一帧的特征图去做匹配更鲁棒。相比原始的Siamese网络,RPN网络可以直接回归出目标的坐标和尺寸,既精确,又不像multi-scale浪费时间。 在相关特征图谱上提取特征区域,然后将模板分支上的目标外观信息编码到RPN特征中,来判别前景和背景。

RPN即Region Proposal Network,首先是在Faster-RCNN中提出的,用于目标检测。分为两个支路,一个用于分类前景和背景,一个用于边界框回归。

One-shot learning:最常见的例子就是人脸检测,只知道一张图片上的信息,用这些信息来匹配出要检测的图片,这就是单样本检测,也可以称之为一次学习

proposal selection:

1、丢弃掉距离中心太远的候选框,只在一个比原始特征图小的固定正方形范围内选择

2、余弦窗(空间)(抑制距离过大的),尺度变化惩罚(抑制尺度大变化)对proposal进行排序

3、非极大抑制(NMS)将不是极大的框都去掉,去除荣誉的重叠框

具体操作:先选择一个置信度最高的框,其余的框与之的IoU大于某阈值,就剔除掉,从未处理的框中继续选一个得分最高的,重复上述操作。


 
参考博客:https://blog.csdn.net/qinhuai1994/article/details/80601220

https://blog.csdn.net/fzp95/article/details/80982201

 

你可能感兴趣的:(目标跟踪)