MDNet视频目标跟踪算法中的重检测机制分析

1. 论文基本信息


  • 论文标题:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
  • 论文作者:Hyeonseob Nam(Dept. of Computer Science and Engineering, POSTECH, Korea)等人
  • 论文出处:CVPR 2016
  • 在线阅读:https://arxiv.org/pdf/1510.07945v2.pdf
  • 源码链接1:https://github.com/HyeonseobNam/MDNet (MATLAB版本)
  • 源码链接2:https://github.com/HyeonseobNam/py-MDNet (Python 3.6版本)

本文的参考代码为上述高亮版本的代码。




2. 网络结构图


论文的详细网络结构如下图所示:
在这里插入图片描述




3. 重要变量


MDNet算法在tracking阶段,为了获得更强的鲁棒性,算法采用了检测机制,对不同的情况进行处理。首先看源码中设置的几个关键变量:

  1. result. 它是一个数组,表示计算出来的目标预定位位置 [ x , y , w i d t h , h e i g h t ] [x, y, width, height] [x,y,width,height]
  2. result_bb. 它是一个数组,表示基于上述预定位位置的回归位置 [ x ′ , y ′ , w i d t h ′ , h e i g h t ′ ] [x', y', width', height'] [x,y,width,height]
  3. success. 它是一个布尔Flag,表示当前的预定位的目标图像是否可靠,1表示可靠,0表示不可靠。



3. 重检测流程


MDNet在的重检测可以看作为两个阶段:预定位阶段和边框回归阶段。算法首先利用MDNet最终的分类得分输出对目标进行预定位,具体做法是对256个候选目标的pos probability得分进行排序,取前5个,然后对这5个样本各自的 [ x , y , w i d t h , h e i g h t ] [x, y, width, height] [x,y,width,height]取平均值,这就是预定位的position。

接下来计算预定位是否可靠,方法是:对上述具有最高得分的前5个候选样本,计算得分平均值,如果平均得分大于0,,则认为得分可靠,否则认为预定位不可靠。

如果预定位结果可靠,就调用MDNet自己的回归器对上述5个候选样本进行一次边框回归(Bounding box regression),以期得到更加精确的定位 [ x ′ , y ′ , w i d t h ′ , h e i g h t ′ ] [x', y', width', height'] [x,y,width,height]

如果预定位结果不可靠,就准备在下一帧中扩大搜索范围,以期找回目标。

重检测流程图如下图所示:

Created with Raphaël 2.2.0 开始 预定位 预定位是否可靠? 采集前k个高分样本(k=5) 利用回归器进行边框回归 结束 调大采样范围参数,用于在下一帧进行全局搜索 直接用预定位的位置作为当前帧目标的位置 yes no

你可能感兴趣的:(视频目标跟踪(Visual,tracking),论文笔记,深度学习(Deep,learning))