论文笔记High performance visual tracking with siamese region proposal network

论文笔记High performance visual tracking with siamese region proposal network

  • 1. 标题及来源
  • 2. 阅读目的
  • 3. 领域
  • 4. 拟解决的问题
  • 5. 提出的方法
    • 5.1 整体网络结构
    • 5.2 把跟踪任务看做one-shot learning
    • 5.3 候选区域选择
  • 6. 结果
    • 6.1 VOT-2015实验结果
    • 6.2 VOT-2016实验结果
    • 6.3 VOT-2017实验结果
    • 6.4 OTB-2015实验结果
    • 6.5 消融实验的实验结果
      • 6.5.1 数据大小对实验结果的影响
      • 6.5.2 Anchor选取对实验结果的影响
  • 7. 改进&存在的问题
  • 8. 可借鉴的点
  • 9. 知识补充
    • 9.1 贝叶斯方法在机器学习中的应用
    • 9.2 仿射变换
    • 9.3 one-shot learning

1. 标题及来源

High performance visual tracking with siamese region proposal network, CVPR 2018.

2. 阅读目的

了解achor ratios的选取比例
是Siamese cascaded region proposal networks for real-time visual tracking的基本版本

3. 领域

Object tracking

4. 拟解决的问题

1. 准确率和鲁棒性低
2. 速度慢

5. 提出的方法

5.1 整体网络结构

论文笔记High performance visual tracking with siamese region proposal network_第1张图片
该网络由孪生网络和RPN网络组成。孪生网络用来提取特征,使用修改的AlexNet作为基本框架,使用Valid方式进行卷积。RPN进行分类和定位。

  1. 将Detection Frame和Template Frame送入到孪生网络中提取特征。其中Detection Frame输出的特征是φ(x),Template Frame输出的特征是φ(z)。
  2. 将φ(x)和φ(z)分别输入到Classification Branch和Regression Branch中。
    a) 在Classification Branch中,φ(x)和φ(z)首先经过一个卷积层,然后将卷积后输出的特征通过“特殊的卷积”方式融合在一起,然后输出。
    b) 在Regression Branch中,φ(x)和φ(z)首先经过一个卷积层,然后将卷积后输出的特征通过“特殊的卷积”方式融合在一起,然后输出。
    备注:图中五角星的本质上是一次卷积操作,从输出的特征维度我们就可以发现在2020256的特征图中使用44256的卷积核进行卷积。但是说它特殊是因为它使用了2k/4k个44256的卷积核,然后输出的特征图维度也是2k/4k。k表示anchor box的数量

5.2 把跟踪任务看做one-shot learning

论文笔记High performance visual tracking with siamese region proposal network_第2张图片
使用初始帧预计算两个卷积核的权重,然后在跟踪期间都固定。用当前的特征图与预计算的卷积核卷积,这样检测分支就像one-shot detection一样执行online inference

5.3 候选区域选择

论文笔记High performance visual tracking with siamese region proposal network_第3张图片
1. 舍弃离中心点太远的bounding boxes
即在分类的response图上,选中其中心,然后选择一个“半径”,记该区域的长度为g,则会产生 g ∗ g ∗ 2 k g * g * 2k gg2k个bounding boxes。如上图蓝色区域所示。
2. 使用cosine window和scale change penalty策略对候选区域的得分重新排序,获得最好的一个
论文笔记High performance visual tracking with siamese region proposal network_第4张图片
在使用了上述两个策略筛选了bounding box之后,使用NMS对剩下的bounding box进行筛选,得到最终结果,然后使用线性插值使形状平稳变化。

6. 结果

6.1 VOT-2015实验结果

论文笔记High performance visual tracking with siamese region proposal network_第5张图片
从表格中可以发现,SiamRPN的性能是最好。SiamRPN的EAO比SiamFC的EAO高出了23%

6.2 VOT-2016实验结果

论文笔记High performance visual tracking with siamese region proposal network_第6张图片
论文笔记High performance visual tracking with siamese region proposal network_第7张图片
从表格中可以发现,SiamRPN的EAO、Accuracy和EFO是最好的,虽然C-COT的Failure是最好地,但是它的速度非常慢,只有0.3fps,而SiamRPN可以达到160fps,因此,综合来看,SiamRPN比C-COT的性能更好
论文笔记High performance visual tracking with siamese region proposal network_第8张图片

6.3 VOT-2017实验结果

论文笔记High performance visual tracking with siamese region proposal network_第9张图片

6.4 OTB-2015实验结果

论文笔记High performance visual tracking with siamese region proposal network_第10张图片

6.5 消融实验的实验结果

6.5.1 数据大小对实验结果的影响

论文笔记High performance visual tracking with siamese region proposal network_第11张图片
该图表示用于训练的视频数量与Expected overlap score的关系,从图中可以发现,Expected overlap score的值随着视频数量的增加而增大,这说明大量的训练数据对提升算法效果有影响

6.5.2 Anchor选取对实验结果的影响

论文笔记High performance visual tracking with siamese region proposal network_第12张图片
A 3 = [ 0.5 ,   1 ,   2 ] ,   A 5 = [ 0.33 ,   0.5 ,   1 ,   2 ,   3 ] ,   A 7 = [ 0.25 ,   0.33 ,   0.5 ,   1 ,   2 ,   3 ,   4 ] A_3 = [0.5,\ 1,\ 2],\ A_5 = [0.33,\ 0.5,\ 1,\ 2,\ 3],\ A_7 = [0.25,\ 0.33,\ 0.5,\ 1,\ 2,\ 3,\ 4] A3=[0.5, 1, 2], A5=[0.33, 0.5, 1, 2, 3], A7=[0.25, 0.33, 0.5, 1, 2, 3, 4]
从表中可以看到, A 5 A_5 A5的效果最好,因为多个anchor box更容易预测高宽比大的目标形状。 A 7 A_7 A7效果较差,是因为过拟合。当从Youtube增加训练数据后, A 5 和 A 7 A_5和A_7 A5A7直接的EAO差值从0.013降到了0.007
论文笔记High performance visual tracking with siamese region proposal network_第13张图片

7. 改进&存在的问题

  1. 该算法对于物体的尺度变化鲁棒性较弱。因为在选择候选区域时,原作者以上一帧候选区域为中心,在当前帧相同的位置选取一个k*k的矩形,然后对该矩形中的所有像素点分别作为不同anchor box的中心,对于每个像素点,都选取了0.33, 0.5, 1, 2, 3这五种不同不同比例的anchor box,虽然原作者使用了cosine window和scale change penalty,但是依然不能很好地解决尺度变化特别大的物体。例如下面这种情况:
    论文笔记High performance visual tracking with siamese region proposal network_第14张图片
  2. 该图中右边中括号内的数字应该是阈值为20时对应的值,而不是阈值为50时对应的值。论文笔记High performance visual tracking with siamese region proposal network_第15张图片

8. 可借鉴的点

1. 将跟踪任务看做是one-shot learning
借助该方法预测待跟踪目标的权重,代替online update。详细见5.2节
2. proposal及bounding box的筛选策略。详细内容见5.3节

9. 知识补充

9.1 贝叶斯方法在机器学习中的应用

https://blog.csdn.net/tmb8z9vdm66wh68vx1/article/details/89879660

9.2 仿射变换

集合X的仿射变换: f ( x ) = A x + b ,   x ∈ X f(x) = A x + b,\ x \in X f(x)=Ax+b, xX
和常用的数据增强手段一样,只是换了一种名称
用于数据增强,几何意义是对一个图形进行:缩放、平移、旋转、反射、错切 或者是它们的任意组合。可以通过下图理解
论文笔记High performance visual tracking with siamese region proposal network_第16张图片

9.3 one-shot learning

论文笔记High performance visual tracking with siamese region proposal network_第17张图片

你可能感兴趣的:(#,目标跟踪)