High performance visual tracking with siamese region proposal network, CVPR 2018.
了解achor ratios的选取比例
是Siamese cascaded region proposal networks for real-time visual tracking的基本版本
Object tracking
1. 准确率和鲁棒性低
2. 速度慢
该网络由孪生网络和RPN网络组成。孪生网络用来提取特征,使用修改的AlexNet作为基本框架,使用Valid方式进行卷积。RPN进行分类和定位。
使用初始帧预计算两个卷积核的权重,然后在跟踪期间都固定。用当前的特征图与预计算的卷积核卷积,这样检测分支就像one-shot detection一样执行online inference
1. 舍弃离中心点太远的bounding boxes。
即在分类的response图上,选中其中心,然后选择一个“半径”,记该区域的长度为g,则会产生 g ∗ g ∗ 2 k g * g * 2k g∗g∗2k个bounding boxes。如上图蓝色区域所示。
2. 使用cosine window和scale change penalty策略对候选区域的得分重新排序,获得最好的一个。
在使用了上述两个策略筛选了bounding box之后,使用NMS对剩下的bounding box进行筛选,得到最终结果,然后使用线性插值使形状平稳变化。
从表格中可以发现,SiamRPN的性能是最好。SiamRPN的EAO比SiamFC的EAO高出了23%
从表格中可以发现,SiamRPN的EAO、Accuracy和EFO是最好的,虽然C-COT的Failure是最好地,但是它的速度非常慢,只有0.3fps,而SiamRPN可以达到160fps,因此,综合来看,SiamRPN比C-COT的性能更好
该图表示用于训练的视频数量与Expected overlap score的关系,从图中可以发现,Expected overlap score的值随着视频数量的增加而增大,这说明大量的训练数据对提升算法效果有影响
A 3 = [ 0.5 , 1 , 2 ] , A 5 = [ 0.33 , 0.5 , 1 , 2 , 3 ] , A 7 = [ 0.25 , 0.33 , 0.5 , 1 , 2 , 3 , 4 ] A_3 = [0.5,\ 1,\ 2],\ A_5 = [0.33,\ 0.5,\ 1,\ 2,\ 3],\ A_7 = [0.25,\ 0.33,\ 0.5,\ 1,\ 2,\ 3,\ 4] A3=[0.5, 1, 2], A5=[0.33, 0.5, 1, 2, 3], A7=[0.25, 0.33, 0.5, 1, 2, 3, 4]
从表中可以看到, A 5 A_5 A5的效果最好,因为多个anchor box更容易预测高宽比大的目标形状。 A 7 A_7 A7效果较差,是因为过拟合。当从Youtube增加训练数据后, A 5 和 A 7 A_5和A_7 A5和A7直接的EAO差值从0.013降到了0.007
1. 将跟踪任务看做是one-shot learning
借助该方法预测待跟踪目标的权重,代替online update。详细见5.2节
2. proposal及bounding box的筛选策略。详细内容见5.3节
https://blog.csdn.net/tmb8z9vdm66wh68vx1/article/details/89879660
集合X的仿射变换: f ( x ) = A x + b , x ∈ X f(x) = A x + b,\ x \in X f(x)=Ax+b, x∈X
和常用的数据增强手段一样,只是换了一种名称
用于数据增强,几何意义是对一个图形进行:缩放、平移、旋转、反射、错切 或者是它们的任意组合。可以通过下图理解