Siamese RPN 训练网络结构解析

Siamese RPN 训练网络结构解析_第1张图片

最近在做目标追踪领域相关论文阅读,以下是对论文的阅读与总结

上图为SiameseRPN的训练框架:左边是用于提取特征的孪生网络;中间是区域推荐网络,包含分类分支和回归分支。 这里采用成对的相关操作来得到最后的输出。关于输出的各个通道的细节在右边具体展示:在分类分支,输出的特征图包含2k个通道,分别表示k个锚点的前景背景的分数;在回归分支,输出的特征图包含4k个通道,分别表示k个锚点的坐标偏移的预测。图中*表示相关操作。

1.Siamese网络 在孪生网络中,本文采用了一个没有填充的全卷积结构。用于提取图像特征的孪生网络分成两个分支。接收模板帧的小图为模板分支,接收当前帧的图像为检测分支。两支网络只有输入不同,权重参数完全相同。所以网络两支可以隐式的编码相同的变化,非常适合于跟踪任务。 

2.-- RPN 在Siamese FC中,网络只需要根据相关操作的结果得到响应图,进行预测目标所在的位置。而为了引入区域推荐网络进行精准的位置的预测,网络必须做出比较大的改动。根据检测中区域推荐网络的经验,如果有个k锚点,那么网络需要为分类分支输出通道数为2k的特征图,为回归分支输出通道数为4k的特征图。因此在进行相关操作操作之前,算法需要提升通道数。图中间部分从上到下的第1,3个卷积就是提升维度用的卷积。同时为了网络的深度对齐,第2,4个卷积也会被应用,不过通道数没有变。之后便以上述相关操作的描述方式进行相关操作。

3.-- 训练数据的构成 在训练阶段,Siamese结构所需要的样本对是从ILSVRC和Youtube-BB中以一个随机间隔选出来的。模板和检测帧的图像来自于同一个视频中的同一个物体的两帧。采用一定间隔内的图片对作为样本,在帧间隔比较远的时候学习目标的变换。但过远的间隔可能使得目标变换过于大,网络可能学习这种变化会比较困难,甚至可能带来负面的作用。所以在实验过程中采用小于100帧的间隔的图片对作为样本,而不是从视频中任意挑选两帧作为图片对。 

分类输出分支:

回归输出分支:

 

回归损失:

 

总的损失:

你可能感兴趣的:(tracking)