Siam R-CNN: Visual Tracking by Re-Detection读书笔记

Siam R-CNN: Visual Tracking by Re-Detection读书笔记

这篇论文是参考了很多论文的结构,取了三个算法的部分结构进行修改组合(Faster-rcnn、Cascade R-CNN: Delving into High Quality Object Detection和PReMVOS ),然后加入了基于历史轨迹的动态规划算法和特殊的训练方法。
主要贡献点:
提出基于历史轨迹的动态规划算法(TDPA)
新的难例挖掘算法
重检测跟踪框架

算法框架
Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第1张图片
作者表示Feature Extractor和ROI部分取自在COCO训练好的Faster-rcnn,Re-Detection Head为修改后不对类别敏感的检测网络,参考了《Cascade R-CNN: Delving into High Quality Object Detection》这篇论文的结构
Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第2张图片

通过设置不同的IOU阈值,训练了多个级联的RPN检测器,对目标的边框逐渐的进行精修,原因是作者实验发现设置不同阈值,阈值越高,其网络对准确度较高的候选框的作用效果越好。不论阈值设置多少,训练后的网络对输入的proposal都有一定的优化作用。

跟踪流程(上面框图为例)
在对输入图像提取特征和ROI操作过后,将GT特征与ROI提取出的三个特征分别进行组合然后经过一个1X1的卷积层降低一半的数据量后输入Re-Detection Head,去除掉分数较低的输出box后得到两个box , 在于上一帧中当前位置得到的box 进行匹配组合,组合的条件是边框(x,y,w,h)之间的L_\inftynorm,即max(|x1 − x2 |,|y1 − y2 |,|w1 −w2 |,|h1 − h2 |)小于预设值 。上图可知匹配结果为 。
然后将这四个特征在次输入Re-Detection Head进行检测得到四个相似度结果 。
然后就是引入TDPA选择合适的检测结果,然后用PReMVOS中训练好的box2seg获得目标掩码

基于历史轨迹的动态规划算法TDPA

Tracklets的建立:
Tracklet可以理解为一小个片段的跟踪结果,在一个时间里可以同时有多个Tracklet(包括正确目标和相似目标),完整个跟踪结果就是将过程中的Tracklet组合起来。
Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第3张图片

Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第4张图片

仍然沿用上面的例子,表格detst是第二次检测获得的结果,这里对应上图中的第6步。
然后对每个box循环,如果相似度大于 α \alpha α,并且没有ambiguity部分就将边框B2并入A1所在的tracklet,否则就新建一个tracklet。
No-Ambiguity的定义:假设当前box为上图中(A1,B2),若0.92- β \beta β>=(A1,:)OR(:,B2)这说明该box No-Ambiguity。

Scroing:
通过分数评价跟踪结果的优良程度
在这里插入图片描述
A表示完整的跟踪序列,有多个时间不重叠的tracklet a组,自己大概画了个示意图
Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第5张图片
Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第6张图片
ff_score为第一次检测的相似度, ff_tracklet为第二次的相似度。 loc_score是tracklet切换带来的空间惩罚
在这里插入图片描述

Online Dynamic Programming
Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第7张图片

新的难例挖掘算法
作者认为传统Faster-rcnn的训练过程中,负样本不够,尤其是级联的RPN后两个阶段负样本不足,同时如过在当前视频获取的负样本可能未标注或者容易区分。所以他训练了一个Embedding Network,在其他视频中搜索100个难例来作为负样本。

Embedding Network 收到re-id的思想的启发,利用来自PReMVOS 的网络,使用batch-hard triplet loss先在COCO的各个类别上进行训练,然后再在YouTube-VOS上进行训练以消除各个对象实例之间的歧义。 例如,在嵌入空间中,两个不同的对象应该相距较远,而不同帧中的同一对象之间距离应相近

Index Structure 用类似最邻近的方法构建一个高效的索引结构,一次来快速负样本
Training Procedure 为了降低训练过程中的计算量,作者在训练过程中先对每个样本进行了特征提取和ROI的操作。
下图是获取的负样本,左上角为样本,其余为挖掘算法获得的负样本。
Siam R-CNN: Visual Tracking by Re-Detection读书笔记_第8张图片

你可能感兴趣的:(单目标跟踪)