论文:Fast Online Object Tracking and Segmentation :A Unifying Approach(SiamMask)

Fast Online Object Tracking and Segmentation :A Unifying Approach
快速在线目标跟踪和分割:一种统一的方法

论文地址:论文地址
源码:源码GitHub
大佬知乎:我对Siamese网络的一点思考(SiamMask)
参考博客:SiamMask:视频跟踪最高精度 (中科院王强大神作品)
参考博客:【阅读笔记】SiamMask: Fast Online Object Tracking and Segmentation
参考博客:来吹一波siamMask(神经网络Mask追踪,Ubuntu+Conda+PyTorch) (实际调试参考)

       文章摘要:在这篇文章中,作者提出了一个简单的模型,可以同时实现视频目标跟踪和视频目标分割这两个任务,并能达到实时的效果。文章提出的模型叫SiamMask,该模型通过在用于目标跟踪的全卷积孪生神经网络上增加mask分支来实现目标的分割,同时增强网络的loss,优化网络。一旦网络训练好之后,SiamMask仅依赖于初始的一个bounding box就可以实现类别无关的目标实时跟踪及分割(at 35 frames per second)。文章提出的模型不仅只是简单、功能多样以及速度快,其效果也超过了VOT-2018的其他实时跟踪网络,在目标跟踪领域建立了新的state of the art。同时,还在DAVIS-2016, DAVIS-2017视频分割数据集上取得了具有竞争力的表现和最快的速度。

先挂在这儿,过两天再补上,现在没时间啊。身心俱累


引用大佬的一句话:
        我自己将2013年以后的跟踪分为几类,第一类是预测score的方法,这类算法以相关滤波和SiameFC为代表。通过预测候选区域的score map来得到物体的位置,物体的尺度大小通常是通过图像金字塔得到。同时无法得到物体的长宽比变化。

       第二类就是以GOTURN和SiamRPN为代表的做boundingbox regression的方法。这也是SiamRPN取得当前最好结果的核心所在,充分挖取精度方向的红利。实际上并不是SiamRPN预测的有多稳定,而是在预测正确的时候,会给出更为精确的box。利用网络预测长宽比可以调整box,这个方向一直以来被大家所忽视,所以SiamRPN很快杀出重围。


论文:Fast Online Object Tracking and Segmentation :A Unifying Approach(SiamMask)_第1张图片

*d是depth-wise卷积的cross correlation互相关操作

引用【阅读笔记】SiamMask: Fast Online Object Tracking and Segmentation

(1)在第一帧,用矩形框框出想要跟踪的物体,作为网络的模板z,即网络上半部分的输入。
(2)输入视频中的一帧作为待搜索图像x,即网络下半部分的输入。
(3)网络接收两个输入,得到三个分支的预测。
(4)根据score分支得到预测的目标区域,然后找到对应位置的mask作为输出,bounding box的生成方式即为3.2中所阐述的。
(5)若网络为二分支,则根据Min-max的方法生成一个box,然后用这个box去框出下一帧的对应区域作为下一次的待搜索图像x,再这之前,会先将这个box往外padding一定大小到x的输入尺寸。若是三分支的网络,文中说用box分支去生成这个待搜索区域效果更好。
(6)回到第(3)步进行下一帧的推断。

但是相较于预测score和box,mask的预测会更为困难。我们这里使用的表述方法,是利用一个vector来编码一个RoW的mask。这使得每个prediction位置具有非常高的输出维度(63*63), 我们通过depth-wise的卷积后级联1x1卷积来升维来实现高效运行。


你可能感兴趣的:(图像处理,目标检测追踪相关)