object tracking 论文阅读笔记(不持续)

只记录一下总体框架,不记录实现细节。

 

object tracking的难点:1. 物体形变遮挡等问题严重    2.实时online更新难    3.training data少

 

 

1. Fully-Convolutional Siamese Networks for Object Tracking  (ECCV16)    pdf

 

作者提出了网络siameseFC,先将两个输入分别经过全卷积网络,z为模板图像块(上一帧),x为当前目标图像块。得到的feature map进行相关运算,得到一个衡量两个输入相关性的score map,响应最大的地方乘上步长,就可以找到当前帧的目标位置。其中的全卷积网络的结构见表格。

object tracking 论文阅读笔记(不持续)_第1张图片

object tracking 论文阅读笔记(不持续)_第2张图片

 

 

 

 

 

 

 

 

2.CREST: Convolutional Residual Learning for Visual Tracking (ICCV17)   pdf

 

用residual的思想,网络学不好总体,可以让网络学一下变化差值,比较好学,效果会变好。

 

 

object tracking 论文阅读笔记(不持续)_第3张图片

 

用CNN先提取将要search的patch的特征,得到的feature map经过一个base layer+spatial residual layers+temporal residual layers得到最终的response map.

object tracking 论文阅读笔记(不持续)_第4张图片

 

 

 

 

 

 

3. Learning Multi-Domain Convolutional Neural Networks for Visual Tracking   (CVPR16)     pdf

 

作者认为物体的tracking用单独的网络很难做,因为会有形变、遮挡等各种变化,而且在一个视频中要跟踪的目标,在另一个视频中可能就是北京了,因此一个网络不是很容易学得这些很specific的特征。因此提出了MDNet,一个视频看作一个domain,前面有shared layers,最后一层fc层(binary classification)每个视频都不同,因此网络会学习共同的特征,最后一层又会根据domain的不同又有改变。(作者说在nlp中这种multi-domain learning 比较popular)

 

下图中黄色是positive sample,蓝色是negative。

 

 

object tracking 论文阅读笔记(不持续)_第5张图片

 

 

MDNet网络小的原因:1.visual tracking只需要区分背景和目标,只有两类,因此网络不需要很复杂。 2.网络变深,位置信息会被diluted。 3. 目标一般比较小,所以input尺寸会小,自然需要network尺寸小。 4.efficient

 

训练策略是,在第interation时, minibatch用的training samples是序列的,并只有可以更新,。loss是softmax loss。

 

训练完成后这些fc都会被去掉,取而代之一个新的fc进行online tracking。

object tracking 论文阅读笔记(不持续)_第6张图片

 

 

 

 

 

4. Learning to Track at 100 FPS with Deep Regression Networks (ECCV16)      pdf

 

作者提出goturn( Generic Object Tracking Using Regression Networks),在测试时可以达到100fps,速度很快。Goturn完全是offline的,在测试时并不进行online update。

 

网络结构如下,将前一帧目标的bounding box的中心点作为crop中心,2倍bbox的长宽进行crop得到一个输入,同时也同样尺寸位置crop当前帧得到search region得到另一个输入,同时输进网络。当然对于快速运动物体或遮挡等情况,作者说留着当future work。

object tracking 论文阅读笔记(不持续)_第7张图片

 

 

 

 

 

5. End-to-end representation learning for Correlation Filter based tracking (CVPR17)      pdf

 

 

作者认为,一个pre-trained的CNN可以提出很好的表征物体信息的features,而相关滤波又可以在频域上进行点运算,并使用FFT加快速度,这两个结构合起来可以提高tracking的performance,因此作者很自然的想法是做成一个end-to-end的网络CFNet.

 

网络结构见下图。未完待续。

 

 

object tracking 论文阅读笔记(不持续)_第8张图片

 

 

 

 

 

 

6. High-Speed Tracking with Kernelized Correlation Filters (TPAMI15)           pdf

 

 

公式太多。。。。看不完。总体就是用当前帧和滤波器做相关,预测相关性,看是否是正样本。越靠近目标区域,相关性越大,正样本可能性越大。相关操作因为可以变为频域的乘法,使用FFT,速度会变快。

 

 

 

7. Learning Policies for Adaptive Tracking with Deep Feature Cascades (ICCV17)        pdf    

 

目前的方法,用deep learning提出deep的feature效果会好,但速度变慢;而直接用相关滤波的方法,效果没那么好,但速度快。因此作者结合了两种方法,提出了一个可以自适应的方法 EArly-Stopping Tracker (EAST),容易track的frame就采用相关滤波即可,而难追踪的frame就继续进行convolution,得到表现好的deep feature。

 

如图,用reinforcement的方法训练一个agent,判断每一层的target的位置,判断这个位置是否可信,可信就可以输出,不可信就继续进入下一层,提取更high-level的特征。发现绝大多数frame是很容易追踪的。

object tracking 论文阅读笔记(不持续)_第9张图片

 

 

 

 

 

 

 

8. Robust Object Tracking based on Temporal and Spatial Deep Networks(ICCV17)     pdf

 

提出了一个新的网络,结合了时域和空域的信息,提高tracking的效果。

 

结构如图,包括三个网络,先经过feature net提出low-level特征,然后

 

object tracking 论文阅读笔记(不持续)_第10张图片

你可能感兴趣的:(object tracking 论文阅读笔记(不持续))