只记录一下总体框架,不记录实现细节。
object tracking的难点:1. 物体形变遮挡等问题严重 2.实时online更新难 3.training data少
1. Fully-Convolutional Siamese Networks for Object Tracking (ECCV16) pdf
作者提出了网络siameseFC,先将两个输入分别经过全卷积网络,z为模板图像块(上一帧),x为当前目标图像块。得到的feature map进行相关运算,得到一个衡量两个输入相关性的score map,响应最大的地方乘上步长,就可以找到当前帧的目标位置。其中的全卷积网络的结构见表格。
2.CREST: Convolutional Residual Learning for Visual Tracking (ICCV17) pdf
用residual的思想,网络学不好总体,可以让网络学一下变化差值,比较好学,效果会变好。
用CNN先提取将要search的patch的特征,得到的feature map经过一个base layer+spatial residual layers+temporal residual layers得到最终的response map.
3. Learning Multi-Domain Convolutional Neural Networks for Visual Tracking (CVPR16) pdf
作者认为物体的tracking用单独的网络很难做,因为会有形变、遮挡等各种变化,而且在一个视频中要跟踪的目标,在另一个视频中可能就是北京了,因此一个网络不是很容易学得这些很specific的特征。因此提出了MDNet,一个视频看作一个domain,前面有shared layers,最后一层fc层(binary classification)每个视频都不同,因此网络会学习共同的特征,最后一层又会根据domain的不同又有改变。(作者说在nlp中这种multi-domain learning 比较popular)
下图中黄色是positive sample,蓝色是negative。
MDNet网络小的原因:1.visual tracking只需要区分背景和目标,只有两类,因此网络不需要很复杂。 2.网络变深,位置信息会被diluted。 3. 目标一般比较小,所以input尺寸会小,自然需要network尺寸小。 4.efficient
训练策略是,在第interation时, minibatch用的training samples是序列的,并只有可以更新,。loss是softmax loss。
训练完成后这些fc都会被去掉,取而代之一个新的fc进行online tracking。
4. Learning to Track at 100 FPS with Deep Regression Networks (ECCV16) pdf
作者提出goturn( Generic Object Tracking Using Regression Networks),在测试时可以达到100fps,速度很快。Goturn完全是offline的,在测试时并不进行online update。
网络结构如下,将前一帧目标的bounding box的中心点作为crop中心,2倍bbox的长宽进行crop得到一个输入,同时也同样尺寸位置crop当前帧得到search region得到另一个输入,同时输进网络。当然对于快速运动物体或遮挡等情况,作者说留着当future work。
5. End-to-end representation learning for Correlation Filter based tracking (CVPR17) pdf
作者认为,一个pre-trained的CNN可以提出很好的表征物体信息的features,而相关滤波又可以在频域上进行点运算,并使用FFT加快速度,这两个结构合起来可以提高tracking的performance,因此作者很自然的想法是做成一个end-to-end的网络CFNet.
网络结构见下图。未完待续。
6. High-Speed Tracking with Kernelized Correlation Filters (TPAMI15) pdf
公式太多。。。。看不完。总体就是用当前帧和滤波器做相关,预测相关性,看是否是正样本。越靠近目标区域,相关性越大,正样本可能性越大。相关操作因为可以变为频域的乘法,使用FFT,速度会变快。
7. Learning Policies for Adaptive Tracking with Deep Feature Cascades (ICCV17) pdf
目前的方法,用deep learning提出deep的feature效果会好,但速度变慢;而直接用相关滤波的方法,效果没那么好,但速度快。因此作者结合了两种方法,提出了一个可以自适应的方法 EArly-Stopping Tracker (EAST),容易track的frame就采用相关滤波即可,而难追踪的frame就继续进行convolution,得到表现好的deep feature。
如图,用reinforcement的方法训练一个agent,判断每一层的target的位置,判断这个位置是否可信,可信就可以输出,不可信就继续进入下一层,提取更high-level的特征。发现绝大多数frame是很容易追踪的。
8. Robust Object Tracking based on Temporal and Spatial Deep Networks(ICCV17) pdf
提出了一个新的网络,结合了时域和空域的信息,提高tracking的效果。
结构如图,包括三个网络,先经过feature net提出low-level特征,然后