一个epoch参数表示为网络对整个数据集完成了一次训练。
:迭代次数。即在一个epoch中,分成iteration个小的数据批次即minibatch,进行训练。例如样本总数为N,每个minibatch的batchsize为n,则迭代次数=N/n
batchsize:每迭代一个数据批次batch,则相当于损失函数的值在优化空间中“下降”了一个步长。这个参数跟梯度下降法有关。SGD
另一个极端,batchsize=1,即每送入一个样本,执行一次梯度下降,称之为SGD。这种方法很适合在线学习的形式。但是单个样本的梯度随机性过强,不易收敛到最优值。
学习率,即learning rate,是一个控制反向传播误差更新步长的参数,太大了会导致网络不收敛,太小了则会导致网络收敛过慢。通常设置为0.01或更小,需要进行调参选择
增大数据集有两种手法,第一种手法,就是采集好的数据,即CelebFaces数据集的引入。第二种手法,就是将图片多尺度多通道多区域的切分,分别进行训练,再把得到的向量连接起来,得到最后的向量。
相当于数据增强??????
其中Matching function m从视频数据集上学习得到。追踪器仅仅需要寻找到和第一帧初始图像patch匹配最好的那个patch。
匹配函数:本文提出一种能够应对各种追踪目标外观变化的更通用的匹配函数。训练完成后,该函数不再改变。
首先,提出从额外的视频数据中学习一个通用的追踪匹配函数,以鲁棒地应对目标在视频序列中可能会遭遇的常见的外观变化。
第二,基于该匹配函数,提出一个达到state-of-the-art的追踪器。
第三,为了学习匹配函数,针对性地提出了双流孪生网络结构。
最后,该追踪器能够实现re-identification。
NCC,Normalized Cross-Correlation,最古老的的匹配追踪算法。虽然简单,却非常有效。
Lucas and Kanade Tracker给匹配函数增加了一个仿射变换。
MST则依靠于概率匹配法Probabilistic Matching。
FRT使用地面移动物的距离来匹配。
IVT通过追踪中获得的特征图像度量进行匹配。
HBT以一种概率方式利用HOG特征。
FBT使用颜色不变性来对光照变化鲁棒。
上述方法的匹配函数均显式地针对某一种干扰建模。本文则与之不同,直接从标注视频学习出匹配函数,更为通用。
Max pooling会降低图像的分辨率,从而影响定位的精确性;但是却能增强对局部形变的不变性。因此本网络中只有前几层为了消除噪声提取特征而加入了maxpooling。
放弃一次前向传递数以百计proposals的做法,直接将整幅图像作为输入,几层卷积后送入ROIpooling,输出长度固定的表达。
layer越深,其对外观变化越不敏感,但也更不具区分力,尤其是面对同类物体的时候。因此使用多个layers的输出作为中间表达,送入loss层。
ReLU激活函数的输出范围可能很大,因此网络的输出和损失函数可能被生成特征的大小而非表达质量严重影响。因此在损失层前加入L2 normalization layer。
使用类AlexNet或类VGGNet,以利用ImageNet预训练的网络参数。
Success Plot. 如果算法估计的bounding box(bbox)和ground truth box(gt)的重叠率超过一个阈值,则判定跟踪成功。
Precision Plot. 如果估计的bbox中心和gt中心距离小于某个阈值,则判定追踪成功。
基于大量额外数据调整的Siamese网络(c)比直接基于ImageNet预训练的网络(a)和基于首帧数据微调的网络(b)表现都好。
不加max pooling layers的网络表现更好。
基于多层特征的网络(f)比基于最后一层输出的网络(e)表现更好。
更深的网络(g)比浅一些的网络(f)表现更好。
重点有光照变化
光线条件差,
背景相似干扰
尺度的变化 镜头的变换尺度无法适应变化
复杂背景 如果首帧定位的目标背景信息较为复杂时 也会对其造成干扰。
相似物,当背景种存在与目标颜色相近的干扰物时,也可能会混入目标。
大面积遮挡
对最终模型的响应图进行分析
观察不同帧的响应图与其对应的尺度的搜索 采用的ALEXNET可能是为分类设计的网络 区分度不够
或者再相似性度量方面 采用cross corrlation 计算特征图的相似度
也可改成余弦相似度
整体上的解决如下:目标特征不够具体、突出、全面
没能利用好空间信息、运动信息
搜索域方法的局限性
classification和verification的本质差别
etc.
2、需要对首帧标注图像做处理
首帧标注是唯一的绝对可信的目标信息。而SiamFC模型中,采用的是矩形examplar image与搜索域search region进行互相关计算,如果不能降低examplar图像中背景信息的干扰,则必然会对结果造成影响。
因此应当对标注图像进行进一步的目标提取,并对背景信息进行抑制。
直接对首帧图像进行处理,目标外的背景涂成白色。
dinosaur序列没有明显效果提升。一如既往没有跟到目标。
bag序列修改后,spr=0.5661,修改前,spr=0.6061。居然变差了一点点。。有些尴尬。
分析可能是白色背景的问题,改成黑色试试。
改成黑色背景,dinosaur序列的spr虽然没有改善,但是观察结果有增强。
bag序列提升很明显,spr从0.6061提升到0.7452。
但是对gym3序列进行实验时效果反而很差。改为白色背景则又有所提升。分析是由于其背景主色偏黑所致。
说明需要增强的是目标和背景的对比度。
使用FCN进行图像分割:
直接将fcn的输出作为mask,乘以z_crop。分割效果不佳,目标偏小,反而降低了spr。
明天尝试对分割结果进行腐蚀操作。
腐蚀后即使分割效果很好,但是追踪结果却非常差。
分析
分割后效果不佳,说明模板图像中的背景信息作为上下文,对于追踪本身也是很重要的。可是对基于相似性学习的SiamFC来说,为什么目标以外的背景信息也会这么重要呢?
3、利用空间信息,估计运动模型
在存在较多相似目标的场景中,可能特征匹配难以准确地判断哪个才是真正的目标。而人在这种场景下追踪目标的策略往往是根据
1、目标的空间信息,例如一队人中的第几个,或者目标周围有哪些参照物。这一点可以通过对目标旁边的背景进行建模实现。
2、根据目标的运动轨迹进行预测,因为目标的变化(无论是位置还是外观)在序列中往往是连续可微的。