PULT:Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习)

Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习 )

因为是无监督学习,所以需要对样本数据充分挖掘,产生适合跟踪的训练样本。本文首先使用contrastive learning学前景、背景区分的能力。在数据集ILSVRC 2015中,PUL算法首先使用EdgeBox生成高质量的proposal,并借助前景、背景区分模块进行时序上的训练样本收集。最后,由于这些无监督收集到的样本无可避免的存在噪声,作者又重新优化了SiamFC的loss function,以适应当前的无监督数据。最后就是用收集的样本做正常的SiamFC跟踪。

一 Background Discrimination Learning(背景辨别模型)

基本思想就是采用对比学习,本文类似SiamCLR,训练分类前景和背景的网络。但因为所需BatchSize太大,所以加入了AHM(Anchor-based Hard Negative Mining)

伪代码:

 Algorithm 1: Anchor-based Hard Negative Mining
Input: Frame set F, rounds R, iterations per round T ,
batch size N and the initial model M0.
Output: Background discrimination model Mb.
1 for i=1:R do
2 Sample patch set E from F;
3 Randomly select candidate anchors Pi from E;
4 Candidate anchor evaluation using (5);
5 Get anchor set {Ai}Ti=1;
6 for t=1:T do
7 Select N-1 nearest neighbors N (At) of At;
8 Use N (At) and At for one mini-batch   
contrastive learning with (4);
9 Update the model Mi;
10 end
11 end

使用ILSVRC-2015 dataset,在视频的每10帧中采样一个训练帧,得到训练集F。应用EdgeBox为F中的每个帧生成500个object proposals

使用NMS为每一帧生成64个建议(表示为P)。对于每个epoch,我们通过在每个视频的一个随机帧中随机选择12个建议,从F中随机抽样一个基于补丁的训练集E。

每次迭代选择N个样本,增强后有N*E个。对这些样本做AHM,按照如下的分数选择前N-1个最近的样本组成一个样本集合
N ( A t ) N (A_t) N(At)
因为每轮有T次迭代,最终组成
A = A i i = 1 T A = {A_i}_{i=1}^T A=Aii=1T

s i = ∑ j = 1 N − 1 ϕ t ( z i ) ⋅ ϕ t ( z j ) , z i ∈ P t , z j ∈ N ( z i ) si = \sum_{j=1}^{\N-1} ϕ_t(z_i) · ϕ_t(z_j), z_i ∈ P_t, z_j ∈ N (z_i) si=j=1N1ϕt(zi)ϕt(zj),ziPt,zjN(zi)

训练时,先做20轮正常SiamFC训练,在做40轮加上AHM的(Use N (At) and At for one mini-batch)。LOSS采用
L c ( i , j ) = − l o g e x p ( ϕ ( z i ) ⋅ ϕ ( z j ) / τ ) ∑ k = 1 2 N I [ i ! = k ] e x p ( ϕ ( z i ) ⋅ ϕ ( z k ) / τ ) Lc(i, j) = −log \frac{exp(ϕ(z_i) · ϕ(z_j)/τ)}{\sum_{k=1}^{2N}I[i!=k]exp(ϕ(z_i) · ϕ(z_k)/τ)} Lc(i,j)=logk=12NI[i!=k]exp(ϕ(zi)ϕ(zk)/τ)exp(ϕ(zi)ϕ(zj)/τ)
本质就是在做simCLR类的对比学习,将N (At) 作为正样本, 所有At作为负样本。训练结果即将追踪目标作为前景,其他部分作为背景。训练网络分辨前背景的能力,以实现下面对跟踪训练样本的收集。

二 Temporal Mining(时态挖掘)

收集即是随机从数据集中随机选择一个开始帧。然后从该帧中随机选择一个proposal(跟踪目标)以开始挖掘。在对视频中采样的连续帧进行跟踪后,我们在最后一帧中获得了一个具有时间外观变化的跟踪面片。然后将第一个和最后一个面片收集为面片对进行训练,表示为S。又因为如此产生的样本必然会有噪声,所以为SiameseFC设计一种新的LOSS
L a l l = L N R ( f ) + λ L c ( f ) L_{all} = L_{N R}(f) + λL_c(f) Lall=LNR(f)+λLc(f)

你可能感兴趣的:(目标跟踪,机器学习,计算机视觉,无监督学习,深度学习)