CVPR2018读文笔记:VITAL:VIsual Tracking via Adversarial Learning

CVPR2018一共有三篇用Adverarial思想做tracking的文章。VITAL和SINT++不约而同都是处于利用adverarial的概念对缺乏diversity的在线采集正样本进行增强。

本文是UC Merced 大神Ming-Hsuan Yang与腾讯的强强联合,推出的一篇性能比肩ECO和MDNet的online trained two-stage T-by-D tracker。本文突出解决two-stage单目标跟踪器(先在原位置random sample得到candidates,再由classifier打分择优)在线训练classifier的正样本匮乏(目标上一帧跟踪位置周围密集随机采样导致正样本互相之间相似,不diverse)和正负样本imbalance的问题,提出用GAN的思想实现正样本增强,并用一种新的类focal loss解决hard negative mining(非要点,不多谈)。

本文最大的contribution是提出了一个类attention的(两层FC得到一个mask,再将此mask element-wise“dropout”即与前端feature extractor CNN feature map相乘)GAN中的generator,实现feature级而非image级的“生成”。这里的生成,指的是特征选择feature selection(通过mask加权),选择出样本中更加时序稳定robust的特征,而不是时变的discriminative特征,进而解决在目标跟踪时由于appearance variation带来的drifting。

CVPR2018读文笔记:VITAL:VIsual Tracking via Adversarial Learning_第1张图片

           如图所示,GAN的generator部分是在CNN的最后conv层与classifier的第一个FC层之间插入的两个FC和一个dot(masking加权)操作;而discriminator就是后面的classifier(两层FCs),网络结构异常简单。

这里implementGAN,与传统意义上的GAN4点不同

  • 输入是image patch feature map而不是noise distribution采样;
  • 训练的目的是得到discriminator(即classifier)而不是generator;
  • 是supervised的学习,因为是结合了分类器(discriminator)的训练,用CE loss;
  • Generator生成的不是与input等维度的image,而是与input等spatial size的1D mask掩膜;

这个GAN的训练目标如下式:

训练过程是先D后G交替进行。在训练D时,在某一帧random采样得到N个candidates,将这些candidate forward pass到网络中,经过G时生成了N个mask。将N个mask过后的feature map输入D进行N次分类、算loss、BP(fix G两层FC的参数) update D;

训练G时,选择刚才N个mask里面导致最终分类loss最大的那个座位M带入上式,然后fix D的参数,进行一次分类、算loss、BP update G。

可见,D的训练目标是Maximize一个由生成的mask(G(C))加权的‘假样本’与一个由最优mask M加权的‘真样本’之间的分类误差;而G的训练目标是minimize D对如上所述真假加权后样本的区辩能力,即使两者的分类误差变小。这,就是GAN‘对抗’的核心。即,Generator拼命去学如何用mask把那些discriminative的feature挑出来,因为这一类feature在外观变化时会导致classifier出错;而相对地,Discriminator(classifier)则是拼命在学余下的robust的feature,来对抗外观变化的影响。

效果演示:

CVPR2018读文笔记:VITAL:VIsual Tracking via Adversarial Learning_第2张图片

           两行是两帧,两列是由GAN和无GAN。越红分类器越虚,说明feature越弱;可见,当两帧之间David扭头之后,没有GAN的情况下classifier完全迷失了,即,classifier所关注的所依仗的feature被David一转头(appearance variation)全毁了。这样的feature(例如眼睛鼻子嘴)就是所说的‘discriminative’但是不‘robust’的feature,即long-term来看对外观变化描述性不够可靠;而在有GAN时,红色少很多,说明在GAN的影响下,classifier确实捕捉到了选择出了robust的feature。

你可能感兴趣的:(Deep,Learning,visual,trakcing,GAN,Adversarial)