【人脸识别】视频帧聚合:Discriminative Aggregation Network

paper:Learning Discriminative Aggregation Network for Video-based Face Recognition

论文链接:Learning_Discriminative_Aggregation_ICCV_2017


同样是2017 ICCV的paper,文章提出了一个DAN(discriminative aggregation network)网络,希望从视频流的前端整合信息。主要是GAN+metric learning,用GAN做聚合,用metric增强判别信息。

主要亮点:

结合metric learning 和 adversarial learning。
对于多帧图像,作者选择用GAN来生成有辨别信息的一帧。
对于前期的视频图像处理,有很多学习和探索的空间。

 

Idea

首先,在特征提取之前做聚合过程有以下几个好处。首先能够明显的加快识别过程,其次能够降低一些低质量图片的污染。

做图像聚合,可以利用GAN的思想:输入一个视频流,然后重建出一张人脸。

但是,GAN生成的问题:GAN只是为了获得一个视觉上更好更接近原图的图片,但是其判别力不足。

作者因此引入了metric的方法,把样本映射到一个特征空间,以提升判别能力。

这篇文章的主要思想就是把GAN和metric learning结合起来。

Approach

目标函数

【人脸识别】视频帧聚合:Discriminative Aggregation Network_第1张图片


包含m帧的视频V聚合成n张的图片X。m远大于n。
F表示特征提取网络,Dis用以评估正负样本的discriminative ability。

网络结构:
 

【人脸识别】视频帧聚合:Discriminative Aggregation Network_第2张图片

DAN的主要网络结构如上图所示。主要由聚合网络G,判别网络D和特征提取网络F构成。
首先视频流通过聚合网络合成一张或多张图。D模块用来判断图像是G生成的还是由原视频选择的。图像同时进入F提取feature,并且希望这个feature是discriminative的。
训练过程中F是fix住的。

Loss:

image


整体loss由三部分构成。

【人脸识别】视频帧聚合:Discriminative Aggregation Network_第3张图片


对于重建loss,做了以下对比:
image 像素级别的mse距离
image 重建和原图间的feature map差异
上面两种loss可以保证视觉特性,但不保证语义信息和判别力。 DAN是将重建loss应用于feature embedding,如下

image

 

image

Experiment

loss的对比实验

【人脸识别】视频帧聚合:Discriminative Aggregation Network_第4张图片


DAN精度:

【人脸识别】视频帧聚合:Discriminative Aggregation Network_第5张图片


速度:

【人脸识别】视频帧聚合:Discriminative Aggregation Network_第6张图片

 

 


 

你可能感兴趣的:(深度学习,人脸识别)