2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation

Facial Feature Embedded CycleGAN for VIS-NIR Translation
当前的问题及概述
由于两个模态的光谱成分的差异以及配对训练数据的不足,可见光-红外跨模态人脸识别仍然是一个具有挑战性的任务。
本文提出了一种将可见光人脸图像转换成伪近红外图像的方法,该方法通过嵌入CycleGAN的一种新的人脸特征来实现。
模型及loss
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第1张图片
嵌入CycleGAN的人脸特征流程图如图1所示,将人脸特征提取器(FFE)和反卷积模块(解码器)嵌入到原始CycleGAN的G和F两个生成器中,G映射试图将RGB图转换为近红外图像,F映射则近红外图像转换为RGB图像,从而有效地从人脸图像中提取特征。
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第2张图片
网络架构如图2所示,详细分析了通用人脸特征提取器(FFE)。
其中FFE结构包括:1,FaceNet,使用对齐面部patch的三联深度网络训练,将人脸图像直接映射到一个紧凑的欧几里得空间来测量人脸相似性。它形成了大量的人脸特征提取网络,在LFW数据集上的识别精度达到99.63%。2,DeepID3,重建VGG16和googleNet的卷积层和inception layers,在训练阶段,在中间和最终的特征提取层中加入了联合人脸识别-验证监督信号,提高了人脸识别的性能,这两种方法在LFW数据集上实现了99.53%的人脸验证精度。3,MobileFaceNet,是一个非常高效的CNN,数据量远低于现有方法的数据量,使用全局深度卷积(GDConv)[26]作为全局算子,而不是平均池,目的是在训练后学习不同空间位置的重要性。在LFW数据集上的人脸验证精度可达99.55%。
在本文中,FFE模块选取了MobileFaceNet结构,得到了FV特征,输入给翻译模块,然后利用6个残差块对近红外图像特征FN进行FV变换。最后,在FN上进行反卷积(解码器)来恢复近红外图像(G(IV))(图1中的发生器F与G具有相同的结构)。但是由于红外图和RGB图像数量的不均衡问题,因此,本文利用数量更多的RGB图像对FFE模块进行预训练,使得模型可以精确地提取到人脸特征,学习两个模态的映射函数。生成更加真实的伪红外图像。
2.2Pixel Consistency Loss
判别器loss,其中iN是近红外图像,iV是RGB图像:
在这里插入图片描述
图1中G模块尽可能最小化目标,判别器DN尽可能最大化目标,F模块与G大致相似,cycle GAN loss:
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第3张图片
由于数据库的人脸是配对的,所以对生成的图像进行像素一致性损失(pixel consistency loss),计算真实图像与来自相同模态生成的图像之间的L1距离,见图3:
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第4张图片
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第5张图片
总loss:
在这里插入图片描述
实验
数据集:
WHU VIS-NIR paired face database、Oulu-CASIA NIR-VIS face expression database
WHU VIS-NIR paired face database:整个数据集由12720张图像和160个视频组成,7中角度或表情,每个face ID有2个视频和80张visi - nir配对图像,即其中,80张来自VIS域,80张来自NIR域。
Oulu-CASIA NIR-VIS face expression database:数据库包括80个face ID的6个表情,每个face ID有48张可见光和48张近红外图像。因此在测试阶段总共有960张VIS图像和960张近红外探针图像。
WHU VIS-NIR数据集成对的face pair 展示:
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第6张图片
实验结果比较(从左到右是真实RGB图像,真实NIR图像,FFE-cycleGAN生成图像,cycleGAN生成图像):
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第7张图片
消融实验:
在这里插入图片描述
和其他框架比较:
2019 CVPR之人脸识别:Facial Feature Embedded CycleGAN for VIS-NIR Translation_第8张图片

你可能感兴趣的:(人脸识别,GAN,多模态,人脸识别,深度学习,计算机视觉)