Masked Face Recognition Using Deep Learning: A Review

摘要:本次调查整理并回顾了最近基于深度学习技术为蒙面人脸识别(MFR)开发的工作,提供了对 MFR 系统开发流程的见解和深入讨论。根据深层网络架构的特点和深层特征提取策略,引入了最先进的技术,还讨论了 MFR 领域使用的常见基准测试数据集,强调了许多挑战和有前途的研究方向。

一、引言

        遮挡人脸识别(OFR)任务引起了广泛的关注,并且已经提出了许多深度学习方法,包括稀疏表示、自动编码器、基于视频的对象跟踪、双向深度网络和字典学习。本研究重点关注基于深度学习设计和开发的最新进展的人脸识别方法。这项及时研究的主要贡献有三个:

        1.形成并提出一个通用的开发流程,该流程被大多数拟议的 MFR 系统广泛采用。对该框架的主要阶段进行了深入讨论,其中深度学习是基线。

        2. 全面回顾 MFR 或 OFR 领域的最新技术。介绍了文献中使用的主要深度学习技术。此外,还讨论了常用于评估 MFR 系统性能的基准数据集和评估指标。

        3. 强调面部识别这一新兴任务中的许多进展、挑战和差距,从而为如何在不同研究方向利用当前不断进步的技术提供重要见解。本综述研究致力于服务 FR 社区并启发更多的研究工作。

二、MFR 通用流程

        本节介绍 MFR 系统通常如何通过一系列复杂的阶段进行开发,如图 2 所示。通用方法主要基于深度学习模型,该模型被广泛用于学习蒙面人脸的辨别特征。从该流程中可以看出,开发最终识别系统时通常会采取几个关键步骤,如以下小节所述。

Masked Face Recognition Using Deep Learning: A Review_第1张图片

        首先,准备一组原始蒙版图像和相应的真实图像。这通常包括将它们分成分类目录,以便进行模型训练、验证和测试。接下来是一些预处理操作,例如数据增强和图像分割。然后,使用一个或多个深度学习模型提取一组关键面部特征,这些模型通常在通用图像上进行预训练,并在新集合(即蒙面人脸)上进行微调。这些特征应该具有足够的辨别力,以准确地检测掩模。然后应用面部去遮蔽过程以恢复遮蔽的面部并返回原始面部的估计。最后,将预测的人脸与原始的真实人脸进行匹配,以决定是否识别或验证特定的人。

1.图像预处理

        用于合成面罩的最流行的方法包括MaskTheFace、MaskedFace-Net、深度卷积神经网络(DCNN)、CYCLE-GAN、身份感知掩模 GAN(IAMGAN)和 starGAN 。

2.深度学习模型

        许多著名的方法已经被提出并尝试通过手工制作的局部或全局特征来识别人脸,例如 LBP、SIFT和Gabor 。然而,这些整体方法无法维持偏离其最初假设的不受控制的面部变化。后来,引入了浅层图像表示,例如基于学习的字典描述符,以改善先前方法的独特性和紧凑性问题。尽管实现了准确性的提高,但这些浅层表示仍然往往表现出针对现实世界应用的低稳健性以及针对面部外观变化的不稳定性。

        2010年之后,深度学习方法得到快速发展,并以多个深层的形式用于特征提取和图像转换。随着时间的推移,他们证明了在学习与不同抽象级别相对应的多个级别的面部表征方面的优越性[48],显示出面部变化的坚实不变性,包括灯光、表情、姿势或伪装。深度学习模型能够结合低级和高级抽象来表示和识别具有很强独特性的稳定的面部身份。接下来,介绍用于蒙面人脸识别的常见深度学习模型。

(1)卷积神经网络

        AlexNet是已成功用于 FR 任务的最流行的预训练架构之一。随着集成图形处理单元(GPU)的出现,AlexNet 减少了训练时间并最大限度地减少了错误。VGG16 和 VGG19也是非常常见的基于 CNN 的架构,已用于各种计算机视觉应用,包括人脸识别。基于 VGG 的模型通常提供基于卷积的特征或表示。尽管取得了显着的准确性,但它们却受到训练时间和复杂性的影响。随着时间的推移,图像识别的任务变得越来越复杂,因此应该由更深的神经网络来处理。然而,如果网络中添加更多层,它就会变得更加复杂且难以训练;因此,通常会遇到精度下降的情况。为了克服这一挑战,引入了残差网络(ResNet),它堆叠额外的层并实现更高的性能和准确性。所添加的层可以学习复杂的特征;然而,添加更多层必须凭经验确定,以控制模型性能的任何下降。 MobileNet 是最重要的轻量级深度神经网络之一,主要依赖于流线型架构,通常用于 FR 任务。其架构表现出超参数的高性能,并且模型的计算速度更快。Inception 及其变体也是流行的基于 CNN 的架构;它们的新颖之处在于使用模块或块来构建包含卷积层的网络,而不是堆叠它们。 Xception是 inception 的极端版本,它用深度可分离卷积替换了 inception 的模块。表 1 总结了 MFR 领域中使用的流行的基于 CNN 的模型的主要特征。

Masked Face Recognition Using Deep Learning: A Review_第2张图片

(2)自动编码器

        自动编码器是一种流行的深度神经网络,它提供了一种基于无监督特征学习的范例来有效地编码和解码数据。由于它能够自动从大量未标记数据中学习鲁棒特征,因此人们付出了大量的研究努力将输入数据编码到具有显着和有区别的表示的低维空间,这是由解码器完成的。然后,解码器在训练时通过反向传播反转该过程,从编码阶段生成关键特征。自动编码器已被有效地用于OFR任务,例如LSTM自动编码器、双通道SSDA(DC-SSDA)、去腐败自动编码器和基于3D地标的变分自动编码器。

(3)生成对抗网络

        生成对抗网络(GAN)[74]用于自动探索和学习输入数据中的规则模式,而无需广泛注释的训练数据。 GAN 由一对神经网络组成:生成器和判别器。生成器使用给定分布的随机值作为噪声数据并生成新特征。鉴别器代表一个二元分类器,对生成的特征进行分类并决定它们是假的还是真的。 GAN 因其对抗性训练设置而被称为对抗性,因为生成器和判别器寻求优化极小极大游戏(即零和游戏)中的相反损失函数。

(4)深度置信网络(Deep Belief Network)

        深度置信网络(DBN)是不同层的多个隐藏单元的集合,这些隐藏单元内部相连,而不连接同一层的单元。它通常包括一系列受限玻尔兹曼机 (RBM) 或自动编码器,其中每个隐藏子层充当下一个隐藏子层的可见层,最后一层是分类过程中使用的 softmax 层。 

(5)深度强化学习

        强化学习从附近的环境中学习;因此,它通过授权代理通过反复试验从其经验中选择行动来模仿人类决策的程序。代理是一个可以通过传感器感知其环境并通过执行器对该环境采取行动的实体。深度学习和强化学习的结合在深度FR中得到了有效的应用,例如注意力感知和边缘感知方法。

(6)特定 MFR 深度网络

        许多深度学习架构是专门为 FR 或 OFR 任务开发或调整的,它们对性能的提高做出了显着的贡献。 FaceNet [83] 通过深度神经网络将图像映射到欧几里德空间,根据三元组损失构建人脸嵌入。当图像属于同一个人时,在欧氏空间中它们之间的距离会很小,而如果这些图像属于不同的人,则距离会很大。此功能使 FaceNet 能够处理不同的任务,例如人脸检测、识别和聚类。SphereFace是另一个流行的 FR 系统,它可以渲染几何解释并使 CNN 能够学习角度判别特征,这使得它在人脸表示学习中非常高效。 ArcFace也是一种基于相似性学习的有效FR网络,它用角度边缘损失代替了softmax损失。它使用余弦相似度来计算图像之间的距离,以找到最小距离。

        MFCosface作为基于大余弦损失的MFR算法,它通过检测蒙面人脸的关键面部特征,有效克服了蒙面遮挡识别率低的问题。 MFCosface 还依赖于大余弦损失。它通过向模型添加注意力机制来优化面部特征的表示。 VGGFace是一个人脸识别系统,包含基于 VGG-Very-Deep16 CNN 架构的深度卷积神经网络进行识别。它还包括基于级联可变形部件模型的面部检测器和定位器。

        DeepID的引入是为了通过将大规模人脸图像分类为大量身份来学习有区别的深层人脸表示,即人脸识别。然而,学习到的人脸表示受到显着的个人内部变化的挑战,这些变化已被许多 DeepID 变体减少,例如 DeepID + 2中提出的联合人脸识别验证。

3.特征提取

        特征提取是人脸识别流程中的关键步骤,旨在提取一组具有足够辨别力的特征来表示和学习关键的面部属性,例如眼睛、嘴巴、鼻子和纹理。由于面部遮挡和掩模的存在,这个过程变得更加复杂,并且现有的面部识别系统需要进行调整以提取具有代表性且鲁棒的面部特征。在蒙面人脸识别的背景下,特征提取方法可以分为浅层表示方法和深层表示方法。

        浅层特征提取是一种传统方法,它显式地制定一组具有低学习或优化机制的手工特征。一些方法使用手工制作的低级特征来查找被遮挡的局部部分并将其从识别中排除。 LBP、SIFT、HOG 和码本是代表整体学习、局部特征和浅层学习方法的流行描述符。在非遮挡人脸识别任务中,他们针对照明、仿射、旋转、缩放和平移等许多人脸变化实现了显着的准确性和鲁棒性。然而,在处理遮挡人脸(包括面罩)时,浅层特征的性能表现出下降,而深度学习模型获得的深度表示在很大程度上优于这些人脸。

        人们创建并评估了许多方法来使用深度学习从面部提取特征。假设蒙面人脸的特征通常包括与蒙面区域相关的信息,这些信息应该单独建模,并为每个类别学习两个中心,而不是只有一个中心,即一个用于全脸图像的中心,一个用于蒙面人脸的中心图片;引入了一种主要基于CNN的多阶段掩模学习策略,旨在发现并消除识别中的损坏特征。许多其他注意力感知和上下文感知方法已经使用额外的子网提取图像特征来获取重要的面部区域。

        具有深度图卷积网络(GCN)的图图像表示也已被用于蒙面人脸检测、重建和识别领域。 GCN 在使用为共享或固定图结构构建的空间或光谱滤波器来学习和处理人脸图像方面表现出了强大的能力。然而,学习图表示通常受到 GCN 层数和不利的计算复杂度的限制。 3D 空间特征也已针对遮挡或遮蔽 3D 人脸识别任务进行了研究 。 3D人脸识别方法模仿真实视觉和对人脸特征的理解,因此有助于提高现有2D识别系统的性能。 3D 面部特征对于许多面部变化(例如照明变化、面部表情和面部方向)具有鲁棒性。

4.掩模检测

        近年来,口罩已成为遮挡面部部位的常见物品之一,有不同的款式、尺寸、纹理和颜色。这加强了训练深度学习模型以准确检测口罩的要求。大多数现有的检测方法通常是为目标检测而引入的,在掩模检测任务中进行了调整和研究。具有 CNN 特征的区域(R-CNN)已在目标检测领域得到全球采用,其中利用深度 ConvNet 对目标提案进行分类。在人脸被遮挡的情况下,R-CNN 通过将数千个面部区域输入 CNN 网络并应用选择性搜索算法来提取数千个面部区域,该算法为每个区域生成一个特征向量。随后,将通过支持向量机 (SVM) 对提取的特征中的候选面部区域提案中是否存在对象进行分类。还引入了 Fast R-CNN和 Faster R-CNN,通过改造 R-CNN 架构来增强性能。然而,这些方法有显着的缺点,例如训练过程是多级管道,因此在空间和时间方面都很昂贵。此外,R-CNN 缓慢地对每个目标提案执行 ConvNet 前向传递,而不共享计算。提出了上下文注意力R-CNN作为戴口罩的检测框架。该框架用于通过提取区分特征来扩大类内距离并减少类间距离。

        引入了一种称为人脸注意网络(FAN)的单次人脸检测器,它利用特征金字塔网络来解决不同尺度人脸的遮挡和误报问题。提出了一种 LLE-CNN,通过结合预先训练的 CNN 来检测蒙面人脸,提取候选面部区域并用高维描述符表示它们。然后,局部线性嵌入模块将面部描述符形成权重向量,以恢复屏蔽区域中任何丢失的面部线索。最后,分类和回归任务使用加权向量作为输入来识别真实的面部区域。引入了改进的LeNet(MLeNet),通过增加输出层的单元数量和具有较小滤波器尺寸的特征图,这反过来又进一步减少了过拟合,并提高了用少量训练图像进行蒙面人脸检测的性能。阿尔古佐等人。 提出了基于多图 GCN 的特征,使用多个过滤器来检测口罩。他们使用基于距离和相关图计算的嵌入几何信息来提取和学习关键的面部特征。通过提出基于 CNN 和 VGG16 的深度学习模型并结合基于人工智能的预防措施,在模拟蒙面人脸数据集(SMFD)上检测口罩。

        基于局部特征融合的深度网络也已应用于非线性空间中的蒙面人脸检测。许多其他基于检测的作品利用了基于关键面部部位(例如鼻子和嘴巴)的传统局部和全局面部特征。

        最近提出了面罩助手(FMA)的概念。 作为一种基于移动显微镜的人脸检测方法。他们获得了面罩的显微照片,然后利用全局和局部一致图像完成(GLCM)来提取纹理特征并选择对比度、相关性、能量和均匀性作为面部特征。提出了一种基于深度学习的单次轻量级口罩检测器,以满足嵌入式系统较低的计算要求。他们推出了单次轻型口罩检测器(SL-FMDet),由于其硬件要求较低,因此工作效率很高。轻量级主干导致特征提取能力较低,这是一个很大的障碍。为了解决这个问题,作者提取了丰富的上下文信息,并重点关注与口罩相关的关键区域,以学习更多区分戴口罩和不戴口罩的人脸的特征。研究并开发了一种用于口罩检测的深度学习模型,并在五个不同时期在 YoloV5 上对其进行训练。 YoloV5 与 CNN 一起使用来验证口罩是否存在以及口罩是否正确放置在脸上。

5去除掩模

        这里介绍了基于学习的对象删除和非基于学习的对象删除算法的几种常见方法。

        对于基于学习的方法,基于 GAN 的模型,该模型接收输入图像,然后自动删除目标对象。引入了两种不同的模型来学习全局一致性,并通过删除目标对象并使用 GAN 设置重建损坏的部分来完成损坏的区域。一种从粗到细的基于 GAN 的方法来从面部图像中删除对象。对于面罩去除,嵌入去掩码模型(EUM),该模型将从掩码人脸中提取的特征嵌入作为输入。它生成一个新的特征嵌入,类似于嵌入具有独特属性的相同身份的未蒙面面孔。带有两个判别器的 GAN 设置来自动摘除面罩。

        对于非学习方法,引入了一种模型,该模型可以删除图像中不需要的部分,并创建适合缺失区域的新区域,然后综合匹配图像的剩余部分。正则化因子来调整补丁优先级函数的曲线以计算填充顺序。帕克等人。使用主成分分析(PCA)重建和递归误差补偿来从面部图像中去除眼镜。一种图像补全算法,该算法依赖于大型图像数据库来搜索相似信息并将其嵌入到输入样本的损坏像素中。

6.面部修复

        图像重建领域的开创性工作之一是基于稀疏表示的分类(SRC),以实现稳健的 OFR。针对FR中的特定问题引入了SRC的各种变体,例如用于欠采样FR任务的扩展SRC(ESRC)和用于提高人脸重建的判别能力的组稀疏编码(GSC)。已经提出了许多其他方法来重建被遮挡面部的缺失部分。支持向量判别字典和基于 Gabor 遮挡字典的 SRC (SVGSRC) 进行 OFR。 Li 等人将稀疏表示和粒子滤波结合起来并进行了研究。基于深度字典表示的分类方案,以实现稳健的 OFR。 基于二维图像矩阵的误差模型,称为 OFR 的基于核范数的矩阵回归 (NMR)。稀疏正则化 NMR 方法,该方法通过在 NMR 框架的表示上引入 L1-范数约束而不是 L2-范数。然而,图像重建方法显示出许多众所周知的缺点,例如需要过完备的字典和图库图像的大量增加导致复杂性问题,以及它们在泛化能力方面的限制。

        深度学习方法已经解决了这些挑战,以恢复面部图像中丢失的部分。在过去的几年中,基于 GAN 的方法已与全局和局部判别器一起使用来处理面部重建任务。基于语义图像修复的数据来计算丢失的像素和区域。然而,他们无法保留面部身份。引入了一种模型来检索各种头部姿势下丢失的像素部分,同时尝试在网络训练中的身份损失和姿势鉴别器的基础上保留身份。提出了一种端到端的BoostGAN网络,该网络由三部分组成:多遮挡前视图生成器、多输入增强网络和多输入鉴别器。该方法配备了从粗到细的面部去遮挡和正面化网络集成。提出了一种基于 GAN 的从粗到细的方法,具有用于图像修复的新颖的上下文注意模块。通过图像到图像的转换方法使用基于 GAN 的图像修复来完成图像。使用 GAN 同时处理面部正面化和面部补全任务。他们引入了两阶段生成对抗网络(TSGAN),并提出了一种基于遮挡掩模的注意力模型。此外,利用GANs引入了EyesGAN框架,该框架主要用于基于眼睛构建人脸。

        一种人脸补全方法,称为学习和保留人脸补全网络(LP-FCN),用于解析人脸图像并同时提取人脸身份保留(FIP)的特征。该方法主要基于CNN,训练CNN来变换FIP特征。这些特征被融合,将它们输入到生成完整图像的解码器中。

图 3 显示了最近提出的两种方法来揭开面部面具并恢复丢失的面部部位。

Masked Face Recognition Using Deep Learning: A Review_第3张图片

(a) 具有两个判别器的基于 GAN 的网络和 (b) EUM 模型的一般方法。 

7.人脸比对与识别

        FR和MFR的深度特征人脸匹配可以被视为人脸验证或识别问题。为了完成此任务,首先在训练和验证阶段将一组已识别对象的图像输入系统。在测试阶段,一个新的未见过的主题被呈现给系统以做出识别决策。为了有效地学习一组深层特征或描述符,应该实现和应用适当的损失函数。 MFR社区常用的匹配方式有两种:1对1和1对N(一对多)。在这两种方法中,通常使用常见的距离度量,例如基于欧几里得的 L2 和余弦。 1对1相似度匹配过程通常用于人脸验证,该过程应用于真实图像集合和测试图像之间,以确定两个图像是否指同一个人,而1对N相似度匹配用于人脸识别,调查特定蒙面人脸的身份。

        人们已经引入了许多方法来增强深层特征的辨别水平,以使人脸匹配过程更加准确和有效,例如度量学习和稀疏表示。用于匹配人脸身份的深度学习模型已广泛使用基于softmax损失和基于三元组损失的模型。基于 Softmax 损失的模型依赖于使用 softmax 函数训练关于训练数据集中每个身份的一类的多类分类器 。另一方面,基于三元组损失的模型的特点是通过匹配各种输入的结果来立即学习嵌入,以最小化类内距离,从而最大化类间距离。然而,基于 softmax 损失和基于三元组损失的模型的性能受到面罩遮挡的影响。

        最近,文献中也提出了大量的研究工作来解决 MFR 任务。例如,有效的方法已经显示出较高的 FR 性能,要么通过基于 GAN 的方法在将面部输入到面部识别模型之前揭露面部 ,要么仅从面部的上部提取特征 ,或者通过结合蒙面和未蒙面的人脸来训练人脸识别网络。将 VGG2 数据集与增强型蒙面人脸相结合,并使用 FaceNet中定义的原始管道训练模型,这反过来又使模型能够根据上半张脸的特征。引入了基于 ArcFace 的 MFR 人脸识别模型的完整训练流程。能够为每个身份识别两个与全脸图像和蒙面图像相匹配的中心使用域约束排序(DCR)顺序图像。

三、标准数据集

表2显示了蒙面人脸识别任务中使用的数据集的主要特征。

Masked Face Recognition Using Deep Learning: A Review_第4张图片

Masked Face Recognition Using Deep Learning: A Review_第5张图片

四、用于 MFR 的最先进方法

        本节首先介绍针对遮挡部分的 FR 提出的现有工作,即针对包括面罩在内的任何物体的 OFR。然后,讨论了 MFR 任务中具体提出的研究贡献。

1.遮挡人脸识别

        一种计算高效的方法来应用特征提取、深度计算和 3D 图像公式。他们使用 SIFT 来密集地表示面部特征。然后,使用多元高斯分布计算图像深度。最后,他们通过应用基于朗伯反射定律的着色技术来确定形状,从而恢复了酒窝和皱纹等高细节。引入了一种用于面部图像的面部去遮挡技术,其中用户应该决定要删除哪个对象。他们通过在单个网络中使用普通卷积和部分卷积的合并操作,生成了融合良好且无视觉伪影的内容。此外,为了解决数据不足问题,他们使用公开获取的 CelebA 和 CelebA-HQ 数据集构建了一个大型合成面部遮挡配对数据集。他们的结论是,即使使用在合成面部遮挡数据集上训练的模型,它也能有效地删除非面部对象,并提供结构和感知上的信息。在具有挑战性的真实图像中呈现可信的面部内容。

        名为 MaskNet 的深度可训练模块,用于学习以异常准确度制定图像特征,并忽略那些因遮挡而变形的特征。它可以涉及多个具有有限个人身份标签和较少计算量的 CNN 架构。他们使用真实的和合成的遮挡人脸图像来证明 MaskNet 的有效性。他们在 CASIA-Webface上训练这个网络,在 AR 数据集上对其进行微调,最后在 LFW 数据集上对其进行测试。一种成对差分连体网络(PDSN)框架,用于查找深度 CNN 模型中被遮挡的面部块和受损特征元素之间的等价性。系统性能在具有真实世界和合成遮挡的人脸数据集上进行评估。

        一种基于单个端到端深度神经网络的遮挡人脸识别方法,称为遮挡掩模人脸识别(FROM)。它用于学习准确的特征掩码,使用深度 CNN 发现损坏的特征,然后使用动态学习的掩码来清理它们。此外,作者通过创建巨大的、被遮挡的面部图像来有效地训练 FROM。他们检查了许多具有遮挡或遮蔽人脸的数据集,例如 LFW、Megaface Challenge 1、RMF2 和 AR。

        成对自对比注意感知(PSCA)模型来提取不同的局部特征。所提出的注意力稀疏损失(ASL)增加了注意力图中的稀疏响应,从而减少了对分散注意力的区域的关注,同时促进了对有区别的面部部位的关注。他们评估了多个数据集上的识别性能,包括 LFW、VGGFace2、MS-Celeb-1M 和 RMFRD。

        提出了一种感知哈希方法,称为单次频率主导邻域结构(OSF-DNS)。该方法在遮挡人脸验证和人脸分类任务上表现出改进。将遮挡面部与其非遮挡面部进行匹配的能力有利于遮挡面部验证。此外,使用分类器接收被遮挡面部的身份,并用非遮挡面部和感知哈希码作为特征向量进行训练,有利于面部分类。他们创建了六个最先进数据集的 AERO 攻击版本:LFW、CUHK 、MEDS-II、CFPW、VGGFace2 和 NIMH-ChEFS 。

表 3 总结了本小节讨论的最新 OFR 方法的主要特征。

Masked Face Recognition Using Deep Learning: A Review_第6张图片

2.蒙面人脸识别

        一种自动从面部去除掩模对象并合成损坏区域同时保留初始面部结构的方法。他们使用两个鉴别器来学习深度去除区域的一般面部结构,从而保持检索到的面部的结构和形状一致性。在CelebA数据集的基础上使用合成配对数据集来解决数据不足的问题。他们的组合前馈模型产生结构上和感知上合理的面部图像来挑战真实图像。对四种最先进的深度学习模型进行了比较分析,即 VGGFace、FaceNet、OpenFace 和 DeepFace。他们的结论是这些模型在人脸验证任务中表现出很高的准确性。

        一种基于 ArcFace 的深度模型,并对主干网和损失函数进行了更改。他们利用数据增强从原始人脸识别数据集中生成了蒙版版本,并以较低的计算成本在 MFR 上检查了 ResNet-50。然后,ArcFace 损失与掩模使用分类损失组合成一个名为多任务 ArcFace (MTArcFace) 的新函数。

        基于深度学习的特征来丢弃 MFR 的屏蔽区域。他们使用预先训练的深度 CNN 从捕获的区域(主要是眼睛和前额区域)中选择最佳特征。然后,将特征袋范例应用于最后一个卷积层的特征图以量化表示。他们还使用了 RMFRD 数据集,其中使用三个预训练的深度 CNN(VGG-16、AlexNet 和 ResNet-50)从捕获的区域中选择深度特征。基于Haar-cascade和MobileNet的MFR方法来检测掩模,然后使用VGG16和Triplet loss FaceNet以及多线程技术进行人脸识别。适用于当前人脸识别模型头部的 EUM 模型。他们使用自我约束三元组 (SRT),允许 EUM 创建与相关角色的未遮盖脸部相关的嵌入。

        采用了 FaceMaskNet-21 网络,该网络使用四元组和深度度量学习进行训练,可以立即识别蒙面人脸。为数据集中的每个人脸以及输入图像或实时视频流生成 128 维编码。他们还使用 HOG 特征来更主动地识别被面罩遮挡的面部。提出了三个蒙面人脸数据集,真实世界蒙面人脸识别数据集(RMFRD)、蒙面人脸检测数据集(MFDD)和蒙面人脸识别数据集(SMFRD),以处理需要足够量蒙面人脸的MFR任务和未屏蔽的图像。他们将注意力权重应用于未覆盖的面部部位的重要特征,例如眼睛细节、前额和面部轮廓。

        MaskTheFace模型,综合生成蒙面人脸的集合。 MaskTheFace 检测面部标志来识别面部的关键特征和倾斜度。他们还使用 MaskTheFace 通过 FaceNet 系统来识别蒙面人脸,该系统为人脸添加了嵌入。为了训练 FaceNet,他们使用 VGGFace2 数据集并随机采样每人 42 张图像来创建一个名为 VGGFace2-mini 的子数据集。根据新的子集,他们创建了另一个子集,其中包含相同的图像但带有蒙版,称为 VGGFace2-mini-SM。

        一种基于 3D 模型的方法,称为 WearMask3D,用于增强不同姿势的蒙面人脸图像。它在图像上拟合 3D 变形模型 (3DMM),然后生成 3D 掩模表面以将其覆盖在面部模型上。它将遮罩纹理映射到模型,并根据图像分辨率和亮度将 3D 表面渲染为 2D 图像。他们还引入了 Masked Faces in the Wild (MFW) 迷你数据集,并评估了 MFW-mini 和 MFR2 上的模型性能。一个基于 ResNet-50 的框架来识别蒙面人脸。在训练中,他们使用了域适应,其中将未蒙蔽的面孔视为源域,将蒙蔽的面孔视为目标域。第一个场景是仅在源域上训练模型并在目标域上进行测试。第二种场景是在源域和部分目标域上训练模型,并在目标域的其余部分上测试模型。

        多任务级联卷积神经网络(MTCNN)来检测遮蔽和未遮蔽的面部部分并将其转换为高维描述符。之后,他们使用边界框调整图像大小并裁剪图像作为后处理步骤,然后使用 FaceNet 提取主要特征。 SVM分类器用于识别身份。他们执行了两个场景,第一个场景是使用未蒙面的面部作为训练的输入,蒙面的面部作为测试的输入,第二个场景是使用蒙面和未蒙面的面部作为训练的输入,蒙面的面部作为测试的输入。

        一个名为蒙面人脸分割和识别(MFSR)的数据集,使用身份感知蒙版生成对抗网络(IAMGAN)综合地丰富了更多蒙面人脸作为训练对象。它基于 MFSR 数据集,由一个循环生成器组成,可将全脸图像转换为蒙版脸部。然而,由于域差异巨大以及屏蔽图像和未屏蔽图像之间缺乏配对,导致生成的图像无法进行身份识别,因此该模块效果不佳。因此,这个具有挑战性的部分是通过多级身份保留模块解决的。它通过使用域约束排名损失(DCR)学习类中心来考虑蒙面和未蒙面人脸之间的类内差异,该损失假设蒙面人脸的特征包含与蒙面区域相关的信息,并且应该单独建模。这使得模型能够学习同时提取身份的特定特征和单独的身份。

        一个基于去闭塞蒸馏的框架来提高 MFR 的准确性。该框架包括两个模块:去遮挡模块,应用基于 GAN 的面部补全网络来消除蒙面人脸外观的模糊性,使用注意力机制显示没有蒙面的完整面部,以关注信息丰富的区域。脸。第二个模块是蒸馏,采用预先训练的人脸识别模型,并通过基于 VGGFace2 的知识蒸馏来调整其人脸知识。此外,他们训练模型将口罩分为四类:简单口罩、复杂口罩、人体口罩和混合口罩。

        引入了两个MFR数据集:蒙面人脸验证(MFV)和蒙面人脸识别(MFI),它们被考虑用于测试和评估目的。在训练中,数据增强用于通过对齐人脸和面具并检测预定义的面部标志,从现有人脸识别数据集中生成合成蒙面人脸。应用 Delaunay 三角剖分算法将图像划分为小三角形,其中人脸图像的每个三角形都有对应的掩模三角形。为了进行测试,使用了 MFV 和 MFI 数据集,并将数据增强应用于 LFW 数据集,称为合成屏蔽 LFW。他们还提出了一种潜在部分检测(LPD)模型,该模型的灵感来自于人眼聚焦于被遮挡或遮挡的面部的可见部分(称为潜在部分)。然而,潜在部分的特征需要能够区分身份。 LPD模型受到面具始终位于脸部下部的假设的限制。

        MFR 还受邀检测和识别遮住脸部的犯罪分子。引入了行人重新识别(ReID)方法,试图解决寻找同一身份的蒙版和未蒙版图像之间关联的问题。它使用局部和全局图像特征重新识别蒙版行人图像,然后测量蒙版行人和未蒙版行人图像之间的相似性。 FaceNet 用于识别人的身份。

        从训练方法和数据模型方面讨论了近红外到可见光(NIR-VIS)MFR 的挑战。他们提出了一种异构半连体训练(HSST)方法,旨在利用半连体网络最大化人脸表示之间的联合信息。他们还提出了一种基于面部重建的方法,该方法可以从现有数据集中合成面部图像的掩模。

        引入了一种基于注意力的 MFR 算法,该算法使用局部约束字典学习方法将掩模与面部分离。它提高了分辨率使用扩张卷积对图像进行处理,并使用注意力机制减少信息损失。他们使用 ResNet 提取特征,并在 RMFRD 和 SMFRD 数据集上进行评估。基于大余弦损失的MFCosface MFR算法,通过在模型中添加注意力感知机制来优化检测关键面部特征。一种基于注意力的算法和一种基于裁剪的MFR算法。他们在基于注意力的部分使用了卷积块注意力模块(CBAM)来突出眼睛周围的区域。

表 4 总结了本小节中讨论的最新 MFR 方法的主要特征:

Masked Face Recognition Using Deep Learning: A Review_第7张图片

表 5 总结了 MFR 方法在准确度方面的表现:

Masked Face Recognition Using Deep Learning: A Review_第8张图片

表 6 总结了 MFR 方法在排序准确度方面的表现:

Masked Face Recognition Using Deep Learning: A Review_第9张图片

表 7 列出了 MFR 方法应用的各种类型的性能指标:

Masked Face Recognition Using Deep Learning: A Review_第10张图片

六、结论

        研究讨论了近年来采用的通用 MFR 流程,并确定了有助于提高 MFR 方法性能的最新进展。讨论了许多直接影响 MFR 系统的重要问题,包括图像预处理、特征提取、人脸检测和定位;面部揭秘和修复;以及身份匹配和验证。此外,最近引入了一些有趣且有前途的技术,预计将激发更多的研究工作来应对现有的 MFR 挑战。最重要的是,可以得出结论,MFR任务将被长期研究,并且文献中将不断提出更多的研究和操作工作。将现有 FR 方法用于 MFR 的调整仍然倾向于显示出明显的性能下降。考虑有效和先进的技术来更多地关注深度学习模型的学习能力将是有益的。为了提高 MFR 系统的泛化能力,需要仔细考虑图像和测试集变化的性质。此外,成功利用混合深度神经网络来学习并发任务(例如掩模检测和人脸重建)对于 MFR 准确性非常重要。度量学习也会对身份验证或识别的性能产生积极影响。

附录 A :提供了本研究涵盖的主要问题的分类。

Masked Face Recognition Using Deep Learning: A Review_第11张图片

你可能感兴趣的:(深度学习,人工智能)