开题报告

《基于TP-GAN的人脸图像特征增强》开题报告

                  ——21751049 郑嘉宇

1.选题的目的与意义

 人脸识别技术在公共安全领域(如身份认证和刑侦破案)发挥着重要的作用。然而,由于环境光线、系统性能和人为因素的影响,实际采集的图像往往存在着各类噪声、光照不均、分辨率低、姿态多样等质量问题,这对后续的身份识别和 认证算法带来巨大的挑战。现有的质量评价研究主要针对自然图像的感知质量 (如清晰度,美观度等),而实际场景的人脸图像通常是在不可控条件下(各类失真、姿态变化等)获得的,而且在识别任务中图像的生物学质量(如用于身份认证的有效性)更为重要。同时,由于自然场景中捕获的大部分人脸图像都是带有一定姿态,因此在人脸合成领域,传统方法对人脸的合成存在各种问题(图像模糊,身份信息损失,纹理丢失),尤其是极端角度、复杂表情下的人脸图像,利用传统方法正脸化后的图像通常会丢失大量的信息,不利于身份认证与识别。
随着社会的发展,我国的公共安全体系逐步建立并完善。尤其是在视频监控领域,公共场所的监控已经铺满了各个场景。无论是人头攒动的广场马路,还是拥挤繁忙的车站地铁,都有无数的监控部署在其中,为我们的生活提供着无形的保护。在保证对监控场景多维度的信息提取、采集视频资源的同时,为了能够更好的利用这庞杂的数据信息,对其进行合理的分析,并从中筛选出有价值、有意义的部分。一个又一个的应用领域被拓展开来,如人脸识别、车辆识别、行人检测、物体追踪等等。这些任务要面临海量的数据与复杂的场景所带来的速度与精度的多重考验,而深度学习算法由于其出色的性能,在近些年从机器学习家族中脱颖而出,被广泛应用在不同的场景之中,并取得了显著的成效。
在纷繁众多的视觉领域中,人脸面部图像增强一直都是备受瞩目的研究方向之一。不仅得益于其长期的科研积累,还因为人脸面部图像有着广泛的应用空间。例如,警方可以通过捕获的人脸图像从各类数据库中及时的检索到可疑人员的身份信息,从而加速整个办案过程;企业或者个人可以根据人脸面部图像的在必要位置安装人脸门禁系统、访客管理系统等;车站与地铁,甚至机场都已经广泛应用了成熟的人脸识别技术作为人证对比的参照,大大降低了工作人员的工作强度和误识率,为我们的出行提供了安全保障。由此可见,人脸面部图像的相关应用已经服务于生活的各个角落,一套完善且性能优越的人脸识别系统可以在为我们的生活提供便利的同时,更让罪犯无处可逃。但同时,面部识别系统的性能发挥很大程度上依赖于捕获的高质量面部图像。
但从当下的技术层面上看来,自然场景中捕获的面部图像存在着诸多的问题。 在实际的视频监控场景中,面部图像在采集,压缩和转换的过程中可能会遭受各 种损伤。例如,面部图像可能是低分辨率的,带模糊或者包含其他噪声。这种损伤会对人脸识别系统带来巨大的挑战,极大的降低了人脸识别系统的性能。同时,由于自然场景中的目标面部图像常常存在各种姿态,而其中的多数极端姿态会对识别算法性能造成不利地影响。鉴于以上的两个原因,为自然场景中的人脸识别系统提供可靠地面部图像至关重要。

因此,本文将讨论通过深度学习、生成对抗网络等思想,提出基于生成对抗网络的人脸转正方法。为了降低极端姿态对识别性能的影响,同时保留足够的原始信息以方便人为查看。我们的算法在将侧脸图像正脸化的同时,对原始图像的材质、光照和表情做到完好的保留。在算法设计中,我们利用生成对抗网络,对侧脸图像进行正脸化的合成和修复。最后得到一张身份合理的正面视图。这张视图在保留着和侧脸图像一致的身份信息的同时,更对人脸识别任务提供有效的帮助。针对角度变换,一个可能的解决方案则是利用生成对抗网络合成身份信息保留的正脸图像。再根据正脸图像作为识别的凭证进行之后的任务。GAN的使用旨在辅助算法合成足够“真实”的图像。对于人脸识别系统,通过合成算法对输入的各个姿态人脸进行归一化的操作,以此来为识别算法提供身份合理并且便于识别的人脸图像。这样的操作可以为自然场景中存在的大角度识别问题,甚至是为警务平台中存在的身份证图像与自然场景图像匹配问题提供一个全新的、有效的解决思路。

2.国内外研究现状

近年来,人脸识别算法自 DeepFace起进入全新的阶段。随着依托于数据驱动的深度学习算法的提出,大量的人脸识别算法模型也如雨后春笋一般。其中不乏优秀的设计,如 DeepID,Facenet,Light CNN。同时,也有出于不同度量方式而对用于人脸识别任务损失函数的研究内容。本文将抛开识别网络的结构设计和损失函数设计,别出心裁,对人脸面部图像进行图像增强操作,从图像质量评价和人脸合成方向着手,优化面部图像质量。
最初,国际研究人员和组织提出了获取当前的面部图像以进行识别和验证的标准。这些标准包括许多基于各种因素来判断脸部图像质量的指示,例如,亮度,面部姿态,情感,遮挡等。因此,研究人员将生物测量质量定义为一个面部图像偏离标准正脸图像的程度。他们通常使用经验制作的特征,例如 LBP 和 Scale In- variant Feature Transform (SIFT) 。用这些特征来表征人脸图像和评估生物学质量。
BQA的另一种人脸视觉质量评价的流程,思想来源于图像质量评估(image quality assessment IQA)。这种方法擅长估计视觉质量的下降,如噪声,压缩损 伤和模糊。例如Gunasekar发布的一个面部质量评估数据库,使用Discrete Cosine Transform (DCT) 系数统计来表征质量损失。然而,面部图像在内容上极为复杂。所以探索具体的特征对于开发可靠的面部 BQA 模型至关重要。
最近,Phillips et al.发现,给定一个面部图像,其生物质量不仅取决于其自身的视觉质量,而且测试图像和查询图像同样高度相关。因此,研究人员提出了将生物测量质量表示为测试图像和参照图像直接的匹配。在人脸识别系统中,正脸图像总是比具有变化的人脸图像识别性能更好。因此被视为参照图像。近年来,深度学习技术特别是卷积神经网络在解决各种图像处理问题方面取得了巨大的成功。因此促使了研究人员使 用CNN作为BQA模型。例如,Mjanasaetal使用给定的面部图像和参考图像 之间的匹配分数作为质量指标。特别地,他们使用 local binary pattern (LBP) 和 histogram of gradient (HOG) 作特征提取,使用 mutual subspace method (MSM) 方法计算匹配分数。最终,用这样的匹配分数作为质量标签,通过一个八层的卷积神经网络学习质量评价模型。最近,Pan et al.采用DeepFace网络提取特征表示,并使用 Probabilistic Linear Discriminant Analysis (PLDA)来估计给定图像和参考图像之间的距离。最终通过 VGG-16 网络学习质量评估模型。
已存在的工作主要有下面三种限制。首先,对于通过手工制作的特征的方法, 其性能受到相关特征表征性的限制。其次,对于那些基于深度学习的方法,质量标识的面部图像的尺寸都相对较小。在方法中生成质量评分的可靠性是有限的。第三点,大多数现有的 BQA 模型没有考虑到图像失真和人脸识别性能之间的关系。
得益于深度学习方法的飞速发展和收集大规模标注人脸图像的便捷。无约束的人脸识别技术在近年有了极大地突破。然而,深度学习的现有算法虽然在很多基准数据集上超越了人类的性能,但是人脸姿态的多样化依然是许多实际场景的瓶颈。解决姿态变化的方法大体分为两类。一类尝试手工制作或者学习姿态不变的特征,而另一类采用合成技术从各类姿态人脸图像恢复其正面视图,然后使用恢复的人脸图像进行人脸识别。
对于第一类,传统方法通常利用鲁棒的局部描述符,如 Gabor,Haar和 LBP来解释局部失真,然后采用度量学习技术来获得姿态的不变形表达。相比之下深度学习方法通常用池化操作来处理位置的差异,并使用 triplet loss或者contrastive loss来确保类内差异的不变形。然而由于不变形和可辨性之间需要折中,这些方法往往不能非常有效的处理大角度的情况。
对于第二类,早期获得正面合成视图的方法是利用2D图像与通用的或者身份确定的的3D模型配准,然后使用3D几何变换来渲染获得其正视图。这些方法能够很好的对小姿态脸部进行归一化处理,获得正面视图,但是由于其纹理信息的严重丢失,在大角度下性能下降严重。最近以数据驱动的深度学习方法被用来做正脸图像的恢复。例如,Zhu et al提出通过同时学习估计正面视图,解耦身份和姿势的表征,获得了令人兴奋地结果。但是合成的图像缺乏足够的细节,并且在极端的姿势下往往模糊不清,使得他们仅使用中间特征来进行面部识别。合成的图像不足以执行其他面部分析任务,例如取证和属性估计。

而且,从优化的角度上来说,从不完全的观测剖面恢复正面视图是一个不适定的或者是不能定义的问题,并且如果不考虑先验知识和约束条件,很难对问题做出合适的解决方案。因此,恢复结果的质量在很大程度上依赖于训练过程中的先验和约束条件。以前的工作采用二元组监督方式,很少在训练过程中引入更多的约束,所以经常会产生模糊的结果。

3.研究内容

当人类在尝试进行视图合成的过程时,总是根据先验知识和观察的剖面来推 断出物体的全局结构,也就是说形成模糊的整体结构。然后根据视觉感知的剖面 细节结合先验知识进行补全。受到这样的启发,Rui et al提出了一个双路径的合成方法,结合全局结构和局部纹理的完成正面视图的合成任务。这篇文章中所描述的合成结果已经近乎将极端姿态的合成做到了极致。但是由于文章没有给出 具体的训练过程和训练代码,以及模型展示。因此,需要对其尝试进行复现
由于 GAN 在 2D 数据分布建模方面的出色能力,显著推动了超分辨率重建和图像修复等许多不适定的低级视觉问题。同时,正脸图像的先验知识和生成对抗网络的结合,为图像生成提供很好的约束,因此在实际操作中对此进行了沿用。根据人脸对称性结构引入了对称损失来弥补极端角度中部分自遮挡造成的纹理丢失。另外对两个不同的网络使用不同权重的重建损失和对抗损失,以此逐步拉近生成图和真实正脸图像的距离,最后用感知损失协助保留身份信息。
在正脸化算法部分,主要工作有以下三方面:

(1)提出一个新的网络结构,用于将侧脸图像转化成身份一致的、具有真实感的正脸图像,同时保留原有的纹理、光照和表情;
(2)通过大量的实验解决了人脸合成过程中可能出现的众多问题;
(3)在“通过合成识别”框架下,利用本算法恢复的正脸图像可以提升模型对大角度人脸的识别精度。
大致的网络结构如下。其中:Local Pathway网络学习人脸的局部特征,如眼睛、嘴巴、鼻子,网络输入为侧脸图像的四个局部块,这四个局部块分别为包含左、右眼睛、嘴巴、鼻子的块,作为Local Pathway网络的输入,输出为正面的眼睛、嘴巴、鼻子。Global Pathway网络学习人脸的全局特征,如人脸轮廓等底层信息,网络输入为整张侧脸图像,输出为与输入大小相同的图像,最后将局部和全局特征结合,得到生成图像(正脸图像)。

4.相关理论与技术

近年来,深度学习技术被广泛的应用在各个领域。包括图像分割、目标检测、 图像识别、语言翻译、广告推送和相关搜索等。长期以来,由于传统机器学习算法处理未经加工的数据,能力十分有限。在构建一个模式识别系统的时候,往往需要先设计一个精致的引擎,并且根据非常专业的先验知识来设计这个特征提取 器,从而把未经处理的原始数据转换成一个合适的特征,然后根据提取的特征训 练一个分类器,对样本进行检测或者分类。在这个过程中,原始数据注入到模型 中,自动发现合适的特征表达的过程叫做表征学习方法。
深度学习是表征学习方法的一种,它通过对原始数据进行一些简单的非线性 变换,而得到更高层、更抽象的表达。可以通过足够的数据来学习这样一个非常复杂的非线性函数。对于分类任务来说,越是高层的表达,数据的可区分行就越强,同时也会降低数据中可能存在的各种各样的噪声对于预测结果的影响。比如,一副图像的本质是一个由像素组成的数组,那么在第一层上所学习到的特征表达一般是指在图像的特定的方向和位置上是否存在边。第二层通常会根据第一层发现的边的排列方式来检测图案,这时候分类器会过滤掉一些边上的轻微干扰。 第三层将这些检测到的图案进一步组合,从而得到目标的某一部分。随后更高的一些层则会将这些部分再次进行组合,进而构成待检测目标。深度学习方法核心的特点就是,上述各层得到的特征都不是人工设计而来的,而是在训练过程中从大量的数据中学习得到的。
深度学习已经在各个领域取得了巨大的进展,由于它可以很好的发现高维数据中的复杂结构,因而解决了很多复杂的问题。尤其是在人脸识别和图像生成领域,深度学习的优势十分明显。因此,在本文中,将利用深度学习结合人脸生物学质量对人脸识别任务进行优化,而后,利用深度学习中的对抗生成网络对人脸正脸化合成进行探讨。

由Goodfellowetal.在2014年首次提出生成对抗网络(GAN),提供了一种不需要大量标注训练数据就可以学习深度表征的方法。它可以通过反向传播分别更新两个网络,以互相对抗的方式学习。其衍生品如雨后春笋一般在图像合成,图像编辑,超分辨率重建,表征学习等领域有着突出的成果。
GAN受到博弈论中的二人零和博弈的启发,开创性的使用一个生成模型 (Generator G)和一个判别模型(Discriminator D)。生成器负责生成符合目标分布的数据,判别器则是一个二分类器,用来判别输入样本是真实的数据还是合成的数据。这个模型的优化过程是一个“二元绩效极大博弈”(Min-Max two player game)问题,训练过程中需要固定一个模型的参数,然后交替训练,使得对方的 误差最大化。最终,不断地博弈直到纳什平衡(生成器产生的图像足够真实使得 鉴别器没有能力去鉴别图像的真假)。
Caffe,全称 Convolutional Architecture for Fast Feature Embedding,是一个 以表达式、速度和模块化为核心的深度学习框架,它由 Berkeley AI Research (BAIR)和社区贡献者开发。作为一个开源项目,贾扬清在加州大学伯克利分 校攻读博士期间创建。Caffe 使用 C++和 Python 实现,并提供了 C++、Python、 Matlab 的接口。在使用 Caffe 的过程中,可以将使用的网络结构全部搭建在配置 文件中,而不需要编写代码。同时,可以遵循框架,定义出非常多种网络结构, 同时也可以在此框架下添加自己的代码,设计新的网络和算法。
TensorFlow是 Google 开源用于数字计算的软件库。它是基于数据流图的 处理框架。TensorFlow 从字面意义上来讲有两层含义,一个是Tensor,它代表的是节点之间传递的数据,通常这个数据是一个多维度矩阵(multidimensional data arrays)或者一维向量;第二层意思Flow,指的是数据流,形象理解就是数据按照 流的形式进入数据运算图的各个节点。它是一个非常灵活的框架,它能够运行在 个人电脑或者服务器的单个或多个CPU和GPU上,甚至是移动设备上。 TensorFlow 最早是 Google 大脑团队为了研究机器学习和深度神经网络而开发的,但后来发现这个系统足够通用,能够支持更加广泛的应用。

5.研究与写作计划

第一章:绪论,介绍了人脸面部图像在当今社会的应用背景和重要意义,详细介绍了 BQA 算法和人脸合成算法的国内外研究现状,最后简述了本文的研究内容和主要工作。
第二章:相关理论和技术,介绍了本文涉及的深度学习相关知识和主要框架,后续工作要用到的数据集和其组成情况,以及人脸图像的预处理方式和人脸识别相关算法。
第三章:基于轻型卷积神经网络的人脸图像生物学质量评价方法,介绍了BQA 与人脸识别结合的动机和算法流程,以及其数据处理方式和训练过程,最后给出实验分析。
第四章:基于生成对抗网络的人脸转正方法,介绍了如何利用 GAN 设计正脸合成网络,并推演至 Step-GAN 的过程,最后分析模型的各项性能。
第五章:总结与展望,总结本文的全部研究工作,指出了研究的不足并设想了未来的工作方向。

你可能感兴趣的:(CV)