论文大讲堂-2014-IJCV-A Comprehensive Survey to Face Hallucination-part3

5 稀疏表示方法

稀疏表示将表示信号 y s i g ∈ R n y_{sig} ∈ R^n ysigRn的分解解释为基信号 D i ∈ R n ( i = 1 , . . . , k ) Di∈Rn(i = 1,...,k) DiRni=1...k的线性组合。这里的话我们的基信号常常叫做atoms,这里的话我们的atoms通常是通过一些非零系数来进行weighted的。这里的话,我们假定有一系列的 D = [ D 1 , . . . , D k ] D = [D_1,...,D_k] D=[D1,...,Dk],这里的话我们的 D D D代表的是一个过度完备的字典 ( k > n ) (k>n) (k>n)。这里的话我们的信号 y s i g y_{sig} ysig的稀疏表示可以用下面的式子表示出来:

y s i g = a r g m i n x c o e ∣ ∣ y s i g − D x c o e ∣ ∣ 2 + λ ∣ ∣ x c o e ∣ ∣ 0 y_{sig} = argmin_{x_{coe}} ||y_{sig} - Dx_{coe}||_2 + \lambda ||x_{coe}||_0 ysig=argminxcoeysigDxcoe2+λxcoe0

这里的话,我们求解这个 L 0 n o r m L_0norm L0norm问题的时候,其实实际上这个问题也不是一个norm,因为这个问题没有满足norm定义的三个必要条件。这个正则话问题的话就变成了一个NP-hard的问题,同时的话在计算上也让人难以进行。

但是,这里的话Donoho在2006年证明了最小的最小的L1范数解在温和条件下接近最稀疏的解。因此的话,我们(18)中的优化问题就变成了下面的形式:
y s i g = a r g m i n x c o e ∣ ∣ y s i g − D x c o e ∣ ∣ 2 + λ ∣ ∣ x c o e ∣ ∣ 1 y_{sig} = argmin_{x_{coe}} ||y_{sig} - D x_{coe}||_2 + \lambda ||x_{coe}||_1 ysig=argminxcoeysigDxcoe2+λxcoe1

在统计文献中称为Lasso,基本上是一个线性回归,在系数上用 L 1 L_1 L1范数正则化(Tibshirani 1996)。在一些应用中,比如说图像的降噪或者是图像的恢复,我们的字典通常是从训练样本中进行学习的,同时的话对应了额外的optimazed KaTeX parse error: Unexpected character: '' at position 1: ̲D x c o e x_{coe} xcoe。 像我们进行人脸识别的工作中(2009年Wright), D D D被预定义为从图像中提取的一组补丁或特征。

杨等人的团队在2008提出了一种基于稀疏编码的FSR两步法。在第一步中,他们使用非负矩阵分解(Lee和Seung 1999)来获得跨越面子空间的非负基矩阵 B B B,定义MAP问题以重建对目标高分辨率图像的初始估计。

m a x I H P ( I L ∣ I H ) P ( I H ) ⇔ c ∗ = a r g m i n c ∣ ∣ M B c − I L ∣ ∣ 2 2 + λ ∣ ∣ Γ B c ∣ ∣ 2 , s . t . c ≽ 0 max_{I_H} P(I_L|I_H)P(I_H) ⇔ c^∗ ={argmin}_c ||MB_c−I_L ||_2^2 +λ||\Gamma Bc||_2, s.t.c≽0 maxIHP(ILIH)P(IH)c=argmincMBcIL22+λΓBc2,s.t.c0

其中 M M M是模糊和下采样矩阵, c c c是非负重建系数向量, λ λ λ是重构项和先验项之间的权衡因子, Γ \Gamma Γ是高通滤波矩阵。最终的话,我们的高分辨率图像是通过 B c ∗ Bc^* Bc生成的。这里的话尽管我们对于上面的公式(20)进行正则化后,要求结果平滑,但是也会过滤一些关键的高频信息。

在这种方法的第二个步骤,我们接着需要构建低分辨率图像小块(features)和高分辨率图像小块(features)的稀疏表示关系,通过这种稀疏表示的对应关系,我们可以获得一个residual image用来补偿我们恢复的高分辨率图像中缺失的细节。

在我们进行我们的稀疏表示之前,我们的两个字典 D L D_L DL D H D_H DH由从训练图像中随机采样的一些小块对来进行构建的(低分辨率和高分辨率图像对)。这里的话我们的目标的高频信息时通过 D h α D_h \alpha Dhα来进行计算。这里的话对应的向量 α \alpha α

min ⁡ α ∣ ∣ α ∣ ∣ 1 + η 2 ∣ ∣ D ′ α − y ′ ∣ ∣ \min_{\alpha} ||\alpha||_1 + \frac{\eta}{2}||D' \alpha - y'|| αminα1+2ηDαy

这里的话,我们的 D ′ = [ F D L , β E D H ] T D' = [F D_L,\beta E D_H]^T D=[FDL,βEDH]T,同时的话, y ′ = [ F y , β ω ] y' = [F y,\beta \omega] y=[Fy,βω]。这里面的话我们的参数 η \eta η用来控制系数的稀疏性和数据项的保真度之间的关系,这个参数需要进行调整来得到我们需要的tradeoff, β β β是用来平衡低分辨率重建和相邻斑块之间的兼容性。这里的话我们使用 F F F提取补丁的梯度这里的话 E E E提取当前目标补丁和相邻重建补丁之间的重叠区域。 ω ω ω由重叠区域上相邻斑块的强度组成。 y y y是由输入的低分辨率图像补丁组成。最后,我们通过在 B c ∗ Bc^* Bc上叠加 D h α D_hα Dhα获得目标输出高分辨率图像。

这里的话一个相似的sparse representation模型在许多其他类型的工作中也得到了使用。在Chang等人团队中,Yang的模型被应用在了人脸草图-照片合成的过程中。这里的话通过简单的对于人脸照片和人脸草图图像的相减的对应的低分辨率和高分辨率图像对。这里的话我们要考虑到在不同区域上面的人脸照片有着他们各自的特征。Wang等人的团队提出来了一种基于多字典的稀疏表示框架。这里的话这个多字典的意思是,我们建立了一个子字典的形式,这里的话我们的子字典的意思是:我们可以从一系列的训练图小训练图像小块中间进行学习。这里,一个简单的模型同样也可以借用过来用于人脸超分辨率和人脸草图合成过程。这里的话我们的字典可以被预先定义成一系列的图像小块集合。在大多数现有方法中,最近邻居的数量是固定的,这可能会在结果中引入一些变形和噪声。Gao等人团队在(2012)和Wang等人的团队在2013年利用稀疏表示分别为FSPS和异构图像变换进行特征选择。

主要动机是自适应地选择稀疏表示系数大于与阈值的密切相关的特征。通过在等式1中代入 L 0 L_0 L0范数或 L 1 L_1 L1范数正则化的先前项与另一个回归正则化先验,如岭回归先验(Komarek 2004)和相关向量机先验(Tipping 1991)(属于稀疏贝叶斯方法)。这里的话,Chang等人的团队在2011年提出了一种基于多变量输出回归的FSPS方法。Zhang等人的团队在2011年提出了一种基于支持向量回归的FSPS方法的两步处理方法。

与上述方法不同,之前的方法都假设源输入和目标输出具有相同的稀疏表示,Wang等人的团队在2012年放宽了这个假设,假设输入、输出目标各自有稀疏的表示。这里的话两个稀疏表示之前是通过线性变换进行连接的。Then the objective function is composed of two sparse representation parts, one fidelity term between the sparse representation coefficients, and the regularization term on the linear transformation matrix, under some scale constraints to each atom of dictionaries. 这样子的话把objective function分割成为了3个子问题:对于训练样本进行稀疏编码;对于字典进行更新;对于线性变换矩阵进行更新。这里的话我们的实验结果表现出,整体的表现好像过度平滑化了。

6 性能评估

这里的话我们对于人脸幻象工作的评估可以被分为两个部分:客观质量评估、主观质量评估。这里的话我们的主观质量评估的话可以通过视觉感知或者平均opinion score的方法进行评估比较。这里的话这些方法的话在ITU-T p.910这个标准的多媒体服务中已经被使用。

视觉感知是基于观察者的感知而不进行数值化的量化评分。 而MOS是被定义为从观察者获得的从1到5的质量值的平均值。这里的话,尽管主观质量评估是对于一个人的感知体验做的最直观、最准确的反映,但是使用这种方法的话往往会造成十分严重的消耗和耗费非常多的人力资源。

正是因为这些原因,我们提出了以自动方式操作的客观质量评估指标。这些包括传统的PSNR,均方误差(MSE)或均方根误差(RMSE),互相关,最近提出的SSIM(Wang和Bovik 2004),以及通用图像质量指数(UIQI)(Wang和Bovik 2002)一种SSIM的特殊情况)。
在一些程度上面,人脸识别率也可以看作是一个客观图像质量评估方法,因为这个方法的话相当于测量我们的图像与图库中图像的相似性。在我们下面的恶表格中总结并比较了这一系列表示方法。

论文大讲堂-2014-IJCV-A Comprehensive Survey to Face Hallucination-part3_第1张图片

虽然FSR对于提高人脸识别的性能很重要,但是解释FSR如何定量地影响人脸识别性能的结果有限。这里的话Gunturk等人的团队提出了一种eigenface recognition expriment。这种方法的话是在包含68个人的试试视频序列上面进行的,其中的数据是从CMU PIE database中间收集的。通过利用低分辨率图像,他们通过探索幻觉化的高分辨率人脸图像获得了74%的准确度,相比之下低分辨率人脸图像识别率只达到了44%。Park和Lee(2008)在三个数据库上进行了特征脸(Turk和Pentland 1991)识别实验:MPI(Vetter和Troje 1997),XM2VTS(Messer等人1999)和KF(Roh和Lee 2007)。他们的结果表明,与利用插值的高分辨率图像相比,利用幻觉化的高分辨率人脸图像可以显着提高识别性能。Wang和Tang(2005)在XM2VTS数据库中对295名受试者的490张面部图像进行了基于直接相关的面部识别(每个受试者有两个不同会话的两个图像)。他们发现,当下采样因子不是太大时,识别精度会略有下降(本文中不大于5)。 当下采样因子进一步降低时,与直接利用低分辨率图像相比,幻觉化的高分辨率人脸图像提高了人脸识别性能。他们还指出:人脸识别准确度的提高并不像视觉质量那样显着。进一步研究心理学和人类视觉系统对于研究FSR如何帮助改善人脸识别和验证性能非常有价值。

大多数现有的FSPS方法在公共数据库上进行综合和识别实验:CUFS(Wang and Tang,2009)。该数据库包含606个面部草图-照片对,由三个子数据库组成:CUHK Student(188对),Purdue AR(123对),XM2VTS(295对)。该数据库的面部照片通常是正常表情,正常照明和正面视角。 在实验中,我们对于606张照片进行这样子的分类:306对通常用于模型训练,其余300对用于模型测试。Tang和Wang 在2003年通过一个贝叶斯分类器取得了准确率81.3%的成绩。相同情况下,我们使用eigenface方法的话仅仅获得了25%的准确率。这里的话Liu等人的团队的话把这个准确率提升到了88%,他们是通过使用一种kernel-based的非线性判决分析的降维算法。Wang和Tang的话,接着使用一种随机取样先行判决分析的办法进一步把准确率提升到了96.3%。这里的话我们考虑到上面的数据酷的结构是一个非常简答的结构,香港中文大学多媒体实验室接着发布了一个Face sketch FERET database,这个数据库中包含了1194个人的图像,同时的话,每一个人都有不同光线情况下的对应图像,同时也有一幅由艺术家绘制的抽象草图。

你可能感兴趣的:(数字图像处理,人工智能,图像超分辨率)