深度学习中存在两种不确定性,偶然不确定性和认知不确定性。偶然不确定性指的是数据中本来就存在的误差,认知不确定性是指模型中存在的不确定性,它度量的是我们的input data是否存在于已经见过的数据的分布之中。在深度学习中,对于这种不确定性的建模非常重要,因为噪声普遍存在于数据之中。
大多数图像识别方法是将图像映射为高维空间中的一个点,通过欧氏距离来衡量两张图片的相似度,这样,相同label的图像往往会聚在一起。但对于有噪声的图像,其映射到高维空间后的位置,很可能与各个类中心的距离都很远,也就是说,低质量的图片在高维空间的点嵌入具有很大的不确定性。
PFE是首个考虑人脸识别领域不确定性的模型。对于每个样本,PFE将其映射为高维空间的高斯分布,而不是一个确定的点。具体而言,给定一个预训练好的点嵌入 FR 模型,PFE 将每个样本的点嵌入特征视作该样本高斯概率嵌入的均值,并固定住。接着,PFE 在原本的 FR 模型后接入一个新的分支用来预测其高斯概率嵌入的方差。
PFE 的训练损失函数基于一个新的相似性度量,mutual likelihood score(MLS),它可估计两个高斯分布之间的散度。通过优化 MLS 损失,高质量人脸样本的方差会被预测的较小,噪声人脸图像的方差则会被预测的较大。实际训练中,PFE模型的确有效地减少了噪声样本的误匹配率。
但同时,PFE仍有很多问题。PFE 仅仅优化方差的学习,而不优化原本点嵌入的特征(即均值)。因此,数据不确定性并没有被真正用于影响模型中特征的学习;并且,传统的基于余弦相似性的度量方式无法适用于 PFE 模型。而且,PFE 所依赖的 MLS 度量方式复杂度更高,也更耗内存。
而DUL模型则同时训练模型学习概率嵌入的均值和方差,从本质上优化了人脸特征的学习,也同时降低了数据不确定性的干扰。
针对人脸数据中存在着的大量模糊图像,DUL模型假设每个人脸存在一个理想的嵌入 F,该嵌入最大程度地表征了人脸的ID信息,并最小程度的受到该图中与ID无关的其他信息的干扰。
而实际中深度学习模型提取到的人脸隐特征是Z,可以将其表示为Z= F + N,其中N衡量了与人脸ID无关的噪声信息。
具体而言,DUL对每个样本拟合一个高斯分布,对应均值μ 和方差σ两个参数。由于样本的表示不再是一个确定的点嵌入,而是一个从高斯隐空间分布中采样得到的随机性嵌入,所以阻碍了模型训练时的梯度反向传播,于是借鉴了VAE(变分编码器)使用重参技巧。首先,从标准正态分布中随机采样一个噪声,独立于模型参数之外,则随机性嵌入表征为:
将Si 输入一个softmax分类器,计算损失:
在仅优化该分类损失函数时,会出现模式坍塌效应,使得模型对于所有样本的 σ_i 的预测都偏小,且趋于一个常数,以使得分类损失可以正常收敛。在这种情况下,随机性的嵌入表征可以视为 s_i = μ_i + c(其中,c 为一个常数),此时,其实整个模型可以看做“退化”为了原本的确定性嵌入模型。
在优化过程引入了一个正则化项,约束模型学到的分布 N(μ_i, σ_i) 与标准正态分布 N(0,1) 接近。本文利用Kullback-Leibler散度(KLD)度量两个分布之间的「距离」:
KL-Loss能对softmax-Loss起到很好的平衡作用。具体地,当模型对于所有样本都预测出偏小的 σ 时,L_kl 损失(等式4)会增大,从而对模型起到乘法作用。反之,当模型对于所有样本都预测出偏大的 σ 时,虽然 L_kl 整体偏小,但是较大的 σ_i 会对于 μ_i 起到严重的“腐蚀”作用,从而使得分类 loss 无法被正常优化。最后,本文将整体损失函数构建为:
由于隐空间由离散变量构成,难以通过求导等方式逼近,于是DUL利用了一个预训练的人脸识别模型,提取其分类层的权重矩阵,每个属于W的w_c可以被当作该类样本的类中心,则对于每个样本x_i,应该最大化下面这个似然度:
为方便训练,取了对数:
本文训练神经网络来预测对数的方差,以稳定随机优化过程中的数值,并通过最小化损失函数获取似然度的最大化操作:
在PFE中,针对离散变量难以训练的问题,模型采取的方法是用预训练得到的embedding作为高斯分布的均值,然后固定不变,用似然度作为损失去训练方差σ;
而DUL中,则利用VAE的重参技巧,同时训练了均值和方差,对样本的表征更为准确。
参考:
【1】旷视研究院提出数据不确定性算法 DUL,优化人脸识别性能 - 知乎
【2】【ICCV2019】probabilistic face embeddings 概率人脸嵌入_木盏-CSDN博客
【3】http://openaccess.thecvf.com/content_ICCV_2019/papers/Shi_Probabilistic_Face_Embeddings_ICCV_2019_paper.pdf
【4】人脸识别不确定性研究Data Uncertainty Learning in Face Recognition (DUL)学习与复现 - 知乎