L2-constrained Softmax Loss for Discriminative Face Verification

摘要:softmax损失优化出来的特征不具有较高的类内相似度得分及较低的类间相似度得分。论文增加了特征描述子的L2约束,使得特征分布在具有固定半径的超球上。

 

大多数现有的使用softmax损失训练的DCNN方法倾向于在高质量的数据上过拟合,对于困难人脸常分类错误。作者通过观察发现,softmax损失学习到的特征的L2-norm是人脸图像质量的反映,高质量的人脸具有较大的L2-norm,模糊或极端姿态的人脸具有较小的L2-norm。论文对特征的L2-norm加了约束,使得特征分布在具有固定半径的超球上,第一可以让模型对不同质量的人脸具有相同的关注度,第二可以使得相同id的特征更近,不同id的特征较远。L2-softmax不需要与其他损失联合训练,就可以获得较好的效果,但它又与度量学习如TPE,joint-Bayes等互补。

 

这篇论文与center-loss的不同点:第一是仅使用了一个损失函数,而center-loss与softmax loss联合训练;第二center loss引入了C×D个额外的参数,其中C是类别数目,D是特征维度,而L2-softmax仅引入了一个定义固定L2-norm的参数,第三,center-loss可以与L2-softmax损失联合使用,得到更好效果。

 

作者做了一个实验验证了softmax损失训练的,高质量具有较大L2-norm的特征性能最好,如下图所示。

L2-constrained Softmax Loss for Discriminative Face Verification_第1张图片

作者增加了特征的L2-norm约束,将特征约束在具有固定半径的超球上。在超球上最小化softmax损失,等价于最大化正样本间的余弦相似度、最小化负样本间的余弦相似度,加强了特征的验证性能,L2-norm的softmax损失可以更好的对困难人脸建模。

 

方法描述

L2-softmax的形式为:

L2-constrained Softmax Loss for Discriminative Face Verification_第2张图片

还是在MNIST上对比L2-softmax的效果,下图显示了分别使用softmax和L2-softmax训练LeNet的效果,输出特征为2维,可以发现两种特征的区别:一是L2-softmax损失学到的特征类内角度方差变小了,二是softmax损失学到的特征具有更大的幅值,而特征norm对L2-softmax损失影响较小。因此可以说L2-softmax学到的特征拉近了同类特征,拉远了不同类特征。

L2-constrained Softmax Loss for Discriminative Face Verification_第3张图片

 

在网络中,L2约束通过增加一个L2-norm层及一个scale层实现:

L2-constrained Softmax Loss for Discriminative Face Verification_第4张图片

这个模块加入到DCNN的倒数第二层之后,L2-norm层使用下式将特征x归一化到单位向量:

y=xx2

给定参数α,scale层将输入单位向量缩放到固定的半径,α可以与其他网络参数同时训练:

z=α∙y

训练时,需要将损失的梯度传过这个模块,使用链式法则计算缩放因子α的梯度,即:

∂l∂yi=∂l∂zi∙α

∂l∂α=j=1D∂l∂ziyj

∂l∂xi=j=1D∂l∂yiyixi

∂yj∂xi=x22-xi2x23=-xixjx23

尺度因子要么在训练中固定一个值,要么让网络学习。但是网络学习到的α比较大,L2-约束较为宽松。更好的方式是将α固定在较小的常量。但另一方面,非常小的α将导致训练无法收敛,因为小的α会导致超球的面积太小。论文提出了α的理论低值,假设类别数目C比特征维度小2倍,这样分布在球面上的每两类中心至少距离90°。假设分类器的权值Wi是指向类别中心的单位向量,正确分类特征的平均softmax概率为:

p=ewiTXij=1CewjTXi=eαeα+C-2+e-α

忽略e-α,平均概率变为:

p=eαeα+C-2

下图显示了不同类别数目C,及不同尺度因子α对概率得分的影响,从图中可以看出,为了得到p=0.9的概率,大的C需要较大的α。给定p,α的下边界为:

αlow=logp(C-2)1-p

 

实验结果

使用Face-ResNet进行实验,该网络包含27个卷积层,2个全连接层,在fc层厚增加L2-norm层及scale层,网络结构为:

L2-constrained Softmax Loss for Discriminative Face Verification_第5张图片

 

实验细节

训练数据MS-Celeb-1M,(1)MS-Small,0.5M图像,13403个人,(2)MS-Large,3.7M图像,58207个人。Scale层,可训练的α学习乘子及衰减乘子为1,固定的α为0。在LFW和IJB-A数据集上实验,人脸裁切并矫正到128×128。

使用MS-small训练,在LFW上的结果如下图所示,L2-softmax相比softmax错误率下降62%:

L2-constrained Softmax Loss for Discriminative Face Verification_第6张图片

在IJB-A数据集上的效果,TAR@FAR=0.0001提升了19%:

L2-constrained Softmax Loss for Discriminative Face Verification_第7张图片

 

在MS-Large上训练发现,理论的α低值不可靠,当训练集比较大时,可训练的α更可靠,(这里计算的α低值为30,但α=40,50时效果最好):

L2-constrained Softmax Loss for Discriminative Face Verification_第8张图片

增加center loss同时监督的效果:

L2-constrained Softmax Loss for Discriminative Face Verification_第9张图片

 

在LFW,YTF上与其他方法的对比:

L2-constrained Softmax Loss for Discriminative Face Verification_第10张图片

 

你可能感兴趣的:(L2-constrained Softmax Loss for Discriminative Face Verification)