A Lightened CNN for Deep Face Representation读后感

论文题目 A Light CNN for Deep Face Representation with Noisy Labels

1 本文提出一个 LIght CNN结构,可以在有巨大噪声标签的大规模数据集上,学习到compact embedding。提出了一个新型激活函数Max-Feature-Map (MFM),该函数不仅能区分noisy and informative signals,还在特征选择中起重要作用。

2 MFM激活函数
A Lightened CNN for Deep Face Representation读后感_第1张图片
对于RELU激活函数,根据一个阈值来决定该神经元是否被激活,而这样很容易找出一些信息丢失,特别是前面几层网络,前面几层网络很像Gabor滤波器

3 提供了3个小网络, Light CNN-4, Light CNN-9,Light CNN-29(基于resnet)。其中Light CNN-29(基于resnet),没有用BN层,因为BN层可能会失败,对于测试集和训练集不在一个域,因为BN层的均值和方差来源于训练数据;用全连接层替换了平均池化层,因为对于高阶特征图,已经学习到了图片的语义及空间信息,采用平均池化会造成一定损害。

4 进行评测,提供了4人脸数据集类型(可细看,包括现今大部分评测人脸数据集):

  1. Labeled Face in the Wild Database;
  2. Video-based Face Recognition Databases;
  3. Large-Scale Face Recognition Databases;
  4. Cross Domain Face Recognition Databases;

5 本文提供的3个小模型,都比较小,而且速度快,准确率不错,在手机等设备上可以很好的应用。
A Lightened CNN for Deep Face Representation读后感_第2张图片
6 最后提出了一个Noisy Label Data Bootstrapping,首先在CASIA-WebFace数据集上进行训练,然后在 MSCeleb-1M上进行fine-tune(其中为了训练收敛,里面的调参技巧值得学习),得到训练模型。根据训练模型,进行第一次筛选,设定一系列阈值[0.6, 0.7, 0.8, 0.9],然后只有预测的label正确已经softmax概率大于阈值的才保留,作为MS-1M-1R,然后在训练看在测试集上表现(阈值为0.7表现最好);进行第二次筛选,在第一次筛选后可以认为有很少的噪声标签,这次将预测label是正确的保留,以及预测label不正确但是softmax概率大于阈值的也保留,作为MS-1M-2R,最终作为训练数据。经过两次筛选之后,MSCeleb-1M数据集人的标签从99,891降到79,077。

你可能感兴趣的:(A Lightened CNN for Deep Face Representation读后感)