人脸识别系列(四):Webface系列1(CASIA-WebFace)

论文链接:Learning Face Representation from Scratch

这篇文章的亮点在于提出一种半自动的方法来收集网络上的人脸图像,最终组成了国内人脸识别届颇具盛名的人脸训练集 CASIA-WebFace,同时还提出了一种11层的CNN最终达到了lfw上的state-of-art。

##数据集的构建

构建数据集时,从网络上爬图像下来很容易,但是给图片逐一做标记却很难。因此作者借用了IMDb网站,通过半自动的方式完成了爬图像和标记。

(IMDb是一个电影、电视和名人内容的展示网站)

在IMDb,每个名人都有一个主页,类似

这里写图片描述

然后先把人的名字爬下来,再爬照片,每个人都有一个mainphoto与photo gallery。

下一个难题在于photo gallery中的一些照片中会出现很多的人。
也就是说要区分出现很多人的照片具体谁是谁,即检测到的人脸的聚类问题

用现有的人脸识别方法来提取特征然后聚类人脸是一种常用的方法,一般的聚类方法需要计算所有样本之间的相似矩阵,这个矩阵会很大,无法加载入内存,因此作者使用了一种更快的聚类方法:

1.通过人脸识别方法提取人脸特征;

2.使用每个名人的mainphoto作为它的种子(因为mainphoto一般都是正脸,而且不会出现其他人);

3.使用那些只有1个人脸的图片去增加每个名人的种子的数量;

4.在photo gallery剩下的图片中,通过与种子的相似度来找到属于每个名人的其余照片。

5.裁剪人脸,将同一个名人的脸单独存入一个路径内,之后再进行人工纠错,进一步提高数据集纯度。

最终得到了10,575人\494,414照片的数据集 CASIA-WebFace。

作者给出了一些常见的人脸数据集的统计数据以比较,可以看出 CASIA-WebFace是当时人脸数据集中数据量最大的公开数据集,为人脸识别技术的发展做出了很大贡献。
这里写图片描述
想要下载CASIA-WebFace可以去官网申请,但是好像挺难的,也可以通过我给的链接下载
官网地址:http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html
下载地址:https://download.csdn.net/download/fire_light_/10291726

人脸识别网络

使用了Inception、VGG的网络构筑技巧,即更深的卷积层、低维度的特征表达、多种损失函数、与小的卷积核。

网络结构如下:
这里写图片描述
一些技巧的解读:

1.使用多个3x3的卷积核代替大卷积核
2.只使用一个全连接层,减少参数量
3.使用两种监督信号
可以看出作者在网络构筑上没有提出新的思想,而是借鉴了Inception以及DeepId网络的优秀结构。

测试结果:

这里写图片描述

其中与ABCDE对应的特征提取与验证算法如下:

这里写图片描述
DR表示在CASIA上训练的上述的卷积神经网络。

你可能感兴趣的:(人脸识别系列(四):Webface系列1(CASIA-WebFace))