论文提要“Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues”

动机
目前的人脸识别方法主要针对正脸,对于不同视角无正脸有遮挡的效果不好,人类可以由细微的区别如发型,衣服,眼镜,姿态及其他信息判断。

在非限制条件下识别人身份信息,建立了一个People in Potho Album(PIPA)数据库,包含约60 000个样本约2000个个体。数据库中只有一半的人具有正脸,提出来姿态不变的人像检测方法(PIPER),该方法使用了CNN对poselet训练消除姿态影响,结合一个人脸识别方法(Deepface)和一个全身识别器提升精度。

方法
PIPER,使用poselet作为part模型,对每个poselet训练一个分类器,poselet是检测常见姿态模式的分类器,正脸检测是poselet的一种形式,下图显示了文章top4 poselet。
论文提要“Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues”_第1张图片
每个poselet都不是一个强识别器,通过组合识别结果累积每个part的细微信息,可以得到一个姿态无关的人像身份认证系统。

PIPER
包含三个组成部分:
1.一个全局分类器,CNN对全身训练
2.107个poselet分类器,CNN训练
3.SVM训练 DeepFace的256d特征

身份识别是上述分类器的预测概率线性组合:
s(X,y)=iwiPi(y|X)
Pi(y|X) 是给定i个part特征X的label是y的归一化概率,最终的身份预测是
y(X)=argmaxys(X,y)

训练过程的详细描述:
1.在数据库上运行poselet,将poselet预测的结果与ground truth匹配。
2.使用1的poselet块,每个poselet训练一个CNN,识别身份。另外,CNN训练一个全身的分类器。网络结果是Krizhevsky的,微调身份识别任务。
3.验证数据分为两半,忽略fc8层,SVM使用fc7层特征在第一半验证数据训练,之后第二半数据计算 Pi(y|X)
4.使用验证数据所有part的身份预测估计 wi
5.测试数据分成两半,SVM和fc7在前一半训练,预测后一半 Pi(y|X)
6.使用测试数据的 Pi(y|X) wi 计算 s(X,y)

计算part激活
运行poselet,返回人像的bbox,有得分和poselet激活的位置。使用双向图匹配算法匹配groundtruth及poselet的结果。返回具有最大得分和最大overlap的匹配。输出poselet激活和groundtruth实例。

训练part分类器 Pi(y|X)
1.全局分类器 P0(y|X)
全身区域fc7层,使用SVM训练预测身份y。
2.part-级SVM分类器 Pi(y|X)
给定part i的fc7层特征X和label y,训练多类SVM,输出得分的softmax表示为 P^i(y|X)
P^i 稀疏特性表现在以下两方面:
1.每个poselet仅在表现出对应poslet特定姿态的样本上激活。
2.不是所有的个体都包含所有的poselet,每个poselet-层SVM只在所有个体的子集 Fi 上训练

稀疏填充
使用全局模型 P0 的概率分布解决稀疏问题:

公式图形化表示如下所示:
论文提要“Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues”_第2张图片

计算part权值 wi
使用验证集计算w,将验证集分为两部分,在一个子集上训练part-based SVM,在第二个子集所有实例上计算 Pi(y|X) Pji(y|X) 表示第j个实例part i的label为y的概率。每个实例j和label y构成一个样本进行二值分类,如果有K个parts,特征向量为K维: [Pj0(y|X),Pj1(y|X),...,Pjk(y|X)] ,如果j的label是y则二值分类结果为1。

你可能感兴趣的:(论文提要“Beyond Frontal Faces: Improving Person Recognition Using Multiple Cues”)