人脸verification与人脸 recognition
- verification输入为两张照片。
- recognition输入为1张照片,检测此人是否在数据库中。
关于One shotlearning:
- Why one-shot?
- 简单的正常的learning,在数据库增大时softmax的结果会改变,因此会需要神经网络的变化
- 简单的正常的learning,在数据量比较少时学习效果很差(training set太小)
- One-shot有什么优点?
- 只需要学习一个函数d,输入两张照片,输出一个差值,若小于某个threshold则为同一人。
- 与数据库中图片多少无依赖关系。
Siamese Network
- 产生原因:解决one shot learning问题
- 实现原理:让两张图片通过同一个网络得到最后一个layer的两个vector,算两个vector之间的距离..
- 网络的实现方式:让两张图片通过同一个网络,计算得到差值,若为同一个人,则希望差值尽量小;反之希望差值尽量大;从而进行反向传播。
- Paper: DeepFace
FaceNet -- 提出针对face verification的one shot solution -- triplet loss
- 符号:
- A:anchor
- P:正例(和anchor是同一个人)
- N:负例(和anchor不是同一个人,但是是比较相近的人,to方便训练)
- D(A, P) = ||F(A) - f(P)|| ^ 2
- D(A, N) == ||f(A) - f(N)|| ^ 2
- F(A) = output of last layer (e.g. softmax前的fc层),被视为image的encoding,这里假设f(x)是一个长度为128的fc层的输出。
- Alpha: 称为margin,为了让模型不要输出全==0
- Triplet loss:
- Given 3 image, A,P,N,
- L(A, P, N) = max( |F(A) - f(P)|| ^ 2 - ||f(A) - f(N)|| ^ 2 + alpha, 0)
- 源自于公式:
- |F(A) - f(P)|| ^ 2 <= ||f(A) - f(N)|| ^ 2
- |F(A) - f(P)|| ^ 2 - ||f(A) - f(N)|| ^ 2 <= 0
- 不希望f(x)全为0所以在左边添加了alpha,alph大于0
- 再对于所有的这样个m个三元组的loss求平均的到最终的loss function
- 选取A,P,N三元组的方式,让A, N尽量接近,否则随机生成,d(A, P) + alpha <= d(A, N)的满足非常简单。
- 通过这样的loss进行梯度下降学习image的encoding网络。
- 绚练出one shot learning网络的方式 -- 确定一个三元组loss:L(A, P, N) =
- Paper:FaceNet
DeepFace:把faceverification视为一个二分类网络
- 使用Siamese网络,上下两张图片同时输入相同的网络得到两个encoding vector:f(x^(i)), f(x^(j))(假设长度128),将这两个神经元bind并输入到一个最终的output神经元里,得到y_pred,作为2分类结果。
- 两个神经元的combine方式:可以是相应位置的元素的差的绝对值的和,可以是元素的差的平方。
- 若应用到人脸recognition上,可以让DB中所有image都precompute得到他们的encoding vector,这样不用每次来了新的员工都需要计算所有的image的encoding vector。