人脸相似度对比

人脸相似度对比_第1张图片

由清晰的人脸照转化出的像素值矩阵,应当设计出什么样的函数 f(x)转化为特征值呢?这个问题的答案依赖于分类问题。即,先不谈特征值,首先如何把照片集合按人正确地分类?这里就要先谈谈机器学习。机器学习认为可以从有限的训练集样本中把算法很好地泛化。所以,我们先找到有限的训练集,设计好初始函数 f(x;w),并已经量化好了训练集中 x->y。如果数据 x 是低维的、简单的,例如只有二维,那么分类很简单,如下图所示:

上图中的二维数据 x 只有方形和圆形两个类别 y,很好分,我们需要学习的分类函数用最简单的 f(x,y)=ax+by+c 就能表示出分类直线。例如 f(x,y)大于 0 时表示圆形,小于 0 时表示方形。

给定随机数作为 a,c,b 的初始值,我们通过训练数据不断的优化参数 a,b,c,把不合适的 L1、L3 等分类函数逐渐训练成 L2,这样的 L2 去面对泛化的测试数据就可能获得更好的效果。然而如果有多个类别,就需要多条分类直线才能分出,如下图所示:

这其实相当于多条分类函数执行与&&、或||操作后的结果。这个时候还可能用 f1>0 && f2<0 && f3>0 这样的分类函数,但如果更复杂的话,例如本身的特征不明显也没有汇聚在一起,这种找特征的方式就玩不转了,如下图所示,不同的颜色表示不同的分类,此时的训练数据完全是非线性可分的状态:

这个时候,我们可以通过多层函数嵌套的方法来解决,例如 f(x)=f1(f2(x)),这样 f2 函数可以是数条直线,而 f1 函数可以通过不同的权重 w 以及激励函数完成与&&、或||等等操作。这里只有两层函数,如果函数嵌套层数越多,它越能表达出复杂的分类方法,这对高维数据很有帮助。例如我们的照片毫无疑问就是这样的输入。所谓激励函数就是把函数 f 计算出的非常大的值域转化为[0,1]这样较小的值域,这允许多层函数不断地前向运算、分类。

前向运算只是把输入交给 f1(x,w1)函数,计算出的值再交给 f2(y1,w2)函数,依次类推,很简单就可以得到最终的分类值。但是,因为初始的 w 权重其实没有多大意义,它得出的分类值 f*(x)肯定是错的,在训练集上我们知道正确的值 y,那么事实上我们其实是希望 y-f*(x)的值最小,这样分类就越准。这其实变成了求最小值的问题。当然,y-f*(x)只是示意,事实上我们得到的 f*(x)只是落到各个分类上的概率,把这个概率与真实的分类相比较得到最小值的过程,我们称为损失函数,其值为 loss,我们的目标是把损失函数的值 loss 最小化。在人脸识别场景中,softmax 是一个效果比较好的损失函数,我们简单看下它是如何使用的。

比如我们有训练数据集照片对应着 cat、dog、ship 三个类别,某个输入照片经过函数 f(x)=x*W+b,前向运算得到该照片属于这 3 个分类的得分值。此时,这个函数被称为得分函数,如下图所示,假设左边关于猫的 input image 是一个 4 维向量[56,231,24,2],而 W 权重是一个 4*3 的矩阵,那么相乘后再加上向量[1.1,3.2,-1.2]可得到在 cat、 dog、ship 三个类别上的得分:

从上图示例可见,虽然输入照片是猫,但得分上属于狗的得分值 437.9 最高,但究竟比猫和船高多少呢?很难衡量!如果我们把得分值转化为 0-100 的百分比概率,这就方便度量了。这里我们可以使用 sigmoid 函数,如下图所示:

从上图公式及图形可知,sigmoid 可以把任意实数转换为 0-1 之间的某个数作为概率。但 sigmoid 概率不具有归一性,也就是说我们需要保证输入照片在所有类别的概率之和为 1,这样我们还需要对得分值按 softmax 方式做以下处理:

这样给定 x 后可以得到 x 在各个类别下的概率。假定三个类别的得分值分别为 3、1、-3,则按照上面的公式运算后可得概率分别为[0.88、0.12、0],计算过程如下图所示:

然而实际上 x 对应的概率其实是第一类,比如[1,0,0],现在拿到的概率(或者可称为似然)是[0.88、0.12、0]。那么它们之间究竟有多大的差距呢?这个差距就是损失值 loss。如何获取到损失值呢?在 softmax 里我们用互熵损失函数计算量最小(方便求导),如下所示:

其中 i 就是正确的分类,例如上面的例子中其 loss 值就是 -ln0.88。这样我们有了损失函数 f(x)后,怎么调整 x 才能够使得函数的 loss 值最小呢?这涉及到微分导数。

深度学习人脸相似度检测

你可能感兴趣的:(计算机视觉,人工智能,深度学习)