人脸验证(Verification):
1. Input:图片、名字/ID;
2.Output:输入的图片是否是对应的人。
3.1 to 1 问题。
对于大多数的人脸识别系统都存在的一个问题就是one shot learning。
什么是one shot learning:
对于一个人脸识别系统,我们需要仅仅通过先前的一张人脸的图片或者说一个人脸的样例,就能够实现该人的识别,那么这样的问题就是one shot 问题。对于存在于数据库中的人脸图片,系统能够识别到对应的人;而不在数据库中的人脸图片,则系统给出无法通过识别的结果。
但是One-shot learning的性能并不好,其包含了两个缺点:
1.每个人只有一张图片,训练样本少,构建的CNN网络不够健壮。
2.若数据库增加另一个人,输出层softmax的维度就要发生变化,相当于要重新构建CNN网络,使模型计算量大大增加,不够灵活。
对于one shot learning 问题,因为只有单个样本,是不足以训练一个稳健的卷积神经网络来进行不同人的识别过程。而且,在有新的样本成员加入的时候,往往还需要对网络进行重新训练。所以我们不能以传统的方法来实现识别系统。
为了能够让人脸识别系统实现一次学习,需要让神经网络学习 Similarity 函数:
d(img1, img2):两幅图片之间的差异度
输入:两幅图片
输出:两者之间的差异度
如果d(img1,img2)⩽τ ,则输出“一样”;
如果d(img1,img2)>τ,则输出“不一样”.
对于人脸识别系统,通过将输入的人脸图片与数据库中所拥有的图片成对输入Similarity函数,两两对比,则可解决one shot problem。如果有新的人加入团队,则只需将其图片添加至数据库即可。
利用Siamese 网络来实现 Similarity 函数。
构建网络:
对于一个卷积神经网络结构,我们去掉最后的softmax层,将图片样本1输入网络,最后由网络输出一个N维的向量(图中实例以128表示),这N维向量则代表输入图片样本1的编码。将不同人的图片样本输入相同参数的网络结构,得到各自相应的图片编码。
将Similarity 函数表示成两幅图片编码之差的范数:
那么也就是说:
我们的神经网络的参数定义了图片的编码;
学习网络的参数,使我们得到好的Similarity 函数:
如何通过学习神经网络的参数,得到优质的人脸图片的编码?方法之一就是定义 Triplet 损失函数,并在其之上运用梯度下降。
学习目标:
Triplet Loss需要每个样本包含三张图片:靶目标(Anchor)、正例(Positive)、反例(Negative),这就是triplet名称的由来。顾名思义,靶目标和正例是同一人,靶目标和反例不是同一人。Anchor和Positive组成一类样本,Anchor和Negative组成另外一类样本。
为了使用Triplet 损失函数,我们需要比较成对的图像(三元组术语):
Anchor (A): 目标图片;
Positive(P):与Anchor 属于同一个人的图片;
Negative(N):与Anchor不属于同一个人的图片。
对于Anchor 和 Positive,我们希望二者编码的差异小一些;对于Anchor 和Negative,我们希望他们编码的差异大一些。所以我们的目标以编码差的范数来表示为:
上面的公式存在一个问题就是,当f(A)=f(P)=f(N)=0时,也就是神经网络学习到的函数总是输出0时,或者f(A)=f(P)=f(N)时,也满足上面的公式,但却不是我们想要的目标结果。所以为了防止出现这种情况,我们对上式进行修改,使得两者差要小于一个较小的负数:
一般将α称为“margin”。即:
不同 margin 值的设置对模型学习具有不同的效果,margin 的作用就是拉大了 Anchor与Positive 图片对 和 Anchor与Negative 图片对之间的差距。
Triplet 损失函数**:
Triplet 损失函数的定义基于三张图片:Anchor、Positive、Negative。(A P同一人,N为不同人)
整个网络的代价函数:
假设我们有一个10000张片的训练集,里面是1000个不同的人的照片样本。我们需要做的就是从这10000张训练集中抽取图片生成(A,P,N)的三元组,来训练我们的学习算法,并在Triplet 损失函数上进行梯度下降。
注意:为了训练我们的网络,我们必须拥有Anchor和Positive对,所以这里我们必须有每个人的多张照片,而不能仅仅是一张照片,否则无法训练网络。
三元组(A,P,N)的选择:
在训练的过程中,如果我们随机地选择图片构成三元组(A,P,N),那么对于下面的条件是很容易满足的:
所以,为了更好地训练网络,我们需要选择那些训练有“难度”的三元组,也就是选择的三元组满足:
算法将会努力使得 d(A,N)变大,或者使d(A,N)+α变小,从而使两者之间至少有一个α的间隔;(即设法将α设大)
增加学习算法的计算效率,避免那些太简单的三元组。
最终通过训练,我们学习到的参数,会使得对于同一个人的图片,编码的距离很小;对不同人的图片,编码的距离就很大。
对于大型的人脸识别系统,常常具有上百万甚至上亿的训练数据集,我们并我容易得到。所以对于该领域,我们常常是下载别人在网上上传的预训练模型,而不是从头开始。
___________________________________________________________________________________
除了利用 Triplet 损失函数来学习人脸识别卷积网络参数的方法外,还有其他的方式。我们可以将人脸识别问题利用Siamese网络当成一个二分类问题,同样可以实现参数的学习。
Siamese 二分类改进:
对两张图片应用Siamese 网络,计算得到两张图片的N维编码,然后将两个编码输入到一个logistic regression 单元中,然后进行预测。如果是相同的人,那么输出是1;如果是不同的人,输出是0。那么这里我们就将人脸识别的问题,转化为一个二分类问题。
在实际的人脸验证系统中,我们可以对数据库的人脸图片进行预计算,存储卷积网络得到的编码。当有图片进行识别时,运用卷积网络计算新图片的编码,与预计算保存好的编码输入到逻辑回归单元中进行预测。这样可以提高我们系统预测的效率,节省计算时间。
总结:
利用Siamese 网络,我们可以将人脸验证当作一个监督学习,创建成对的训练集和是否同一个人的输出标签。
我们利用不同的图片对,使用反向传播的算法对Siamese网络进行训练,进而得到人脸验证系统。
风格迁移:
在进行神经风格迁移之前,我们先来从可视化的角度看一下卷积神经网络每一层到底是什么样子?它们各自学习了哪些东西。
深度卷积网络到底在学什么?
可视化例子:
典型的CNN网络如下所示
各层的可视化:
我们希望看到不同层的隐藏单元的计算结果。依次对各个层进行如下操作:
在当前层挑选一个隐藏单元;
遍历训练集,找到最大化地激活了该运算单元的图片或者图片块;
对该层的其他运算单元执行操作。
对于在第一层的隐藏单元中,其只能看到卷积网络的小部分内容,也就是最后我们找到的那些最大化激活第一层隐层单元的是一些小的图片块。我们可以理解为第一层的神经单元通常会寻找一些简单的特征,如边缘或者颜色阴影等。对于卷积网络的各层单元,随着网络深度的增加,隐藏层计算单元随着层数的增加,从简单的事物逐渐到更加复杂的事物。
代价函数:
为了实现神经风格迁移,我们需要为生成的图片定义一个代价函数。
其中:
执行过程:
随机初始化生成图片G,如大小为100×100×3;
对于上图的内容图片C和风格图片S,通过梯度下降算法一次次的徐训练,我们可以由初始的噪声图片得到最终的风格迁移图片G。
_____________________________________________________________________________
假设我们使用隐藏层 l 计算内容代价。(如果选择的 l太小,那么代价函数就会使得我们的生成图片G在像素上非常接近内容图片;然而用很深的网络,那么生成图片G中就会产生与内容图片中所拥有的物体。所以对于l一般选在网络的中间层,既不深也不浅);
使用一个预训练的卷积网络。(如,VGG或其他);
定义内容代价函数如下:
在对代价函数运行梯度下降算法时,会激励这里的内容代价函数,努力使得生成图片G隐含层l的激活值和内容图片C隐含层l的激活值相似。
风格代价函数(Style cost)
“Style”的含义:
对于一个卷积网络中,我们选择网络的中间层 l, 定义“Style”表示l层的各个通道激活项之间的相关性。
相关性大小的度量:
上面是我们选出的l层的激活项,对于不同的通道值,代表不同的神经元所学习到的特征,这里假如红色的通道可以找到图片中含有垂直纹理特征的区域,黄色通道可以找出橙色的区域。
而相关性大小的含义就是,如假设中,图片出现垂直纹理特征的区域显示橙色可能的大小。我们将相关系数应用到风格图片S和生成图片G的对应通道上,就可以度量风格图片和生成图片的相似度。
Style 矩阵:
在我们上面学过的卷积中,多数是对图形应用2D的卷积运算。同时,我们所应用的卷积运算还可以推广到1D和3D的情况。
2D和1D卷积:
2D卷积:14×14×3∗5×5×3——>10×10×nc
1D卷积:14×1∗5×1——>10×nc
3D卷积:
3D卷积:
14×14×14×1∗5×5×5×1——>10×10×10×nc
14×14×14×1∗5×5×5×1——>10×10×10×nc
3D数据:如医疗CT扫描中的即可产生身体的3D模型;电影切片也属于3D数据。