人脸识别和人脸验证问题,人脸验证通常验证一个人的照片与输入的id是否是同一个人,属于一对一问题。人脸识别要比人脸验证难得多,人脸识别是一个一对多的问题。假如你的人脸识别准确率为99%,识别100个人就可能有一个人的识别出错。
人脸识别问题一个挑战就是我们需要解决一次学习问题(一个人一张照片),一种方法是直接将图片放入卷积网络,利用softmax输出分类是哪个人,这种方法显然不灵活,当新增一个人模型还需要增加分类重新学习,并且随着人数增多,模型的分类也会增多。
我们构建一个similarity函数, s i m i l a r i t y ( i m g 1 , i m g 2 ) = d e g r e e o f d i f f e r e n c e b e t w e e n i m a g e s similarity(img1,img2) = degree of difference between images similarity(img1,img2)=degreeofdifferencebetweenimages,输出两张照片的差异值,我们希望训练的网络,同一个人的差异特别小,不同人的差异越大越好,用差异的阈值来判别是否是同一个人。
将两个输入放入有相同参数的神经网络,得到两个128维的向量,然后定义编码之差的范数 d ( x ( 1 ) , x ( 2 ) ) = ∣ ∣ f ( x ( 1 ) − f ( x ( 2 ) ) ) ∣ ∣ 2 2 d(x^{(1)},x^{(2)})=||f(x^{(1)}-f(x^{(2)}))||_2^2 d(x(1),x(2))=∣∣f(x(1)−f(x(2)))∣∣22,具有相同参数的神经网络就是我们要训练的参数。
我们要训练的目标就是当是同一个人时,使上述的范数越小越好,当训练的目标不是同一个人时,范数越大越好。
方法之一:定义三元组损失函数
我们需要比较Anchor和Positive的距离与Anchor和Negative的距离。
我们希望有如下式子
然后对表达式做一点修改,防止出现0<=0,增加的 α \alpha α间隔。此外,间隔 α \alpha α增大还可以增强模型的准确性。
然后定义损失函数:
只要左式小于等于0,损失函数就为0,如果没有达到目标,即损失函数为正,就需要最小化损失函数来达到使损失函数为0的结果。
关于A P N,N不要随机选择,应该选择与A相近的N,这样神经网络才能竭尽全力使NA的距离变大,神经网络可以学到更多东西。
我们还可以将人脸识别问题当成一个二分类问题。分类网络的输入如下图蓝色公式,如果是相同的人输出为1,如果是不同的人输出为0。
下图公式表示另一种分类网络的输入方式,叫做卡方公式。
内容图片Content与风格图片Style训练获得生成图片Generated image
可视化捕捉的特征:选择一层layer将训练集经过神经网络,选择一个单元节点,找出哪些图片最大程度激活了这个的单元,并可视化其图片块。
可以发现,卷积网络每一层可以检测到的特征趋于复杂,即由浅层到深层,检测到的特征越来越具体。
要构建一个神经风格迁移系统,首先为生成的图像定义一个代价函数,通过最小化代价函数,可以生成我们想要的任何图像。
假设G为生成图像,C是内容图像,S是风格图像。我们将代价函数分为两部分
内容代价 J c o n t e n t ( C , G ) J_{content}(C,G) Jcontent(C,G)和风格代价 J s t y l e ( C , G ) J_{style}(C,G) Jstyle(C,G)
J ( G ) = α J c o n t e n t ( C , G ) + β J s t y l e ( C , G ) J(G)=\alpha{J_{content}(C,G)}+\beta{J_{style}(C,G)} J(G)=αJcontent(C,G)+βJstyle(C,G)
算法运行:首先随机初始化生成图像G,然后使用梯度下降对代价函数最小化。
假如隐藏层很小,他会在像素上非常接近生成图片的像素;如果很深,假如图片有狗,他就会生成一只狗。所以实际中,代价层l不会太浅也不会太深。通常选择在网络的中间层。
我们要衡量一个内容图片和生成图片在内容上的相似度,我们令 a [ l ] [ C ] 和 a [ l ] [ G ] a^{[l][C]}和a^{{[l][G]}} a[l][C]和a[l][G]表示图片C和G的l层的激活函数值,如果这两个激活值相似,则认为内容相似
J c o n t e n t ( C , G ) = 1 2 ∣ ∣ a [ l ] [ C ] − a [ l ] [ G ] ∣ ∣ 2 J_{content}(C,G)=\frac{1}{2}||a^{[l][C]}-a^{[l][G]}||^2 Jcontent(C,G)=21∣∣a[l][C]−a[l][G]∣∣2
风格代价通过衡量风格图像S和生成图像G的风格矩阵的距离。
风格矩阵表现为l层各通道间的相关性,因而风格矩阵的维度 n c ∗ n c , n c n_c*n_c,n_c nc∗nc,nc为通道数。风格矩阵的计算方式为下图, k 和 k ′ k和k^{'} k和k′通道的所有高度和宽度的对应数值相乘并加和。
风格矩阵在线性代数又称为Gram。
下图手写体表示风格图像和生成图像的风格矩阵计算方式
风格矩阵计算的是两个通道的激活项数值乘积,因为如果两个通道的激活项都很大,那么 G k k ′ [ l ] G_{kk^{'}}^{[l]} Gkk′[l]也会变得很大,如果他们不相关,那么 G k k ′ [ l ] G_{kk^{'}}^{[l]} Gkk′[l]就会很小。
然后将S和G带入风格代价函数中计算,得到两个矩阵间的误差,然后加一个F(Frobenius范数),也就是两个对应矩阵元素相减的平方和。
最后我们获得对l层定义的代价函数,两个图像S和G之间的范数再乘一个归一化常数 1 ( 2 n H [ l ] n W [ l ] n C [ l ] ) 2 \frac{1}{(2n_H^{[l]}n_W^{[l]}n_C^{[l]})^2} (2nH[l]nW[l]nC[l])21。
我们也可以对多层卷积网络使用风格代价函数,并配置不同的权重,这样就可以学到类似边缘的低级特征以及后面的高级特征。
当应用于1D数据,与2D数据类似,这时我们只需要1x5维度的过滤器,一次做卷积,如下图,我们可以获取一个10x1的结果数据。
如下图,3D与2D并无太大区别,相当于增加一个维度,而过滤器可能为4维。CT医疗扫描是3D数据的一个实例
参考第四周 特殊应用:人脸识别和神经风格转换