深度学习11-为什么使用卷积

这是本周最后一节课,我们来分析一下卷积在神经网络中如此受用的原因,然后对如何整合这些卷积,如何通过一个标注过的训练集训练卷积神经网络做个简单概括。和只用全连接层相比,卷积层的两个主要优势在于参数共享和稀疏连接,举例说明一下。

稀疏交互

在传统神经网络中,网络层之间输入与输出的连接关系可以由一个权值参数矩阵来表示,其中每一个单独的参数值都表示了前后层某两个神经元节点之间的交互。对于全连接网络,任意一对输入与输出神经元之间都产生交互,形成稠密的连接结构。

深度学习11-为什么使用卷积_第1张图片


在卷积神经网络中,卷积核尺度远远小于输入的维度,这样每个输出神经元仅与前一层特定局部区域内的神经元存在连接权重(即产生交互),我们就称这种特性为稀疏交互

深度学习11-为什么使用卷积_第2张图片

源自:卷积神经网络中的稀疏交互和参数共享 - 知乎 (zhihu.com)

假设有一张32×32×3维度的图片,这是上节课的示例,假设用了6个大小为5×5的过滤器,输出维度为28×28×6。其中32×32×3=3072,28×28×6=4704。如果你是构建一个神经网络,其中一层含有3072个单元,下一层含有4074个单元,两层中的每个神经元彼此相连,然后计算权重矩阵,它等于4074×3072≈1400万,所以要训练的参数很多。虽然以现在的技术,我们可以用1400多万个参数来训练网络,因为这张32×32×3的图片非常小,训练这么多参数没有问题。如果这是一张1000×1000的图片,权重矩阵会变得非常大。

深度学习11-为什么使用卷积_第3张图片


 但是我们看看这个卷积层的参数总量,每个过滤器都是5×5,一个过滤器有25个参数,再加上偏差参数,那么每个过滤器就有26个参数,一共有6个过滤器,所以参数共计156个,参数数量还是很少。

卷积网络映射这么少参数有两个原因:

一是参数共享。参数共享是指,在特征检测器中,例如垂直边缘检测如果适用于图片的某个区域,那么它也可能适用于图片的其他区域。也就是说,如果你用一个3×3的过滤器检测垂直边缘,那么图片的左上角区域,以及旁边的各个区域(左边矩阵中蓝色方框标记的部分)都可以使用这个3×3的过滤器。每个特征检测器以及输出都可以在输入图片的不同区域中使用同样的参数,以便提取垂直边缘或其它特征。它不仅适用于边缘特征这样的低阶特征,同样适用于高阶特征,例如提取脸上的眼睛,猫或者其他特征对象。即使减少参数个数,这9个参数同样能计算出16个输出。直观感觉是,一个特征检测器,如垂直边缘检测器用于检测图片左上角区域的特征,这个特征很可能也适用于图片的右下角区域。因此在计算图片左上角和右下角区域时,你不需要添加其它特征检测器。假如有一个这样的数据集,其左上角和右下角可能有不同分布,也有可能稍有不同,但很相似,整张图片共享特征检测器,提取效果也很好。

深度学习11-为什么使用卷积_第4张图片


第二个方法是使用稀疏连接,我来解释下 ,这个0是通过3×3的卷积计算得到的,它只依赖于这个3×3的输入的单元格,右边这个输出单元(元素0)仅与36个输入特征(6行)中9个相连接。而且其它像素值都不会对输出产生任影响,这就是稀疏连接的概念。

深度学习11-为什么使用卷积_第5张图片

再举一个例子,这个输出(右边矩阵中红色标记的元素 30)仅仅依赖于这9个特征(左边矩阵红色方框标记的区域),看上去只有这9个输入特征与输出相连接,其它像素对这个输出值(3)没有任何影响。

深度学习11-为什么使用卷积_第6张图片

神经网络可以通过这两种机制减少参数,以便我们用更小的训练集来训练它,从而预防过度拟合。你们也可能听过,卷积神经网络善于捕捉平移不变。通过观察可以发现,向右移动两个像素,图片中的猫依然清晰可见,因为神经网络的卷积结构使得即使移动几个像素,这张图片依然具有非常相似的特征,应该属于同样的输出标记。实际上,我们用同一个过滤器生成各层中,图片的所有像素值,希望网络通过自动学习变得更加健壮,以便更好地取得所期望的平移不变属性。

这就是卷积或卷积网络在计算机视觉任务中表现良好的原因。


 最后,我们把这些层整合起来,看看如何训练这些网络。比如我们要构建一个猫咪检测器,我们有下面这个标记训练集,x 表示一张图片,y 表示二进制标记或某个重要标记。我们选定了一个卷积神经网络输入图片,增加卷积层和池化层,然后添加全连接层,最后输出一个softmax,即y。卷积层和全连接层有不同的参数 w 和偏差 b,我们可以用任何参数集合来定义代价函数损失函数)。一个类似于我们之前讲过的那种代价函数,并随机初始化其参数 w b损失函数 J 等于神经网络对整个训练集的预测的损失总和再除以 m 。所以训练神经网络,你要做的就是使用梯度下降法,或其它算法,例如Momentum梯度下降法,含RMSProp或其它因子的梯度下降来优化神经网络中所有参数,以减少损失函数 J 的值,通过上述操作你可以构建一个高效的猫咪检测器或其它检测器。

恭喜你完成了这一周的课程,你已经学习了卷积神经网络的所有基本构造模块,以及如何在高效图片识别系统中整合这些模块。透过本周编程练习,你可以更加具体了解这些概念,试着整合这些构造模块,并用它们解决自己的问题。

下周,我们将继续深入学习卷积神经网络。我曾提到卷积神经网络中有很多超参数,下周,我打算具体展示一些最有效的卷积神经网络示例,你也可以尝试去判断哪些网络架构类型效率更高。人们通常的做法是将别人发现和发表在研究报告上的架构应用于自己的应用程序。下周看过更多具体的示例后,相信你会做的更好。此外,下星期我们也会深入分析卷积神经网络如此高效的原因,同时讲解一些新的计算机视觉应用程序,例如,对象检测和神经风格迁移以及如何利用这些算法创造新的艺术品形式。
 

学习笔记

参考链接:理解过拟合 - 知乎 (zhihu.com)

你可能感兴趣的:(深度学习笔记,深度学习,cnn,神经网络)