深度学习干货总结(二)

    上回书说了全连接网络,这次我们主要总结下卷积神经网络。

    ​低级动物无死角的眼睛配置,虽然能够更全面的关注周围,但副作用却在于,它们没办法把自己的目光集中在某一处,自然也没有办法仔细、长期地观察某个点,于是它们也就不可能进化出深入思考的能力。而人类却因为眼睛的缺陷(接受了视野中的盲区)而能注视前方,从而能给出观察事物的深刻洞察。

深度学习干货总结(二)_第1张图片

从数学上讲,卷积就是一种运算,比如加法.

其连续的定义为:

其离散的定义为:

二者有共同特征:

深度学习干货总结(二)_第2张图片
深度学习干货总结(二)_第3张图片

因此,两枚骰子点数加起来为4的概率为:

符合卷积的定义,把它写成标准的形式就是:

连续型卷积:卖馒头

假设馒头的生产速度是f(t),那么一天生产出来的馒头总量为:

再假设馒头生产出来后会在24小时后变质,且变质函数为g(t),那么10个馒头的变质程度可以表示为:

不断生产就会不断变质,所以一天之后我们的馒头总共变质了:

再举个例子:

深度学习干货总结(二)_第4张图片
深度学习干货总结(二)_第5张图片

假设全连接层的输入层是个1000维的列向量,一般我们把这个向量叫做特征向量(注意:卷积层可以自主提取到这些特征),经过全连接层得到一个100维的列向量输出。我们如果把输入和输出都看成一个个节点的话,节点与节点之间的关系可以用下图来表示。全连接中每一层的每个神经元与下一层的所有神经元互相之间均有连接,这种情况下将会有1000*100个权值需要进行正反向传播训练,对于更加海量的数据,神经网络的复杂性将会更加的严重,而且似乎抓不住重点…….

深度学习干货总结(二)_第6张图片

卷积运算的过程:

深度学习干货总结(二)_第7张图片
深度学习干货总结(二)_第8张图片

CNN秀肌肉

1.卷积层,通过实现“局部感知”和“权值共享”等系列的设计理念,可达到两个重要的目的:对高维输入数据实施降维处理和实现自动提取原始数据的核心特征。

2.激活函数:其作用是将前一层的线性输出,通过非线性激活函数处理,从而可模拟任意函数,进而增强网络的表征能力。在深度学习领域,ReLU是目前使用较多的激活函数,原因是它收敛更快,且不会产生梯度消失问题。

3.池化层:亦称亚采样层。利用局部相关性,“采样”在较少数据规模的同时保留了有用信息。巧妙的采样还具备局部线性转换不变性,从而增强卷积神经网络的泛化处理能力。

4.全连接层:这个网络层相当于多层感知机。通常来说,“卷积-激活-池化”是一个基本的处理栈,通过多个前栈处理之后,待处理的数据特性已有了显著变化:1.输入数据的维度已下降到可用“全连接”网络来处理了 2.此时全连接层的输入数据已不再是“泥沙俱下、鱼龙混杂”,而是经过反复提纯过的结果。因此最后输出的结果要可控得高。

深度学习干货总结(二)_第9张图片

卷积层的3个核心概念

1.局部连接:全连接的前馈神经网络有个非常致命的缺点,那就是可扩展性非常差,同时也抓不住重点。原因非常简单,网络规模一大,需要调参的个数以神经元数的平方倍增,导致它难以承受参数太多之痛。

2.空间排列:卷积核的尺寸、深度(个数)、步幅及补零(边界处理)。每一个卷积核与原始输入数据执行卷积操作,会得到一个卷积特征,这样的多个特征汇集在一起称为特征图谱。每个卷积核提取的特征都有各自的侧重点。因此,多个卷积核的叠加效果要比单个卷积核的分类效果要好得多。

3. 权值共享: 从生物学意义上来看,相邻神经元的活性相似,从而可以它们共享相同的连接权值。其次单从数据特征上来看,我们可以把每个卷积核当作一种特征提取方式,而这种方式与图像等数据的位置无关。这就意味着,对于同一个卷积核,它在一个区域提取到的特征,也能适用于其他区域。基于权值共享策略,同属于一个特征图谱的神经元将共用一个权值参数矩阵。

激活函数:

世界上最美的线条是曲线。这个细小的变化,让Relu在实际应用中大放异彩,除了减少了计算量,还减少了参数的相互依存关系(网络瘦身了不少),使其收敛速度远远快于其他激活函数,最后还在一定程度上缓解了过拟合问题的发生(对Dropout机制比较熟悉的同学可能会发现,Relu和Dropout的迭代过程极其神似!)。

深度学习干货总结(二)_第10张图片

池化层:

弱水三千只取一瓢。针对神经网络,就是再次降低数据量,让系统少学点。不要认为,训练数据越“全面”越好。就好比当孩子还小正处于学习阶段时,家长们的浓浓爱意,总想通过“事无巨细”地照顾孩子表达出来。但在这种环境下“学习”出来的孩子,一旦踏上社会,适应新环境的能力往往不尽如人意,并不值得提倡。神经网络也是如此。那该如何降低数据量呢?最简单的策略自然就是“采样”了。其实,采样的本质就是力图以合理的方式“以偏概全”。这样一来,数据量自然就降低了。池化函数考察的是在输入数据中,大小为w×h的子区域之内,所有元素具有的某一种特性。常见的统计特性包括最大值、均值、累加和及L2范数等。池化层函数力图用统计特性反应出来的1个值,来代替原来w×h的整个子区域。

深度学习干货总结(二)_第11张图片

CNN平移不变性:简单地说,卷积+最大池化约等于平移不变性,因为图像经过平移,相应的特征图上的表达也是平移的。

(1)卷积:假设左图中输入图像的左下角有一个人脸,经过卷积,人脸的特征(眼睛,鼻子)也位于特征图的左下角。卷积被定义为不同位置的特征检测器,无论目标出现在图像中的哪个位置,它都会检测到同样的这些特征。当人脸被移动到了图像左下角,卷积核直到移动到左下角的位置才会检测到它的特征。

(2)池化:比如最大池化,它返回感受野中的最大值,如果最大值被移动了,但是仍然在这个感受野中,那么池化层也仍然会输出相同的最大值。

深度学习干货总结(二)_第12张图片

你可能感兴趣的:(深度学习干货总结(二))