为什么要用卷积神经网络?

结合吴恩达前辈deeplearning.ai 的卷积神经网络课程,我想我对卷积神经网络有了进一步深刻的了解。下面是我做的一些学习笔记,如果有不对的地方,欢迎一起讨论。


目录
什么是卷积?
什么是池化?
为什么要用卷积神经网络?
卷积神经网络是怎么减少参数的?


1.什么是卷积?

用3*3 的卷积核对图像进行卷积遍历,对应元素相乘然后求和,得到特征图的过程,就是卷积。
为什么要用卷积神经网络?_第1张图片


填充(padding):输入图像的角落(边缘)信息可能会丢失,在图像外围进行填充。
两种方式:
1.valid padding(no padding)
输出维度的计算公式:见下图
2.same padding : 经过这种填充之后,得到的输出维度与输入维度相同。
为什么要用卷积神经网络?_第2张图片


步长(stride):卷积核移动的步幅
输出维度的公式计算:见下图
为什么要用卷积神经网络?_第3张图片


2.什么是池化?

第一种,平均池化
第二种,最大池化
为什么要用卷积神经网络?_第4张图片


3.为什么要用卷积神经网络?

为什么要用卷积神经网络?_第5张图片
如上图所示,
全连接神经网络中需要的参数大概是14millon
卷积神经网络中用的是 6个5阶的过滤器,参数是 156


为什么要用卷积神经网络?_第6张图片
我在这里把卷积核理解为(特征提取器)
第一层,可能类似于边缘提取
第二层,根据第一层得到的边缘,进而提取到眼睛、鼻子、耳朵等特征
第三层,根据第二层得到的关键特征,得到整个人脸

运用多层网络,图像的信息就会尽可能完整,详尽的呈现出来,从而提取出的特征就会更加全面,更加符合我们需要就觉得问题。

以下两段内容参考了这篇文章,点击进入

在卷积神经网络中,一个卷积层可以有多个不同的卷积核(也可以说是滤波器),而每个卷积核在输入图像上滑动且每次只处理一小块图像。这样输入端的卷积层可以提取到图像中最基础的特征,比如不同方向的直线或者拐角;接着再组合成高阶特征,比如三角形、正方形等;再继续抽象组合,得到眼睛、鼻子和嘴等五官;最后再将五官组合成一张脸,完成匹配识别。即每个卷积层提取的特征,在后面的层中都会抽象组合成更高阶的特征。

图像具有很强的空间相关性。其中每一个卷积核滤波得到的图像就是一类特征的映射,即一个Feature Map。CNN训练的模型同样对缩放、平移、旋转等具有不变性,有着很强的泛化能力。


4.卷积神经网络是怎么减少参数的?

为什么要用卷积神经网络?_第7张图片
如图所示,
第一,参数共享。
相比全连接网络一个参数对应一个像素特征,卷积网络中一个卷积核(9个参数)与特征之间不是一一对应的,实现了参数共享。

第二,稀疏连接(对比全连接理解)。
比如,我们看输入图像左上角的9个像素和卷积核进行卷积之后,对应得到的特征图中的左上角的1个像素(这个像素只会受到输入图像左上角的9个像素的影响,不会受到其他像素的影响)。

你可能感兴趣的:(深度学习_计算机视觉)