本篇博客主要归纳整理,CNN相关的基础知识和部分经典卷积神经网络的结构与特点。图片大部分来自Fei-Fei Li CNN课程PPT、网络和paper,如有侵犯请及时告知
区别:如上图所示,
1. 全连接神经网络中每个神经元或者filter都与输入图像的每个像素相关联,参数量大
2. 卷积神经网络中每个神经元或者filter只与原图中部分像素相关联,即只关心局部信息,参数量小
如图所示,一个3*3的卷积核对原图的一个3*3区域(这个区域也叫做卷积核的感受野)做卷积,其具体的计算过程是对应元素相乘再相加。
上图中一个7*7的原图经过3*3的filter以步长为2来做卷积后,为什么输出也是一个3*3的数组呢?
如图所示,每个卷积可以得到一个值,以步长为2,卷积核在原图横向和纵向上都可以卷积三次,所以最后输出的矩阵为3*3,不使用0填充计算输出矩阵的长宽的公式为:Output size = (N - F) / stride + 1
根据上图我们可以发现,如果我们不停的层层卷积下去,那么原来尺寸很大的图片到最后会变得很小,甚至成为一个像素点,在一些想输出图片的应用上这个是我们不想看到的结果,所以我们怎么保证即做卷积运算还不改变输出尺寸呢?
如图所示,我们将原来7*7的图片长宽个加上0填充,这个时候我们使用3*3的filter以步长为1来对原图做卷积,那么它的输出还是 7*7的feature map,计算 padding 的公式为:P = ( F - stride ) / 2 有 padding 输出矩阵长宽公式为:Output size = (N - F + 2P) / stride + 1
如上图所示,一个filter或者神经元的内部计算过程,我们可以看到通过卷积并加上bias后(其实在感知机那个时代到这一步就可以了,模型就具备了线性分类的能力,但是大千世界我们的分类问题很少是线性函数可以拟合的,所以我们就需要拟合非线性函数),filter还做了一次函数映射运算,这里的函数 f 就是我们的非线性激活函数,它的作用是:使模型不再是线性组合,具有可以逼近任意函数的能力。下图就是我们经常使用激活函数 ReLU,还有sigmoid函数或者tanh函数这些,读者可以自行搜索。
池化的作用和特点:
以上我们了解了 卷积神经网络 – 卷积核 – 卷积过程 – 池化过程,下面我们就来了解一些经典的卷积神经网络。
论文名字:Gradient-Based Learning Applied to Document Recognition
论文地址:
chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=http%3A%2F%2Fwww.dengfanxin.cn%2Fwp-content%2Fuploads%2F2016%2F03%2F1998Lecun.pdf
特点:
论文名字:ImageNet Classification with Deep Convolutional Neural Networks
论文地址:
chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=http%3A%2F%2Fpapers.nips.cc%2Fpaper%2F4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
特点:
名词解释:
论文名字:Visualizing and Understanding Convolutional Neural Networks
论文地址:
chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1311.2901.pdf
特点:
论文名字:Very Deep Convolutional Networks for Large-Scale Image Recognition
论文地址:
chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1409.1556.pdf
特点:
注,这里只是V1模型,Google Inception Net大家族里面还有其它的模型,比如:V2、V3、V4等,读者可以自行了解
论文名字:Going deeper with convolutions
论文地址:
chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1409.4842.pdf
特点:
1*1卷积的好处:
1.实现跨通道特征信息的整合
2.可以对输出通道升维和降维 (3*3、5*5都涵盖了局部信息所以不能像 1*1 一样只考虑通道信息来升降维度,卷积核的深度适合原图像保持一致的,升降维是体现在卷积核的个数上面)
注,人类的top5为5.1%单从这方面考虑它已超越人类
论文名字:Going deeper with convolutions
论文地址:
chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1409.4842.pdf
特点:
参考:《TensorFlow实战》 – 黄文坚 唐源 、Fei-Fei Li CNN课程PPT、网络相关paper