深度学习(三)——卷积神经网络

目录

  • 链式反向梯度传导
  • 卷积神经网络一卷积层
  • 卷积神经网络一功能层
  • 经典的卷积网络模型结构
    • AlexNet
    • VGG
    • GoogLeNet
    • ResNet
    • DeepFace
    • U-Net

链式反向梯度传导

1、链式法则的计算
深度学习(三)——卷积神经网络_第1张图片
2、神经网络中链式法则
深度学习(三)——卷积神经网络_第2张图片
3、神经网络中链式法则

  • 计算顺序:从loss向输入传播;
  • 导数存储:每层的导数 ( δ y , δ x ) (\delta y, \delta x) (δy,δx)结果进行存储,用于下一层导数的计算。

卷积神经网络一卷积层

1、什么是卷积层

  • 卷积神经网络的基本结构;
  • 由多个卷积核组合形成;
  • 每个卷积核同输入数据卷积运算,形成新的特征“图”。
    深度学习(三)——卷积神经网络_第3张图片

2、什么是卷积核

  • 同输入数据进行计算的二维(一维,三维)算子;
  • 大小(size)由用户定义,深度由输入数据定义;
  • 卷积核“矩阵”值:卷积神经网络的参数;
  • 卷积核初值随机生成,通过反向传播更新。

3、卷积核大小

  • 奇偶选择:一般奇数,满足对称;
  • 大小选择:根据输入数据,根据图像特征;
  • 厚度确定:与输入数据一致;
  • 覆盖范围:一般覆盖全部输入,特殊情况覆盖局部区域。

4、卷积核组合方式
深度学习(三)——卷积神经网络_第4张图片
5、卷积层关键参数

  • 步长:对输入特征图的扫描间隔;
    深度学习(三)——卷积神经网络_第5张图片
  • 边界扩充(pad):在卷积计算过程中,为了允许边界上的数据也能作为中心参与卷积运算,将边界假装延伸。这样可以确保卷积后特征图尺度一致,卷积核的宽度为2i+1,则添加pad宽度为i;
    深度学习(三)——卷积神经网络_第6张图片
  • 卷积核数目:常见参数为64,128,256,GPU并行计算更加高效;

卷积神经网络一功能层

1、非线性激励层
激活函数是用来加入非线性因素的,因为线性模型的表达力不够。
常用的激活函数有:

  • Sigmoid函数
    在这里插入图片描述
  • Tanh函数
    在这里插入图片描述
  • ReLU函数
    在这里插入图片描述
  • Leaky ReLU函数
    在这里插入图片描述
  • Maxout函数
    在这里插入图片描述

深度学习(三)——卷积神经网络_第7张图片
2、池化层(Pooling layer)
对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度,另一方面进行特征压缩,提取主要特征。
深度学习(三)——卷积神经网络_第8张图片
3、归一化层(Normalization Layer)
由于特征数值标准不一致,对其进行归一化可以加速训练、提高精度。
深度学习(三)——卷积神经网络_第9张图片
4、融合层
对独立进行特征学习的分支进行融合,构建高效而精简的特征组合。
深度学习(三)——卷积神经网络_第10张图片
上图为Google Inception module、GoogleLeNet的基本模块,用多种分辨率对目标特征进行学习之后进行多分辨率特征的融合。
深度学习(三)——卷积神经网络_第11张图片
上图为ResNet的融合。

经典的卷积网络模型结构

AlexNet

AlexNet为现代神经网络起源,是深度学习开始的标志。AlexNet的基本构成为卷积层、池化层及全连接层。
AlexNet结构:
深度学习(三)——卷积神经网络_第12张图片
大约6千万参数。

VGG

VGG为AlexNet的增强版,有以下特点。

  • 结构简单:同AlexNet结构类似,均为卷积层、池化层和全连接层的组合;
  • 性能优异:同Alexnet提升明显,同GoogleNet、ResNet相比表现接近;
  • 选择最多:方便进行结构的优化设计, SSD、RCNN等其他任务的基本模型。

VGG结构:
深度学习(三)——卷积神经网络_第13张图片

GoogLeNet

GoogLeNet是多分辨率融合网络,且使用了全卷积结构,试使输入图片大小无限制、空间信息没有丢失且参数更少表达力更强。
GoogLeNet结构:
深度学习(三)——卷积神经网络_第14张图片
深度学习(三)——卷积神经网络_第15张图片

ResNet

从ResNet开始机器人超越人类识别。
ResNet的优势:

  • 前向计算:低层卷积网络高层卷积网络信息融合,层数越深,模型的表现力越强;
  • 反向计算:导数传递更直接,越过模型,直达各层。

ResNet的结构:
深度学习(三)——卷积神经网络_第16张图片

DeepFace

人脸识别数据特点:

  • 结构化:所有人脸,组成相似,理论上能够实现对齐;
  • 差异化:相同位置,形貌不同。

一般神经网络处理人脸识别的问题:
卷积核同整张图片卷积运算,卷积核参数共亨,不同局部特性对参数影响相互削弱。

DeepFace——结构化图片的特殊处理:

  • 人脸对准
    深度学习(三)——卷积神经网络_第17张图片
  • 局部卷积:每个卷积核固定某一区域不移动,不同区域之间不共享卷积核,卷积核参数由固定区域数据确定。
    深度学习(三)——卷积神经网络_第18张图片

缺陷:

  • 大量对准,对准要求高,原始信息可能丢失;
  • 卷积参数数量很大,模型收敛难度大,需要大量数据(Facebook数据不公开);
  • 模型可扩展性差,基本限于人脸计算。

U-Net

通过卷积神经网络生成特殊类型的图片,图片所有pixel需要生成,多目标回归。
反池化:
记住原有位置,不是resize。
深度学习(三)——卷积神经网络_第19张图片
逆卷积:
有学习能力的上采样。
深度学习(三)——卷积神经网络_第20张图片
VGG U-Net结构:
深度学习(三)——卷积神经网络_第21张图片
图片分割图生成:
深度学习(三)——卷积神经网络_第22张图片

你可能感兴趣的:(卷积,神经网络,深度学习)