【DL学习笔记07】深度学习入门——基于Python的理论与实现(ch08: 深度学习)

目录

1. 加深网络

加深层的动机

2. 三个有名的网络

VGG

GooleNet

ResNet

3. 深度学习的高速化

4. 深度学习的应用案例

物体检测

图像分割

图像标题的生成

5. 接下来是《深度学习进阶——自然语言处理》


深度学习是加深了层的深度神经网络,基于之前介绍的网络,只需通过叠加层,就可以创建深度网络

1. 加深网络

  • 实现的代码要花费半天以上的时间才能学习完,,,
  • 进一步提升精度的方法:集成学习、学习率衰减、Data Augmentation(数据扩充)等
    • Data Augmentation基于算法人为的扩充输入图像,例如通过施加旋转、垂直或水平上的移动、裁剪图像的crop处理、将图像左右翻转的flip处理、施加亮度、放大缩小等微小变化,来增加图像的数量,这在数据集的图像数量有限时尤其有效

加深层的动机

  • 层越深,识别性能也越高
  • 好处:
    • 可以减少网络的参数数量,也就是加深层可以用更少的参数达到同等水平的表现力,例如一个5x5的滤波器用两次3x3的卷积运算代替,前者的参数数量是5x5=25,后者是2x3x3=18
      • 叠加小型滤波器来加深网络的好处是可以减少参数的数量,扩大感受野(receptive field,给神经元施加变化的某个局部空间区域),并且通过叠加层,将ReLU等激活函数夹在卷积层中间,进一步提高了网络的表现力
    • 使学习更加高效。浅层网络学习时,需要一下子理解很多特征,需要大量富有差异性的学习数据,会导致学习要花费很多时间;加深网络可以分层次的分解需要学习的问题,只需要较少的学习数据就可以进行高效的学习

2. 三个有名的网络

VGG

  • 由卷积层和池化层构成的基础的CNN
  • 特点在于将有权重的层叠加至16/19层,具备了深度
  • 虽然性能上不及GooleNet,但VGG结构简单,应用型强

GooleNet

  • 特征:网络不仅在纵向上有深度,在横向上也有深度
  • 横向上的宽度称为“Inception结构”

ResNet

  • 过度加深层会导致学习不能顺利进行,最终性能不佳,因此ResNet导入了“快捷结构”
  • 快捷结构可以跳过输入数据的卷积层,将输入合计到输出,将原来的2层卷积层的输出F(x)变成了F(x)+x
  • 快捷结构的作用下,即使加深层,也能高效的学习,因为反向传播时信号可以无衰减的传递。不用担心梯度会变小或变大,能够向前一层传递“有意义的梯度”,缓解梯度消失问题

3. 深度学习的高速化

  • 问题
    • 卷积层的运算会消费大量时间
  • 基于GPU的高速化
    • GPU原本使作为图像专用的显卡使用的
    • GPU计算指基于GPU进行通用的数值计算的操作
  • 分布式学习
    • 将深度学习的学习过程扩展开来,考虑在多个GPU或者多台机器上进行分布式计算
    • 有Google的Tensor Flow,微软的CNTK
  • 运算精度的位数缩减
    • 在深度学习的高速化中,除了计算量之外,内存容量、总线带宽等也有可能称为瓶颈,因此我们希望尽可能减少流经网络的数据的位数
    • 神经网络的健壮性使得深度学习并不那么需要数值精度的位数

4. 深度学习的应用案例

物体检测

  • 从图像中确定物体的位置,并进行分类
  • R-CNN方法

图像分割

  • 指在像素水平上对图像进行分类
  • 使用以像素为单位对各个对象分别着色的监督数据进行学习,然后在推理时对输入图像的所有像素进行分类
  • FCN方法

图像标题的生成

  • 给出一个图像后,会自动生成介绍这个图像的文字
  • 融合了计算机视觉和自然语言
  • NIC方法:由深层CNN和处理自然语言的RNN构成。RNN是具有循环连接的网络
  • NIC基于CNN从图像中提取特征,并将特征传给RNN,RNN以CNN提取出的特征为初始值,循环的生成文本
  • 万平米将组合图像和自然语言等多种信息进行的处理称为多模态处理

5. 接下来是《深度学习进阶——自然语言处理》

你可能感兴趣的:(DL学习笔记,深度学习,机器学习,神经网络)