深度学习框架概述

深度学习框架概述


    • 深度学习框架概述
  • 1、引言
    • 1.1 应用领域
    • 1.2 图片识别框架
    • 1.3 神经网络(neural network)
      • 1.3.1 神经元(neuron)
      • 1.3.2 神经网络
      • 1.3.3 全连接前馈神经网络(full connect feedforward network)
      • 1.3.4 应用示例
    • 1.4 goodness of function
    • 1.5 pick the best function
      • 1.5.2 梯度下降法(Gradient Descent)
      • 1.5.2.1 梯度下降法的示例解释
        • 1.5.2.2 反向传播(Backpropagation)计算梯度
    • 1.6 网络的深度层次是不是越大越好?
    • 1.7 深度学习框架 Keras
      • 1.7.1 应用示例(手写字体识别)
  • 2、神经网络的训练方法
    • 2.1 选择合适的损失函数
    • 2.2 Mini-batch 小批量的更新参数
    • 2.3 新的激活函数
    • 2.4 自适应学习率(Adaptive learning rate)
    • 2.6 Momentum(动量)
    • 2.7 Early Stopping
    • 2.8 权重衰退(weight decay)
    • 2.9 Dropout(清理掉无用的神经元)
    • 2.10 网络结构(network structure)
  • 3、改进的神经网络
    • 3.1 CNN (卷积神经网络,Convolutional Neural network)
      • 3.1.1 CNN卷积
      • 3.1.2 CNN pooling (池化)
      • 3.1.3 flatten
      • 3.1.4 goodness of function
    • 3.2 RNN(循环神经网络,Recurrent Neural Network)
      • 3.2.1 双向(Bidirectional)RNN
    • 3.3 LSTM(Long Short-term Memory )网络
  • 4、其他网络简介
  • 参考资料


author: jason_ql
Blog: https://blog.csdn.net/lql0716


1、引言

  • Machine learning = looking for a Function
    机器学习,其实就是寻找一个能够描述整个数据集状态的函数,这个函数可以是线性,也可以是非线性

1.1 应用领域

  • 语音识别(speech recognition)
    这里写图片描述

  • 图片识别(image recognition)
    这里写图片描述

  • 围棋(playing go)
    这里写图片描述

  • 问答系统(dialogue system)
    这里写图片描述

1.2 图片识别框架

  • A set of function Model: f1,f2,... f 1 , f 2 , . . .

  • 流程
    如下图所示,训练出一些函数之后,筛选出效果较好的函数作为训练之后的最终模型,利用模型对输入的图片进行处理判断识别
    深度学习框架概述_第1张图片

  • 训练与测试的流程图
    深度学习框架概述_第2张图片

  • 由以上流程可以发现,深度学习可以分为三步,如下图

    深度学习框架概述_第3张图片

    其中第一步定义函数的过程即为定义一个神经网络(如下图)
    深度学习框架概述_第4张图片

    这就类比于人类的大脑的神经网络(如下图)
    深度学习框架概述_第5张图片

1.3 神经网络(neural network)

1.3.1 神经元(neuron)

  • 数据: a1,a2,...,ak a 1 , a 2 , . . . , a k
  • 权重参数: w1,w2,...,wk w 1 , w 2 , . . . , w k
  • 偏差(bias): b b
  • 函数: z z
  • 激活函数: σ(z)=11+ez σ ( z ) = 1 1 + e − z
  • 参数: θ=(w1,w2,...,wk,b) θ = ( w 1 , w 2 , . . . , w k , b )

深度学习框架概述_第6张图片

  • 其中激活函数为 S 型函数,其曲线如下图
    深度学习框架概述_第7张图片

  • 常用的激活函数有:
    深度学习框架概述_第8张图片

1.3.2 神经网络

  • 将神经元连接起来,就组成了一个神经网络结构,不同的神经元可以有不同的数值,网络结构图如下
    深度学习框架概述_第9张图片

1.3.3 全连接前馈神经网络(full connect feedforward network)

  • 全连接前馈神经网络示例

    图1
    深度学习框架概述_第10张图片

    图2
    深度学习框架概述_第11张图片

    图3
    深度学习框架概述_第12张图片
    如上图所示,如果输入数据 [0,0]T [ 0 , 0 ] T ,则神经网络会输出 f([0,0]T)=[0.51,0.85]T f ( [ 0 , 0 ] T ) = [ 0.51 , 0.85 ] T

  • 全连接神经网络结构示意图
    深度学习框架概述_第13张图片
    其中 Layer 1表示全连接第一层,这里一共有 L 层

  • 输出层(output layer)
    深度学习框架概述_第14张图片
    如上图,即选择 ezi e z i 最大的

  • 对于神经网络的层次L、偏差 b 确定,一般是根据经验来确定的

1.3.4 应用示例

  • 手写数字识别
  • 训练识别图片中的数字2

深度学习框架概述_第15张图片

深度学习框架概述_第16张图片

深度学习框架概述_第17张图片

1.4 goodness of function

  • 训练集与对应的标签
    深度学习框架概述_第18张图片

  • 训练的最终目标如下图
    深度学习框架概述_第19张图片

  • 损失函数(训练好的模型应该使得损失函数值达到最小)
    深度学习框架概述_第20张图片

深度学习框架概述_第21张图片

1.5 pick the best function

  • 如何找到参数 θ θ ∗ 使得损失函数 L L 最小化?
    深度学习框架概述_第22张图片

1.5.2 梯度下降法(Gradient Descent)

  • 初始化权重 w w
    深度学习框架概述_第23张图片

  • 计算损失函数对权重的梯度 L/w ∂ L / ∂ w
    深度学习框架概述_第24张图片

  • 添加学习率系数 η η (即梯度下降的步长)
    深度学习框架概述_第25张图片

  • 下降到梯度接近于0即可停止
    深度学习框架概述_第26张图片

  • 梯度下降示例

    深度学习框架概述_第27张图片

    深度学习框架概述_第28张图片

    深度学习框架概述_第29张图片

    深度学习框架概述_第30张图片

  • 但是,梯度下降并不能保证全局最优
    深度学习框架概述_第31张图片

1.5.2.1 梯度下降法的示例解释

  • 假如对于游戏中的地图
    深度学习框架概述_第32张图片

深度学习框架概述_第33张图片

1.5.2.2 反向传播(Backpropagation)计算梯度

  • 利用反向传播来高效的计算梯度
    深度学习框架概述_第34张图片

1.6 网络的深度层次是不是越大越好?

  • 深度对错误率的影响(Thin型网络)
    深度学习框架概述_第35张图片

  • Fat 型网络(即深度小,单层的参数足够多)
    深度学习框架概述_第36张图片

  • “Thin” 与 “Fat” 型网络哪一种好?
    深度学习框架概述_第37张图片

深度学习框架概述_第38张图片

  • 神经网络与逻辑电路的类比
    深度学习框架概述_第39张图片

  • 深度就相当于将目标模块儿化
    深度学习框架概述_第40张图片

深度学习框架概述_第41张图片

深度学习框架概述_第42张图片

深度学习框架概述_第43张图片

深度学习框架概述_第44张图片

1.7 深度学习框架 Keras

  • keras
    深度学习框架概述_第45张图片

  • keras 文档及示例

深度学习框架概述_第46张图片

1.7.1 应用示例(手写字体识别)

  • 手写字体识别
    深度学习框架概述_第47张图片

深度学习框架概述_第48张图片

深度学习框架概述_第49张图片

深度学习框架概述_第50张图片

深度学习框架概述_第51张图片

深度学习框架概述_第52张图片

2、神经网络的训练方法

  • 训练流程图
    深度学习框架概述_第53张图片

  • 不要总归咎于过拟合,也可能是其他原因
    深度学习框架概述_第54张图片

  • 调参过程
    深度学习框架概述_第55张图片

2.1 选择合适的损失函数

  • 选择合适的损失函数
    深度学习框架概述_第56张图片

深度学习框架概述_第57张图片

  • 精确度(accuracy)对比
    深度学习框架概述_第58张图片

深度学习框架概述_第59张图片

  • 常见的损失函数
    深度学习框架概述_第60张图片

2.2 Mini-batch 小批量的更新参数

深度学习框架概述_第61张图片

  • epoch 与 batch
    • epoch
      当一个完整的数据集 D D 通过了神经网络一次并且返回了一次,这个过程称为一个 epoch
    • batch
      当一个 epoch 对于计算机而言太庞大的时候,就需要把它分成 k k 个小块( k k 个子集 {B1,...,Bk} { B 1 , . . . , B k } ),一个小块 Bi B i 就是一个batch,一个batch通过神经网络一次就是一个epoch,那么全部数据 D D 要通过神经网络一次,那就需要迭代 k k 次才能使得这 k k 个 batch 全部通过神经网络一次,也就是需要经过 k k 个 epoch

    • 例子
      比如对于一个有 2000 个训练样本的数据集。将 2000 个样本分成大小为 500 的 batch,那么完成一个 epoch 需要 4 个 iteration。
      深度学习框架概述_第62张图片

    深度学习框架概述_第63张图片
  • 为什么不真正的进行最小化损失函数?
    深度学习框架概述_第64张图片

深度学习框架概述_第65张图片

深度学习框架概述_第66张图片

深度学习框架概述_第67张图片

深度学习框架概述_第68张图片

2.3 新的激活函数

深度学习框架概述_第69张图片

深度学习框架概述_第70张图片

深度学习框架概述_第71张图片

深度学习框架概述_第72张图片

深度学习框架概述_第73张图片

深度学习框架概述_第74张图片

  • ReLU

    深度学习框架概述_第75张图片
    深度学习框架概述_第76张图片

    深度学习框架概述_第77张图片

    深度学习框架概述_第78张图片

    深度学习框架概述_第79张图片

  • 改进的ReLU

    深度学习框架概述_第80张图片

    深度学习框架概述_第81张图片

    ReLU是Maxout的一种特殊情况,Max网络中的激活函数可以是任何分段线性凸函数
    深度学习框架概述_第82张图片

2.4 自适应学习率(Adaptive learning rate)

深度学习框架概述_第83张图片

  • 一定要注意学习率的设置,如果过大,容易导致损失函数向增大的方向发展,如果过小,则会训练的比较慢

    深度学习框架概述_第84张图片

    深度学习框架概述_第85张图片

  • 在训练刚开始的时候,使用较大的学习率,当进行epchs一段时间之后,将学习率逐渐调小

    深度学习框架概述_第86张图片

    深度学习框架概述_第87张图片

    深度学习框架概述_第88张图片

    深度学习框架概述_第89张图片

    深度学习框架概述_第90张图片

2.6 Momentum(动量)

深度学习框架概述_第91张图片

  • 在平稳的位置、鞍点、局部极小的位置很难找到最优的网络参数
    深度学习框架概述_第92张图片

  • 利用物理中的动量来优化梯度

    深度学习框架概述_第93张图片

    深度学习框架概述_第94张图片

    深度学习框架概述_第95张图片

2.7 Early Stopping

深度学习框架概述_第96张图片

  • 过拟合的原因
    深度学习框架概述_第97张图片

    深度学习框架概述_第98张图片

    深度学习框架概述_第99张图片

    深度学习框架概述_第100张图片

    深度学习框架概述_第101张图片

2.8 权重衰退(weight decay)

![这里写图片描述](https://img-blog.csdn.net/20180629124153585?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xxbDA3MTY=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
  • 我们的大脑可以筛出无用的神经元,同样的,对机器学习也这样做
    深度学习框架概述_第102张图片

    深度学习框架概述_第103张图片

    深度学习框架概述_第104张图片

2.9 Dropout(清理掉无用的神经元)

![这里写图片描述](https://img-blog.csdn.net/20180629124544663?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xxbDA3MTY=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
  • 每次在更新参数之前,神经元有 p p 的概率会被抛弃

    深度学习框架概述_第105张图片

  • 去掉无用的神经元之后,会产生一个新的神经网络,利用新的神经网络继续训练

    深度学习框架概述_第106张图片

  • 参数的调整

    深度学习框架概述_第107张图片

深度学习框架概述_第108张图片

  • dropout在训练集与测试集直接的关系

    深度学习框架概述_第109张图片


深度学习框架概述_第110张图片 ![这里写图片描述](https://img-blog.csdn.net/2018062912573668?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xxbDA3MTY=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) ![这里写图片描述](https://img-blog.csdn.net/2018062912582519?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xxbDA3MTY=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

2.10 网络结构(network structure)

![这里写图片描述](https://img-blog.csdn.net/20180629130003373?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xxbDA3MTY=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
  • 文档分类示例
    深度学习框架概述_第111张图片

    深度学习框架概述_第112张图片

    深度学习框架概述_第113张图片

    深度学习框架概述_第114张图片

    深度学习框架概述_第115张图片

    深度学习框架概述_第116张图片

3、改进的神经网络

3.1 CNN (卷积神经网络,Convolutional Neural network)

  • 为何要用CNN,全连接网络过于庞大

    深度学习框架概述_第117张图片

    深度学习框架概述_第118张图片

    相似的区域可以共享参数
    深度学习框架概述_第119张图片

    缩放图片可以减少参数量
    深度学习框架概述_第120张图片

  • CNN也可分为如下三步
    深度学习框架概述_第121张图片

  • CNN流程图

    深度学习框架概述_第122张图片

    深度学习框架概述_第123张图片

    深度学习框架概述_第124张图片

3.1.1 CNN卷积

深度学习框架概述_第125张图片

  • 滤波器移动的步长为1
    深度学习框架概述_第126张图片

  • 滤波器移动的步长为2
    深度学习框架概述_第127张图片

  • 卷积后,会出现相似的区域
    深度学习框架概述_第128张图片

  • 对滤波器2也做同样的操作
    深度学习框架概述_第129张图片

  • 边界填充0
    深度学习框架概述_第130张图片

  • 对彩色图像在三个通道分别做同样的滤波操作
    深度学习框架概述_第131张图片

3.1.2 CNN pooling (池化)

深度学习框架概述_第132张图片

  • max poolling
    深度学习框架概述_第133张图片

深度学习框架概述_第134张图片

  • 卷积池化之后生成一个新的图像
    深度学习框架概述_第135张图片

深度学习框架概述_第136张图片

3.1.3 flatten

  • 矩阵向量化,作为训练数据传入网络进行训练
    深度学习框架概述_第137张图片

深度学习框架概述_第138张图片

深度学习框架概述_第139张图片

深度学习框架概述_第140张图片

  • 共享权重
    深度学习框架概述_第141张图片

深度学习框架概述_第142张图片

深度学习框架概述_第143张图片

深度学习框架概述_第144张图片

3.1.4 goodness of function

深度学习框架概述_第145张图片

  • 可以用全连接网络来训练围棋,但是使用CNN效果会更好
    深度学习框架概述_第146张图片

深度学习框架概述_第147张图片

深度学习框架概述_第148张图片

深度学习框架概述_第149张图片

3.2 RNN(循环神经网络,Recurrent Neural Network)

深度学习框架概述_第150张图片

深度学习框架概述_第151张图片

深度学习框架概述_第152张图片

深度学习框架概述_第153张图片

深度学习框架概述_第154张图片

3.2.1 双向(Bidirectional)RNN

深度学习框架概述_第155张图片

3.3 LSTM(Long Short-term Memory )网络

深度学习框架概述_第156张图片

深度学习框架概述_第157张图片

深度学习框架概述_第158张图片

深度学习框架概述_第159张图片

深度学习框架概述_第160张图片

深度学习框架概述_第161张图片

深度学习框架概述_第162张图片

深度学习框架概述_第163张图片

4、其他网络简介

  • 监督学习(supervised learning)
    Ultra deep network, attention model
  • 强化学习(reinforcement learning)

  • 无监督学习(unsupervised learning)

深度学习框架概述_第164张图片

深度学习框架概述_第165张图片

深度学习框架概述_第166张图片

深度学习框架概述_第167张图片

深度学习框架概述_第168张图片

参考资料

  • deep learning tutorial (李宏毅)

你可能感兴趣的:(深度学习)